PromQL 数据查询示例

2021-02-11 0 By admin

在 Prometheus 监控服务中,使用 PromQL 查询数据可以分为三种查询类型:简单的时间序列选择、子查询和使用函数,操作符等进行查询。

一、简单的时间序列选择

1.1、度量指标所有样本数据

返回度量指标 http_requests_total 的所有时间序列样本数据:
http_requests_total

1.2、度量指标通过标签过滤样本数据

返回度量指标名称为 http_requests_total,标签分别是 job="apiserver", handler="/api/comments" 的所有时间序列样本数据:
http_requests_total{job="apiserver", handler="/api/comments"}

1.3、度量指标通过标签过滤样本数据并设置时间范围

返回度量指标名称为 http_requests_total,标签分别是 job="apiserver", handler="/api/comments",且是 5 分钟内的所有时间序列样本数据:
http_requests_total{job="apiserver", handler="/api/comments"}[5m]

[info] 注意

一个区间向量表达式不能直接展示在 Graph 图表中,但是可以展示在 Console 视图中。

1.4、度量指标中使用正则表达式

使用正则表达式,你可以通过特定模式匹配标签为 job 的特定任务名,获取这些任务的时间序列。在下面这个例子中, 所有任务名称以 server 结尾。
http_requests_total{job=~".*server"}
Prometheus中的所有正则表达式都使用 RE2 语法
返回度量指标名称是 http_requests_total, 且 http 返回码不以 4 开头的所有时间序列数据:
http_requests_total{status!~"4.."}

二、子查询 subquery

先取样过去30分钟的数据,并以1分钟的步长(分辨率);然后对数据进行5分钟速率的计算。
rate(http_requests_total[5m])[30m:1m]
这是嵌套子查询的示例。deriv函数的子查询使用默认分辨率。
请注意,不必要地使用子查询是不明智的。
max_over_time(deriv(rate(distance_covered_total[5s])[30s:5s])[10m:])

三、使用函数,操作符等

3.1、rate 平均增长率

返回度量指标 http_requests_total 过去 5 分钟内的 http 请求数的平均增长速率:
rate(http_requests_total[5m])

3.2、sum 求和

返回度量指标 http_requests_total 过去 5 分钟内的 http 请求数的平均增长速率总和,维度是 job
sum(rate(http_requests_total[5m])) by (job)
结果:
{job="apiserver"} 0.16666666666666666
{job="kubelet"} 0.49999876544124355

3.3、向量和向量的计算

如果两个指标具有相同维度的标签,我们可以使用二元操作符计算样本数据,返回值:key: value=标签列表:计算样本值
例如,以下表达式返回每一个实例的空闲内存,单位是 MiB。
(instance_memory_limit_bytes - instance_memory_usage_bytes) / 1024 / 1024
如果想知道每个应用的剩余内存,可以使用如下表达式:
sum(
instance_memory_limit_bytes - instance_memory_usage_bytes
) by (app, proc) / 1024 / 1024

如果相同的集群调度群显示如下的每个实例的 CPU 使用率:
instance_cpu_time_ns{app="lion", proc="web", rev="34d0f99", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="elephant", proc="worker", rev="34d0f99", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="turtle", proc="api", rev="4d3a513", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="fox", proc="widget", rev="4d3a513", env="prod", job="cluster-manager"}
...

3.4、高级计算函数

我们可以按照应用和进程类型来获取 CPU 利用率最高的 3 个样本数据:
topk(3, sum(rate(instance_cpu_time_ns[5m])) by (app, proc))
假设一个服务实例只有一个时间序列数据,那么我们可以通过下面表达式统计出每个应用的实例数量:
count(instance_cpu_time_ns) by (app)