监控指标的含义
请求量
- QPS: 每秒请求量
- 并发数:QPS*平均响应时间
耗时
P99 latency:比如P99是100ms,代表99%的操作的耗时都是100ms内。或者更准确的说,只有1%的操作的耗时超过了100ms。
通常还会加上 P50、P95、最大耗时、请求量等指标一起展示。
内存
- 目前来看在讨论一个进程的内存总占用时,有两种维度:RSS(驻留内存)和 VSZ(虚拟内存),https://stackoverflow.com/a/21049737/10733300
- RSS 是驻留集大小,用于显示分配给该进程内存中驻留在 RAM 中的内存量。它不包括换出的内存。它包括共享库中的内存,只要这些库中的页面确实在内存中。它包括所有堆栈和堆内存。
- VSZ 是虚拟内存大小。它包括进程可以访问的所有内存,包括换出的内存、已分配但未使用的内存以及来自共享库的内存。
CPU
CPU 只有空闲和非空闲两种状态。
CPU 使用率的公式是:非空闲时长 / (非空闲时长 + 空闲时长) * 100%
网络
- 网络带宽
- 连接数
磁盘
- 磁盘利用率:磁盘 I/O 时间 / (磁盘 I/O 时间 + 磁盘空闲时间) * 100%