监控系统

# 1. 开源监控软件对比

# 2. 监控基本概念

# 3. 监控系统典型架构

# 4. 搭建prometheus

Prometheus 单机容量上限是多少？根据我的经验，每秒接收 80 万个数据点，算是一个比较健康的上限，一开始也无需用一台配置特别高的机器，随着数据量的增长，可以再升级硬件的配置。当然，如果想要硬件方便升配，就需要借助虚拟机或容器，同时需要使用分布式块存储。每秒接收 80 万个数据点是个什么概念呢？每台机器每个周期大概采集 200 个系统级指标，比如 CPU、内存、磁盘等相关的指标。假设采集频率是 10 秒，平均每秒上报 20 个数据点，可以支持同时监控的机器量是 4 万台。

# 5. prometheus关键设计

# 6. promQL

# 7. Prometheus存储容量问题

# 8. Prometheus 告警管理(Nightingale)

# 9. 监控方法论

# Google 的四个黄金指标

主要是服务监控，四个指标分别是延迟、流量、错误和饱和度。

延迟：服务请求所花费的时间，比如用户获取商品列表页面调用的某个接口，花费 30 毫秒。这个指标需要区分成功请求和失败请求，因为失败的请求可能会立刻返回，延迟很小，会扰乱正常的请求延迟数据。
流量：HTTP 服务的话就是每秒 HTTP 请求数，RPC 服务的话就是每秒 RPCCall 的数量，如果是数据库，可能用数据库系统的事务量来作为流量指标。
错误：请求失败的速率，即每秒有多少请求失败，比如 HTTP 请求返回了 500 错误码，说明这个请求是失败的，或者虽然返回的状态码是 200，但是返回的内容不符合预期，也认为是请求失败。
饱和度：描述应用程序有多“满”，或者描述受限的资源，比如 CPU 密集型应用，CPU 使用率就可以作为饱和度指标。

# 10. 监控采集方式及原理

# 11. 机器监控指标

# 12. 网络监控指标

# 13. 组件监控-mysql

# 14. 组件监控-redis

# 15. 组件监控-kafka

# 16. 组件监控-Elasticsearch

# 17. 组件监控-kubernets

# 18. 应用监控-埋点监控

# 19. 应用监控-日志监控

# 20. 告警事件管理-事件降噪

# 21. 告警事件管理-事件闭环

上次更新: 2023/03/14, 13:38:39

← k8s service服务前言→

01
ctr和crictl显示镜像不一致 03-13

02
alpine镜像集成常用数据库客户端 03-13

03
create-cluster 02-26

更多文章>