直播分享的主题是云监控----zabbix&collectd 互相讨论

Posted by Yancy on 2016-08-21

直播分享的主题是云监控—-zabbix&collectd 互相讨论

前几天参加KVM开展的直播秀,肖总请来了各位运维大咖给我们展示他们云监控。这里我整理下崔广章大师的聊天记录各位可以一起聆听下。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
崔广章 19:58
我之前一直在做私有云,我们整个云平台的监控系统系统用的就是zabbix
崔广章 19:59
基本没什么变化,做的比较多的就是国际化,大家都懂的
崔广章 20:00
我先借度娘给搭建扫个盲
崔广章 20:00
zabbix(音同 zæbix)是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
崔广章 20:01
zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。
崔广章 20:02
zabbix由2部分构成,zabbix server与可选组件zabbix agent。
崔广章 20:02
zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux,Solaris,HP-UX,AIX,Free BSD,Open BSD,OS X等平台上。
崔广章 20:02
扫盲就到此为止吧
崔广章 20:03
按度娘的,接下来就是安装啦,我就在这耽误大家的人间啦
崔广章 20:04
zabbix监控主要分四块,zabbix-agent,SNMP,IPMI,和JMX
崔广章 20:05
因为我们主要是是做Iaas和Pass的,所以我们只用了前三种功能
崔广章 20:06
前三种功能又分为两种方案,就是负载大时的一种方案和负载小时的方案
崔广章 20:07

1
2
3
4
5
崔广章 20:07
这是小负载时的方案
崔广章 20:08
接下来是大负载时的方案
崔广章 20:08

1
2
崔广章 20:11
这里还有一个zabbix的整体架构广章 20:11

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
崔广章 20:12
我从14年才开始将zabbix进行分布式部署
崔广章 20:14
在云环境下,zabbix有个缺点就是,对虚拟机的监控达我们感觉不理想
崔广章 20:15
因为zabbix对与虚拟与物理机进行监控采取的是同样的方法,就是向系统中注入代理zabbix-agent
崔广章 20:15
对诸如代理我有两点担心
崔广章 20:17
一、因为zabbix-agent它本身也占用了资源,对于自己占用的资源它能不能准确监控,这我还不能确定,如果它不能对自己占用的资源进行准确监控,那就等于污染了虚拟机
崔广章 20:19
二,zabbix-agent是打包在云主机的镜像中的一个cron任务,说白他就是云主机的一个普通进程,如果用户把它给kill了,是不是就监控不到啦?
崔广章 20:21
所以我就找能运行在底层又能对虚拟机进行准确检测的工具
崔广章 20:21
那就是接下来要说的collectd喽
崔广章 20:21
老规矩,咱们还接着扫盲
崔广章 20:21
collectd是一个守护(daemon)进程,用来收集系统性能和提供各种存储方式来存储不同值的机制。比如以RRD 文件形式。
崔广章 20:29
collectd确实能够运行在底层,并能采集KVM虚拟机的各项数据,但他的展示使用CGP跟zabbix比太差
崔广章 20:31
我所以我就试着将两者进行优势互补
崔广章 20:32
我是将collectd存储在*.rrd中的相关数据取出来,然后存储到zabbix的数据库当中,让zabbix进行展示
崔广章 20:33
其实只是将collectd采集的虚拟机的内存的数据进行转存和展示
崔广章 20:36
整个过程包括,分析zabbix的数据库表之间的关系,研究怎么从collectd的*.rrd文件中取数据怎么将取出的数据向数据库里保存,这是一项很大的工程
崔广章 20:36
今天就分享到这吧好吧?
侯燚@贵州高新翼云 20:37
谢谢
崔广章 20:37
袁进坤|南京|云应用+大数据+云计算 20:37
薛群 20:37
其实你说的第一个问题,不是问题
北极熊 20:37
大家开始提问吧
薛群 20:38
只要是监控,都需要消耗少量资源
崔广章 20:38
这个问题我也请教过肖哥@薛群
刘海宾 20:38
通过libvirt也能获取虚拟机的内存
崔广章 20:38
嗯嗯
薛群 20:38
不属于污染虚拟机哦
崔广章 20:38
嗯嗯
薛群 20:39
腾讯云上的虚拟机十几个agent
崔广章 20:39
collectd就是调用了libvirt
崔广章 20:39
@薛
崔广章 20:40
错啦
袁进坤|南京|云应用+大数据+云计算 20:40
在选择监控工具的时候,是否考虑过其他类似的工具,例如nagios,做出选择的主要考虑是什么?
薛群 20:40
第二种方式,消耗资源多不?
刘海宾 20:40
那collected就干这一件事吗
崔广章 20:40
刘海宾 20:40
其实虚拟机监控可以用qga
刘海宾 20:41
走channel
薛群 20:41
nagios功能没有ZBX强,性能也不及
崔广章 20:41
collectd目前我只让它干了怎么一件事
刘海宾 20:42
那自己写个脚本更简单吧 呵呵 只是个人观点
崔广章 20:42
我也试着写了一套脚本
刘海宾 20:43
@薛群 私有云跑agent还好 公有云 用户很反感
薛群 20:43
@袁进坤@南京,云计算 其实监控主要考虑:方便,扩展性好(规模和二次开发),功能全,
崔广章 20:43
但数据误差太大
崔广章 20:44
就是考虑到这一点@刘海宾@新网
刘海宾 20:45
虚拟机加上ballon
薛群 20:46
嗯,是的。腾讯云上这么多agent,是不爽
崔广章 20:46
ballon跟内存监控关系不大@刘海宾@新网
于江磊@奇点时代 20:47
zabbix再多个配置不同的vm时,请问模板是分别定制的么
崔广章 20:48
对的
于江磊@奇点时代 20:48
监控多个
刘海宾 20:49
libguestfs也能干这事
袁进坤|南京|云应用+大数据+云计算 20:50
@薛群 @崔广章 谢谢
刘海宾 20:50
青云的监控走的channel在 init里边起了个进程 不容易杀死 还不错
刘海宾 20:51
@崔广章 谢谢分享
崔广章 20:51
@袁进坤@南京,云计算
崔广章 20:51
袁进坤|南京|云应用+大数据+云计算 20:52
@崔广章 主要监控了哪些指标?如果在openstack架构,ceilometer和zabbix的的关系怎么看?
刘浩 20:52
我求问个问题:把zabbix agent用supervise起。是不是就不用担心被杀死的问题了。
于江磊@奇点时代 20:53
我在用zabbix时,遇到一个问题,监控主机网卡的时候,zabbix默认采用了auto_discovery的策略,但是我宿主机上跑了很多个容器,容器的网络运行模式为桥接,此时zabbix就会自动去检测那些veth的设备,请问我该如何配置呢? 达到让zabbix只监控em0 或者eth0的网卡设备呢
崔广章 20:54
ceilometer其实是openstack自带的功能,但是功能很菜@袁进坤@南京,云计算
崔广章 20:54
@刘浩@360 其实我就是怎想的
年福瑞@小牛资本 20:57
@于江磊@奇点时代 自己写脚本,取物理别名
崔广章 20:58
我也遇到这样的问题@于江磊@奇点时代
刘浩 20:59
@崔广章 那是不是可以不用collected了
崔广章 21:00
理论上是可以,但数据转存的时候,工作量很大@刘浩@360
崔广章 21:01
难点主要在zabbix端,关系错综复杂
薛群 21:01
@于江磊@奇点时代 用正则表达式过滤
薛群 21:03
公有云起agent确实是个问题
崔广章 21:03
这是公有云的痛点

转载:kvm论坛

就整理这些,想说现在监控也越来越完善了,可以做到邮件告警,微信告警,钉钉告警短信电话告警。 万能的监控zabbix只要有key值都可以做到任何监控。

也还有些公司对监控更加要求性高可以针对性技术开发一套监控大屏,记得在之前公司运维CDN就是整个技术团队研发一套监控大盘的,主要监控流量的状态每个节点的流量带宽。

有兴趣一起研究监控的可以加我QQ:1165958741 或者加入群一起讨论:459096184