Linux开源监控平台归总

Linux开源监控平台归总

Cacti

偏向于基础监控。成图非常漂亮,需要php环境支持,并且需要mysql作为数据存储

Cacti是一个性能广泛的图表和趋势分析工具,可以用来跟踪并几乎可以绘制出任何可监测指标,描绘出图表。从硬盘的利用率到风扇的转速,在一个电脑管理系统中,只要是可以被监测的指标,Cacti都可以监测,并快速的转换成可视化的图表。

Nagio

不用存储历史数据,注重服务或者监控项的状态

Nagios是一款开源的免费网络监视工具,能有效监控WindowsLinux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。;
Nagios 可以监控的功能有:

  • 监控网络服务(SMTP、POP3、HTTP、NNTP、PING等);
  • 监控主机资源(处理器负荷、磁盘利用率等);
  • 简单地插件设计使得用户可以方便地扩展自己服务的检测方法;
  • 并行服务检查机制;
  • 具备定义网络分层结构的能力,用”parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;
  • 当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);
  • 可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用;
  • 自动的日志滚动功能;
  • 可以支持并实现对主机的冗余监控;
  • 可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等;

Icinga

Icinga 是一个正在重建的Nagios的分支,它提供了一个全面的监控和警报的框架,致力于设计一个像Nagios一样的开放和可扩展性的平台。但是和Nagios拥有不一样的Web界面。Icinga 1 和 Nagios非常的相近,不过Icinga 2就重写了。两个版本都能很好的兼容,而且,Nagios用户可以很轻松的转到Icinga 1平台。

NeDi

NeDi可能不如其他的工具一样闻名全世界,但它确是一个跟踪网络接入的一个强大的解决方案。它可以很流畅的运行网络基础设施和设备目录,保持对任何事件的跟踪。并且可以提供任意设备的当前地点,也包括历史地点。

NeDi可以被用于定位被偷的,或者是丢失掉的设备,只要设备出现在网络上。它甚至可以在地图上显示所有已发现的节点。并且很清晰的告诉人们网络是怎么互联的到物理设备端口的。

 

Observium

Observium 综合了系统和网路监控,在性能趋势监测上有很好的表现,它支持静态和动态发现来确认服务器和网络设备,利用多种监测方法,可以监测任何可用的指标。Web界面非常的整洁,易用。

Observium也可以在地图上显示任何被监测节点的实际地点。需要注意的是面板上关于活跃设备和警报的计数。

 

Zabbix

需要php环境支持,并且需要mysql作为数据存储,基本上可以满足大部分需求,目前大部分公司在用

zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题。zabbix由2部分构成,zabbix server与可选组件zabbix agent。zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux, Solaris, HP-UX, AIX, Free BSD, Open BSD, OS X等平台上。

Ntop

Ntop是一种监控网络流量工具,用ntop显示网络的使用情况比其他一些网络管理软件更加直观、详细。Ntop甚至可以列出每个节点计算机的网络带宽利用率。他是一个灵活的、功能齐全的,用来监控和解决局域网问题的工具;尤其当ntop与nprobe配合使用,其功能更加显著。它同时提供命令行输入和web页面,可应用于嵌入式web服务
Ntop主要提供以下一些功能:

  • 自动从网络中识别有用的信息;
  • 将截获的数据包转换成易于识别的格式;
  • 对网络环境中通信失败的情况进行分析;
  • 探测网络通信的时间和过程

 

Smokeping

偏向于基础监控,成图非常漂亮

Smokeping 是rrdtool 的作者Tobi Oetiker 的作品,是用Perl 写的,主要是监视网络性能,包括常规的ping,用echoping监控www 服务器性能,监视dns 查询性能,监视ssh 性能等。底层也是rrdtool做支持,特点是画的图非常漂亮,网络丢包和延迟用颜色和阴影来表示。在企业中运用较少。

Open-falcon

由于是国人开发有一套较为完善的中文文档

 

小米公司开发,开源后受到诸多大公司和运维工程师的追捧,适合大企业,滴滴、360、新浪微博、京东等大公司在使用这款监控软件

特点:

数据采集免配置:agent自发现、支持Plugin、主动推送模式

容量水平扩展:生产环境每秒50万次数据收集、告警、存储、绘图,可持续水平扩展。

告警策略自发现:Web界面、支持策略模板、模板继承和覆盖、多种告警方式、支持回调动作。

告警设置人性化:支持最大告警次数、告警级别设置、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期,支持告警合并。

历史数据高效查询:秒级返回上百个指标一年的历史数据。

Dashboard人性化:多维度的数据展示,用户自定义Dashboard等功能。

架构设计高可用:整个系统无核心单点,易运维,易部署

Overwatch

功能强大 但是由于是新开源的项目  目前网络上相关资料较少

Overwatch分布式系统监控平台可以对所有后台系统间的RPC通信进行实时的监控。图形化的展现使得工程师不用去解读大量的、复杂的数据报表。仅通过一张有向图,工程师便可以快速理解并掌握当前系统的整体状况,帮助工程师快速定位并修复系统异常。

Overwatch有着极大的扩展的潜力,通过对客户端收集程序的加强,我们还可以实现以下功能:

  • 对于数据源、中间件的监控(如MySQL、Redis、消息队列),在有向图中加入基础组件,全面监控所有系统间的依赖以及调用情况。
  • 支持更多RPC协议 (如Thrift、gRPC)
  • 更多的metric,实现精确到API的监控和展现

 

 

最后附上市场主流监控平台  2017年的一个比较图表