Datadog (https://www.datadoghq.com/) 是一款监控和统计分析工具主要应用在IT公司和DevOps团队,为这些企业或用户提供完整的SaaS监控服务(软件即服务,全称Software-as-a-Service),包括查看到整个服务的性能、基础设施状态、指标和事件告警等。 Datadog支持多种操作系统环境包括Windows、Linux\UNIX和Mac等,也支持常见的云服务提供商这些服务商包括AWS、微软、Red Hat OpenShift和谷歌云等,另外,按网络环境划分公有云、私有云和混合云,目前Datadog都能支持与管理。以下通过标签的方式来介绍Datadog的使用。
本文目录结构
- Datadog酷炫视频
- 公司发展历史
- 谁在用Datadog
- Datadog监控的优势 vs 不足
- Datadog主要的监控功能
- Agent 相关
- 单机部署Datadog Agent
- 批量部署Datadog Agent
- Server端相关
- 最佳实践
- 如何收费
- Datadog未来发展
- 总结
Datadog酷炫视频
通过以下视频可以更快速直观的了解Datadog。
- 监控大屏:https://twitter.com/i/status/935578594482405376https://www.youtube.com/watch?v=18nEnD4Q1wQ
- 主机地图:https://docs.datadoghq.com/videos/host-map/
- APM :https://docs.datadoghq.com/videos/apm/
- AWS:https://docs.datadoghq.com/videos/aws/ 最新Datadog视频(Datadog DASH 2019 Keynote):https://www.youtube.com/watch?v=18nEnD4Q1wQ
公司发展历史
Datadog 成立于2010年总部位于美国纽约,截至2017年Datadog已筹集了六轮融资,总额为1.5+亿美元。(以下数据来源天眼查 https://www.tianyancha.com/brand/b8ce0169057)
谁在用Datadog
外国很多软件服务商都在官方网站显著的位置展示了哪些牛逼的公司在用它的产品,视乎在告诉你我的软件好不好看谁在用我就知道了。Datadog也不例外,它的用户包括Twitter,Sonos,Airbnb,WeWork,Medium,诺基亚,Ubisoft,三星和Zendesk等,关于这里更多信息可以参考: https://www.featuredcustomers.com/vendor/datadog/customers。
Datadog监控的优势 vs 不足
我们先从客观角度来看很多开发者用户为什么选择Datadog见以下截图(以下数据来源 https://stackshare.io/datadog )。
综合以上数据并结合自己的观点来说一下Datadog的优势与缺点。
优势
从统计数据可以看到,排名前三的原因分别是:
全监控体系包含各种应用(数据库、WEB服务等);
非常简便的安装方式(很多intergrations(集成服务)在最多1~2分钟内可以部署完毕),只需要在所负责的机器上安装一个Datadog的Agent就可以实现监控数据的收集上报,当服务器规模庞大时它还支持类似Puppet软件来批量安装。
开箱即用、功能分类清晰、界面交互性强、问题跟进与处理有相应的流程。
不足
Datadog真的非常优秀,但如果一定要鸡蛋里挑骨头说它的不足,我觉得可以分为三点:服务端代码不开源看不到具体实现的逻辑,在复杂的场景下出现异常不可控。
国内购买的服务器下载Agent超时严重,需要使用代理下载。
它是一款收费的SaaS监控服务。
Datadog主要的监控功能
Datadog监控功能强大覆盖面广有完整独立的监控体系,如果把监控体系比作一个金字塔,我们来看一下金字塔各层的功能与监控细节。

Agent 相关
Datadog为C/S架构,其中Server端闭源,Client端开源(Client端代码地址见:https://github.com/DataDog/datadog-agent) 。目前Client端代码主要分为两个版本分别为v5和v6版本,推荐使用最新的v6版本与老版本 v5相比,v6版使用Golang进行了重写有着更好的性能,也更加精巧同时向下兼容版本功能。v6版本同时支持收集基础设施指标,日志和接收DogStatusD指标等功能,并暴露以下几个端口(5002端口仅会监听在Windows和OSX操作系统上)向外提供服务。
| 端口 | 用途 |
|---|---|
| 5000 | Agent服务器端口 |
| 5001 | 由代理CLI和GUI用于从正在运行的代理发送命令和提取信息 |
| 5002 | 服务于Windows和OSX上的GUI服务器。 |
| 8125 | 用于Dogstatsd服务器接收外指标。 |
Agent对服务器资源消耗以6.7.0版本测试为例,CPU平均在0.12%,磁盘(Linux350~400MB , Windows 260MB) ,带宽消耗上行86B/分钟,下行260B/分钟,可以看到整体消耗资源还是非常小的。
