OneAPM 观点 | 为什么说云主机比物理机故障率更低？

OneAPM官方技术博客 · 2015年08月27日 · 最后由 OneAPM官方技术博客回复于 2015年08月28日 · 5170 次阅读

本文根据高效运维系列微信群的嘉宾分享整理并发布。「高效运维」公众号作为本系列群的官方唯一公众号，原创并独家首发。OneAPM 授权转发。

编辑

徐凯强 @ 和信 - 北京（内容收集、发布）

作者介绍

邱模炯
UCloud 平台开发中心总监，北京大学计算机系研究生毕业，擅长操作系统、虚拟化和数据中心自动化等云平台的基础技术。

引言

很多朋友对云平台可用性有所担心，认为用物理机更加放心。今天我想就这个话题抛出个人看法。希望对大家有参考意义。先抛出结论：

从业务程序的角度，云主机的可用性可以做到比物理机高，即故障率更低（可用性和故障率接近但不是一个概念，为了便于阐述，下面只讨论故障率）。

我见过很多客户抱怨云主机的故障率。同时，我也见过并且帮好几个使用物理机的客户解决问题：

他们没有专业团队及大规模环境，对于复杂点的软硬件故障几乎束手无策，有时甚至解决的过程把小问题变成大问题。

这也是我今天分享这个话题的动力。下面进入正题，下图是云主机和物理机软硬件层次对比：
为什么说云主机比物理机故障率更低？

影响云主机故障率的主要因素有：

服务器硬件质量
宿主机内核
虚拟化层（KVM+QEMU 或 Xen）
Linux 内核（承载业务程序）

影响物理机故障率的主要因素有：

服务器硬件质量
Linux 内核（承载业务程序）

从上面的对比看，云主机比物理机故障率貌似要高，因为虚拟化层和宿主机内核非常复杂，引入额外的故障率。这是直觉，而且很有道理：

AWS 去年就因为虚拟化层内核的安全漏洞大规模重启了物理机，多数 AWS 用户受影响。虚拟化层和宿主机内核的 BUG 也会同样造成宕机及重启。

那为什么还说云主机故障率可以低于物理机呢？

备注：这里我是从终端用户的角度看的，“从厂商购买的” 物理机，来对比「从云平台购买的」云主机。

原因在于：简单来说，云平台厂商往往管理几万几十万台物理服务器，并有比较专业的基础运维团队和内核团队，可以在故障率上做大量的工作，以达成这样的效果：

虚拟化层和宿主机内核的故障率接近 0。这两层是内核，通过内核优化来达到；
服务器硬件质量可以不断提升；
承载业务程序的 Linux 内核，云平台可以帮助用户进行维护。并解决 BUG，修复安全漏洞等。

有人会说，我自己购买的物理机也能做上述优化，效果比云主机更好。真的是这样的么？现实情况是：

绝大部分公司管理的服务器数量不多，不足以建立相应的团队；同时因为服务器数量少（比如不到万台），做软硬件优化的环境不理想。

下面就上述要点展开。

虚拟化层和宿主机内核的故障率如何降低？

这主要通过自主掌控虚拟化层和宿主机内核，这整套内核来实现。

1. 自主维护 Linux 内核

商业 Linux 发行版（如 RHEL6.X）的内核其实有不少 BUG，因为内核太庞大、太复杂，BUG 修之不尽而且不断涌现，只要内核有人在改动，更多的 BUG 就还在路上。

但我们自己维护的 Linux 内核，我们可以迅速修复并应用进实际环境，不像商业 Linux 要等待较长的发布周期。

我们还可以预先研究别人犯过的错误，把更新补丁打入现在的内核；还可以屏蔽不必要的特性和改动避免 BUG 的引入。

简单讲，自主维护内核很灵活，最终质量不低于商业 Linux 发行版。国内有海量服务器的公司如腾讯和阿里都运行自主维护的 Linux 内核。

2. 免重启热补丁技术

这是指通过二进制指令修改的方式修改 Linux 内核达到修复的目的。

结合自主维护 Linux 内核，如果发现了 BUG 并制作修复补丁后，可以免重启应用到生产环境的 Linux 内核里。

这点目前主流 Linux 厂商不提供。但云平台厂商可以自己做。

3. 热迁移技术

特殊情况下的热迁移，可规避尚未完全定位的内核问题。

这三点的综合效果，使得某些云厂商，因为内核原因造成的宕机低到可以忽略。几万台服务器半年可以减少到一两次。

可能有些早期用户应该比较有感觉，几年软件宕机不少，给客户推送的故障报告不时就和内核有关，但经过一年半载的工作后，现在几乎没有了。

服务器硬件质量如何提升？

服务器硬件故障率的影响因素有厂商品牌、机型、服务器运行时间、以及部件型号的故障率。

这里的工作需要海量服务器来做，比如上万台才有意义，而几百上千台意义不大。

这里有一张图，体现我们可以主动采取部分措施。

为什么说云主机比物理机故障率更低？

1. 服务器故障率和厂商机型关系密切

我们可以监控各厂商机型的故障率，主动下架比较差的，从而提升总体质量。

一般来说，小厂的服务器故障率会高一些，但大厂即使 DELL、联想的个别机型也会有较高故障率。

这主要和机型设计和生产质量管控有关，就不阐述了。我们能做的是选择故障率低的厂商和机型。

2. 服务器运行时间久了，故障率会随之提升

对于云平台厂商，可以监控这一切故障发生前的征兆，并主动采取措施，通过热迁移手段避免云主机受影响。

3. 硬件宕机和部件缺陷关系很大

我们的统计发现，部件种类里，硬盘故障故障率最高，其次内存硬件、RAID 卡等。

对于硬盘故障，可以通过 RAID 方式规避。对于内存硬件，可以通过内存故障隔离等内核手段，大幅度减少其硬件故障造成的宕机及影响。

总的来讲，通过上述这些工作，云平台厂商可以让服务器硬件故障率逐步降低。其实，可以做的更多，篇幅原因就不讲了。而这样的工作，对于没有海量环境的公司是很难做的，效果也不佳。

另外，云平台厂商可以替用户修复云主机内核的 BUG 和安全漏洞，降低内核故障率。

我们在这方面做了一些工作，内核版本会及时更新，关键漏洞会提供免重启热补丁修复包。

观点总结

简要总结一下本文的主要观点：

云主机相比物理机，虚拟化层和宿主机内核的额外复杂性及故障率可以被优化至接近 0 即可以忽略。
服务器硬件故障，云平台可以不断降低其故障率，主要手段通过内核隔离硬件故障、热迁移规避故障隐患，以及监控故障率并主动下架不良厂商机型等。

为什么说云主机比物理机故障率更低？

上述这些工作都需要非常专业的运维团队和内核团队才能实施，如果没有足够大的服务器数量是很难开展的。

而大型云厂商往往管理几万、几十万服务器，因此具备这样的条件。也因此，云主机故障率能低于物理机（当然，如果什么都不做，云主机故障率一定是高于物理机的）。

OneAPM 提供前所未有的 Servers 监控体验，面向所有人的性能监控，并承诺永久免费。而且能够细分到单个进程的资源消耗，统计性能消耗热点。赶快注册体验一下吧！

共收到 2 条回复时间点赞

陈恒捷 #1 · 2015年08月28日

提醒一下，论坛的标题格式井号与文字之间必须有空格：

正确的：
## 标题

错误：
##标题

文中部分标题格式写错了哦。

OneAPM官方技术博客 #2 · 2015年08月28日 Author

#1 楼 @chenhengjie123 感谢提醒。已更正

需要登录后方可回复, 如果你还没有账号请点击这里注册。