江帆 字节跳动头条研发/软件工程师
TCE 是字节跳动的私有云平台,管理着业界规模领先的 Kubernetes 集群,托管了头条、抖音、字节国际化业务等内部上万个在线微服务。作为早期成员,参与了 TCE 的研发工作,拥有大规模 Kubernetes 集群的开发和维护经验,熟悉由 Kubernetes 到 Docker 再到 CGroups 的整个核心链路。目前正在参与在线、离线大规模混合部署项目,预期实现集群资源利用率的进一步提升。
字节跳动资源调度团队负责私有云平台 TCE 的底层 Kubernetes 集群的开发和维护工作。TCE 托管了头条、抖音、字节国际化业务等内部上万个在线微服务。随着这些业务的快速发展,集群规模不断扩大,机器负载越来越高,运维难度和成本问题越发显著。原生 Kubernetes 作为控制面系统,并不能很好地解决这些问题。为了提升系统可见性,我们基于 eBPF 实现了系统监控,使内核能更好地理解微服务,极大地提升了问题诊断效率。为提升资源利用率,我们通过动态超售,实现了业务实例的高密度部署,并通过优化 Kubernetes 资源模型,有效保证了延时敏感服务的 QoS。