大规模微服务场景下灰度发布与流量染色实践

post thumb
演讲
by 刘超/ on 01 Dec 2019

大规模微服务场景下灰度发布与流量染色实践

本文内容选自中国DevOps社区年会 · 2019年会,刘超老师分享的《大规模微服务场景下灰度发布与流量染色实践》实录。

大家好,我的题目叫《大规模微服务场景下的灰度发布与流量染色实践》。最近微服务很热,与微服务相关的架构、流程、DevOps都很热。

很多公司,包括传统企业,到互联网公司做交流的时候,会问道,你们互联网公司号称能够加速业务创新、快速迭代,那我们是否也可以引入类似这样的机制。

我们做微服务,主要分为两个方面,一个是业务方面,另一个是技术方面。最下面是运维部,不过现在我们的运维部已经拓展成云计算,DBA里的数据管理部门,已经发展成大数据,于是就有了技术中台和数据中台,另外还有共享用户中心的业务中台,总体构成了下层的中台部门,在上层业务一定要做微服务化。业务和技术互相合作,做到加速创新的效果。

有很多人说,我们也上了微服务,但是会发现上微服务以后,看起来很好的东西,为什么用起来一团乱麻。

我们拜访过很多业界同仁,发现实施微服务之后,有以下痛点:

服务依赖管理:服务间直接调用,依赖混乱(微服务越来越多,自己理不清楚,不知道上线时会影响谁,上线后谁影响我,到底该什么时候上线,依赖混乱的时候,没办法解决这些问题。)

服务调用统计:调用记录无迹可寻,调用统计与分析无从谈起

服务接口规范:环境与接口规范缺失,维护困难

服务安全管理:安全靠白名单各自为战

服务治理能力:大量重复代码 实现路由,分流,熔断,降级

服务接口测试:拆分过程中接口行为不一致,隐藏Bug

服务灰度发布:上线功能实现灰度借助大量if-else

服务压力测试:对于峰值压力无历史数据,靠运气

服务调用链分析:当服务请求缓慢,难以定位问题点

测试环境治理:测试环境多,难管理,不可能100个容器每组一套

我们发现大家对微服务有很多误解。比如,一般做微服务的时候,很多人都会问微服务怎么拆,告诉我一个拆的最佳的实践,但是其实,根据我们的实践来讲,微服务不仅仅是微服务拆分,微服务拆分只是十二个要点的其中之一。

十二个要点分别是:

  1. 微服务化的基石:持续集成

  2. 静态资源分离与接入层设计

  3. 应用层设计之无状态化与容器化

  4. 应用层设计之服务的拆分,发现与编排

  5. 性能优化之数据库设计与横向扩展

  6. 性能优化之缓存的设计与横向扩展

  7. 性能优化之消息队列与异步化设计

  8. 服务的熔断,降级,限流设计

  9. 配置中心的设计与实践

  10. 统一日志中心的设计与实践

  11. 全链路应用监控实践

  12. 服务的全链路压测实践

我们建议,先把前三个基础打好,再进行拆分,而不是什么技术、平台、工具都没有,直接把自己的传统应用拆得七零八落。同时,值得再强调的是第一条,微服务化的基石:持续集成。微服务绝不是让大家关起门来用三个月的时间拆出来,就直接上线。而是应该不断地集成、迭代,是渐进式的模式。另外,微服务也不仅仅是个技术问题,它还涉及到IT架构、应用架构、组织架构的改变。

接下来给大家讲一下网易微服务和DevOps的实践过程。

我们整个DevOps,也是经历了几个过程。第一个和大家都一样,当服务比较少的时候,开始手工化的方式,后来手工不行了就变成了脚本化的方式,再后来因为开源有很多的工具可以用,变成了工具,而后变成一个平台,最后变成一个统一的DevOps的平台。

首先,第一个阶段就是手工化。可能很多企业一开始都会存在这样的阶段,开发和运维之间的隔阂比较严重,老死不相往来。开发负责写代码,线上的运维、发布,以及SLA的保障,都是运维进行管理的。由于服务相对比较少,用物理机部署,基本上是一个单机应用加一个Oracle就可以搞定。

后来,随着业务的发展,服务越来越多。这个模式和原来还是没有变,开发和运维部的隔阂依旧存在。但是,运维发现接的需求越来越多,需要部署越来越多,需要一个环境隔离的方式,因此一般会上一个虚拟化系统,业内主流是用Vmware。这时候的部署方式一般是,Oracle部署在物理机上,其他业务系统都是部署在VMware上。部署东西多了,运维开始使用批量脚本试图解放人力,这属于第二个阶段-脚本化的阶段。虚拟化带来很多的优点,比如,粒度灵活,隔离性得到一定保证,不会在一台服务器上部署很多东西。

但是这个阶段也有非常多的问题。比如说发布脚本、逻辑相对复杂,时间长了以后,逻辑是难以掌握的。而且,如果你想把一个脚本交给另外一个人,也很难交代清楚。

另外,并且脚本多样,不成体系,难以维护。线上系统会有Bug,其实发布脚本也会有Bug。

虚拟机大量地依赖于人工的调度,需要运维人员非常清楚,要部署在什么地方。另外VMware还有一个问题,它使用共享存储,会限制整个集群的规模,因为此时的应用不多,这个程度的规模还可以接受。

线上的高可用性,业务层的开发人员不会做任何事情,他认为是线上一旦出事,应该由运维集中处理,迫使运维服务的发布人员依赖虚拟化机制,来提供高可用机制。我们都知道VMware有非常著名的简化运维的高可用机制,比如FT、HA、DR等类似的机制。如果我们是从IT层来做高可用,有一个缺点,作为基础设施层来讲,它看上层没有任何的区别,所以没有办法区分业务优先级。比如说FT的模式,跑CPU指令,它不知道这是最核心支付的指令、还是日志的指令,再如数据中心之间的同步,存储层是无法区分交易数据和日志数据的。

另外网络、虚拟化、存储等基础设施,没有抽象化的概念,复杂度非常高,开发接不了这个工作,必须依赖运维,就要审批。由统一的一帮人来做,而且他们要考证书,比如,网络要有思科的证书,虚拟化要有VMware的证书,要特别专业才能做这件事情,因此会极大地降低迭代速度。业务方无论做什么事,都要走审批,运维部的人根本忙不过来,这是第二阶段的问题。

后来是怎么改变了这个问题?首先是业务层,业务层接的需求越来越复杂,迭代速度要求越来越快,这个时候单体应用跟不上了,需要进入服务化的架构,工程要拆分,要开始基本的注册发现,要实现自己的RPC。

应用层的改进会带来应用层的问题。比如,服务雪崩的问题。大量的请求堆积,一个进程慢了,把整个链路也都变慢了,所有人都在等着它缓过来。我们要进行熔断,快速尝试另外的服务。原来依赖很多内网负载均衡以及硬件负载均衡的维护代价比较大,一旦出现任何问题,就会引来抖动的问题。所以相应的要有快速恢复、快速熔断的机制,一旦发现错误以后,我们要能够尽快的重试。

以上就是应用层的问题,经过了一段时间的解决,又引入了新的问题。我把它称为“云原生怪圈”,应用向云原生的(Cloud Native)。它包含两个层次,第一个层次是应用层的服务数目会增多。第二个层次是资源层申请速度的灵活性会相对增加,这两个层次形成了一个圈。每家公司可能都存在这个圈,无论是从哪个起点开始,这个圈都可能会被激活。

一个起点是,很多公司的上面是单体应用,但下面先采购了容器,资源申请灵活性大幅度提高了。一旦灵活性提高了以后,会给应用层释放很多动力。原来申请一百个机器需要一个星期的审批流程,这时能不拆分就不拆分。而现在有了容器,他会认为我有了这么好的工具,我可以进行拆分了,反正不费劲,任何一个小部门创建一个小的环境都不费劲。

另外一个起点,先是应用层服务数目增多,给资源层越来越大的压力,然后会使得你原来七八点下班,现在变成十点多下班,然后十二点下班,压力越来越大,就会想办法增加资源层的灵活性。这个圈在整个DevOps的过程中会一直产生的。

微服务化了以后,我们会发现存在以下几个现象。

第一个是服务器的机型非常的碎片化,一开始采购机器的时候,有大规格、小规格的,硬盘比例各不一致,导致服务器非常难以管理,也无法进行批量化的安装。

第二是很多的进程,不管是虚拟化以后,还是不虚拟化,在不在一台机器上,QoS无法保证。

第三是测试环境的需求量大大增加,下层的基础设施根本忙不过来。

接下来进入到云计算的平台。有很多人不理解云计算和虚拟化都是运用了虚拟化的技术,两者之间到底有什么不同。其实云计算带来了非常大的不同,甚至是本质上的不同。如果你们内部上了一个云平台,或者上了公有云,但是你没有感受到资源申请的灵活性,那肯定是有些姿势用得不对。

这里,我总结了一下云计算带来的改变,主要有三大方面,分别是统一接口、抽象概念,租户自助。正是因为这三大方面,使开发和运维不像原来那样,有那么深的隔阂,而是开始逐渐互相靠近,开发部或者业务部开始进行一定的自助。

OpenStack实现接口统一,大部分部署工具支持其接口,可基于开源工具实现发布的工具化和平台化

Flavor抽象资源配比(4G 8G 计算优化型,网络优化型,存储优化型),统一硬件配置,提升利用率,硬件上线效率提升

自动调度代替人工调度,区域可用区抽象对机房机架交换机的感知

云提供租户概念,有账号子账号体系,有quota,可以让租户在管理员许可的范围内自助操作,加快环境部署速度

VPC屏蔽物理网络复杂性,冲突问题和安全问题,使得租户可自行配置网络

基于虚拟机分层镜像发布和回滚机制,构建发布平台,可实现大规模批量部署和弹性伸缩

基于虚拟机的PaaS托管中间件,简化租户创建,运维,调优中间件的难度

发布平台提供基于虚拟机镜像+PaaS中间件的统一编排

要求业务对于高可用性设计要在应用层完成

在这个阶段,要实现微服务框架与开源技术栈的统一。一开始微服务做的比较混乱,有用Spring Cloud,有用Dubbo的,需要一个统一的开源技术栈。另外,还要构建一个持续集成的平台,通过Agent和虚拟镜像部署软件包。

统一微服务框架之前,我们情况是这样的,一开始用服务注册服务发现,还是比较简单的。后来发现,我们还需要分流、需要降级、配置中心、认证鉴权、监控统计等,在业务代码之外加的越来越多,大家的代码写得到处都是,而且依赖于不同人的水平不一样,有的人写得好,有的人写得差,这就是一个当时遇到的问题。

后来我们就把它抽象成为了一个Agent,这个Agent在程序启动的过程中,通过jar直接带起来,使得统一的服务框架组件在Agent里面实现,并且提供统一的界面进行配置,这样业务方可以只写业务代码,基本上就搞定了这件事。

这样就形成了一个统一的微服务治理平台,并且后期会和service mesh做一定的融合。

因此解决了这些问题:

应用减负:使用Agent和Sidecar技术,对应用无成本增强。

开发减负:以微服务治理框架为设计目标、大幅减少重复框架代码、避免重复造轮子。

版本控制:统一组件版本配置,避免隐性问题。

兼容性:兼容的HTTP、RPC调用,兼容非java应用。

服务治理:根据业务线场景选择治理支持方法级别治理粒度。

高性能:更低的性能损耗,并提供更细粒度的服务治理。

这时就有了发布平台。我们会把包放统一的对象存储上,通过Agent以镜像的方式进行下发。

这是我们的成果,内部都在用这款基于虚拟镜像的发布平台。

接下来又引入了新的问题,比如难以发现故障点、要引入故障注入服务,API版本混乱,这时需要引入API网关。

基于虚拟镜像的发布也很混乱,因为部署的应用越来越多,我们发现虚拟镜像的模板越来越多,会出现上千个无法复用的模板,好像每个小组织都有自己的一个东西,毕竟它还不是一个标准,所以接下来我们就拥抱了容器的标准。并且Auto Scaling原来是基于虚拟镜像的,现在使用Kubernetes来做,同时实现了分布式事务。

到了这个阶段,中间加了Kubernetes这一层。这里的更新包括,OpenStack可以做物理机的下发,Kubernetes作为统一的对接资源的编排平台,无论是Vmware上,还是KVM机器上,还是物理机上,公有云上,上面都可以有Kubernetes统一平台。这个时候只需要对Kubernetes下发一个编排,就可以实现跨多个地方进行部署。

在基于虚拟机的运行环境和PaaS中间件之外,基于Kubernetes也可以有自己的容器镜像和运行环境,以及基于容器镜像PaaS中间件。发布平台原来是对接API的,现在有了Kubernetes以后,它可以非常平滑的通过统一的平台切换到Kubernetes上,所以,做一个发布平台,后面的对接还是比较标准的。

应用层也会越来越多,比如说有基于容器镜像的弹性伸缩,服务网格,分布式事务,故障注入等。

有了Kubernetes以后,就进入了Dev和Ops的融合阶段。这时我们发现,当服务数目再增多的时候,运维的压力也更大,如果所有的东西都要运维来做,其实是实现不了的。因此,我们建议环境交付提前,比如说一个容器镜像里面的子环境让开发自己去把控。他知道自己改了哪些内容、哪些配置,不需要通过文档的方式交给运维来做。容器镜像还可以做一个很好的事,它是非常好的中介,是一个标准,不论在那儿都可以,所以就产生了左边的太极图。运维会帮开发部做一些事情,开发帮运维做一些事情,这个时候进入了开发和运维融合的机制。

因为容器有非常好的分层的机制,如果开发不想写,可以让开发写大部分的基础环境。

另外一个建议叫不可改变的基础设施。当规模大了以后,任何一个节点出现了问题,都很难排查,所以我们建议对任何环境的修改,都要在代码的级别上修改。在部署平台之前,代码是代码,配置是代码,单实例运行环境Dockerfile是代码,多实例的运行环境编排文件也是代码。

持续交付流水线,是以Master和线上对应的,自己分支开发的模式。按需自动化构建及部署,线上环境还是需要人工触发的,但基本上是通过流水线代码处理的方式来做的。

容器化带来的另外一个问题,就是“云原生怪圈”再次起作用。服务规模越来越大,增加速度越来越快,需求指数性增加,大家都需要一个环境。比如一个集群一千个容器,如果三个小组各开发一个项目,想并行开发,每个人都需要一个环境,一下子需要三千个容器。这时候就需要中间件的灰度发布和流量染色的能力。

在最外层的网关上,可以做两个环境之间流量的分发,以及在微服务的Agent里面也可以做一个分发。最终,我们会有一个基准环境,就是Master对应的环境。

两个小组,一组开发了五个服务,另外一组开发了六个服务,他们部署的时候不需要一千个全部布一遍,只需要布五个,布六个。在请求调用的时候,从这五个里面互相调,不在这五个里面,在基准环境调,另外六个也是。这样就把三千个变成一千零十几个,环境大幅度减少。

这个时候环境的合并怎么办?环境合并和代码合并逻辑一致,统一在发布平台管理,谁后合并谁负责Merge。这是我们的一个效果,我们节省了非常多的机器。

有了流量染色功能,就可以做线上的灰度发布。这里我们会有几个环境,一个是预发类的环境,一个是小流量环境,还有一个主流的环境,测试的时候是可以进行染色。

我们以一天的整个开发周期举例子,每天早上初始化预发环境和小流量环境>>开启引流,进入持续发布周期>>代码发布到预发环境进行回归,预发环境为单节点部署>>预发通过后发布到小流量环境,小流量环境三节点部署,滚动发布>>小流量环境,开发测试及时跟进,观察异常情况,一旦碰到问题,第一时间关闭流量入口。相关问题定位debug可以在预发环境上进行>>所有发布到小流量环境的版本合集,通过一个晚高峰的检测后,发布到线上环境。第二天同样是做此循环,每天都是这样的发布模式。

有了流量染色以后,还可以得到单元化和多机房的染色。如果我们做高可用,至少需要两个机房,那么就存在一个问题,当一个机房完全挂了怎么办?微服务框架可以把它引流到另外一个机房。服务请求之后,还应该回来,因为应该本机房优先,毕竟本机房的容量大得多。所以我们建议整个部署模式,总分总的部署模式。

首先第一个总,要有统一的发布平台,无论发布到哪个Kubernetes,都应该通过一个平台。其次,你应该有一个多Kubernetes统一的管理,有多个机房,就有多个Kubernetes,我们并不建议跨机房。然后,我们建议应用层要有统一的视图,即使Kubernetes出现了问题,应用层可以把流量切到另外一个环境。就是这样一个总分总的模式。

另外Kubernetes也面临升级的问题,它更新比较快,经常升级。虽然业界有各种平滑的最佳实践,但是很难保证它升级的时候不出事。一旦Kubernetes出现状况,你也不想停里面的应用,可以采用分流的方式。

最终形成了云原生架构的技术栈,包括CICD、测试平台、容器平台、APM、分布式事务、微服务框架、API网关一栈式工具链。

作者

刘 超

网易

杭州研究院

云计算技术部首席架构师

长期致力于云计算开源技术的分享,布道和落地,将网易内部最佳实践服务客户与行业。 曾出版《Lucene应用开发解密》,极客时间专栏《趣谈网络协议》《趣谈操作系统》。