分布式 - 演进过程

源代码 · 2024-9-29 03:34:24

单机架构

网站初时，应用数目和用户量都少少，可以把应用步调和数据库摆设在同一台服务器上。
第一次演进：应用与数据库分离

应用与数据库对资源的斲丧差异，分开摆设在独立的服务器上能明显进步两者各自性能。
随着用户数的增长，并发读写数据库成为瓶颈
第二次演进：引入缓存

缓存能把绝大多数哀求在读写数据库前拦截掉，大大低沉数据库压力。
利用分布式缓存，比方 Redis，会涉及到缓存同等性、缓存穿透/击穿、缓存雪崩、热门数据会合失效等问题
缓存抗住了大部分的哀求访问，随着用户数的增长，并发压力紧张落在单机的应用服务器上，相应徐徐变慢
第三次演进：引入反向署理实现负载均衡

在多台服务器上摆设应用服务，利用反向署理把哀求匀称分发到每个应用服务中
利用反向署理涉及的技能包罗：Nginx等反向署理软件，Session共享、文件上传下载问题
反向署理使应用服务可支持的并发量大大增长，但高并发的增长也意味着更多哀求穿透到数据库，单机数据库终极成为瓶颈
第四次演进：数据库读写分离

把数据库分别为读库和写库，读库可以有多个，通过同步机制把写库的数据同步到读库，对于需要查询最新写入数据场景，可通过在缓存中多些一份，通过缓存得到最新数据。
此中涉及到的技能问题：Mycat数据库中心件，构造数据库的分离读写和分库分表。数据同步、数据同等性问题
业务徐徐变多，差异业务之间的访问量差距较大，差异业务直接竞争数据库，相互影响性能
第五次演进：数据库按业务分库

把差异业务的数据生存到差异的数据库中，使业务之间的资源竞争低沉，对于访问量大的业务，可以摆设更多的服务器来支撑，如许同时导致跨业务的表无法直接做关联分析，需要通过其他途径来办理。
随着用户的增长，单机的写库会徐徐到达性能瓶颈
第六次演进：把大表拆分为小表

好比针对品评可以按照商品ID举行hash，路由到对应的表中存储；针对付出纪录，可按小时创建，每个小时表继续拆分为小表，利用用户ID或纪录编号来路由数据。只要实时操纵的表数据量富足小，哀求可以或许富足匀称的分发到多态服务器的小表上，那数据库就能通过程度扩展的方式来进步性能。
数据库计划到这种布局时，已经可以称之为分布式数据库。数据库里差异的构成部分是由差异的组件单独来实现的，如分库分表的管理和哀求分发，由Mycat实现；SQL的剖析由单机的数据库实现；读写分离大概由网关和消息队列来实现；查询结果的汇总有数据库接口层来实现等等，这种架构着实是MPP（大规模并行处理处罚）架构的一类实现
MPP数据库开源比力多：Greenplum、TiDB、Postgresql XC、HAWQ等。差异的MPP数据库的偏重点也不一样，如TiDB更偏重于分布式OLTP场景、Greenplum更偏重于分布式OLAP场景。
数据库和应用步调都可以或许程度扩展，可支撑的并发大幅进步，随着用户数的增长，终极单机的Nginx会成为瓶颈
第七次演进：利用LVS或F5来负载均衡

由于瓶颈在Nginx，因此无法通过两层的Nginx来实现多个Nginx的负载均衡。LV5和F5是工作在网络第四层的负载均衡办理方案，此中LVS是软件，运行在操纵体系内核态，可对TCP哀求或更高条理的网络协议举行转发，因此支持的协议更丰富，而且性能也远高于Nginx，可假设单机的LVS可支持几十万并发的哀求转发；F5是一种负载均衡硬件，与LVS提供的能力类似，性能比LVS更高，但代价昂贵。由于LVS是单机版的软件，若LVS所在服务器宕机则会导致整个体系无法访问，因此需要有备用节点。可利用keepalived软件模仿出假造IP，然后把假造IP绑定到多态LVS服务器上，欣赏器访问假造IP时，会被路由器重定向到真实的LVS服务器，当主LVS服务器宕机时，keepalived软件会主动更新路由器中的路由表，把假造IP重定向到别的一台正常的LVS服务器，从而到达LVS服务器高可用的结果
第八次演进：通过DNS轮询实现机房间的负载均衡

在DNS服务器中可设置一个域名对应多个IP地点，每个IP地点对应到差异的机房里的假造IP。当用户访问域名时，DNS服务器会利用轮询战略或其他战略，来选择某个IP供用户访问。此方式能实现机房间的负载均衡，至此，体系可做到机房级别的程度扩展，万万级到亿级的并发量都可通过增长机房来办理，体系入口处的哀求并发量不再是问题
随着数据的丰富程度和业务的发展，检索、分析等需求越来越丰富，单单依靠数据库无法办理云云丰富的需求
第九次验证：引入NoSQL数据库和搜刮引擎等技能

数据库中的数据多到肯定规模时，数据库就不适用与复杂的查询了，通常只能满意寻常查询的场景。对于统计报表场景，在数据量大时不愿定能跑出结果，而且在跑复杂查询时会导致其他查询变慢，对于全文检索，可变数据布局等场景，数据库天生不适用。因此需要针对特定场景，引入符合的办理方案。如对海量文件存储，可通太过布式文件体系HDFS办理，对于key-value范例的数据，可通过HBase和Redis等方案办理，对于全文检索场景，可通过搜刮引擎如ElasticSearch办理，对于多维分析场景，可通过Kylin或Druid等方案办理。
引入更多组件同时会进步体系的复杂度，差异的组件生存的数据需要同步，需要思量同等性的问题，需要有更多的运维本领来管理这些组件等。
引入更多组件办理了丰富的需求，业务维度可以或许极大扩充，随之而来的是一个应用中包罗了太多的业务代码，业务的升级迭代变得更困难
第十次演进：大应用拆分为小应用

按照业务模块来分别应用，使单个应用的职责更清晰，相互之间可以做到独立升级迭代。
这时应用之间大概会涉及到一些公共设置，可以通太过布式设置中心Zookeeper来办理
差异应用之间存在共用的模块，由应用单独管剖析导致雷同代码存在多份，导致公共功能升级时全部应用代码都要跟着升级
第十一次演进：复用的功能抽离成微服务器

如用户管理、订单、付出、鉴权等功能在多个应用中都存在，那么可以把这些功能的代码单独抽取出来形成一个单独的服务来管理，如许的服务就是所谓的微服务，应用和服务之间通过HTTP、TC或RPC哀求等多种方式来访问公共服务，每个单独的服务都可以由单独的团队来管理。
可以通过Dubbo、SpringCloud等框架实现服务治理、限流、熔断、降级等功能，进步服务的稳固性和可用性
差异服务的接口访问方式差异，应用代码需要适配多种访问方式才气利用服务，别的，应用访问服务，服务之间也大概相互访问，调用链将会变得非常复杂，逻辑变得紊乱。
第十二次演进：引入企业服务总线ESB屏蔽服务接口的访问差异

通过ESB同一举行访问协议转换，应用同一通过ESB来访问后端服务，服务与服务之间也通过ESB来相互调用，以此低沉体系的耦合程度。这种单个应用拆分为多个应用，公共服务单独抽取出来管理，并利用企业消息总线来解除服务之间耦合问题的架构，就是所谓的SOA（面向服务）架构。
业务不停发展，应用和服务都会不停变多，应用和服务的摆设变得复杂，同一台服务器上摆设多个服务还要办理运行环境辩说的问题，别的，对于如大促这类需要动态扩容的场景，需要程度扩展服务的性能，就需要在新增的服务上预备运行环境，摆设服务等，运维将变得非常困难
第十三次演进：引入容器化技能实现运行环境隔离与动态服务管理

现在最盛行的容器化技能是Docker，最盛行的容器管理服务是Kubernetes（K8S），应用/服务可以打包为Docker镜像，通过Kubernetes来动态分发和摆设镜像。Docker镜像可以明白为一个能运行你的应用/服务的最小的操纵体系，内里放着应用/服务的运行代码，运行环境根据现实的需要设置好。把整个“操纵体系”打包为一个镜像后，就可以分发到需要摆设干系服务的呆板上，直接启动Docker镜像就可以把服务起起来，使服务的摆设和运维变得简单。
利用容器化技能后服务动态扩容问题得以办理，但呆板照旧需要公司自身来管理，在非大促的时间，照旧需要闲置着大量的呆板资源来应对大促，呆板自身本钱和运维本钱都极高，资源利用率地
第十四次演进：以云平台承载体系

体系可摆设到公有云上，利用公有云的海量呆板资源，办理动态硬件资源的问题，在大促的时间段里，在云平台中暂时申请更多的资源，联合Docker和K8S来快速摆设服务，在大促竣事后开释资源，真正做到按需付费，资源利用率大大进步，同时大大低沉了运维本钱。

分布式 - 演进过程

所属分类: 问答交流

新帖推荐: 30日

推荐作品