大型技术网站,都是一项非常庞繁宏大的系统工程。

米扑科技,一家初创企业,从一开始就非常重视技术积累和系统架构。

米扑博客,从网上搜集了一些系统架构资料,整理了本文,分享给技术读者。

 

每一个网站架构模式,都描述了一个在我们周围不断重复发生的问题及该问题解决方案的核心。这样,你就能一次又一次地使用该方案而不必做重复工作。 

网站架构模式,就是为了解决大型网站面临的高并发访问、海量数据处理、高可靠运行等一系列问题与挑战。

为此,在实践中提出了许多解决方案,以实现网站高性能、高可靠性、易伸缩、可扩展、安全等各种技术架构目标。

 

高可用方案 & 网站系统架构

1、高可用方案

 

2、网站系统架构

ali-middleware-team-01

 

网站架构技术

大型网站的挑战主要来自庞大的用户,高并发的访问和海量数据,任何简单的业务一旦需要处理数以P计的数据和面对数以亿计的用户,问题就会变得棘手。

大型网站架构主要就是解决这类问题,网站系统架构层次,如下图所示:

 

1、分层

分层是企业应用系统中最常见的一种架构模式,将系统在横向维度上切分成几个部分,每个部分负责一部分相对简单并比较单一的职责,然后通过上层对下层的依赖和调度组成一个完整的系统。

在网站的分层架构中,常见的为3层,即应用层、服务层、数据层

应用层,具体负责业务和视图的展示;

服务层,为应用层提供服务支持;

数据层,提供数据存储访问服务,如数据库、缓存、文件、搜索引擎等。

分层架构是逻辑上的,在物理部署上,三层架构可以部署在同一个物理机器上,但是随着网站业务的发展,必然需要对已经分层的模块分离部署,即三层结构分别部署在不同的服务器上,使网站拥有更多的计算资源,以应对越来越多的用户访问。

所以,虽然分层架构模式最初的目的,是规划软件清晰的逻辑结构,以便于开发维护。

但在网站的发展过程中,分层结构对网站支持高并发,向分布式方向的发展至关重要。

 

2、冗余

网站需要7×24小时连续运行,那么就得有相应的冗余机制,以防某台机器宕掉时无法访问

而冗余则可以通过部署至少两台服务器,构成一个集群实现服务高可用。

数据库除了定期备份还需要实现冷热备份,甚至可以在全球范围内部署灾备数据中心。

 

3、分隔

如果说分层是将软件在横向方面进行切分,那么分隔就是在纵向方面对软件进行切分。

网站越大,功能越复杂,服务和数据处理的种类也越多,将这些不同的功能和服务分隔开来,包装成高内聚低耦合的模块单元,不仅有助于软件的开发维护也便于不同模块的分布式部署,提高网站的并发处理能力和功能扩展能力。

大型网站分隔的粒度可能会很小。比如在应用层,将不同业务进行分隔,例如将购物、论坛、搜索、广告分隔成不同的应用,有对立的团队负责,部署在不同的服务器上。

 

4、异步

使用异步,业务之间的消息传递不是同步调用,而是将一个业务操作分成多个阶段,每个阶段之间通过共享数据的方法异步执行进行协作。

具体实现则在单一服务器内部可用通过多线程共享内存的方式处理;

在分布式系统中,可用通过分布式消息队列来实现异步

异步架构的典型就是生产者消费者方式,两者不存在直接调用

 

5、分布式

对于大型网站,分层和分隔的一个主要目的是为了切分后的模块便于分布式部署,即将不同模块部署在不同的服务器上,通过远程调用协同工作。分布式意味着可以使用更多的计算机完同样的工作,计算机越多,CPU、内存、存储资源就越多,能过处理的并发访问和数据量就越大,进而能够为更多的用户提供服务。

在网站应用中,常用的分布式方案有一下几种.

1)分布式应用和服务:

将分层和分隔后的应用和服务模块分布式部署,可以改善网站性能和并发性、加快开发和发布速度、减少数据库连接资源消耗。

2)分布式静态资源:

网站的静态资源如JS、CSS、Logo图片等资源对立分布式部署,并采用独立的域名,即人们常说的动静分离。静态资源分布式部署可以减轻应用服务器的负载压力;通过使用独立域名加快浏览器并发加载的速度。

3)分布式数据和存储:

大型网站需要处理以P为单位的海量数据,单台计算机无法提供如此大的存储空间,这些数据库需要分布式存储。

4)分布式计算:

目前网站普遍使用Hadoop和MapReduce分布式计算框架进行此类批处理计算,其特点是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。

 

6、安全

网站在安全架构方面有许多模式:

  1. 通过密码和手机校验码进行身份认证;
  2. 登录、交易需要对网络通信进行加密
  3. 为了防止机器人程序滥用资源,需要使用验证码进行识别;
  4. 对常见的XSS攻击、SQL注入需要编码转换
  5. 垃圾信息需要过滤等。

 

7、自动化

具体有自动化发布过程,自动化代码管理、自动化测试、自动化安全检测、自动化部署、自动化监控、自动化报警、自动化失效转移、自动化失效恢复等。

 

8、集群

对于用户访问集中的模块需要将独立部署的服务器集群化,即多台服务器部署相同的应用构成一个集群,通过负载均衡设备共同对外提供服务。

服务器集群能够为相同的服务提供更多的并发支持,因此当有更多的用户访问时,只需要向集群中加入新的机器即可;

另外可以实现当其中的某台服务器发生故障时,可以通过负载均衡的失效转移机制将请求转移至集群中其他的服务器上,因此可以提高系统的可用性。

 

9、缓存

缓存目的就是减轻服务器的计算,使数据直接返回给用户。在现在的软件设计中,缓存已经无处不在。

具体实现有CDN、反向代理、本地缓存、分布式缓存等。

使用缓存有两个条件:访问数据热点不均衡,即某些频繁访问的数据需要放在缓存中;

数据在某个时间段内有效,不过很快过期,否在会因为数据过期而脏读,影响数据的正确性。

 

参考推荐:

高可用网站架构的技术实践

大型网站技术架构的知识总结

大型网站技术架构的演化历程

大型网站的技术架构分析整理

大型网站架构技术知识点一览

BAT等互联网巨头的技术架构演进之路

大型网站技术架构:核心原理与案例分析

Nginx 架构模型深入分析

Nginx 设计原理与技术架构

Nginx 百万并发的优化之道

LNMP(CentOS+Nginx+Mysql+PHP)服务器环境配置

Nginx 限制单个IP的并发连接数/速度防止恶意攻击/蜘蛛爬虫采集

PHP解决网站大数据大流量与高并发

PHP 高并发下请求 Redis 异常处理

Apache、Nginx、Tomcat 区别

Apache 和 Nginx 对比

Docker 底层技术详解

阿里中间件团队介绍

IT,互联网科技,技术博客网站推荐