一、技术起源
1960年以前,计算机以大型机为核心,采用集中式架构,存在资源利用率低、扩展性差、可靠性不足等缺点。
1965年,美国MIT提出了分时系统(Time-Sharing System),首次实现多用户共享单台计算机资源,催生“资源共享”核心思想。
1969年,ARPANET诞生,标志着计算机网络技术开始萌芽。
1970年,分布式系统概念正式提出(J.McCarthy),定义了多台独立计算机通过网络协同完成任务的核心框架。
1976年,以太网技术商业化(Xerox PARC,即施乐帕克研究中心),解决了分布式节点间的低成本、高可靠通信问题,成为分布式网络的底层支撑。
1978年,Leslie Lamport提出“拜占庭将军问题”,为分布式节点间的信任与一致性提供了理论模型(后续衍生出Paxos、Raft等核心算法)。
1980年,Sun Microsystems提出“网络就是计算机”的概念,奠定了分布式计算的核心理念:将地理分散的资源整合为逻辑上的“超级计算机”。
二、技术探索与标准化发展
2003年,Google GFS诞生,它是构件在廉价服务器之上的大型分布式文件系统,由Master、ChunkServer和客户端组成,文件被切分为固定大小的Chunk。Master管理元数据,租约机制用于优化写操作,一致性模型主要针对追加操作。GFS通过副本和租约实现容错,同时具备负载均衡、垃圾回收和快照功能。它解决了海量数据的分布式存储和高吞吐访问问题。
2004年,Google公司的MapReduce诞生,它是一种编程模型,用于大规模数据集的并行计算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。其软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
2006年,Doug Cutting(道格•卡丁)开发了Hadoop,包括Hadoop HDFS、Hadoop MapReduce。
这个阶段,处在传统互联网时期,Google搜索开始大踏步发展。
三、规模化与多样化发展
2010年,加州大学伯克利分校的AMP实验室开发了Spark,核心目标是解决Hadoop MapReduce的低效问题。
也是2010年,雅虎研究院开发了ZooKeeper,它是为分布式应用提供一致性服务的软件,提供分布式锁、配置管理、节点发现等核心能力,成为分布式系统的神经系统。
2013年,Spark被捐赠给了Apache软件基金会,开始加速发展,增加了Spark streaming模块,用于处理流式计算问题。
同年(2013年),Docker在法国公开亮相,这是一款开源的容器化平台,核心功能是将应用程序及其依赖(如库、配置文件、运行时环境)打包到一个标准化的“容器”中,实现“一次构建,到处运行”。
2014年,Apache Flink诞生,用于流处理,其核心是分布式流数据流引擎。
同年(2014年),Google上线了Kubernetes,这是一款开源的容器集群管理系统,旨在实现容器化应用的自动化部署、扩展与管理。在云计算领域,Kubernetes是一个伟大的存在,它统一了云语义,让多云、混合云实现了统一管理。
从2010年到2015年,移动互联网爆发,数据量呈指数级增长,实时性需求提升,数据处理也从离线批处理发展到实时流处理。电商交易、社交网络、金融实时风控与实时支付清算、工业物联网和工程物联网,在这一时期涌现。
四、云原生与智能化
从2016年至今进入云原生与智能化阶段,核心特征是分布式计算与云计算、人工智能深度融合,走向“云原生分布式系统”,强调弹性伸缩、高可用、智能化调度。
1、云原生架构:包括Serverless、Service Mesh等。
2016年举办了第一届Serverless vconf大会。Serverless,包括函数即服务,后端即服务,迄今Serverless平台有亚马逊的AWS Lambda、微软的Azure Functions、谷歌的Cloud Functions等,阿里云、腾讯云、百度、华为等也陆续布局。
Service Mesh本质是“微服务通信的专业化管家”,其通过Sidecar代理层剥离通信逻辑,以“数据平面+控制平面”的架构,提供统一的流量管理、安全通信、可观测性能力,解决了大规模微服务架构的通信复杂性问题。
2016年Buoyant公司在SF Microservices大会上首次公开使用了Service Mesh这一术语,该公司开发的Linkerd是业界第一个Service Mesh项目。
2、分布式AI框架,包括Google公司2016年发布的TensorFlow Distributed、Facebook公司2018年发布的PyTorch Distributed,支持大规模深度学习模型的分布式训练(多GPU、多节点协同)。
3、边缘计算,将分布式节点部署在靠近终端设备的边缘侧(基站、边缘服务器),降低延迟、减少网络带宽占用,适配物联网与实时AI场景。
2015年欧洲电信标准化协会发布移动边缘计算白皮书,同年开放雾联盟成立,助力边缘计算推进。2016年IEEE和ACM共同发起边缘计算研讨会,且中国华为、中国科学院沈阳自动化研究所等单位联合成立边缘计算产业联盟,2017年中国自动化学会边缘计算专业委员会成立。2018年,阿里云发布了Link Edge,微软发布了Azure loT Edge。
4、分布式数据库,NewSQL(如Spanner、TiDB)、NoSQL(如MongoDB、Cassandra),解决了传统关系型数据库的扩展瓶颈,支持海量数据的分布式事务与高并发访问。
2017年,Google发布了Cloud Spanner,开始向全球企业和开发者提供分布式数据库商用服务。
TiDB是中国主流分布式数据库,最早是2015年刘奇、黄东旭、崔秋创立的PingCAP公司开发的,2024年发布了8.5LTS版本,2025年已能适配AI应用场景。
MongoDB发布于2009年,到2019年已实现完整的分布式事务能力。
Cassandra最早由Facebook于2007年开发,2010年2月成为Apache基金会的顶级项目,2023年,Cassandra5.0版本已具备完整的ACID分布式事务能力。
这一阶段的典型应用场景有自动驾驶、大模型训练、工业互联网等。