近年来,大数据技术的发展,不论技术迭代,还是生态圈的繁荣,都远超我们的想象。大数据技术的鼻祖Google开启了“三驾马车”时代——Google FS、MapReduce和BigTable,大数据逐渐成为浪潮之巅。从Spark成为Hadoop生态的一部分,到Flink横空出世取代Spark成为大数据处理领域的新星,再到如今Google想要用Apache Beam(原名Google Cloud DataFlow)一统天下,大数据技术的发展可谓跌宕起伏,波澜壮阔。我们可以看到一个有趣的现象,那就是与大数据相关的技术滥觞之地都与搜索引擎公司有关(例如,Google的“三驾马车”,Yandex的ClickHouse,Baidu的Doris等)——因为搜索引擎公司直面海量数据,要解决海量数据的快速查询、分析的问题。另外,Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene(开源全文检索引擎)的子项目之一。