关系型数据库
- MySQL:全球最流行的开源数据库。
- PostgreSQL:功能强大的先进开源数据库。
- Oracle Database:企业级对象关系数据库管理系统。
- Teradata:高性能MPP数据仓库平台,应用较少。
框架
- Bistro:支持批处理与流分析的通用数据处理引擎,基于函数化数据模型。
- IBM Streams:集成Kafka、HDFS、Spark等技术的实时分析平台。
- Apache Hadoop:分布式计算框架,包含MapReduce、YARN和HDFS核心组件。
- Tigon:高吞吐量实时流处理框架。
- Pachyderm:基于Docker和Kubernetes的数据处理平台,适用于可重复分析场景。
- Polyaxon:可扩展的机器学习与深度学习平台。
分布式编程
- AddThis Hydra:由AddThis开发的分布式数据处理系统。
- AMPLab SIMR:在Hadoop MapReduce v1上运行Spark的早期实现。
- Apache APEX:统一的企业级大数据流与批处理平台。
- Apache Beam:定义和执行数据工作流的统一编程模型及多语言SDK。
- Apache Crunch:简化复杂数据操作(如Join和聚合)的Java API。
- Apache DataFu:LinkedIn为Hadoop和Pig开发的用户自定义函数库。
- Apache Flink:支持有状态计算的流批一体分布式处理引擎。
- Apache Gearpump:基于Akka的实时流处理引擎。
- Apache Gora:内存数据模型与持久化框架。
- Apache Hama:Bulk Synchronous Parallel(BSP)计算框架。
- Apache MapReduce:用于大规模数据集并行处理的编程模型。
- Apache Pig:表达Hadoop数据分析程序的高级语言。
- Apache REEF:简化底层大数据系统开发的执行框架。
- Apache S4:可扩展、容错的连续数据流处理平台。
- Apache Spark:快速通用的大规模数据处理引擎。
- Apache Spark Streaming:Spark中的实时流处理模块。
- Apache Storm:Twitter开发的流处理框架,支持YARN部署。
- Apache Samza:基于Kafka和YARN的流处理框架。
- Apache Tez:支持复杂DAG任务的YARN应用程序框架。
- Apache Twill:降低YARN上分布式应用开发复杂度的抽象层。
- Baidu Bigflow:提供灵活API的分布式计算接口。
- Cascalog:Clojure环境下的数据处理与查询库。
- Cheetah:构建于MapReduce之上的高性能自定义数据仓库。
- Concurrent Cascading:Hadoop上的数据管理与分析框架。
- Damballa Parkour:为Clojure设计的MapReduce库。
- Datasalt Pangool:替代传统MapReduce范式的处理方案。
- DataTorrent StrAM:低开销、高性能的实时内存计算引擎。
- Facebook Corona:消除Hadoop单点故障的增强系统。
- Facebook Peregrine:Facebook内部MapReduce框架。
- Facebook Scuba:分布式内存数据存储系统。
- Google Dataflow:用于构建数据摄取、转换与分析管道的平台。
- Google MapReduce:原始MapReduce框架。
- Google MillWheel:容错流处理系统,支持大规模实时处理。
- IBM Streams:支持地理空间、时间序列等高级分析的实时处理平台。
- JAQL:用于结构化与非结构化数据的声明式查询语言。
- Kite:简化Hadoop生态系统开发的工具集。
- Metamarkets Druid:面向实时分析的大规模数据框架。
- Netflix PigPen:基于Clojure的MapReduce库,兼容Pig和Cascading。
- Nokia Disco:诺基亚开发的MapReduce框架。
- Onyx:面向云环境的分布式计算平台。
- Pinterest Pinlater:异步作业调度系统。
- Pydoop:支持Python的Hadoop扩展API。
- Ray:构建分布式应用的高效框架。
- Rackerlabs Blueflood:多租户度量处理系统。
- Skale:基于NodeJS的高性能分布式处理框架。
- Stratosphere:通用集群计算框架。
- Streamdrill:用于识别事件流中最活跃时间窗口的工具。
- streamsx.topology:用于构建IBM Streams应用的Java/Python/Scala库。
- Tuktu:基于Scala、Akka和Play的易用批流处理平台。
- Twitter Heron:替代Storm的高性能、容错流处理引擎。
- Twitter Scalding:基于Cascading的Scala MapReduce库。
- Twitter Summingbird:支持在Storm和Scalding上执行的MapReduce类库。
- Twitter TSAR:时间序列聚合工具。
- Wallaroo:支持有状态流处理与AI应用的弹性数据引擎。
分布式文件系统
- Ambry:支持海量小对象或大对象存储的分布式对象存储系统。
- Apache HDFS:高吞吐访问的应用级分布式文件系统。
- Apache Kudu:Hadoop生态中支持快速分析的存储层。
- BeeGFS:高性能并行分布式文件系统。
- Ceph Filesystem:支持POSIX标准的分布式文件系统。
- Disco DDFS:分布式文件系统。
- Facebook Haystack:优化照片存储的对象存储系统。
- Google Colossus:GFS第二代分布式文件系统。
- Google GFS:Google基础分布式文件系统。
- Google Megastore:高可用、可扩展的结构化存储系统。
- GridGain GGFS:兼容Hadoop的内存文件系统。
- Lustre:高性能大规模并行文件系统。
- Microsoft Azure Data Lake Store:Azure上的HDFS兼容存储服务。
- Quantcast QFS:开源分布式文件系统。
- Red Hat GlusterFS:横向扩展的网络附加存储系统。
- Seaweed-FS:轻量且高度可扩展的分布式文件系统。
- Alluxio:基于内存的开源分布式存储系统。
- Tahoe-LAFS:去中心化的云存储系统。
- Baidu File System:百度自研分布式文件系统。
分布式索引
- Pilosa:开源分布式位图索引,加速跨大规模数据集的查询。
文档数据模型
- Actian Versant:面向对象的商业数据库。
- Crate Data:无需管理的大规模可扩展文档存储。
- Facebook Apollo:类Paxos的NoSQL数据库。
- jumboDB:基于Hadoop的文档存储系统。
- LinkedIn Espresso:可水平扩展的文档型NoSQL数据库。
- MarkLogic:模式无关的企业级NoSQL数据库。
- Microsoft Azure DocumentDB:支持MongoDB协议的NoSQL云服务。
- MongoDB:主流面向文档的数据库系统。
- RavenDB:支持事务的开源文档数据库。
- RethinkDB:支持Join和Group By的文档数据库。
键映射数据模型
该模型围绕“键-映射”结构设计,常用于分布式持久化存储。部分系统支持“列族”概念,多个值映射可关联同一键。注意区分此模型与按列存储的“列式数据库”。
- Apache Accumulo:基于Hadoop的分布式键值存储。
- Apache Cassandra:受BigTable启发的列式分布式数据库。
- Apache HBase:基于Hadoop的列式数据存储。
- Baidu Tera:管理万亿级网页链接的高性能表格存储。
- Facebook HydraBase:HBase的演进版本。
- Google BigTable:Google的结构化数据分布式存储系统。
- Google Cloud Datastore:基于BigTable的无模式数据库服务。
- Hypertable:受BigTable启发的开源列式存储。
- InfiniDB:通过MySQL接口访问的MPP列式数据库。
- Tephra:为HBase提供事务支持的框架。
- Twitter Manhattan:实时、多租户分布式数据库。
- ScyllaDB:兼容Cassandra的C++高性能列式数据库。
键值数据模型
- Aerospike:高可用、支持ACID的NoSQL键值数据库。
- Amazon DynamoDB:Dynamo论文实现的分布式KV存储。
- Badger:Go语言编写的高效持久化键值存储。
- Bolt:Go嵌入式键值数据库。
- BTDB:.NET平台的键值数据库,集成对象层与RPC。
- BuntDB:Go语言内存键值数据库,支持地理空间索引。
- Edis:Redis协议兼容的替代数据库。
- ElephantDB:专为Hadoop导出数据设计的分布式数据库。
- EventStore:分布式时间序列数据库。
- GridDB:适用于物联网与大数据的高可靠NoSQL数据库。
- HyperDex:具备一致性与高性能的下一代键值存储。
- Ignite:支持持久化、事务和SQL的分布式内存数据库。
- LinkedIn Krati:低延迟、高吞吐的持久化存储。
- LinkedIn Voldemort:分布式键值存储系统。
- Oracle NoSQL Database:Oracle推出的分布式KV存储。
- Redis:内存数据结构存储,广泛用于缓存、数据库与消息中间件。
- Riak:去中心化数据库存储系统。
- Storehaus:Twitter开发的异步键值存储库。
- SummitDB:支持Raft一致性的内存NoSQL数据库。
- Tarantool:结合Lua应用服务器的高性能NoSQL数据库。
- TiKV:受Spanner启发的Rust语言分布式键值数据库。
- Tile38:支持地理围栏的空间数据库。
- TreodeDB:支持多行原子写入的键值存储。
图数据模型
- AgensGraph:基于PostgreSQL的多模型图数据库。
- Apache Giraph:基于Hadoop的可扩展图处理系统,源自Pregel。
- ArangoDB:支持多种数据模型的分布式数据库。
- DGraph:可扩展、低延迟的图数据库,支持TB级实时查询。
- EliasDB:轻量级独立图数据库。
- Facebook TAO:支撑社交图谱的分布式数据存储。
- GCHQ Gaffer:支持统计属性更新的大规模图数据库。
- Google Cayley:开源图数据库。
- Google Pregel:大规模图处理框架。
- GraphLab PowerGraph:基于C++的高性能图计算工具包。
- GraphX:Spark生态中的分布式图处理框架。
- Gremlin:图遍历查询语言。
- Infovore:基于Hadoop的RDF数据处理框架。
- Intel GraphBuilder:基于Hadoop的大图构建工具。
- JanusGraph:支持多种后端存储与索引的开源图数据库。
- MapGraph:用于GPU加速图分析的高级API。
- Microsoft Graph Engine(Trinity):基于内存的大规模图处理引擎。
- Neo4j:高性能Java实现的图数据库。
- OrientDB:融合文档与图特性的数据库。
- Titan:基于Cassandra的分布式图数据库。
- Twitter FlockDB:分布式图数据库。
- NodeXL:Excel插件,用于网络图分析。
列式数据库
列式存储将相同列的数据连续存放,优化分析型查询性能,特别适用于OLAP场景。
- Columnar Storage:介绍列式存储原理与适用场景。
- Actian Vector:面向列的分析型数据库。
- C-Store:开创性列式数据库系统。
- ClickHouse:高性能开源OLAP数据库。
- EventQL:面向大规模事件分析的列式数据库。
- MonetDB:高效列式存储数据库。
- Parquet:源自Google Dremel的列式存储格式,跨平台通用。
- Pivotal Greenplum:支持列式与行式双引擎的数据仓库。
- Vertica:高速查询的大规模数据管理数据库。
- SQream DB:基于GPU的列式数据库,适用于10TB–1PB级数据。
- Google BigQuery:基于Dremel实现的Web SQL服务。
- Amazon Redshift:企业级PB级列式数据仓库。
- IndexR:提升IO效率的开源大数据存储格式。
- LocustDB:实验性高性能并行分析数据库。
NewSQL 数据库
- Actian Ingres:开源支持的SQL关系数据库。
- ActorDB:基于Actor模型的分布式SQL数据库。
- Amazon RedShift:基于PostgreSQL的数据仓库服务。
- BayesDB:内置贝叶斯查询语言的智能数据库。
- Bedrock:构建于SQLite之上的分布式事务层。
- CitusDB:通过分片扩展PostgreSQL。
- Cockroach:可扩展、支持地理复制的事务型存储。
- Comdb2:基于乐观并发控制的集群RDBMS。
- Datomic:支持智能应用的分布式数据库。
- FoundationDB:受F1启发的分布式数据库。
- Google F1:构建于Spanner之上的分布式SQL数据库。
- Google Spanner:全球级、多版本、同步复制的分布式数据库。
- H-Store:面向在线交易处理的实验性数据库。
- Haeinsa:HBase上的可扩展多表事务库。
- HandlerSocket:MySQL/MariaDB的NoSQL插件。
- InfiniSQL:无限扩展的关系型数据库。
- Map-D:基于GPU的内存数据库与可视化平台。
- MemSQL:将SQL预编译为C++的内存数据库。
- NuoDB:符合SQL/ACID标准的分布式数据库。
- Oracle TimesTen:基于内存的关系数据库。
- Pivotal GemFire XD:低延迟、基于内存的分布式SQL存储。
- SAP HANA:内存、列式、关系型数据库系统。
- SenseiDB:分布式、实时半结构化数据库。
- SymmetricDS:支持文件与数据库同步的开源工具。
- TiDB:受F1启发的HTAP融合型数据库,支持水平扩展与分布式事务。
- VoltDB:号称最快的内存数据库。
时间序列数据库
- Axibase TSDB:基于HBase的时间序列数据库,支持可视化与规则引擎。
- Chronix:高压缩、快速检索的时间序列存储。
- Cube:使用MongoDB存储时间序列数据。
- Heroic:基于Cassandra和Elasticsearch的可扩展TSDB。
- InfluxDB:开源分布式时间序列数据库。
- IronDB:通用可扩展时间序列数据库。
- Kairosdb:基于Cassandra的OpenTSDB替代方案。
- M3DB:支持长期存储的分布式指标数据库。
- Newts:基于Cassandra的时间序列数据库。
- OpenTSDB:基于HBase的分布式时间序列系统。
- Prometheus:主流监控与时间序列数据库。
- Beringei:Facebook的内存时间序列数据库。
- TrailDB:高效存储与查询事件序列的工具。
- Druid:MetaMarket开发的高性能OLAP分析系统。
- Riak-TS:专为IoT优化的企业级时间序列数据库。
- Akumuli:数值型时间序列数据库。
- Rhombus:Cassandra上的时间序列对象存储。
- Dalmatiner DB:快速分布式度量数据库。
- Blueflood:大规模时间序列数据处理系统。
- Timely:基于Accumulo与Grafana的安全时间序列访问系统。
- SiriDB:支持集群的高性能开源TSDB。
- Thanos:构建高可用、无限存储Prometheus系统的组件集合。
- VictoriaMetrics:兼容Prometheus的高性能开源TSDB。
类SQL处理系统
- Actian SQL for Hadoop:高性能交互式SQL查询引擎。
- Apache Drill:支持ANSI SQL的分布式查询引擎,受Dremel启发。
- Apache HCatalog:Hadoop表存储管理工具。
- Apache Hive:基于Hadoop的数据仓库,提供类SQL查询。
- Apache Calcite:SQL解析与优化框架。
- Apache Phoenix:构建于HBase之上的低延迟SQL层。
- Aster Database:支持类SQL分析处理。
- Cloudera Impala:受Dremel启发的实时SQL查询工具。
- Concurrent Lingual:Cascading上的SQL语言实现。
- Datasalt Splout SQL:针对大数据集的完整SQL引擎。
- Facebook PrestoDB:分布式SQL查询引擎。
- Google BigQuery:基于Dremel实现的Web SQL服务。
- PipelineDB:支持流式SQL处理的关系数据库。
- Pivotal HDB:Hadoop上的类SQL数据仓库。
- RainstorDB:支持PB级结构化数据存储。
- Spark Catalyst:Spark的查询优化框架。
- SparkSQL:Spark中处理结构化数据的模块。
- Splice Machine:支持ACID的SQL+NoSQL混合数据库。
- Stinger:提升Hive性能的优化项目。
- Tajo:Hadoop之上的分布式数据仓库系统。
- Trafodion:基于Hadoop的事务型SQL引擎。
数据摄取
- Amazon Kinesis:AWS平台上的实时流数据处理服务。
- AWS Glue:完全托管的ETL服务。
- Apache Chukwa:大数据采集系统。
- Apache Flume:可靠收集、汇总日志数据的分布式系统。
- Apache Kafka:分布式发布订阅消息系统。
- Apache NiFi:强大可靠的数据处理与分发平台。
- Apache Sqoop:在Hadoop与传统数据库间传输数据的工具。
- Cloudera Morphlines:ETL数据加载至Solr、HBase等的框架。
- Embulk:跨数据源批量加载工具。
- Facebook Scribe:日志数据聚合系统。
- Fluentd:统一日志收集工具。
- Google Photon:地理分布式、低延迟流数据连接系统。
- Heka:开源流处理系统。
- HIHO:连接异构数据源与Hadoop的框架。
- Kestrel:分布式消息队列。
- LinkedIn Databus:低延迟、事务性数据变更捕获系统。
- Logstash:开源日志收集与处理工具。
- Netflix Suro:事件数据收集与转发工具。
- Pinterest Secor:Kafka日志持久化服务。
- LinkedIn Gobblin:分布式数据集成框架。
- Skizze:概率数据结构服务。
- StreamSets Data Collector:可视化大数据摄取工具。
- Yahoo Pulsar:企业级发布订阅消息系统。
- Alooma:实时数据管道服务。
服务编程
- Akka Toolkit:基于Actor模型的高并发应用开发平台。
- Apache Avro:数据序列化系统。
- Apache Curator:ZooKeeper开发类库。
- Apache Karaf:基于OSGi的轻量级容器。
- Apache Thrift:Facebook开源的跨语言RPC框架。
- Apache Zookeeper:分布式协调服务。
- Google Chubby:基于Paxos的分布式锁服务。
- Hydrosphere Mist:将Spark任务转为Web服务的平台。
- LinkedIn Norbert:集群管理系统。
- Mara:轻量级自定义ETL框架。
- OpenMPI:消息传递接口框架。
- Serf:去中心化服务发现与编排工具。
- Spotify Luigi:Python批处理工作流管理工具。
- Spring XD:分布式数据处理与导出系统。
- Twitter Elephant Bird:处理lzop压缩数据的库。
- Twitter Finagle:JVM异步网络堆栈。
调度
- Apache Airflow:Airbnb开源的工作流管理平台。
- Apache Aurora:Mesos上的长期服务与作业调度框架。
- Apache Falcon:数据管理框架。
- Apache Oozie:Hadoop工作流调度器。
- Azure Data Factory:混合数据集成ETL服务。
- Chronos:分布式容错调度器。
- LinkedIn Azkaban:批处理工作流调度系统。
- Schedoscope:Hadoop作业的Scala DSL调度器。
- Sparrow:通用调度平台。
机器学习
- Azure ML Studio:基于云的R/Python机器学习平台。
- brain:JavaScript神经网络库。
- Cloudera Oryx:实时大规模机器学习系统。
- DataVec:Deeplearning4j生态中的数据预处理库。
- Deeplearning4j:JVM平台深度学习框架。
- ENCOG:支持多种算法的机器学习框架。
- Feast:机器学习特征存储系统。
- GraphLab Create:Python机器学习平台。
- H2O:支持Hadoop、R、Python的机器学习平台。
- Keras:高层神经网络API,支持TensorFlow等后端。
- Lambdo:整合特征工程与模型训练的工作流引擎。
- Mahout:可扩展的经典机器学习算法实现。
- MLbase:Spark生态中的机器学习系统。
- MOA:实时流数据挖掘框架。
- MonkeyLearn:文本分类与提取工具。
- ND4J:JVM上的矩阵计算库。
- PredictionIO:开源机器学习服务平台。
- RL4J:Deeplearning4j集成的强化学习框架。
- SAMOA:分布式流式机器学习框架。
- scikit-learn:Python主流机器学习库。
- Spark MLlib:Spark中的机器学习库。
- TensorFlow:谷歌开源的数值计算与机器学习框架。
- Theano:Python机器学习库。
- Torch:BSD许可的机器学习框架。
- Vowpal Wabbit:高速学习系统。
- WEKA:经典机器学习软件套件。
Benchmarking
- Apache Hadoop Benchmarking:Hadoop性能微基准测试。
- Berkeley SWIM Benchmark:真实大数据负载基准。
- Intel HiBench:Hadoop基准测试套件。
- PUMA Benchmarking:MapReduce应用基准测试。
- Yahoo Gridmix3:Hadoop集群压力测试工具。
- Deeplearning4j Benchmarks:深度学习性能测试。
安全
- Apache Ranger:Hadoop综合数据安全管理框架。
- Apache Eagle:检测大数据平台安全问题的开源方案。
- Apache Knox Gateway:Hadoop REST API网关。
- Apache Sentry:Hadoop细粒度访问控制框架。
- BDA:Hadoop与Spark漏洞检测工具。
系统部署
- Apache Ambari:Hadoop集群部署、监控与管理工具。
- Apache Bigtop:大数据组件打包与配置项目。
- Apache Helix:集群管理框架。
- Apache Mesos:资源隔离与共享的集群管理器。
- Apache Slider:在YARN上部署分布式应用的工具。
- Apache Whirr:云服务Java类库。
- Apache YARN:Hadoop资源管理系统。
- Brooklyn:简化应用部署与管理的库。
- Buildoop:类似BigTop的Groovy开发项目。
- Cloudera HUE:Hadoop交互式Web应用。
- Facebook Prism:多数据中心复制系统。
- Google Borg:Google内部集群管理系统。
- Google Omega:Google第三代集群管理框架。
- Hortonworks HOYA:YARN上部署HBase的工具。
- Kubernetes:基于Docker的容器集群管理系统。
- Marathon:Mesos长服务运行框架。
应用程序
- 411:警报管理Web应用。
- Adobe Spindle:基于Spark的Web分析系统。
- Apache Kiji:HBase上的实时数据采集与分析框架。
- Apache Metron:安全遥测与威胁响应平台。
- Apache Nutch:开源Web爬虫。
- Apache OODT:NASA数据管理系统。
- Apache Tika:内容检测与分析框架。
- Argus:时序监控报警平台。
- AthenaX:生产级流分析平台。
- Atlas:维度时间序列数据管理系统。
- Countly:基于Node.js的开源分析平台。
- Domino:模型运行与部署平台。
- Eclipse BIRT:基于Eclipse的报表系统。
- ElastAert:Elasticsearch监控报警工具。
- Eventhub:开源事件分析平台。
- Hermes:基于Kafka的异步消息代理。
- HIPI Library:Hadoop图像处理API。
- Hunk:Hadoop分析工具。
- Imhotep:大型分析平台。
- Jupyter:交互式计算Web应用。
- MADlib:RDBMS数据分析库。
- Kapacitor:时间序列处理与告警框架。
- Kylin:支持亚秒级查询的OLAP引擎。
- PivotalR:在HAWQ/PostgreSQL上运行R。
- Rakam:基于PostgreSQL/Kinesis/Presto的实时分析平台。
- Qubole:自动扩缩容的Hadoop平台。
- Sense:数据科学云平台。
- SnappyData:统一OLTP+OLAP+流式内存数据库。
- Snowplow:企业级Web与事件分析系统。
- SparkR:Spark的R前端。
- Splunk:商业化日志分析产品。
- Sumo Logic:基于云的日志分析服务。
- Talend:统一开源大数据开发环境。
- Warp:大数据示例查询工具(macOS)。
搜索引擎和框架
- Apache Lucene:全文检索开源库。
- Apache Solr:基于Lucene的企业搜索平台。
- Elassandra:ElasticSearch与Cassandra集成方案。
- ElasticSearch:基于Lucene的分布式全文搜索引擎。
- Facebook Unicorn:社交图搜索平台。
- Google Percolator:增量索引更新系统。
- HBase Coprocessor:Percolator在HBase的实现。
- Lily HBase Indexer:Solr与HBase集成索引工具。
- LinkedIn Bobo:Lucene扩展的分面搜索实现。
- LinkedIn Cleo:前缀搜索与自动补全库。
- LinkedIn Galene:LinkedIn搜索架构。
- LinkedIn Zoie:实时搜索/索引系统。
- MG4J:Java高性能全文搜索引擎。
- Sphinx:全文搜索引擎。
- Vespa:大规模低延迟计算与搜索引擎。
MySQL 分支和演进
- Amazon RDS:AWS托管MySQL服务。
- Drizzle:MySQL 6.0演进版本。
- Google Cloud SQL:Google云MySQL服务。
- MariaDB:兼容MySQL的GPL开源分支。
- MySQL Cluster:基于NDB引擎的集群方案。
- Percona Server:增强版MySQL。
- ProxySQL:高性能MySQL代理。
- TokuDB:MySQL/MariaDB的高性能存储引擎。
- WebScaleSQL:Facebook、Google等联合优化的MySQL分支。
PostgreSQL 分支和演进
- HadoopDB:MapReduce与DBMS混合架构。
- IBM Netezza:高性能数据仓库设备。
- Postgres-XL:可扩展PostgreSQL集群。
- RecDB:PostgreSQL内建推荐引擎。
- Stado:MPP数据仓库系统。
- Yahoo Everest:PB级PostgreSQL衍生数据库。
- TimescaleDB:优化时间序列处理的PostgreSQL扩展。
- PipelineDB:基于PostgreSQL的流式数据库。
Memcached 分支和演进
- Facebook McDipper:闪存优化的键值缓存。
- Facebook Memcached:Memcache定制分支。
- Twemproxy:轻量级memcached/redis代理。
- Twitter Fatcache:闪存键值缓存系统。
- Twitter Twemcache:Memcache改进版本。
嵌入式数据库
- Actian PSQL:嵌入式ACID兼容数据库。
- BerkeleyDB:高性能嵌入式键值数据库。
- LevelDB:Google开源的嵌入式KV存储。
- LMDB:基于mmap的高性能键值数据库。
- RocksDB:Facebook基于LevelDB优化的嵌入式引擎。
商业智能
- BIME Analytics:BI云平台。
- Chartio:数据可视化与分析平台。
- datapine:自助式BI工具。
- GoodData:BI与大数据分析软件。
- Jaspersoft:强大BI套件。
- Metabase:开源简单BI工具。
- Microstrategy:企业级BI平台。
- Pentaho:开源BI平台。
- Qlik:BI与分析平台。
- Redash:支持多数据源的开源BI平台。
- Tableau:主流商业智能平台。
- Zoomdata:大数据分析平台。
数据可视化
- AnyChart:灵活JavaScript图表库。
- Bokeh:Python交互式可视化库。
- C3:基于D3的可复用图表库。
- CartoDB:地理空间数据可视化平台。
- Chart.js:HTML5开源图表工具。
- Crossfilter + dc.js:交互式仪表板工具。
- D3:主流数据可视化库。
- D3Plus:D3增强图表组件。
- Echarts:百度开发的JavaScript可视化库。
- Frappe Charts:轻量级SVG图表库。
- Gephi:网络图分析可视化工具。
- Google Charts:交互式Web图表服务。
- Grafana:监控与可视化分析平台。
- Highcharts:丰富交互的JavaScript图表库。
- Matplotlib:Python数据可视化库。
- Plotly.js:支持20+图表类型的JavaScript库。
- ReCharts:基于React的图表库。
- Shiny:R语言Web应用框架。
- Superset:Airbnb开源数据探索平台。
- Zeppelin:Web Notebook交互分析工具。
物联网和传感器数据
- Apache Edgent:边缘设备流处理框架。
- Azure IoT Hub:Azure物联网双向通信服务。
- TempoIQ:云计算传感器分析平台。
- 2lemetry:物联网平台。
- Pubnub:实时数据流网络。
- ThingWorx:物联网数据整合与应用平台。
- IFTTT:基于条件触发的自动化服务平台。
参考资料
研究论文
- 2015 – Facebook – One Trillion Edges: Graph Processing at Facebook-Scale.
- 2014 – Stanford – Mining of Massive Datasets.
- 2013 – AMPLab – Presto, MLbase, Shark, GraphX;Google – MillWheel, F1, HyperLogLog;Metamarkets – Druid;Facebook – Scuba, Unicorn, Scaling Memcache.
- 2012 – Twitter – Unified Logging Infrastructure;AMPLab – Blink, Spark, Shark, BlinkDB;Microsoft – Paxos系列;Google – Spanner, Trillion Cells.
- 2010–2011 – Google – Pregel, Dremel, Percolator;Facebook – Haystack;AMPLab – Spark;Yahoo – S4.
- 2003–2009 – Google – GFS, MapReduce, Bigtable, Chubby;Amazon – Dynamo.
图书与视频
- 《Streaming Data》《Storm Applied》《Kafka in Action》《Spark in Action》等书籍涵盖流处理、实时分析与分布式系统实践。
- 《Distributed Systems for fun and profit》深入讲解分布式理论。
- 《Graph-Powered Machine Learning》探讨图与机器学习融合。
- 《The beauty of data visualization》《Hans Rosling's 200 Countries》等为经典可视化资料。
- 视频《Spark in Motion》指导Spark批处理与流分析实战。

