大数跨境

史上最全的大数据技术大全

史上最全的大数据技术大全 章鱼大数据
2020-09-24
71
导读:关系型数据库MySQL 世界上最流行的开源数据库。PostgreSQL 世界上最先进的开源数据库。Oracl

关系型数据库

  • MySQL:全球最流行的开源数据库。
  • PostgreSQL:功能强大的先进开源数据库。
  • Oracle Database:企业级对象关系数据库管理系统。
  • Teradata:高性能MPP数据仓库平台,应用较少。

框架

  • Bistro:支持批处理与流分析的通用数据处理引擎,基于函数化数据模型。
  • IBM Streams:集成Kafka、HDFS、Spark等技术的实时分析平台。
  • Apache Hadoop:分布式计算框架,包含MapReduce、YARN和HDFS核心组件。
  • Tigon:高吞吐量实时流处理框架。
  • Pachyderm:基于Docker和Kubernetes的数据处理平台,适用于可重复分析场景。
  • Polyaxon:可扩展的机器学习与深度学习平台。

分布式编程

  • AddThis Hydra:由AddThis开发的分布式数据处理系统。
  • AMPLab SIMR:在Hadoop MapReduce v1上运行Spark的早期实现。
  • Apache APEX:统一的企业级大数据流与批处理平台。
  • Apache Beam:定义和执行数据工作流的统一编程模型及多语言SDK。
  • Apache Crunch:简化复杂数据操作(如Join和聚合)的Java API。
  • Apache DataFu:LinkedIn为Hadoop和Pig开发的用户自定义函数库。
  • Apache Flink:支持有状态计算的流批一体分布式处理引擎。
  • Apache Gearpump:基于Akka的实时流处理引擎。
  • Apache Gora:内存数据模型与持久化框架。
  • Apache Hama:Bulk Synchronous Parallel(BSP)计算框架。
  • Apache MapReduce:用于大规模数据集并行处理的编程模型。
  • Apache Pig:表达Hadoop数据分析程序的高级语言。
  • Apache REEF:简化底层大数据系统开发的执行框架。
  • Apache S4:可扩展、容错的连续数据流处理平台。
  • Apache Spark:快速通用的大规模数据处理引擎。
  • Apache Spark Streaming:Spark中的实时流处理模块。
  • Apache Storm:Twitter开发的流处理框架,支持YARN部署。
  • Apache Samza:基于Kafka和YARN的流处理框架。
  • Apache Tez:支持复杂DAG任务的YARN应用程序框架。
  • Apache Twill:降低YARN上分布式应用开发复杂度的抽象层。
  • Baidu Bigflow:提供灵活API的分布式计算接口。
  • Cascalog:Clojure环境下的数据处理与查询库。
  • Cheetah:构建于MapReduce之上的高性能自定义数据仓库。
  • Concurrent Cascading:Hadoop上的数据管理与分析框架。
  • Damballa Parkour:为Clojure设计的MapReduce库。
  • Datasalt Pangool:替代传统MapReduce范式的处理方案。
  • DataTorrent StrAM:低开销、高性能的实时内存计算引擎。
  • Facebook Corona:消除Hadoop单点故障的增强系统。
  • Facebook Peregrine:Facebook内部MapReduce框架。
  • Facebook Scuba:分布式内存数据存储系统。
  • Google Dataflow:用于构建数据摄取、转换与分析管道的平台。
  • Google MapReduce:原始MapReduce框架。
  • Google MillWheel:容错流处理系统,支持大规模实时处理。
  • IBM Streams:支持地理空间、时间序列等高级分析的实时处理平台。
  • JAQL:用于结构化与非结构化数据的声明式查询语言。
  • Kite:简化Hadoop生态系统开发的工具集。
  • Metamarkets Druid:面向实时分析的大规模数据框架。
  • Netflix PigPen:基于Clojure的MapReduce库,兼容Pig和Cascading。
  • Nokia Disco:诺基亚开发的MapReduce框架。
  • Onyx:面向云环境的分布式计算平台。
  • Pinterest Pinlater:异步作业调度系统。
  • Pydoop:支持Python的Hadoop扩展API。
  • Ray:构建分布式应用的高效框架。
  • Rackerlabs Blueflood:多租户度量处理系统。
  • Skale:基于NodeJS的高性能分布式处理框架。
  • Stratosphere:通用集群计算框架。
  • Streamdrill:用于识别事件流中最活跃时间窗口的工具。
  • streamsx.topology:用于构建IBM Streams应用的Java/Python/Scala库。
  • Tuktu:基于Scala、Akka和Play的易用批流处理平台。
  • Twitter Heron:替代Storm的高性能、容错流处理引擎。
  • Twitter Scalding:基于Cascading的Scala MapReduce库。
  • Twitter Summingbird:支持在Storm和Scalding上执行的MapReduce类库。
  • Twitter TSAR:时间序列聚合工具。
  • Wallaroo:支持有状态流处理与AI应用的弹性数据引擎。

分布式文件系统

  • Ambry:支持海量小对象或大对象存储的分布式对象存储系统。
  • Apache HDFS:高吞吐访问的应用级分布式文件系统。
  • Apache Kudu:Hadoop生态中支持快速分析的存储层。
  • BeeGFS:高性能并行分布式文件系统。
  • Ceph Filesystem:支持POSIX标准的分布式文件系统。
  • Disco DDFS:分布式文件系统。
  • Facebook Haystack:优化照片存储的对象存储系统。
  • Google Colossus:GFS第二代分布式文件系统。
  • Google GFS:Google基础分布式文件系统。
  • Google Megastore:高可用、可扩展的结构化存储系统。
  • GridGain GGFS:兼容Hadoop的内存文件系统。
  • Lustre:高性能大规模并行文件系统。
  • Microsoft Azure Data Lake Store:Azure上的HDFS兼容存储服务。
  • Quantcast QFS:开源分布式文件系统。
  • Red Hat GlusterFS:横向扩展的网络附加存储系统。
  • Seaweed-FS:轻量且高度可扩展的分布式文件系统。
  • Alluxio:基于内存的开源分布式存储系统。
  • Tahoe-LAFS:去中心化的云存储系统。
  • Baidu File System:百度自研分布式文件系统。

分布式索引

  • Pilosa:开源分布式位图索引,加速跨大规模数据集的查询。

文档数据模型

  • Actian Versant:面向对象的商业数据库。
  • Crate Data:无需管理的大规模可扩展文档存储。
  • Facebook Apollo:类Paxos的NoSQL数据库。
  • jumboDB:基于Hadoop的文档存储系统。
  • LinkedIn Espresso:可水平扩展的文档型NoSQL数据库。
  • MarkLogic:模式无关的企业级NoSQL数据库。
  • Microsoft Azure DocumentDB:支持MongoDB协议的NoSQL云服务。
  • MongoDB:主流面向文档的数据库系统。
  • RavenDB:支持事务的开源文档数据库。
  • RethinkDB:支持Join和Group By的文档数据库。

键映射数据模型

该模型围绕“键-映射”结构设计,常用于分布式持久化存储。部分系统支持“列族”概念,多个值映射可关联同一键。注意区分此模型与按列存储的“列式数据库”。

  • Apache Accumulo:基于Hadoop的分布式键值存储。
  • Apache Cassandra:受BigTable启发的列式分布式数据库。
  • Apache HBase:基于Hadoop的列式数据存储。
  • Baidu Tera:管理万亿级网页链接的高性能表格存储。
  • Facebook HydraBase:HBase的演进版本。
  • Google BigTable:Google的结构化数据分布式存储系统。
  • Google Cloud Datastore:基于BigTable的无模式数据库服务。
  • Hypertable:受BigTable启发的开源列式存储。
  • InfiniDB:通过MySQL接口访问的MPP列式数据库。
  • Tephra:为HBase提供事务支持的框架。
  • Twitter Manhattan:实时、多租户分布式数据库。
  • ScyllaDB:兼容Cassandra的C++高性能列式数据库。

键值数据模型

  • Aerospike:高可用、支持ACID的NoSQL键值数据库。
  • Amazon DynamoDB:Dynamo论文实现的分布式KV存储。
  • Badger:Go语言编写的高效持久化键值存储。
  • Bolt:Go嵌入式键值数据库。
  • BTDB:.NET平台的键值数据库,集成对象层与RPC。
  • BuntDB:Go语言内存键值数据库,支持地理空间索引。
  • Edis:Redis协议兼容的替代数据库。
  • ElephantDB:专为Hadoop导出数据设计的分布式数据库。
  • EventStore:分布式时间序列数据库。
  • GridDB:适用于物联网与大数据的高可靠NoSQL数据库。
  • HyperDex:具备一致性与高性能的下一代键值存储。
  • Ignite:支持持久化、事务和SQL的分布式内存数据库。
  • LinkedIn Krati:低延迟、高吞吐的持久化存储。
  • LinkedIn Voldemort:分布式键值存储系统。
  • Oracle NoSQL Database:Oracle推出的分布式KV存储。
  • Redis:内存数据结构存储,广泛用于缓存、数据库与消息中间件。
  • Riak:去中心化数据库存储系统。
  • Storehaus:Twitter开发的异步键值存储库。
  • SummitDB:支持Raft一致性的内存NoSQL数据库。
  • Tarantool:结合Lua应用服务器的高性能NoSQL数据库。
  • TiKV:受Spanner启发的Rust语言分布式键值数据库。
  • Tile38:支持地理围栏的空间数据库。
  • TreodeDB:支持多行原子写入的键值存储。

图数据模型

  • AgensGraph:基于PostgreSQL的多模型图数据库。
  • Apache Giraph:基于Hadoop的可扩展图处理系统,源自Pregel。
  • ArangoDB:支持多种数据模型的分布式数据库。
  • DGraph:可扩展、低延迟的图数据库,支持TB级实时查询。
  • EliasDB:轻量级独立图数据库。
  • Facebook TAO:支撑社交图谱的分布式数据存储。
  • GCHQ Gaffer:支持统计属性更新的大规模图数据库。
  • Google Cayley:开源图数据库。
  • Google Pregel:大规模图处理框架。
  • GraphLab PowerGraph:基于C++的高性能图计算工具包。
  • GraphX:Spark生态中的分布式图处理框架。
  • Gremlin:图遍历查询语言。
  • Infovore:基于Hadoop的RDF数据处理框架。
  • Intel GraphBuilder:基于Hadoop的大图构建工具。
  • JanusGraph:支持多种后端存储与索引的开源图数据库。
  • MapGraph:用于GPU加速图分析的高级API。
  • Microsoft Graph Engine(Trinity):基于内存的大规模图处理引擎。
  • Neo4j:高性能Java实现的图数据库。
  • OrientDB:融合文档与图特性的数据库。
  • Titan:基于Cassandra的分布式图数据库。
  • Twitter FlockDB:分布式图数据库。
  • NodeXL:Excel插件,用于网络图分析。

列式数据库

列式存储将相同列的数据连续存放,优化分析型查询性能,特别适用于OLAP场景。

  • Columnar Storage:介绍列式存储原理与适用场景。
  • Actian Vector:面向列的分析型数据库。
  • C-Store:开创性列式数据库系统。
  • ClickHouse:高性能开源OLAP数据库。
  • EventQL:面向大规模事件分析的列式数据库。
  • MonetDB:高效列式存储数据库。
  • Parquet:源自Google Dremel的列式存储格式,跨平台通用。
  • Pivotal Greenplum:支持列式与行式双引擎的数据仓库。
  • Vertica:高速查询的大规模数据管理数据库。
  • SQream DB:基于GPU的列式数据库,适用于10TB–1PB级数据。
  • Google BigQuery:基于Dremel实现的Web SQL服务。
  • Amazon Redshift:企业级PB级列式数据仓库。
  • IndexR:提升IO效率的开源大数据存储格式。
  • LocustDB:实验性高性能并行分析数据库。

NewSQL 数据库

  • Actian Ingres:开源支持的SQL关系数据库。
  • ActorDB:基于Actor模型的分布式SQL数据库。
  • Amazon RedShift:基于PostgreSQL的数据仓库服务。
  • BayesDB:内置贝叶斯查询语言的智能数据库。
  • Bedrock:构建于SQLite之上的分布式事务层。
  • CitusDB:通过分片扩展PostgreSQL。
  • Cockroach:可扩展、支持地理复制的事务型存储。
  • Comdb2:基于乐观并发控制的集群RDBMS。
  • Datomic:支持智能应用的分布式数据库。
  • FoundationDB:受F1启发的分布式数据库。
  • Google F1:构建于Spanner之上的分布式SQL数据库。
  • Google Spanner:全球级、多版本、同步复制的分布式数据库。
  • H-Store:面向在线交易处理的实验性数据库。
  • Haeinsa:HBase上的可扩展多表事务库。
  • HandlerSocket:MySQL/MariaDB的NoSQL插件。
  • InfiniSQL:无限扩展的关系型数据库。
  • Map-D:基于GPU的内存数据库与可视化平台。
  • MemSQL:将SQL预编译为C++的内存数据库。
  • NuoDB:符合SQL/ACID标准的分布式数据库。
  • Oracle TimesTen:基于内存的关系数据库。
  • Pivotal GemFire XD:低延迟、基于内存的分布式SQL存储。
  • SAP HANA:内存、列式、关系型数据库系统。
  • SenseiDB:分布式、实时半结构化数据库。
  • SymmetricDS:支持文件与数据库同步的开源工具。
  • TiDB:受F1启发的HTAP融合型数据库,支持水平扩展与分布式事务。
  • VoltDB:号称最快的内存数据库。

时间序列数据库

  • Axibase TSDB:基于HBase的时间序列数据库,支持可视化与规则引擎。
  • Chronix:高压缩、快速检索的时间序列存储。
  • Cube:使用MongoDB存储时间序列数据。
  • Heroic:基于Cassandra和Elasticsearch的可扩展TSDB。
  • InfluxDB:开源分布式时间序列数据库。
  • IronDB:通用可扩展时间序列数据库。
  • Kairosdb:基于Cassandra的OpenTSDB替代方案。
  • M3DB:支持长期存储的分布式指标数据库。
  • Newts:基于Cassandra的时间序列数据库。
  • OpenTSDB:基于HBase的分布式时间序列系统。
  • Prometheus:主流监控与时间序列数据库。
  • Beringei:Facebook的内存时间序列数据库。
  • TrailDB:高效存储与查询事件序列的工具。
  • Druid:MetaMarket开发的高性能OLAP分析系统。
  • Riak-TS:专为IoT优化的企业级时间序列数据库。
  • Akumuli:数值型时间序列数据库。
  • Rhombus:Cassandra上的时间序列对象存储。
  • Dalmatiner DB:快速分布式度量数据库。
  • Blueflood:大规模时间序列数据处理系统。
  • Timely:基于Accumulo与Grafana的安全时间序列访问系统。
  • SiriDB:支持集群的高性能开源TSDB。
  • Thanos:构建高可用、无限存储Prometheus系统的组件集合。
  • VictoriaMetrics:兼容Prometheus的高性能开源TSDB。

类SQL处理系统

  • Actian SQL for Hadoop:高性能交互式SQL查询引擎。
  • Apache Drill:支持ANSI SQL的分布式查询引擎,受Dremel启发。
  • Apache HCatalog:Hadoop表存储管理工具。
  • Apache Hive:基于Hadoop的数据仓库,提供类SQL查询。
  • Apache Calcite:SQL解析与优化框架。
  • Apache Phoenix:构建于HBase之上的低延迟SQL层。
  • Aster Database:支持类SQL分析处理。
  • Cloudera Impala:受Dremel启发的实时SQL查询工具。
  • Concurrent Lingual:Cascading上的SQL语言实现。
  • Datasalt Splout SQL:针对大数据集的完整SQL引擎。
  • Facebook PrestoDB:分布式SQL查询引擎。
  • Google BigQuery:基于Dremel实现的Web SQL服务。
  • PipelineDB:支持流式SQL处理的关系数据库。
  • Pivotal HDB:Hadoop上的类SQL数据仓库。
  • RainstorDB:支持PB级结构化数据存储。
  • Spark Catalyst:Spark的查询优化框架。
  • SparkSQL:Spark中处理结构化数据的模块。
  • Splice Machine:支持ACID的SQL+NoSQL混合数据库。
  • Stinger:提升Hive性能的优化项目。
  • Tajo:Hadoop之上的分布式数据仓库系统。
  • Trafodion:基于Hadoop的事务型SQL引擎。

数据摄取

  • Amazon Kinesis:AWS平台上的实时流数据处理服务。
  • AWS Glue:完全托管的ETL服务。
  • Apache Chukwa:大数据采集系统。
  • Apache Flume:可靠收集、汇总日志数据的分布式系统。
  • Apache Kafka:分布式发布订阅消息系统。
  • Apache NiFi:强大可靠的数据处理与分发平台。
  • Apache Sqoop:在Hadoop与传统数据库间传输数据的工具。
  • Cloudera Morphlines:ETL数据加载至Solr、HBase等的框架。
  • Embulk:跨数据源批量加载工具。
  • Facebook Scribe:日志数据聚合系统。
  • Fluentd:统一日志收集工具。
  • Google Photon:地理分布式、低延迟流数据连接系统。
  • Heka:开源流处理系统。
  • HIHO:连接异构数据源与Hadoop的框架。
  • Kestrel:分布式消息队列。
  • LinkedIn Databus:低延迟、事务性数据变更捕获系统。
  • Logstash:开源日志收集与处理工具。
  • Netflix Suro:事件数据收集与转发工具。
  • Pinterest Secor:Kafka日志持久化服务。
  • LinkedIn Gobblin:分布式数据集成框架。
  • Skizze:概率数据结构服务。
  • StreamSets Data Collector:可视化大数据摄取工具。
  • Yahoo Pulsar:企业级发布订阅消息系统。
  • Alooma:实时数据管道服务。

服务编程

  • Akka Toolkit:基于Actor模型的高并发应用开发平台。
  • Apache Avro:数据序列化系统。
  • Apache Curator:ZooKeeper开发类库。
  • Apache Karaf:基于OSGi的轻量级容器。
  • Apache Thrift:Facebook开源的跨语言RPC框架。
  • Apache Zookeeper:分布式协调服务。
  • Google Chubby:基于Paxos的分布式锁服务。
  • Hydrosphere Mist:将Spark任务转为Web服务的平台。
  • LinkedIn Norbert:集群管理系统。
  • Mara:轻量级自定义ETL框架。
  • OpenMPI:消息传递接口框架。
  • Serf:去中心化服务发现与编排工具。
  • Spotify Luigi:Python批处理工作流管理工具。
  • Spring XD:分布式数据处理与导出系统。
  • Twitter Elephant Bird:处理lzop压缩数据的库。
  • Twitter Finagle:JVM异步网络堆栈。

调度

  • Apache Airflow:Airbnb开源的工作流管理平台。
  • Apache Aurora:Mesos上的长期服务与作业调度框架。
  • Apache Falcon:数据管理框架。
  • Apache Oozie:Hadoop工作流调度器。
  • Azure Data Factory:混合数据集成ETL服务。
  • Chronos:分布式容错调度器。
  • LinkedIn Azkaban:批处理工作流调度系统。
  • Schedoscope:Hadoop作业的Scala DSL调度器。
  • Sparrow:通用调度平台。

机器学习

  • Azure ML Studio:基于云的R/Python机器学习平台。
  • brain:JavaScript神经网络库。
  • Cloudera Oryx:实时大规模机器学习系统。
  • DataVec:Deeplearning4j生态中的数据预处理库。
  • Deeplearning4j:JVM平台深度学习框架。
  • ENCOG:支持多种算法的机器学习框架。
  • Feast:机器学习特征存储系统。
  • GraphLab Create:Python机器学习平台。
  • H2O:支持Hadoop、R、Python的机器学习平台。
  • Keras:高层神经网络API,支持TensorFlow等后端。
  • Lambdo:整合特征工程与模型训练的工作流引擎。
  • Mahout:可扩展的经典机器学习算法实现。
  • MLbase:Spark生态中的机器学习系统。
  • MOA:实时流数据挖掘框架。
  • MonkeyLearn:文本分类与提取工具。
  • ND4J:JVM上的矩阵计算库。
  • PredictionIO:开源机器学习服务平台。
  • RL4J:Deeplearning4j集成的强化学习框架。
  • SAMOA:分布式流式机器学习框架。
  • scikit-learn:Python主流机器学习库。
  • Spark MLlib:Spark中的机器学习库。
  • TensorFlow:谷歌开源的数值计算与机器学习框架。
  • Theano:Python机器学习库。
  • Torch:BSD许可的机器学习框架。
  • Vowpal Wabbit:高速学习系统。
  • WEKA:经典机器学习软件套件。

Benchmarking

  • Apache Hadoop Benchmarking:Hadoop性能微基准测试。
  • Berkeley SWIM Benchmark:真实大数据负载基准。
  • Intel HiBench:Hadoop基准测试套件。
  • PUMA Benchmarking:MapReduce应用基准测试。
  • Yahoo Gridmix3:Hadoop集群压力测试工具。
  • Deeplearning4j Benchmarks:深度学习性能测试。

安全

  • Apache Ranger:Hadoop综合数据安全管理框架。
  • Apache Eagle:检测大数据平台安全问题的开源方案。
  • Apache Knox Gateway:Hadoop REST API网关。
  • Apache Sentry:Hadoop细粒度访问控制框架。
  • BDA:Hadoop与Spark漏洞检测工具。

系统部署

  • Apache Ambari:Hadoop集群部署、监控与管理工具。
  • Apache Bigtop:大数据组件打包与配置项目。
  • Apache Helix:集群管理框架。
  • Apache Mesos:资源隔离与共享的集群管理器。
  • Apache Slider:在YARN上部署分布式应用的工具。
  • Apache Whirr:云服务Java类库。
  • Apache YARN:Hadoop资源管理系统。
  • Brooklyn:简化应用部署与管理的库。
  • Buildoop:类似BigTop的Groovy开发项目。
  • Cloudera HUE:Hadoop交互式Web应用。
  • Facebook Prism:多数据中心复制系统。
  • Google Borg:Google内部集群管理系统。
  • Google Omega:Google第三代集群管理框架。
  • Hortonworks HOYA:YARN上部署HBase的工具。
  • Kubernetes:基于Docker的容器集群管理系统。
  • Marathon:Mesos长服务运行框架。

应用程序

  • 411:警报管理Web应用。
  • Adobe Spindle:基于Spark的Web分析系统。
  • Apache Kiji:HBase上的实时数据采集与分析框架。
  • Apache Metron:安全遥测与威胁响应平台。
  • Apache Nutch:开源Web爬虫。
  • Apache OODT:NASA数据管理系统。
  • Apache Tika:内容检测与分析框架。
  • Argus:时序监控报警平台。
  • AthenaX:生产级流分析平台。
  • Atlas:维度时间序列数据管理系统。
  • Countly:基于Node.js的开源分析平台。
  • Domino:模型运行与部署平台。
  • Eclipse BIRT:基于Eclipse的报表系统。
  • ElastAert:Elasticsearch监控报警工具。
  • Eventhub:开源事件分析平台。
  • Hermes:基于Kafka的异步消息代理。
  • HIPI Library:Hadoop图像处理API。
  • Hunk:Hadoop分析工具。
  • Imhotep:大型分析平台。
  • Jupyter:交互式计算Web应用。
  • MADlib:RDBMS数据分析库。
  • Kapacitor:时间序列处理与告警框架。
  • Kylin:支持亚秒级查询的OLAP引擎。
  • PivotalR:在HAWQ/PostgreSQL上运行R。
  • Rakam:基于PostgreSQL/Kinesis/Presto的实时分析平台。
  • Qubole:自动扩缩容的Hadoop平台。
  • Sense:数据科学云平台。
  • SnappyData:统一OLTP+OLAP+流式内存数据库。
  • Snowplow:企业级Web与事件分析系统。
  • SparkR:Spark的R前端。
  • Splunk:商业化日志分析产品。
  • Sumo Logic:基于云的日志分析服务。
  • Talend:统一开源大数据开发环境。
  • Warp:大数据示例查询工具(macOS)。

搜索引擎和框架

  • Apache Lucene:全文检索开源库。
  • Apache Solr:基于Lucene的企业搜索平台。
  • Elassandra:ElasticSearch与Cassandra集成方案。
  • ElasticSearch:基于Lucene的分布式全文搜索引擎。
  • Facebook Unicorn:社交图搜索平台。
  • Google Percolator:增量索引更新系统。
  • HBase Coprocessor:Percolator在HBase的实现。
  • Lily HBase Indexer:Solr与HBase集成索引工具。
  • LinkedIn Bobo:Lucene扩展的分面搜索实现。
  • LinkedIn Cleo:前缀搜索与自动补全库。
  • LinkedIn Galene:LinkedIn搜索架构。
  • LinkedIn Zoie:实时搜索/索引系统。
  • MG4J:Java高性能全文搜索引擎。
  • Sphinx:全文搜索引擎。
  • Vespa:大规模低延迟计算与搜索引擎。

MySQL 分支和演进

  • Amazon RDS:AWS托管MySQL服务。
  • Drizzle:MySQL 6.0演进版本。
  • Google Cloud SQL:Google云MySQL服务。
  • MariaDB:兼容MySQL的GPL开源分支。
  • MySQL Cluster:基于NDB引擎的集群方案。
  • Percona Server:增强版MySQL。
  • ProxySQL:高性能MySQL代理。
  • TokuDB:MySQL/MariaDB的高性能存储引擎。
  • WebScaleSQL:Facebook、Google等联合优化的MySQL分支。

PostgreSQL 分支和演进

  • HadoopDB:MapReduce与DBMS混合架构。
  • IBM Netezza:高性能数据仓库设备。
  • Postgres-XL:可扩展PostgreSQL集群。
  • RecDB:PostgreSQL内建推荐引擎。
  • Stado:MPP数据仓库系统。
  • Yahoo Everest:PB级PostgreSQL衍生数据库。
  • TimescaleDB:优化时间序列处理的PostgreSQL扩展。
  • PipelineDB:基于PostgreSQL的流式数据库。

Memcached 分支和演进

  • Facebook McDipper:闪存优化的键值缓存。
  • Facebook Memcached:Memcache定制分支。
  • Twemproxy:轻量级memcached/redis代理。
  • Twitter Fatcache:闪存键值缓存系统。
  • Twitter Twemcache:Memcache改进版本。

嵌入式数据库

  • Actian PSQL:嵌入式ACID兼容数据库。
  • BerkeleyDB:高性能嵌入式键值数据库。
  • LevelDB:Google开源的嵌入式KV存储。
  • LMDB:基于mmap的高性能键值数据库。
  • RocksDB:Facebook基于LevelDB优化的嵌入式引擎。

商业智能

  • BIME Analytics:BI云平台。
  • Chartio:数据可视化与分析平台。
  • datapine:自助式BI工具。
  • GoodData:BI与大数据分析软件。
  • Jaspersoft:强大BI套件。
  • Metabase:开源简单BI工具。
  • Microstrategy:企业级BI平台。
  • Pentaho:开源BI平台。
  • Qlik:BI与分析平台。
  • Redash:支持多数据源的开源BI平台。
  • Tableau:主流商业智能平台。
  • Zoomdata:大数据分析平台。

数据可视化

  • AnyChart:灵活JavaScript图表库。
  • Bokeh:Python交互式可视化库。
  • C3:基于D3的可复用图表库。
  • CartoDB:地理空间数据可视化平台。
  • Chart.js:HTML5开源图表工具。
  • Crossfilter + dc.js:交互式仪表板工具。
  • D3:主流数据可视化库。
  • D3Plus:D3增强图表组件。
  • Echarts:百度开发的JavaScript可视化库。
  • Frappe Charts:轻量级SVG图表库。
  • Gephi:网络图分析可视化工具。
  • Google Charts:交互式Web图表服务。
  • Grafana:监控与可视化分析平台。
  • Highcharts:丰富交互的JavaScript图表库。
  • Matplotlib:Python数据可视化库。
  • Plotly.js:支持20+图表类型的JavaScript库。
  • ReCharts:基于React的图表库。
  • Shiny:R语言Web应用框架。
  • Superset:Airbnb开源数据探索平台。
  • Zeppelin:Web Notebook交互分析工具。

物联网和传感器数据

  • Apache Edgent:边缘设备流处理框架。
  • Azure IoT Hub:Azure物联网双向通信服务。
  • TempoIQ:云计算传感器分析平台。
  • 2lemetry:物联网平台。
  • Pubnub:实时数据流网络。
  • ThingWorx:物联网数据整合与应用平台。
  • IFTTT:基于条件触发的自动化服务平台。

参考资料

研究论文

  • 2015 – Facebook – One Trillion Edges: Graph Processing at Facebook-Scale.
  • 2014 – Stanford – Mining of Massive Datasets.
  • 2013 – AMPLab – Presto, MLbase, Shark, GraphX;Google – MillWheel, F1, HyperLogLog;Metamarkets – Druid;Facebook – Scuba, Unicorn, Scaling Memcache.
  • 2012 – Twitter – Unified Logging Infrastructure;AMPLab – Blink, Spark, Shark, BlinkDB;Microsoft – Paxos系列;Google – Spanner, Trillion Cells.
  • 2010–2011 – Google – Pregel, Dremel, Percolator;Facebook – Haystack;AMPLab – Spark;Yahoo – S4.
  • 2003–2009 – Google – GFS, MapReduce, Bigtable, Chubby;Amazon – Dynamo.

图书与视频

  • 《Streaming Data》《Storm Applied》《Kafka in Action》《Spark in Action》等书籍涵盖流处理、实时分析与分布式系统实践。
  • 《Distributed Systems for fun and profit》深入讲解分布式理论。
  • 《Graph-Powered Machine Learning》探讨图与机器学习融合。
  • 《The beauty of data visualization》《Hans Rosling's 200 Countries》等为经典可视化资料。
  • 视频《Spark in Motion》指导Spark批处理与流分析实战。
【声明】内容源于网络
0
0
章鱼大数据
1234
内容 755
粉丝 0
章鱼大数据 1234
总阅读8.1k
粉丝0
内容755