史上最全的大数据技术大全- 大数跨境

首页

史上最全的大数据技术大全

章鱼大数据

2020-09-24

导读：关系型数据库MySQL 世界上最流行的开源数据库。PostgreSQL 世界上最先进的开源数据库。Oracl

关系型数据库

MySQL：全球最流行的开源数据库。
PostgreSQL：功能强大的先进开源数据库。
Oracle Database：企业级对象关系数据库管理系统。
Teradata：高性能MPP数据仓库平台，应用较少。

框架

Bistro：支持批处理与流分析的通用数据处理引擎，基于函数化数据模型。
IBM Streams：集成Kafka、HDFS、Spark等技术的实时分析平台。
Apache Hadoop：分布式计算框架，包含MapReduce、YARN和HDFS核心组件。
Tigon：高吞吐量实时流处理框架。
Pachyderm：基于Docker和Kubernetes的数据处理平台，适用于可重复分析场景。
Polyaxon：可扩展的机器学习与深度学习平台。

分布式编程

AddThis Hydra：由AddThis开发的分布式数据处理系统。
AMPLab SIMR：在Hadoop MapReduce v1上运行Spark的早期实现。
Apache APEX：统一的企业级大数据流与批处理平台。
Apache Beam：定义和执行数据工作流的统一编程模型及多语言SDK。
Apache Crunch：简化复杂数据操作（如Join和聚合）的Java API。
Apache DataFu：LinkedIn为Hadoop和Pig开发的用户自定义函数库。
Apache Flink：支持有状态计算的流批一体分布式处理引擎。
Apache Gearpump：基于Akka的实时流处理引擎。
Apache Gora：内存数据模型与持久化框架。
Apache Hama：Bulk Synchronous Parallel（BSP）计算框架。
Apache MapReduce：用于大规模数据集并行处理的编程模型。
Apache Pig：表达Hadoop数据分析程序的高级语言。
Apache REEF：简化底层大数据系统开发的执行框架。
Apache S4：可扩展、容错的连续数据流处理平台。
Apache Spark：快速通用的大规模数据处理引擎。
Apache Spark Streaming：Spark中的实时流处理模块。
Apache Storm：Twitter开发的流处理框架，支持YARN部署。
Apache Samza：基于Kafka和YARN的流处理框架。
Apache Tez：支持复杂DAG任务的YARN应用程序框架。
Apache Twill：降低YARN上分布式应用开发复杂度的抽象层。
Baidu Bigflow：提供灵活API的分布式计算接口。
Cascalog：Clojure环境下的数据处理与查询库。
Cheetah：构建于MapReduce之上的高性能自定义数据仓库。
Concurrent Cascading：Hadoop上的数据管理与分析框架。
Damballa Parkour：为Clojure设计的MapReduce库。
Datasalt Pangool：替代传统MapReduce范式的处理方案。
DataTorrent StrAM：低开销、高性能的实时内存计算引擎。
Facebook Corona：消除Hadoop单点故障的增强系统。
Facebook Peregrine：Facebook内部MapReduce框架。
Facebook Scuba：分布式内存数据存储系统。
Google Dataflow：用于构建数据摄取、转换与分析管道的平台。
Google MapReduce：原始MapReduce框架。
Google MillWheel：容错流处理系统，支持大规模实时处理。
IBM Streams：支持地理空间、时间序列等高级分析的实时处理平台。
JAQL：用于结构化与非结构化数据的声明式查询语言。
Kite：简化Hadoop生态系统开发的工具集。
Metamarkets Druid：面向实时分析的大规模数据框架。
Netflix PigPen：基于Clojure的MapReduce库，兼容Pig和Cascading。
Nokia Disco：诺基亚开发的MapReduce框架。
Onyx：面向云环境的分布式计算平台。
Pinterest Pinlater：异步作业调度系统。
Pydoop：支持Python的Hadoop扩展API。
Ray：构建分布式应用的高效框架。
Rackerlabs Blueflood：多租户度量处理系统。
Skale：基于NodeJS的高性能分布式处理框架。
Stratosphere：通用集群计算框架。
Streamdrill：用于识别事件流中最活跃时间窗口的工具。
streamsx.topology：用于构建IBM Streams应用的Java/Python/Scala库。
Tuktu：基于Scala、Akka和Play的易用批流处理平台。
Twitter Heron：替代Storm的高性能、容错流处理引擎。
Twitter Scalding：基于Cascading的Scala MapReduce库。
Twitter Summingbird：支持在Storm和Scalding上执行的MapReduce类库。
Twitter TSAR：时间序列聚合工具。
Wallaroo：支持有状态流处理与AI应用的弹性数据引擎。

分布式文件系统

Ambry：支持海量小对象或大对象存储的分布式对象存储系统。
Apache HDFS：高吞吐访问的应用级分布式文件系统。
Apache Kudu：Hadoop生态中支持快速分析的存储层。
BeeGFS：高性能并行分布式文件系统。
Ceph Filesystem：支持POSIX标准的分布式文件系统。
Disco DDFS：分布式文件系统。
Facebook Haystack：优化照片存储的对象存储系统。
Google Colossus：GFS第二代分布式文件系统。
Google GFS：Google基础分布式文件系统。
Google Megastore：高可用、可扩展的结构化存储系统。
GridGain GGFS：兼容Hadoop的内存文件系统。
Lustre：高性能大规模并行文件系统。
Microsoft Azure Data Lake Store：Azure上的HDFS兼容存储服务。
Quantcast QFS：开源分布式文件系统。
Red Hat GlusterFS：横向扩展的网络附加存储系统。
Seaweed-FS：轻量且高度可扩展的分布式文件系统。
Alluxio：基于内存的开源分布式存储系统。
Tahoe-LAFS：去中心化的云存储系统。
Baidu File System：百度自研分布式文件系统。

分布式索引

Pilosa：开源分布式位图索引，加速跨大规模数据集的查询。

文档数据模型

Actian Versant：面向对象的商业数据库。
Crate Data：无需管理的大规模可扩展文档存储。
Facebook Apollo：类Paxos的NoSQL数据库。
jumboDB：基于Hadoop的文档存储系统。
LinkedIn Espresso：可水平扩展的文档型NoSQL数据库。
MarkLogic：模式无关的企业级NoSQL数据库。
Microsoft Azure DocumentDB：支持MongoDB协议的NoSQL云服务。
MongoDB：主流面向文档的数据库系统。
RavenDB：支持事务的开源文档数据库。
RethinkDB：支持Join和Group By的文档数据库。

键映射数据模型

该模型围绕“键-映射”结构设计，常用于分布式持久化存储。部分系统支持“列族”概念，多个值映射可关联同一键。注意区分此模型与按列存储的“列式数据库”。

Apache Accumulo：基于Hadoop的分布式键值存储。
Apache Cassandra：受BigTable启发的列式分布式数据库。
Apache HBase：基于Hadoop的列式数据存储。
Baidu Tera：管理万亿级网页链接的高性能表格存储。
Facebook HydraBase：HBase的演进版本。
Google BigTable：Google的结构化数据分布式存储系统。
Google Cloud Datastore：基于BigTable的无模式数据库服务。
Hypertable：受BigTable启发的开源列式存储。
InfiniDB：通过MySQL接口访问的MPP列式数据库。
Tephra：为HBase提供事务支持的框架。
Twitter Manhattan：实时、多租户分布式数据库。
ScyllaDB：兼容Cassandra的C++高性能列式数据库。

键值数据模型

Aerospike：高可用、支持ACID的NoSQL键值数据库。
Amazon DynamoDB：Dynamo论文实现的分布式KV存储。
Badger：Go语言编写的高效持久化键值存储。
Bolt：Go嵌入式键值数据库。
BTDB：.NET平台的键值数据库，集成对象层与RPC。
BuntDB：Go语言内存键值数据库，支持地理空间索引。
Edis：Redis协议兼容的替代数据库。
ElephantDB：专为Hadoop导出数据设计的分布式数据库。
EventStore：分布式时间序列数据库。
GridDB：适用于物联网与大数据的高可靠NoSQL数据库。
HyperDex：具备一致性与高性能的下一代键值存储。
Ignite：支持持久化、事务和SQL的分布式内存数据库。
LinkedIn Krati：低延迟、高吞吐的持久化存储。
LinkedIn Voldemort：分布式键值存储系统。
Oracle NoSQL Database：Oracle推出的分布式KV存储。
Redis：内存数据结构存储，广泛用于缓存、数据库与消息中间件。
Riak：去中心化数据库存储系统。
Storehaus：Twitter开发的异步键值存储库。
SummitDB：支持Raft一致性的内存NoSQL数据库。
Tarantool：结合Lua应用服务器的高性能NoSQL数据库。
TiKV：受Spanner启发的Rust语言分布式键值数据库。
Tile38：支持地理围栏的空间数据库。
TreodeDB：支持多行原子写入的键值存储。

图数据模型

AgensGraph：基于PostgreSQL的多模型图数据库。
Apache Giraph：基于Hadoop的可扩展图处理系统，源自Pregel。
ArangoDB：支持多种数据模型的分布式数据库。
DGraph：可扩展、低延迟的图数据库，支持TB级实时查询。
EliasDB：轻量级独立图数据库。
Facebook TAO：支撑社交图谱的分布式数据存储。
GCHQ Gaffer：支持统计属性更新的大规模图数据库。
Google Cayley：开源图数据库。
Google Pregel：大规模图处理框架。
GraphLab PowerGraph：基于C++的高性能图计算工具包。
GraphX：Spark生态中的分布式图处理框架。
Gremlin：图遍历查询语言。
Infovore：基于Hadoop的RDF数据处理框架。
Intel GraphBuilder：基于Hadoop的大图构建工具。
JanusGraph：支持多种后端存储与索引的开源图数据库。
MapGraph：用于GPU加速图分析的高级API。
Microsoft Graph Engine（Trinity）：基于内存的大规模图处理引擎。
Neo4j：高性能Java实现的图数据库。
OrientDB：融合文档与图特性的数据库。
Titan：基于Cassandra的分布式图数据库。
Twitter FlockDB：分布式图数据库。
NodeXL：Excel插件，用于网络图分析。

列式数据库

列式存储将相同列的数据连续存放，优化分析型查询性能，特别适用于OLAP场景。

Columnar Storage：介绍列式存储原理与适用场景。
Actian Vector：面向列的分析型数据库。
C-Store：开创性列式数据库系统。
ClickHouse：高性能开源OLAP数据库。
EventQL：面向大规模事件分析的列式数据库。
MonetDB：高效列式存储数据库。
Parquet：源自Google Dremel的列式存储格式，跨平台通用。
Pivotal Greenplum：支持列式与行式双引擎的数据仓库。
Vertica：高速查询的大规模数据管理数据库。
SQream DB：基于GPU的列式数据库，适用于10TB–1PB级数据。
Google BigQuery：基于Dremel实现的Web SQL服务。
Amazon Redshift：企业级PB级列式数据仓库。
IndexR：提升IO效率的开源大数据存储格式。
LocustDB：实验性高性能并行分析数据库。

NewSQL 数据库

Actian Ingres：开源支持的SQL关系数据库。
ActorDB：基于Actor模型的分布式SQL数据库。
Amazon RedShift：基于PostgreSQL的数据仓库服务。
BayesDB：内置贝叶斯查询语言的智能数据库。
Bedrock：构建于SQLite之上的分布式事务层。
CitusDB：通过分片扩展PostgreSQL。
Cockroach：可扩展、支持地理复制的事务型存储。
Comdb2：基于乐观并发控制的集群RDBMS。
Datomic：支持智能应用的分布式数据库。
FoundationDB：受F1启发的分布式数据库。
Google F1：构建于Spanner之上的分布式SQL数据库。
Google Spanner：全球级、多版本、同步复制的分布式数据库。
H-Store：面向在线交易处理的实验性数据库。
Haeinsa：HBase上的可扩展多表事务库。
HandlerSocket：MySQL/MariaDB的NoSQL插件。
InfiniSQL：无限扩展的关系型数据库。
Map-D：基于GPU的内存数据库与可视化平台。
MemSQL：将SQL预编译为C++的内存数据库。
NuoDB：符合SQL/ACID标准的分布式数据库。
Oracle TimesTen：基于内存的关系数据库。
Pivotal GemFire XD：低延迟、基于内存的分布式SQL存储。
SAP HANA：内存、列式、关系型数据库系统。
SenseiDB：分布式、实时半结构化数据库。
SymmetricDS：支持文件与数据库同步的开源工具。
TiDB：受F1启发的HTAP融合型数据库，支持水平扩展与分布式事务。
VoltDB：号称最快的内存数据库。

时间序列数据库

Axibase TSDB：基于HBase的时间序列数据库，支持可视化与规则引擎。
Chronix：高压缩、快速检索的时间序列存储。
Cube：使用MongoDB存储时间序列数据。
Heroic：基于Cassandra和Elasticsearch的可扩展TSDB。
InfluxDB：开源分布式时间序列数据库。
IronDB：通用可扩展时间序列数据库。
Kairosdb：基于Cassandra的OpenTSDB替代方案。
M3DB：支持长期存储的分布式指标数据库。
Newts：基于Cassandra的时间序列数据库。
OpenTSDB：基于HBase的分布式时间序列系统。
Prometheus：主流监控与时间序列数据库。
Beringei：Facebook的内存时间序列数据库。
TrailDB：高效存储与查询事件序列的工具。
Druid：MetaMarket开发的高性能OLAP分析系统。
Riak-TS：专为IoT优化的企业级时间序列数据库。
Akumuli：数值型时间序列数据库。
Rhombus：Cassandra上的时间序列对象存储。
Dalmatiner DB：快速分布式度量数据库。
Blueflood：大规模时间序列数据处理系统。
Timely：基于Accumulo与Grafana的安全时间序列访问系统。
SiriDB：支持集群的高性能开源TSDB。
Thanos：构建高可用、无限存储Prometheus系统的组件集合。
VictoriaMetrics：兼容Prometheus的高性能开源TSDB。

类SQL处理系统

Actian SQL for Hadoop：高性能交互式SQL查询引擎。
Apache Drill：支持ANSI SQL的分布式查询引擎，受Dremel启发。
Apache HCatalog：Hadoop表存储管理工具。
Apache Hive：基于Hadoop的数据仓库，提供类SQL查询。
Apache Calcite：SQL解析与优化框架。
Apache Phoenix：构建于HBase之上的低延迟SQL层。
Aster Database：支持类SQL分析处理。
Cloudera Impala：受Dremel启发的实时SQL查询工具。
Concurrent Lingual：Cascading上的SQL语言实现。
Datasalt Splout SQL：针对大数据集的完整SQL引擎。
Facebook PrestoDB：分布式SQL查询引擎。
Google BigQuery：基于Dremel实现的Web SQL服务。
PipelineDB：支持流式SQL处理的关系数据库。
Pivotal HDB：Hadoop上的类SQL数据仓库。
RainstorDB：支持PB级结构化数据存储。
Spark Catalyst：Spark的查询优化框架。
SparkSQL：Spark中处理结构化数据的模块。
Splice Machine：支持ACID的SQL+NoSQL混合数据库。
Stinger：提升Hive性能的优化项目。
Tajo：Hadoop之上的分布式数据仓库系统。
Trafodion：基于Hadoop的事务型SQL引擎。

数据摄取

Amazon Kinesis：AWS平台上的实时流数据处理服务。
AWS Glue：完全托管的ETL服务。
Apache Chukwa：大数据采集系统。
Apache Flume：可靠收集、汇总日志数据的分布式系统。
Apache Kafka：分布式发布订阅消息系统。
Apache NiFi：强大可靠的数据处理与分发平台。
Apache Sqoop：在Hadoop与传统数据库间传输数据的工具。
Cloudera Morphlines：ETL数据加载至Solr、HBase等的框架。
Embulk：跨数据源批量加载工具。
Facebook Scribe：日志数据聚合系统。
Fluentd：统一日志收集工具。
Google Photon：地理分布式、低延迟流数据连接系统。
Heka：开源流处理系统。
HIHO：连接异构数据源与Hadoop的框架。
Kestrel：分布式消息队列。
LinkedIn Databus：低延迟、事务性数据变更捕获系统。
Logstash：开源日志收集与处理工具。
Netflix Suro：事件数据收集与转发工具。
Pinterest Secor：Kafka日志持久化服务。
LinkedIn Gobblin：分布式数据集成框架。
Skizze：概率数据结构服务。
StreamSets Data Collector：可视化大数据摄取工具。
Yahoo Pulsar：企业级发布订阅消息系统。
Alooma：实时数据管道服务。

服务编程

Akka Toolkit：基于Actor模型的高并发应用开发平台。
Apache Avro：数据序列化系统。
Apache Curator：ZooKeeper开发类库。
Apache Karaf：基于OSGi的轻量级容器。
Apache Thrift：Facebook开源的跨语言RPC框架。
Apache Zookeeper：分布式协调服务。
Google Chubby：基于Paxos的分布式锁服务。
Hydrosphere Mist：将Spark任务转为Web服务的平台。
LinkedIn Norbert：集群管理系统。
Mara：轻量级自定义ETL框架。
OpenMPI：消息传递接口框架。
Serf：去中心化服务发现与编排工具。
Spotify Luigi：Python批处理工作流管理工具。
Spring XD：分布式数据处理与导出系统。
Twitter Elephant Bird：处理lzop压缩数据的库。
Twitter Finagle：JVM异步网络堆栈。

调度

Apache Airflow：Airbnb开源的工作流管理平台。
Apache Aurora：Mesos上的长期服务与作业调度框架。
Apache Falcon：数据管理框架。
Apache Oozie：Hadoop工作流调度器。
Azure Data Factory：混合数据集成ETL服务。
Chronos：分布式容错调度器。
LinkedIn Azkaban：批处理工作流调度系统。
Schedoscope：Hadoop作业的Scala DSL调度器。
Sparrow：通用调度平台。

机器学习

Azure ML Studio：基于云的R/Python机器学习平台。
brain：JavaScript神经网络库。
Cloudera Oryx：实时大规模机器学习系统。
DataVec：Deeplearning4j生态中的数据预处理库。
Deeplearning4j：JVM平台深度学习框架。
ENCOG：支持多种算法的机器学习框架。
Feast：机器学习特征存储系统。
GraphLab Create：Python机器学习平台。
H2O：支持Hadoop、R、Python的机器学习平台。
Keras：高层神经网络API，支持TensorFlow等后端。
Lambdo：整合特征工程与模型训练的工作流引擎。
Mahout：可扩展的经典机器学习算法实现。
MLbase：Spark生态中的机器学习系统。
MOA：实时流数据挖掘框架。
MonkeyLearn：文本分类与提取工具。
ND4J：JVM上的矩阵计算库。
PredictionIO：开源机器学习服务平台。
RL4J：Deeplearning4j集成的强化学习框架。
SAMOA：分布式流式机器学习框架。
scikit-learn：Python主流机器学习库。
Spark MLlib：Spark中的机器学习库。
TensorFlow：谷歌开源的数值计算与机器学习框架。
Theano：Python机器学习库。
Torch：BSD许可的机器学习框架。
Vowpal Wabbit：高速学习系统。
WEKA：经典机器学习软件套件。

Benchmarking

Apache Hadoop Benchmarking：Hadoop性能微基准测试。
Berkeley SWIM Benchmark：真实大数据负载基准。
Intel HiBench：Hadoop基准测试套件。
PUMA Benchmarking：MapReduce应用基准测试。
Yahoo Gridmix3：Hadoop集群压力测试工具。
Deeplearning4j Benchmarks：深度学习性能测试。

安全

Apache Ranger：Hadoop综合数据安全管理框架。
Apache Eagle：检测大数据平台安全问题的开源方案。
Apache Knox Gateway：Hadoop REST API网关。
Apache Sentry：Hadoop细粒度访问控制框架。
BDA：Hadoop与Spark漏洞检测工具。

系统部署

Apache Ambari：Hadoop集群部署、监控与管理工具。
Apache Bigtop：大数据组件打包与配置项目。
Apache Helix：集群管理框架。
Apache Mesos：资源隔离与共享的集群管理器。
Apache Slider：在YARN上部署分布式应用的工具。
Apache Whirr：云服务Java类库。
Apache YARN：Hadoop资源管理系统。
Brooklyn：简化应用部署与管理的库。
Buildoop：类似BigTop的Groovy开发项目。
Cloudera HUE：Hadoop交互式Web应用。
Facebook Prism：多数据中心复制系统。
Google Borg：Google内部集群管理系统。
Google Omega：Google第三代集群管理框架。
Hortonworks HOYA：YARN上部署HBase的工具。
Kubernetes：基于Docker的容器集群管理系统。
Marathon：Mesos长服务运行框架。

应用程序

411：警报管理Web应用。
Adobe Spindle：基于Spark的Web分析系统。
Apache Kiji：HBase上的实时数据采集与分析框架。
Apache Metron：安全遥测与威胁响应平台。
Apache Nutch：开源Web爬虫。
Apache OODT：NASA数据管理系统。
Apache Tika：内容检测与分析框架。
Argus：时序监控报警平台。
AthenaX：生产级流分析平台。
Atlas：维度时间序列数据管理系统。
Countly：基于Node.js的开源分析平台。
Domino：模型运行与部署平台。
Eclipse BIRT：基于Eclipse的报表系统。
ElastAert：Elasticsearch监控报警工具。
Eventhub：开源事件分析平台。
Hermes：基于Kafka的异步消息代理。
HIPI Library：Hadoop图像处理API。
Hunk：Hadoop分析工具。
Imhotep：大型分析平台。
Jupyter：交互式计算Web应用。
MADlib：RDBMS数据分析库。
Kapacitor：时间序列处理与告警框架。
Kylin：支持亚秒级查询的OLAP引擎。
PivotalR：在HAWQ/PostgreSQL上运行R。
Rakam：基于PostgreSQL/Kinesis/Presto的实时分析平台。
Qubole：自动扩缩容的Hadoop平台。
Sense：数据科学云平台。
SnappyData：统一OLTP+OLAP+流式内存数据库。
Snowplow：企业级Web与事件分析系统。
SparkR：Spark的R前端。
Splunk：商业化日志分析产品。
Sumo Logic：基于云的日志分析服务。
Talend：统一开源大数据开发环境。
Warp：大数据示例查询工具（macOS）。

搜索引擎和框架

Apache Lucene：全文检索开源库。
Apache Solr：基于Lucene的企业搜索平台。
Elassandra：ElasticSearch与Cassandra集成方案。
ElasticSearch：基于Lucene的分布式全文搜索引擎。
Facebook Unicorn：社交图搜索平台。
Google Percolator：增量索引更新系统。
HBase Coprocessor：Percolator在HBase的实现。
Lily HBase Indexer：Solr与HBase集成索引工具。
LinkedIn Bobo：Lucene扩展的分面搜索实现。
LinkedIn Cleo：前缀搜索与自动补全库。
LinkedIn Galene：LinkedIn搜索架构。
LinkedIn Zoie：实时搜索/索引系统。
MG4J：Java高性能全文搜索引擎。
Sphinx：全文搜索引擎。
Vespa：大规模低延迟计算与搜索引擎。

MySQL 分支和演进

Amazon RDS：AWS托管MySQL服务。
Drizzle：MySQL 6.0演进版本。
Google Cloud SQL：Google云MySQL服务。
MariaDB：兼容MySQL的GPL开源分支。
MySQL Cluster：基于NDB引擎的集群方案。
Percona Server：增强版MySQL。
ProxySQL：高性能MySQL代理。
TokuDB：MySQL/MariaDB的高性能存储引擎。
WebScaleSQL：Facebook、Google等联合优化的MySQL分支。

PostgreSQL 分支和演进

HadoopDB：MapReduce与DBMS混合架构。
IBM Netezza：高性能数据仓库设备。
Postgres-XL：可扩展PostgreSQL集群。
RecDB：PostgreSQL内建推荐引擎。
Stado：MPP数据仓库系统。
Yahoo Everest：PB级PostgreSQL衍生数据库。
TimescaleDB：优化时间序列处理的PostgreSQL扩展。
PipelineDB：基于PostgreSQL的流式数据库。

Memcached 分支和演进

Facebook McDipper：闪存优化的键值缓存。
Facebook Memcached：Memcache定制分支。
Twemproxy：轻量级memcached/redis代理。
Twitter Fatcache：闪存键值缓存系统。
Twitter Twemcache：Memcache改进版本。

嵌入式数据库

Actian PSQL：嵌入式ACID兼容数据库。
BerkeleyDB：高性能嵌入式键值数据库。
LevelDB：Google开源的嵌入式KV存储。
LMDB：基于mmap的高性能键值数据库。
RocksDB：Facebook基于LevelDB优化的嵌入式引擎。

商业智能

BIME Analytics：BI云平台。
Chartio：数据可视化与分析平台。
datapine：自助式BI工具。
GoodData：BI与大数据分析软件。
Jaspersoft：强大BI套件。
Metabase：开源简单BI工具。
Microstrategy：企业级BI平台。
Pentaho：开源BI平台。
Qlik：BI与分析平台。
Redash：支持多数据源的开源BI平台。
Tableau：主流商业智能平台。
Zoomdata：大数据分析平台。

数据可视化

AnyChart：灵活JavaScript图表库。
Bokeh：Python交互式可视化库。
C3：基于D3的可复用图表库。
CartoDB：地理空间数据可视化平台。
Chart.js：HTML5开源图表工具。
Crossfilter + dc.js：交互式仪表板工具。
D3：主流数据可视化库。
D3Plus：D3增强图表组件。
Echarts：百度开发的JavaScript可视化库。
Frappe Charts：轻量级SVG图表库。
Gephi：网络图分析可视化工具。
Google Charts：交互式Web图表服务。
Grafana：监控与可视化分析平台。
Highcharts：丰富交互的JavaScript图表库。
Matplotlib：Python数据可视化库。
Plotly.js：支持20+图表类型的JavaScript库。
ReCharts：基于React的图表库。
Shiny：R语言Web应用框架。
Superset：Airbnb开源数据探索平台。
Zeppelin：Web Notebook交互分析工具。

物联网和传感器数据

Apache Edgent：边缘设备流处理框架。
Azure IoT Hub：Azure物联网双向通信服务。
TempoIQ：云计算传感器分析平台。
2lemetry：物联网平台。
Pubnub：实时数据流网络。
ThingWorx：物联网数据整合与应用平台。
IFTTT：基于条件触发的自动化服务平台。

参考资料

研究论文

2015 – Facebook – One Trillion Edges: Graph Processing at Facebook-Scale.
2014 – Stanford – Mining of Massive Datasets.
2013 – AMPLab – Presto, MLbase, Shark, GraphX；Google – MillWheel, F1, HyperLogLog；Metamarkets – Druid；Facebook – Scuba, Unicorn, Scaling Memcache.
2012 – Twitter – Unified Logging Infrastructure；AMPLab – Blink, Spark, Shark, BlinkDB；Microsoft – Paxos系列；Google – Spanner, Trillion Cells.
2010–2011 – Google – Pregel, Dremel, Percolator；Facebook – Haystack；AMPLab – Spark；Yahoo – S4.
2003–2009 – Google – GFS, MapReduce, Bigtable, Chubby；Amazon – Dynamo.

图书与视频

《Streaming Data》《Storm Applied》《Kafka in Action》《Spark in Action》等书籍涵盖流处理、实时分析与分布式系统实践。
《Distributed Systems for fun and profit》深入讲解分布式理论。
《Graph-Powered Machine Learning》探讨图与机器学习融合。
《The beauty of data visualization》《Hans Rosling's 200 Countries》等为经典可视化资料。
视频《Spark in Motion》指导Spark批处理与流分析实战。

【声明】内容源于网络

章鱼大数据

1234

内容 755

粉丝 0

章鱼大数据 1234

总阅读8.1k

粉丝0

内容755