大数跨境

动态分享 | 全球最厉害的15个免费数据源,终有所属!

动态分享 | 全球最厉害的15个免费数据源,终有所属! 前海产发集团
2017-03-12
2
导读:点“前海动态”,可以订阅更多资讯周末又到了,学习也是一种好的休闲方式。下面分享一些小编收藏的常用开源网站,它们有一个共性——权威和全面,希望可以帮助大家更加快捷、有效的找到自己想要的数据。

“前海动态”,可以订阅更多资讯

周末又到了,学习也是一种好的休闲方式。下面分享一些小编收藏的常用开源网站,它们有一个共性——权威和全面,希望可以帮助大家更加快捷、有效的找到自己想要的数据。以下几个网站包含几乎所有行业的数据集,包括经济、社会、自然科学等领域,而且可以找到各个行业的报告资源哦!


政府数据

国家数据  

http://data.stats.gov.cn/index.htm


数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖。

美国政府公开数据源  

https://www.data.gov/


美国政府公开数据源,里面有农业,气候,消费,教育,能源,金融,健康,政府,制造业,海运,海洋,公共安全等领域的数据。数据以数据集方式提供,支持csv,json, xml等格式,并且每个数据集均有用户点评,方便筛选数据。

行研资源

氧分子平台  

https://o2.credoo.com/cust/O2sCust/index.html


氧分子大数据平台上推出系列庞大的免费资源,包含各行业研究报告、城市研究报告、市场监测报告等,内容涉及微信公众号,p2p网贷,单车租赁,二手车交易,陌生人交友等各行各行业报告。报告分季度和全年。除此之外,拥有多个权威认证网站链接,以供大家使用。

数据中华  

http://www.allchinadata.com/


数据中华在线数据库,包括企业、行业、产品、宏观、海关五大模块,提供数据在线查询分析。

财经数据

CEIC    

http://www.ceicdata.com/zh-hans


最完整的一套超过128个国家的经济数据,能够精确查找GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等深度数据。

wind(万得)  

http://www.wind.com.cn/


万得被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

科学数据

亚马逊aws  

https://aws.amazon.com/cn/datasets/


来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。包括1000个基因组工程,试图建立最全面的人类遗传信息数据库。

github 

https://github.com/caesar0301/awesome-public-datasets


包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,做研究和数据分析的利器。

图像数据

The MNIST Database 

http://yann.lecun.com/exdb/mnist/


非常受欢迎的手写数据图像识别数据集。这个站点上有6万个训练案例和1万组练习集。这通常会是新手使用的第一个图像识别训练数据集。

ImageNet   

http://image-net.org/


图像数据集是根据WordNet的层级来组织的,里面有丰富的各类图像数据,以供分析。

文本分类数据集

Twitter Sentiment Analysis 

http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/


该站点中包含1,578,627个已经分类的推特状态。每一条都被标记了是积极情绪还是消极情绪。数据是基于Kaggle和Nick Sanders的调研结果。

Movie Review Data  

http://www.cs.cornell.edu/People/pabo/movie-review-data


该网站提供了有关电影评论的集合文件,用正面或者负面情绪以及主观评级将其标注。

推荐引擎数据集

GroupLens  

http://grouplens.org/


该站点通过对真实的个人创建深度分析系统,来改进社交计算的理论和实践。同时在GroupLens Research中,收集了MovieLens中的网站数据集,根据数据集的大小,在不同的时间段收集数据。

综合导航

搜数网  

http://www.soshoo.com/


已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

199IT大数据导航  

http://hao.199it.com/


以大数据产业为主,大数据工具为辅,汇集超1000 款全球优质数据工具平台。

爬虫

当然以上网站提供的都是“得来全不费功夫”的数据,但是有些资源,尤其是网络数据,无法从以上途径获取。比如,有次我要写一篇以“海淘商品”为主题的论文,需要一些商品的网上销售信息,此时发现无法直接获得该数据。在搜数“无路”的时候,有朋友建议我“爬虫”。于是,我尝试学习python,有种相见恨晚的感觉,惊叹于爬虫高度的自由性、自主性。通过爬虫我获取了满足自己需求的数据,对论文带来很大的帮助。利用爬虫我爬取了一些从其它渠道获取不到的数据资源,做了一些感觉很有意思的事情,比如抓取租车类网站的租车信息,长期跟踪租车价格及数量等信息;抓取分类信息网站,抓取招商加盟的数据,对定价进行分析。

总之,我们可以利用爬虫获取很有价值的数据,用于个性化的分析研究。比如你需要获取某音乐网站的音乐资源,但是人工查找汇总实在太麻烦,那么利用爬虫你可以快速地进行抓取,并可以根据曲风、演唱者、年份等信息进行分类存储。面对如此丰富的数据,有没有很兴奋,如此便可以施展自己的分析技能。


前海动态整理报道/来源:炼数成金论坛

版权归原作者所有,如侵将删



推荐&悦读

一言席 | 刘永行:要降低成本、要提高人力资源效率

“智能制造实验室”正式启用 | 南山再投千万元打造“未来学校”

懂悦读 | 融入全球化的“深圳方案”

【有嘢睇】李克強:發揮香港優勢 提升在國家發展中地位

【声明】内容源于网络
0
0
前海产发集团
前海产发集团以打造国际水准、国内领先的综合服务运营商为愿景,坚持“使命担当、创新卓越、拼搏奉献、共创共享”的价值观和“深港合作共创时代价值、创新服务共享美好生活”的使命,全力塑造极致服务的前海品牌。
内容 8093
粉丝 0
前海产发集团 前海产发集团以打造国际水准、国内领先的综合服务运营商为愿景,坚持“使命担当、创新卓越、拼搏奉献、共创共享”的价值观和“深港合作共创时代价值、创新服务共享美好生活”的使命,全力塑造极致服务的前海品牌。
总阅读2.3k
粉丝0
内容8.1k