大数跨境
0
0

一些特殊而有用的数据库和数据分析工具盘点

一些特殊而有用的数据库和数据分析工具盘点 数据皮皮侠
2020-08-10
2
导读:数据获取和数据分析是一个研究人员必须具备的技能之一,这次为大家介绍一些特殊而有用的数据库和数据分析工具。

数据获取和数据分析是一个研究人员必须具备的技能之一。目前,数据获取可以通过①八爪鱼或其他工具来获取数据和②通过Python的程序获取数据,但是有一些特殊而有用的数据库和数据分析工具也是获取数据和分析数据的重要手段。

本文结合自身长期对数据分析的研究,对这些有用的数据库进行整理,主要包括以支持Python接口的数据集、宏观经济数据库、综合数据库以及数据分析的工具,相信这些数据库和工具对你的研究和学习一定会产生很大的帮助。


No.1. Tushare


官方网站:http://tushare.org/index.html


Tushare是米哥开发的数据库,本着互联网开放、免费的精神为量化投资研究人员提供大量数据分析材料。Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据储存的过程,能够为金融分析人员提供快速、整洁和多样的便于分析的数据,为他们在数据获取方面极大的减轻工作量,使他们更加专注于策略和模型研究与实现上。

方式一:以pandas DataFrame类型的数据格式,用pandas/NumPy/Matplotlib进行数据分析和可视化。

方式二:Tushare拥有数据存储功能,可将数据全部保存到本地后,用Excel或关系型数据库做分析。



Tushare同时兼容Python 2.x和Python 3.x


Tips——使用对象:

✓ 量化投资分析师(Quant)

✓ 对金融市场进行大数据分析的企业和个人

✓ 开发以证券为基础的金融类产品和解决方案的公司

✓ 正在学习利用python进行数据分析的人


(一)股票的交易行情数据

(二)投资参考数据

(三)交易数据

(四)基本面数据

(五)宏观经济数据:金融信息、国民经济、价格指数、景气指数、对外经济贸易

(六)新闻事件数据:即时新闻、信息地雷、新浪股吧

(七)龙虎榜数据:每日龙虎榜列表、个股上榜统计、营业部上榜统计、机构席位追踪、机构成交明细

(八)银行间同业拆放利率:Shibor拆放利率、银行报价数据、Shibor均值数据、贷款基础利率(LPR)、LPR均值数据

(九)数据存储:CSV文件、Excel文件、HDF5文件、JSON文件、MySQL数据库、MongoDB

(十)电影票房:实时票房、每日票房、月度票房、影院日度票房

[参考阅读请戳👉]用Tushare下载所有股票数据:https://zhuanlan.zhihu.com/p/26495046


No.2. 万矿WindCharts

——国内量化平台首款交互式可视化Python库


官方网站:https://www.windquant.com/


关键词:金融大数据、策略研究、数据可视化

功能:内容涵盖股票、债券、基金、衍生品、指数、宏观行业等

Tips:

研究与案例需要注册账号登录才能进入

社区栏目中有着丰富的操作方法分享,无论是功能案例和Python入门学习,你都能在这里找到合适的指南,同时可以一键分享。

几个常用的操作:

WindCharts 简介:

WindCharts库中图形种类丰富,包含K线图,饼图,热力图,线型图,雷达图,关系图,日历图,堆叠条形图,每日回撤,净值组合图。

使用前先引入该工具库:

案例:K线图

K线图是投资者常用的分析工具。在K线图中,除了画出K线和均线之外,还可以自己定义想画的曲线(如一些技术指标)。而且在K线图中也可以标记买卖点。

在本例中,除了画出平安银行从2017-03-17至2017-06-18的基础行情及均线之外,还画出了其布林带的上界和下界。

[更多用法请戳👉]:https://zhuanlan.zhihu.com/p/35770297


No.3. 优矿


官方网站:https://zhuanlan.zhihu.com/p/21624000


优矿的优点是研究环境,让用户可以在自己的研究环境里验证自己的想法,写分析报告,甚至于可以做衍生品定价分析等

注册之后,在“开始研究”页面,新建一个 Notebook,就可以开始用 Python 写你自己的策略

右上角的下拉框选择“策略”,就会帮你自动填写上策略回测的基本结构代码。


No.4. 桔子IT


官方网站:https://www.itjuzi.com/


关键词:网站、公司创业、风险投资、收购、竞争情报

最大的特点是,任一模块都是结构化的,并且提供了实时数据的统计,比如“公司”可以分为细分领域、发展阶段、融资状态、地点、时间等,用户可以围绕“金融支付”领域,查看该领域所有的公司、相关新闻报道和投资事件等,充分利用了微博和媒体的公开新闻报道等数据,数据来源相比同类数据产品更为全面

除了试图提供更加庞大的数据信息之外,IT桔子一开始就推出了个性化的服务,鼓励用户参与和关注自己感兴趣的领域。这也是为今后定向推送动态信息在做准备。


No.5. TaoZha的数据库


官方网站:http://www.saif.sjtu.edu.cn/facultylist/tzha/



中国宏观经济数据:Data for China's Macroeconomy

👉:http://www.tzha.net/code

👉:https://www.frbatlanta.org/cqer/research/china-macroeconomy.aspx?panel=1


No.6. PWT version 9.1


一个包含收入、产出、投入和生产率的相对水平信息,涵盖了1950年至2017年间182个国家的数据库。

国民经济核算数据:

按主要支出类别:家庭消费、投资(和固定资本形成总额)、政府消费、出口和进口,GDP也按(当期和不变价格)分类

One of the major inputs into PWT is National Accounts (NA) data on gross domestic product(GDP) at current and constant prices,2 in local currency units. GDP is also broken down (incurrent and constant prices) by major expenditure categories, household consumption, investment (and gross fixed capital formation), government consumption, exports and imports.

ICP基准数据:The PPP and expenditure data at a detailed level are available in the so-called benchmark years of the International Comparison Program (ICP).

贸易细节:PWT includes relative prices for exports (pl_x) and imports (pl_m) and reports the share of exports (csh_x) and imports (csh_m) in real GDP at current PPPs.

劳动细节:PWT includes information on total employment (emp), average hours worked (avh), human capital (hc) and the share of labor income in GDP (labsh).

资本细节:In PWT 9.1 we modify our measure of capital substantially. The most important change is that we introduce new ‘productive capital input’ measures that are more appropriate for comparing productivity across countries and over time than the capital stock measures we had relied on previously.

支出份额相关系数:it becomes intrinsically harder to accurately compare prices and living standards if countries differ more in their economic structure and spending patterns.

离群值更新:Country/year observations in which relative prices and (sometimes) relative income levels take on values that are hard to reconcile with ICP benchmark information have been labeled as outliers


NO.7. 中国宏观经济数据库


官方网站:http://cmf.cafr.cn/data/listpage


该数据集合旨在提供一个中国宏观经济学术研究的共享数据平台。由于我国很多统计数据不适合直接用于学术研究,很多学者和研究机构都会加工自己的数据库,但由于数据的不共享,很难对不同模型和实证分析进行科学和公正的评价。

✓ 数据的基础数据均来自于国家统计局,在此基础上利用现代宏观计量方法进行了一些调整和重构,包括(但不限于):

✓ 补齐数据中的缺失值、并将可用数据段尽量延长到较早时点等目的,以增加研究可用的样本量。

✓ 在统计局公布的同比和环比增长率基础上建立水平值或指数;

✓ 借助插值法在年度数据基础上构造对应的季度数据;

✓ 对除利率和比率之外的数据序列进行季节性调整,部分时间序列的季节性调整考虑了识别水平转移和异常值。

✓ 构建了与OECD国家数据指标定义接轨的时间序列。


No.8. 中国经济信息网


官方网站:http://wdb.cei.cn/


世界经济数据库汇集了来自WDI、IMF、OECD、WTO、联合国粮农组织、美国能源局等权威数据发布机构的第一手数据资源。覆盖经济总量占全球主导地位的主要国家和新兴经济体共22个国家和地区。内容包括国民经济核算、国际收支、对外贸易、人口就业、财政金融、能源环境、价格水平等专题。

数据最早起始于1948年,频度跨越月、季、年度。既可以监测各国和地区重点经济指标,又可以从专题角度进行国家间经济比较。它将成为国内外专家和学者分析和研究世界经济形势的便捷工具。

Contents


No.9. 中经统计数据库


官方网站:http://db.cei.cn/page/Login.aspx


由国家信息中心中经网凭借与国家发改委、国家统计局、海关总署、各行业主管部门以及其他政府部门的良好合作关系,经过长期数据积累并依托自身技术、资源优势,通过专业化加工处理组织而成的一个综合、有序的庞大经济统计数据库群。

内容包括:中国、世界经济统计数据库两系列

涵盖领域:经济,行业经济,区域经济等

数据属性:

宏观月度库:涵盖国民经济核算、财政金融、贸易、投资房产、工业交通、物价工资共 14个专题2千多项指标内容,拥有自1990年至今的70多万条数据。

行业月度库:快速展现国民经济下 39个工业大类、近200个中类行业运行发展情况,所有行业采用国标分类,按月提供自1999年至今的近50项主要财务及经济效益指标,拥有150多万条海量数据

海关月度库:以中国海关统计数据为基础,收集了 1995年以来的进出口月度统计数据,内容涉及进出口总值、主要商品进出口量值、进出口商品分贸易方式总值和外商投资企业进出口等多方面的3万多个指标,拥有300多万条数据。

综合年度库:以历年《中国统计年鉴》为基础,整合自 1949年新中国统计史以来我国社会、经济发展全貌共计23个大类专题3000多个指标的数据统计信息,拥有30多万条数据。

城市年度库:是进行城市研究、全面了解中国大陆城市经济情况的统计数据信息库。汇集了自1990年以来全国300余个地级城市的城市经济发展状况主要统计指标。

世界经济统计数据库包括:OECD月度库和OECD年度库,获得世界经济合作暨发展组织(OECD)统计数据库中文版独家授权。以OECD的主要宏观经济指标数据库(OECD Main Economic Indicators ——MEI)为数据来源,提供自1960年以来的年度、季度、月度数据,包含30个OECD组织成员国、8个非成员国,以及国际主要经济组织如欧盟、西方七国、欧元区、北美自由贸易组织等的宏观经济发展指标。

特点:

数据内容全面、数据来源权威、数据更新及时、数据质量准确、数据长度实用、数据服务专业;

提供时间、指标、地区三个维度的六种组合方式及任意词检索方式;可以实现对所选数据表格进行排序、作图等分析功能;

数据可导出EXCEL格式可方便外接分析软件;

数据来源于国家正规权威统计渠道,指标涵盖国内外主要经济指标。


NO.10. 生产效率研究中心

——测算生产率的软件及案例分析


官方网站:https://economics.uq.edu.au/cepa


CEPA旨在为澳洲及亚太地区的效率及生产力分析研究、顾问及培训提供一个联络中心。

The Centre for Efficiency and Productivity Analysis (CEPA) has been established to provide a focal point for research, consultancy and training in efficiency and productivity analysis in Australia and the Asia/Pacific Region.

✓ DEAP 2.1

✓ DPIN™ 3.1

✓ FRONTIER 4.1

✓ TFPIP 1.0

✓ UQICD PPP and Real Income Database


Working papers:


No.11. 文献可视化分析工具:

CiteSpace

——将科学文献中的模式和趋势可视化

Visualizing Patterns and Trends in Scientific Literature


官方网站:

http://cluster.cis.drexel.edu/~cchen/citespace/download/


[教程指南]:https://leanpub.com/howtousecitespace

This is an eBook on how to use CiteSpace, especially for beginners and users at the intermediate level, although it is certainly valuable for users across all levels of proficiency with CiteSpace. The eBook will be updated to reflect new releases of the software.

Data

CiteSpace支持主要来源(如Web of Science、Scopus、Dimensions、CNKI、CSSCI和其他一些来源)检索的书目和引文数据。其中一些需要使用CiteSpace中的内置转换器进行格式转换。通用的用户定义转换器可用来转换CSV文件中的数据文件。

数据文件命名约定必须遵循:文件名以“download”开头,以“.txt”结尾。

CiteSpace supports bibliographic and citation data retrieved from major sources such as the Web of Science, Scopus, Dimensions, CNKI, CSSCI, and a few other sources. Some of them require a format conversion using the built-in converters in CiteSpace. A generic user-defined converter is available to convert data files in CSV file.The data files for visual analytic processes in CiteSpace must follow the naming convention: the filename must start with ‘download’ and end with “.txt”. Major functions in CiteSpace require your data files contain cited references. If your data files do not have cited references, you may still use functions that do not involve citations, for example, networks of keywords or noun phrases.A few demo projects along with corresponding data files are provided as part of the package.


No.12. 美国国家经济研究局

(the national bureau pf economic research)

——不确定性指数的预测方法及数据展示


官方网站:https://www.nber.org/papers/w21633


研究项目:资产定价、经济波动与增长、公共经济、政治经济

NBER Program(s):Asset Pricing Program, Economic Fluctuations and Growth Program, Public Economics Program, Political Economy Program

 

List of data:

链接右侧列出的作者或来源的文件可以从NBER获得,或者与NBER研究项目相关。要在网上找到其他数据,请参考《经济学家参考资料》、《新经济报告》、谷歌、NBER论文。

Files with authors or sources listed to the right of the link are available from the NBER or are otherwise associated with the NBER research program. To find other data on the web, try Resources for Economists, new economic releases, Google, NBER papers.


No.13. 宏观数据与模型:MMB


官方网站:http://www.macromodelbase.com/download


宏观经济模型数据库(MMB)是基于用于系统模型比较的通用计算平台的宏观经济模型存档。该平台有120多个结构性宏观经济模型,这些模型在多个维度上建立了它们之间的可比性。用户友好的界面,使各种比较练习容易访问。对于数据库中的每个模型,复制包都是可用的,其中包含关于各个模型复制的代码和注释。

The Macroeconomic Model Data Base (MMB) is an archive of macroeconomic models based on a common computational platform for systematic model comparison. The platform features more than 120 structural macroeconomic models establishing comparability between them across several dimensions. The user-friendly interface makes the various comparison exercises easily accessible. For each model in the database, replication packages are available that contain codes as well as comments on the replication of the respective models.


Contents:


No.14.经济复杂度指数:ECI


官方网站:https://oec.world/ru/


how to understand ECI?

自从亚当·斯密开创了现代经济学以来,如何准确地衡量一个国家经济实力,和经济发展水平一直是相关领域研究者们探究的课题。相关的经济统计指数也层出不穷。从广为熟知的宏观经济指标 GDP(国民生产总值)、CPI(消费者价格指数);刻量贫富差距的基尼系数;以及由非官方民间企业发布的统计报告(阿里、京东等电商平台发布的统计报告);甚至是用房价数据来给中国的大中城市分档次——一线、超一线、新一线、准一线总有一款适合你。

然而,这些数据指标都具有一定的局限,它们不能完整体现经济实力的全貌。宏观经济指标统计耗时方法复杂;企业数据不可避免的存在偏见;各种城市排名分析又难免有制造噱头、哗众取宠的嫌疑。

César Hidalgo 是麻省理工学院媒体实验室的科学家,Hidalgo和他的同事Ricardo Hausmann合作发表了一系列论文,探讨如何利用经济复杂性去刻画一个国家和地区的经济水平与生产能力。并在2009 年发表的论文The building blocks of economiccomplexity 中提出了经济复杂性指数(Economic Complexity Index,ECI)。

Hidalgo 等人认为一个国家能生产某种产品是因为,该国家具备某种能力(知识)。由此国家与生产产品的关系可以用网络描述,从而进一步得到更准确的衡量指标:

(图片来源:Hidalgo et al., 2009)


如上图所示,其中存在着一种由“国家(Countries)-能力(Capabilities)-产品(Products)”三部分构成的网络关系。而“国家(Countries)-产品(Products)”这样一个二分网络可以看作是“国家-能力-产品”网络输出的结果。因此,Hidalgo 等人提出了一种构建“国家-产品”二部图网络来刻画国家地区经济复杂性(国家经济能力)的方法。

经济复杂性指数(ECI)和产品复杂性指数(PCI)分别是对经济或产品的相对知识强度的度量。ECI通过考虑出口产品的知识强度来衡量一个经济体的知识强度。PCI通过考虑产品出口商的知识强度来衡量产品的知识强度。这种循环论证在数学上是可处理的,可以用来构建经济和产品的知识强度的相关度量。

The Economic Complexity Index (ECI) and the Product Complexity Index (PCI) are, respectively, measures of the relative knowledge intensity of an economy or a product. ECI measures the knowledge intensity of an economy by considering the knowledge intensity of the products it exports. PCI measures the knowledge intensity of a product by considering the knowledge intensity of its exporters.

This circular argument is mathematically tractable and can be used to construct relative measures of the knowledge intensity of economies and products (see methodology section for more details).


数据皮皮侠

本期作者 : 陈可欣

本期编辑校对:张惠宁

▇ 扫码关注我们


【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读615
粉丝0
内容2.1k