大数跨境
0
0

超大语料库,5W+份年报!公司研究必备词向量

超大语料库,5W+份年报!公司研究必备词向量 数据皮皮侠
2025-05-25
0

1926

2007-2023MD&A语料词向量


数据简介


在文本分析中,词典构建是一切分析的基础,为了保证词典的完整性,研究者们通常会在人工收集的基础上通过word2vec对词典进行扩展,而扩展使用的语料则决定了扩展之后的词典是否具有科学性。本团队考虑到这一点,使用2007-2023年上市公司管理层讨论(MD&A)的语料训练word2vec模型并导出词向量。使用大量上市公司管理层讨论(MD&A)语料训练好的词向量能够精准捕捉金融领域专业语义与行业特征,有效建模财务术语、战略表述等领域特定语言规律,准确刻画管理层语调中的情感倾向与信息隐藏(如风险提示、业绩预期),其价值在于为金融文本情感分析、风险预警、信息抽取等下游任务提供强领域适配性的语义表示,减少对金融领域标注数据的依赖,提升模型在处理 MD&A 文本时的语义理解精度与任务性能,助力资本市场监管、投资分析等场景实现更深度的文本智能解析。

本次提供的词向量命名为vectors.bin,大小为2.37G

数据来源

由数据皮皮侠团队人工整理,全部内容真实有效。

时间跨度

2007-2023年

数据范围

上市公司

数据格式

数据格式为.bin(二进制)形式

词向量使用方法



声明:本数据由数据皮皮侠团队整理,仅用于学术研究


永久会员数据展示

向下滑动查看



高级会员数据展示

向下滑动查看


数据引用格式

请您在任何基于“数据皮皮侠”数据库所产生的中文研究成果(含学术论文、公开发表的研究报告等)均包括以下表述或类似表述声明:

本研究使用的数据来自CNPD数据库。

例如:文中使用的农业研究相关数据来自CNPD农业研究数据库。

其中,“农业研究相关数据”替换成实际使用的数据名称。

请您在任何基于“数据皮皮侠”数据库所产生的英文研究成果(含学术论文、公开发表的研究报告等)均包括以下表述或类似表述声明:

The data used in this study came from CNPD database.

The agricultural research data used in this paper are from CNPD agricultural research database.

Where "agricultural research related data" is replaced with the actual data name used.

声明:本数据由数据皮皮侠团队整理,仅用于学术研究

资源获取方式


 数据编号  1926


高级会员或永久会员 可在官网搜索对应编号免费下载

官方网站:www.ppmandata.cn


非高级会员或永久会员 可进入官网

索对应编号后在网页右上角通过数据元购买

以1533为示例:





【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读16
粉丝0
内容2.1k