大数跨境
0
0

中国财经舆情文本数据库

中国财经舆情文本数据库 数据皮皮侠
2025-09-16
2
导读:中国财经舆情文本数据库是一套独具优势的大规模文本数据资源,全面覆盖了中国资本市场中最具代表性的投资者互动与公司

中国财经舆情文本数据库是一套独具优势的大规模文本数据资源,全面覆盖了中国资本市场中最具代表性的投资者互动与公司沟通渠道。其核心数据来源包括:

  • 东方财富股吧:作为中国最活跃的股票论坛之一,数据库收录了每家上市公司股吧中投资者的全部评论标题与内容,这类数据反映了投资者对获得上市公司真实、完整、及时信息的强烈需求。

  • 上证e互动平台:自2013年起运行,为投资者与上市公司之间提供了官方、及时、透明的问答与沟通渠道。数据库完整收录了上市公司回复、投资者提问、观点表达、公司互动等信息,呈现了监管认可的、正式的信息披露与互动记录。

数据库的价值与独特优势:

  1. 双重维度,兼具正式与非正式信息:既包含公司与投资者在上证e互动中的“硬信息”,也囊括股吧社区中充满情绪色彩的“软信息”,能够完整刻画投资者行为与信息环境。

  2. 时间跨度长、覆盖全面:持续记录自1990年以来的全量互动数据,包含发帖时间、点赞数、评论数、转发数、评论内容、评论点赞数等附加变量。从信息传播角度,分析舆情演变,为研究投资者情绪演变、舆情冲击、信息披露效果等提供坚实基础。

  3. 丰富的行为与情绪刻画:股吧评论既反映了对上市公司事件的即时反应,也折射出投资者群体的情绪传染与意见分歧,为金融市场行为研究、风险预警与监管治理提供了极具价值的素材。

  4. 学术与实务并重的应用场景:该数据库不仅为行为金融、舆情研究、文本挖掘、社会网络分析等学术研究提供了独特数据支撑,也可为监管机构、上市公司和投资机构提供决策支持,如舆情监测、风险管理与市场稳定性分析


数据来源:东方财富股吧、e互动

时间跨度:股吧:1990-2025;e互动:2013-2025;

数据频率:年度日度

数据范围:各企业中国全部上市公司

数据层面:
各企业中国全部上市公司

数据格式:csv

数据量:约2亿+

权威期刊相关研究

[1] 伍燕然,祁莉莉,武珊,等.散户投资者网络互动、情绪传染与股价崩盘风险——基于社会网络分析方法[J].中央财经大学学报,2025,(08):41-57.

[2] 裘江南,王戈,谷文静,等.危机情景下社交媒体唤醒-效价交叉维度情绪对股市收益的动态影响研究[J/OL].系统工程理论与实践.

[3] 胡国强,侯聪聪,孙文祥,等.“防微杜渐”还是“推波助澜”?散户“在线发声”与企业策略性创新信息披露[J/OL].南开管理评论,1-26[2025-02-21].

[4] 郑晓龙,白松冉,曾大军.面向复杂决策场景的认知图谱构建与分析[J].管理世界,2023,39(05):188-204.

[5] 卢锐,张亚楠,蔡贵龙.社交媒体、公司传闻与股价冲击——来自东方财富股吧论坛的经验证据[J].会计研究,2023,(04):59-73.

[6] 卞世博,陈曜,管之凡,等.高质量的互动可以提高股票价格信息效率吗——基于“上证e互动”的研究[J].会计研究,2023,(04):102-117.

[7] 尹必超,孔东民,季绵绵.散户积极主义提高上市公司审计质量吗[J].会计研究,2022,(10):157-178.

[8] 卞世博,陈曜,汪训孝.高质量的互动可以提高股票市场定价效率吗?——基于“上证e互动”的研究[J].经济学(季刊),2022,22(03):749-772.

[9] 高敬忠,杨朝,彭正银.网络平台互动能够缓解企业融资约束吗——来自交易所互动平台问答的证据[J].会计研究,2021,(06):59-75.

[10] 关静怡,朱恒,刘娥平.股吧评论、分析师跟踪与股价崩溃风险——关于模糊信息的信息含量分析[J].证券市场导报,2020,(03):58-68.

[11] 丁慧,吕长江,陈运佳.投资者信息能力:意见分歧与股价崩盘风险——来自社交媒体“上证e互动”的证据[J].管理世界,2018,34(09):161-171.

[12] 丁慧,吕长江,黄海杰.社交媒体、投资者信息获取和解读能力与盈余预期——来自“上证e互动”平台的证据[J].经济研究,2018,53(01):153-168.


guba_post(股吧帖子表)

核心字段

字段说明

数据来源/更新逻辑

post_id(主键)

帖子唯一ID(如guba_600000_20250820_001

东方财富股吧API/爬虫抓取

stock_code

关联股票代码(如600000

帖子标题/内容提取

stock_name

股票名称(如“浦发银行”)

关联股票代码匹配

author

发帖用户ID

股吧页面提取

publish_time

发布时间(YYYY-MM-DD HH:MM:SS)

帖子页面时间戳

title

帖子标题

抓取文本

content

帖子正文(完整文本)

抓取文本

like_count

点赞数

定期抓取更新

comment_count

评论数

定期抓取更新

forward_count

转发数

定期抓取更新

crawl_time

数据采集时间

系统自动记录

guba_comment(股吧评论表)

核心字段

字段说明

数据来源/更新逻辑

comment_id(主键)

评论唯一ID(如guba_cmt_600000_20250820_001

东方财富股吧API/爬虫抓取

post_id(外键)

关联帖子ID(关联guba_post.post_id

评论所属帖子标识

stock_code

关联股票代码

继承帖子关联关系

author

评论用户ID

评论页面提取

comment_time

评论时间(YYYY-MM-DD HH:MM:SS)

评论页面时间戳

content

评论内容

抓取文本

like_count

评论点赞数

定期抓取更新

interactive_qa(e互动问答表)

核心字段

字段说明

数据来源/更新逻辑

qa_id(主键)

问答唯一ID(如ehd_600000_20250820_001, e互动)

e互动官网爬虫

platform

平台类型(e互动

按来源平台标注

stock_code

关联股票代码

问答页面提取

stock_name

股票名称

关联股票代码匹配

questioner

提问者(投资者/机构)

问答页面提取

question_time

提问时间(YYYY-MM-DD HH:MM:SS)

问答页面时间戳

question_content

提问内容

抓取文本

responder

回答主体(上市公司董秘/证券部)

问答页面提取

response_time

回答时间(YYYY-MM-DD HH:MM:SS)

问答页面时间戳

response_content

回答内容

抓取文本

view_count

浏览次数

互动平台公开数据



请扫码添加客服

备注【中国财经舆情文本数据库

【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读16
粉丝0
内容2.1k