爬虫俱乐部之前推出的线下培训,得到了各位老师的一致好评。为了更加方便大家学习,满足更多Stata用户的学习需求,爬虫俱乐部已隆重推出在线直播课程,请大家奔走相告!课程报名链接:https://ke.qq.com/course/286526#tuin=9735fd2d,详情见推文《爬虫俱乐部隆重推出网上直播课程第一季》
有问题,不要怕!点击推文底部“阅读原文”下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱statatraining@163.com,我们会及时为您解答哟~
喜大普奔~爬虫俱乐部的github主站正式上线了!我们的网站地址是:https://stata-club.github.io,粉丝们可以通过该网站访问过去的推文哟~
好消息:爬虫俱乐部即将推出研究助理供需平台,如果您需要招聘研究助理(Research Assistant or Research Associate),可以将您的需求通过我们的公众号发布;如果您想成为一个RA,可以将您的简历发给我们,进入我们的研究助理数据库。帮我们写优质的推文可以提升您被知名教授雇用的胜算呀!
题目
测试公司年报负面情绪的新词库与财务指标的关系
原文参考:
When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, with Bill McDonald, Journal of Finance, vol. 66, February 2011, 35-65.
作者:
TIM LOUGHRANBILL MCDONALD
摘要
使用财报中否定词的比例来衡量其语调是当前金融领域进行文本分析的一种通行做法,本文通过对1994年-2008年所有上市公司10-K和10-K05文件的再筛查,整合成了六个针对于财报文本的新词库。该词库规避了以往业界通常使用的Harvard-IV-4 TagNeg(H4N)词库的诸多弊端,相比于H4N词库,该词库在公告发布后的额外收益、交易量、收益波动性的联系上取得更好的结果。另外,本文证实了tf.idf词频加权方案可以减轻高频单词的影响,并使出现频率较低的单词产生更大的影响。我们发现,这样的方案可以降低由词汇错误分类引起的噪音且增加了H4N词库和本文的新词库对公司各项财务指标的相关性。
研究背景
越来越多的财务和会计研究使用文本分析来分析公司的10-K报告、报纸、新闻稿和投资者留言板的语气和情绪(Examples are Antweiler andFrank (2004), Tetlock (2007), Engelberg (2008), Li (2008), and Tetlock, Saar-Tsechansky, and Macskassy (2008).)。迄今为止的结果表明,文件的负面词频率可以有效地衡量语气,负面词频率与相应的财务指标显著相关。如Tetlock(2007)的工作将华尔街日报的热门专栏“与市场并驾齐驱”与随后的股票回报率和交易量联系起来。Tetlock发现,头一天专栏中有较高水平悲观词频率的公司更容易在第二天出现较低的收益。
目前许多研究工作者借用哈佛社会心理学词表中的否定词表来衡量文本的语调,但是其有两点主要的弊端:首先,在社会心理学领域认定的有否定意义的词汇在金融领域未必有否定意义,事实上H4N词库有近四分之三的词汇在金融语境里都不具有否定意义,如tax,vice,其次,一些特殊词汇可能高频出现于一些行业,导致这些词汇识别出的效应并非来自财报语调,而是行业效应。
数据
对于新词库的生成,本文获取从1994-2008年所有上市公司的10-Ks和10-K405文件,并筛选出其中出现频率大于5%的词汇,经过人工比对整理出六个词库,分别用于衡量消极语气、积极语气、不确定语气、法律相关语气、强势语气与弱势语气(以下简称Fin-Neg、Fin-Pos、Fin-Unc、Fin-Lit、MW-Strong、MW-Weak)。
本文的财报数据同样采集于1994-2008年所有上市公司的10-Ks和10-K405文件,并指定保留符合CRSP PERMNO匹配,财报公布日期前股价大于3美元,财报超过2000词的样本一共50115份样本。同样我们从财报中提取出单独的管理层陈述部分,要求陈述部分大于250词,一共有37287份管理层陈述文件。
为了评估词表与公司的经济相关性,我们整理了两份特殊财报样本,一份为所有该年被指控犯有会计欺诈行为的公司财报,另一份为所有该年被披露至少有一个内部控制上有重大风险的公司财报。研究试图探究具备如上特殊情形的公司在财报语调上是否存在异常。
本文主要的被解释变量为10K文件发布后三天内的超额收益(以下简称超额收益),该指标指公司在财报发布后4天内股票回报减去crsp价值加权的市场指数的回报率。控制变量包括公司规模、账面市值比、股票换手率、Pre_FFAlpha、机构持股比例以及关于是否在纳斯达克上市的虚拟变量。
本文使用词袋模型来处理六个语气词库,加权方案使用tf.idf模型,即给每一个在文中出现的词汇赋予相应权重,权重计算公式为:
其中,tf(i,j)代表第i个词在第j篇文章中出现的频率,a(j)表示第j篇文档中的平均词数,N表示文档总数,df(i)表示包含第i个词至少一次的文档数量。因此若一个词在所有文档中出现的频率越低,则该词本身的权重就越高,而在一篇文章中的高频词汇也因使用对数处理而削弱了大量权重。
实证结果
本文首先检查超额收益与否定词词频的关系,控制变量如上节所述,否定词词频使用简单的比例统计和tf.idf两种方式测算。词表使用H4N词表和我们的新词库Fin-Neg词表,经查,在使用简单比例统计的词频情形下,H4N词表对应的系数为-7.422,但不显著(t = -1.35),而Fin-Neg具有显著的负相关关系(t = -2.64),系数为-19.538.。当使用tf.idf加权后,两者都显著且系数为负。
本文随后使用管理层陈述样本是否会得到不一样的结果,最后显示使用简单比例统计的词频情形下,两者皆不显著,使用tf.idf仅具有轻微显著意义。因此管理层陈述部分不包含更有效的语调信息。
本文之后扩展了测试范围,词库扩充至H4N词库与本文新的6个词库共计7个词库与公告发布后的超额收益、交易量、收益波动性三种被解释变量。控制变量与词频计数方法不变,结果显示,在简单比例统计的词频情形下,当超额收益为被解释变量时,只有Fin-Neg、Fin-Unc、MW-Strong、MW-Weak具有显著性,系数均为负,当交易量为被解释变量时,只有H4N和Fin-Neg具有显著性且系数为正,当收益波动率为被解释变量时,所有词库的系数均显著为正。
当使用tf.idf加权后,超额收益为被解释变量则除Fin-Lit外均为显著,交易量为被解释变量时,除MW-Strong、MW-Weak外均为显著,当收益波动率为被解释变量时,所有词库的系数均显著为正。
本文随后检查了具备会计欺诈或内部控制重大风险的公司在财报语调上是否存在异常。被解释变量为该年报发布之后一年是否存在如上情形,是则为1,不是则为0,其余变量不变,结果显示,简单词频统计的情形下,只有fin-Neg和MW-Strong对被解释变量为内部控制重大风险时系数显著为正(z分别为3.95和3.50),而当使用了tf.idf加权后,Fin-Neg、Fin-Unc、Fin-Lit与会计欺诈存在显著关系,对于内部控制重大风险则所有词库的系数均显著。
结论
本文针对H4N词库不能很好度量金融领域文件负面情绪这一现状提出了两个解决方案,首先是针对财报文件制定专门的词库,其次是使用tf.idf加权以解决这一问题,我们发现,tf.idf加权方法可以显著降低两者词库的噪音,且使得结果更加显著,但我们仍旧建议研究者使用Fin-Neg列表代替H4N以规避可能出现的行业效应,我们的结果和其他人的研究结果表明,文本分析有助于我们理解信息对股票收益的影响,即使语气不直接导致收益,也可能是分析人员获取其他信息来源的有效途径。最重要的是,金融研究人员在专业领域以外的词库分类方案时应该谨慎。将非商业词汇列表应用于会计和金融领域,会导致较高的错误分类率和虚假的相关性。
注:此推文中的图片及封面(除操作部分的)均来源于网络!如有雷同,纯属巧合!
以上就是今天给大家分享的内容了,说得好就赏个铜板呗!有钱的捧个钱场,有人的捧个人场~。另外,我们开通了苹果手机打赏通道,只要扫描下方的二维码,就可以打赏啦!
应广大粉丝要求,爬虫俱乐部的推文公众号打赏功能可以开发票啦,累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中,大家快来给小爬虫打赏呀~
文字编辑:祁让坤
技术总编:刘贝贝
2.hello,MySQL--Stata连接MySQL数据库
3.hello,MySQL--odbcload读取MySQL数据
关于我们
微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。
此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿”+“推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


