

Stop Words哪家强？湖北武汉南湖旁

Stata and Python数据分析

2018-04-02

导读：停用词表哪家强？点进来瞧瞧吧~

重磅消息：

爬虫俱乐部之前推出的线下培训，得到了各位老师的一致好评。为了更加方便大家学习，满足更多Stata用户的学习需求，爬虫俱乐部已隆重推出在线直播课程，请大家奔走相告！课程报名链接：https://ke.qq.com/course/286526#tuin=9735fd2d，详情见推文《爬虫俱乐部隆重推出网上直播课程第一季》

有问题，不要怕！点击推文底部“阅读原文”下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱statatraining@163.com,我们会及时为您解答哟~

喜大普奔~爬虫俱乐部的github主站正式上线了！我们的网站地址是：https://stata-club.github.io，粉丝们可以通过该网站访问过去的推文哟~

好消息：爬虫俱乐部即将推出研究助理供需平台，如果您需要招聘研究助理(Research Assistant or Research Associate)，可以将您的需求通过我们的公众号发布；如果您想成为一个RA，可以将您的简历发给我们，进入我们的研究助理数据库。帮我们写优质的推文可以提升您被知名教授雇用的胜算呀！

大数据时代到来，数值型和简短的字符型数据已经远远满足不了人们的需求，至此人们把目光投向文本，因此衍生出一个听起来非常高大上的词语“文本挖掘”，有些书上又把“文本挖掘”称为文本数据挖掘或文本知识发现，那么风靡一时的“文本挖掘”究竟是什么呢？小编觉得文本挖掘就是把文本数据量化，变成计算机可以识别的信息，从而用机器学习和统计学的方法挖掘文本中隐含的信息。关键是如何把文本数据变成计算机可以识别的信息，对于中文文本来说其中必不可少的就是分词技术，去停用词，最后生成词频统计。也许有小伙伴要问什么是停用词，停用词就是在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些词往往在文本占很大比重，然而去掉后并不影响文本总体信息导向，从而给我们后期的机器学习带来很大的便捷。

注：对英文文本的预处理分以下几步——分词，去停用词，词干提取（stemming）和词形还原（lemmatization），生成词频统计。词干提取（stemming）：是抽取词的词干或词根形式，比如happiness提取成happy。词形还原（lemmatization）指的是：是把词汇还原为一般形式，比如saw还原成see。

也许观众老爷们并不懂停用词到底是什么，那么我们上例子。比如：在英文有很多功能词，功能词没有什么实际含义，比如'the'、'is'、'at'、'which'、'on'等。在中文中，包括了语气助词、副词、介词、连接词等，通常自身并无明确的意义，比如：“的”、“在”。

目前公认的停用词表有：百度停用词表，哈工大停用词表，四川大学机器智能实验室停用词表和中文停用词表。如图所示：

来让我们看看停用词表里都有什么吧！

可以看出中国文化博大精深，打开天窗说亮话和何乐而不为等，多么有韵味的俗语，然而并没有什么实际含义，对后期文本挖掘没有什么影响。所以把它们归为了停用词。

接下来我们就把这四个停用词表变成最全的爬虫俱乐部停用词表。首先我们先转到停用词表的工作路径，然后用fs命令列出目录下所有文件，放入局部宏`files'里。然后我们用infix命令把四个停用词表都读入stata中，转化为dta文件，再用append命令把这四个dta文件纵向拼接到一起，去除重复值，就得到了我们想要的爬虫俱乐部最全停用词表。

程序如下：

clear

cd F:\stopwords

fs *.txt

foreach file in `r(files)' {

infix strL v 1-20000 using `file', clear

save `file'.dta,replace

}

foreach file in `r(files)'{

append using `file'.dta

}

duplicates drop

save 爬虫俱乐部停用词表.txt,replace

outfile using 爬虫俱乐部停用词表.txt,noquote replace

运行结果如下：

这样爬虫俱乐部停用词表就到碗里来了，还不去试试！

小编温馨提示（copy+以下链接就可以拿下对应文件哦！）：

中文停用词表.dta: https://github.com/Stata-Club/Sharing-Center-of-Stata-Club/blob/master/article/%E4%B8%AD%E6%96%87%E5%81%9C%E7%94%A8%E8%AF%8D%E8%A1%A8.dta?raw=ture

哈工大停用词表.dta：https://github.com/Stata-Club/Sharing-Center-of-Stata-Club/blob/master/article/%E5%93%88%E5%B7%A5%E5%A4%A7%E5%81%9C%E7%94%A8%E8%AF%8D%E8%A1%A8.dta?raw=ture

四川大学机器智能实验室停用词库.dta：https://github.com/Stata-Club/Sharing-Center-of-Stata-Club/blob/master/article/%E5%9B%9B%E5%B7%9D%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E6%99%BA%E8%83%BD%E5%AE%9E%E9%AA%8C%E5%AE%A4%E5%81%9C%E7%94%A8%E8%AF%8D%E5%BA%93.dta?raw=ture

百度停用词表.dta：https://github.com/Stata-Club/Sharing-Center-of-Stata-Club/blob/master/article/%E7%99%BE%E5%BA%A6%E5%81%9C%E7%94%A8%E8%AF%8D%E8%A1%A8.dta?raw=ture

爬虫俱乐部停用词表.dta:https://github.com/Stata-Club/Sharing-Center-of-Stata-Club/blob/master/article/%E7%88%AC%E8%99%AB%E4%BF%B1%E4%B9%90%E9%83%A8%E5%81%9C%E7%94%A8%E8%AF%8D%E8%A1%A8.dta?raw=ture

各种停用词表的txt文件和dta文件： https://github.com/Stata-Club/Sharing-Center-of-Stata-Club/blob/master/article/stopwords.rar?raw=true

注：此推文中的图片及封面（除操作部分的）均来源于网络！如有雷同，纯属巧合！以上就是今天给大家分享的内容了，说得好就赏个铜板呗！有钱的捧个钱场，有人的捧个人场~。另外，我们开通了苹果手机打赏通道，只要扫描下方的二维码，就可以打赏啦！

应广大粉丝要求，爬虫俱乐部的推文公众号打赏功能可以开发票啦，累计打赏超过1000元我们即可给您开具发票，发票类别为“咨询费”。用心做事，只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中，大家快来给小爬虫打赏呀~

－文字编辑：吴晓蔓－

－技术总编：刘贝贝－

往期推文推荐：

1.爬虫俱乐部隆重推出网上直播课程第一季

2.爬虫俱乐部新版块--和我们一起学习Python

3.hello,MySQL--Stata连接MySQL数据库

4.hello,MySQL--odbcload读取MySQL数据

5.再爬俱乐部网站，推文目录大放送！

6.用Stata生成二维码—我的心思你来扫

7.世界银行数据批量下载，暗含小心机哟！

8.正则表达式之POSIX字符类元字符

9.【这个暑假去美国】超值14天旅程High翻你的夏天

10.新加坡国立招聘Research Assistant

关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令，欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

此外，欢迎大家踊跃投稿，介绍一些关于stata的数据处理和分析技巧。

投稿邮箱：statatraining@163.com

投稿要求：
1）必须原创，禁止抄袭；
2）必须准确，详细，有例子，有截图；
注意事项：
1）所有投稿都会经过本公众号运营团队成员的审核，审核通过才可录用，一经录用，会在该推文里为作者署名，并有赏金分成。
2）邮件请注明投稿，邮件名称为“投稿”+“推文名称”。
3）应广大读者要求，现开通有偿问答服务，如果大家遇到关于stata分析数据的问题，可以在公众号中提出，只需支付少量赏金，我们会在后期的推文里给予解答。

【声明】内容源于网络

Stata and Python数据分析

爬虫俱乐部，新的启航

内容 1337

粉丝 0

Stata and Python数据分析爬虫俱乐部，新的启航

总阅读244

粉丝0

内容1.3k