本文作者:石 艳,中南财经政法大学统计与数学学院
本文编辑:崔赵雯
技术总编:余术玲
爬虫俱乐部云端课程
1.导读
2.命令语法
3.实例分析
clear allcap mkdir d:/fileexistscd d:/fileexistsset obs 1gen v1=fileexists("temp.txt")gen v2=fileexists("title_1.dta")list v1 v2



clear allcap mkdir d:/fileexistscd d:/fileexistsforvalues j=1/37{cap copy "https://www.boc.cn/custserv/bi2/index_`j'.html" temp`j'.txt,replacewhile fileexists("temp`j'.txt") == 0 {sleep 5000cap copy "https://www.boc.cn/custserv/bi2/index_`j'.html" temp`j'.txt,replace}infix strL v 1-10000 using "temp`j'.txt",clear //观察后不用进行转码,可直接进行下一步forvalues i=`=_N'(-1)2{if index(v[`i'],"</li>") & !index(v[`i'],"</a>") {replace v=v+v[`i'] in `=`i'-1'drop in `i'}} //按某种标志进行合并keep if index(v,"</span></li>")gen url=ustrregexs(1) if ustrregexm(v,`"<a href="(.*?)""')forvalues k=1/`=_N' {if ustrregexm(url[`k'],"^../../"){replace url= "https://www.boc.cn"+substr(url,6,.) in `k'}if ustrregexm(url[`k'],"^./"){replace url= "https://www.boc.cn/custserv/bi2/"+substr(url,3,.) in `k'}} //两种不同的链接,分类进行处理。gen title=ustrregexs(1) if ustrregexm(v,`"title="(.*?)""')gen date=ustrregexs(1) if ustrregexm(v,"<span>(.*?)</span>")replace date=substr(date,3,11)drop vsave title_`j',replace}clearforvalues i=1/37{append using title_`i'}sort datesave title_total,replace

工作中一切困难的解决途径——motivatedolly
【爬虫实战】喜茶的门店都开在了哪里?
如何简洁地列出指定属性的变量?ds命令来了!
如何在Python中进行描述性统计分析?
分析师和他们的雇主重视与管理层接触吗?——分析师参与盈余电话会议的研究
爬虫俱乐部开发的命令更新及常见问题说明
Seminar | 道德培训真的有用吗?
统计年鉴数据整理小技巧
Seminar | 作为飞行员,我比别的CEO多了什么?
利用TensorFlow构建前馈神经网络
推文合集(1)| Stata学习者必看的n篇推文!
Seminar | 诚信的价值
利用tushare获取股票数据及实现可视化
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

