项目地址
https://github.com/fighting41love/cocoNLP
pip install cocoNLP
!pip install cocoNLP
抽取电话、邮箱、身份证号、地址、日期时间、人名等。
from cocoNLP.extractor import extractorex = extractor()text = '急寻贝斯特,男孩,于2020年3月30日10时25分在四川省成都市双流区走失。走失发型寸头,上穿粉红色衣服,下穿牛仔裤,脚穿白色板鞋,身份证为410105196904010537。如有线索,速与警方联系:18100065143,132-6165-2938,xiaowangwang@sina.com.cn 和dawangwang at gmail dot com'#抽取邮箱emails = ex.extract_email(text)print(emails)['xiaowangwang@sina.com.cn', 'dawangwang@gmail.com']
#抽取手机号cellphones = ex.extract_cellphone(text,nation='CHN')print(cellphones)['18100065143', '13261652938']
#抽取身份证号ids = ex.extract_ids(text)print(ids)['410105196904010537']
#抽取手机归属地、运营商cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell incellphones]print(cell_locs)[{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code':'200000', 'area_code': '021', 'phone_type': '电信'}, {'phone':'13261652938', 'province': '北京', 'city': '北京', 'zip_code': '100000','area_code': '010', 'phone_type': '联通'}]
#抽取地址信息locations = ex.extract_locations(text)print(locations)['四川省成都市双流区', '成都市双流区', '双流区']
#抽取时间点times = ex.extract_time(text)print(times){"type": "timestamp", "timestamp": "2020-03-30 10:25:00"}
#抽取人名name = ex.extract_name(text)print(name)贝斯特
抽取关键词,打分并进行排名。
from cocoNLP.config.phrase import raker = rake.Rake()#给定字符串列表的提取,其中每个字符串是一个句子。r.extract_keywords_from_sentences(['英国《镜报》29日报道称,哈里和梅根已经离开加拿大,准备定居美国洛杉矶。对此,特朗普在社交平台上表态,美国不会为两人支付安保费,他们必须自理。对于特朗普的明确态度,哈里梅根的发言人回应称,他们并没打算让美国支付这笔安保费用,已经得到私人资助。英媒称,哈里和梅根离开加拿大来美国是为了避免支付两笔重税。如果两人长居美国,将会产生每年800万英镑(约7200万人民币)的安保费用。一项民意调查显示,超过90%民众认为哈里和梅根应该自己买单。据悉,哈里王子夫妇将于3月31日正式脱离王室头衔,不再是“国际受保护人士”。'],2,7)#抽取的关键词按照排序rank,从高到低ranked_words = r.get_ranked_phrases()#抽取的关键词按照排序rank,带rank分从高到低ranked_words_score = r.get_ranked_phrases_with_scores()for ele in ranked_words_score:print(ele)(25.0, '将会 产生 每年 800 万英镑')(23.333333333333332, '超过 90% 民众 认为 哈里')(20.333333333333332, '美国 支付 这笔 安保 费用')(16.333333333333332, '避免 支付 两笔 重税')(16.333333333333332, '两人 支付 安 保费')(16.0, '社交 平台 上 表态')(16.0, '国际 受 保护 人士')(16.0, '准备 定居 美国 洛杉矶')(15.5, '29 日 报道 称')(10.0, '两人长 居 美国')(9.5, '发言人 回应 称')(9.333333333333334, '哈里 王子 夫妇')(9.0, '一项 民意调查 显示')(9.0, '7200 万 人民币')(7.5, '梅根 离开 加拿大')(7.0, '安保 费用')(5.833333333333334, '哈里 梅根')(5.0, '离开 加拿大')(4.0, '私人 资助')(4.0, '明确 态度')
踩坑三:运行第二行代码时,如果出现了解码问题,此时需要查看源代码,在源代码打开停用词处加上 encoding='utf-8'就好了。


