BOUT-语义分析
语义分析,指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。
wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。
今天,我们就来走进语义分析的神奇世界,小编手把手教你快速上手,从此搞定语义分析不是梦!
某日,小编正在百度搜索【分词】这一类的关键词,
偶然遇见一个牛逼闪闪的网站
http://ictclas.nlpir.org/nlpir/
之前,也略有耳闻
NLPIR
在中文语义分析领域的诸多神奇
于是决定进去一探究竟

2、简单的界面,不简单的功能

对图片过敏,
嫌图片太小看不清的小伙伴
请点击图片
放大
放大
放大
NLPIR简约朴素一排整齐的界面
让人一看就懂,上手即会用
一、分析标注

二、实体抽取

三、词频统计

四、文本分类

五、情感分析

六、关键词提取

七、word2vec:关键词联想

八、……以下不常用的功能本文自动忽略
3、唾手可得的语义分析
为了见证NLPIR语义分析的神奇,我们做一场语义分析的实验
在搜狗新闻页面,我们选取一篇新闻为分析对象

为了表达小编浓浓的爱国之情,
以及对美好生活的无限赞美
就近取一篇描述习大大的文章吧

将文章复制到NLPIR的输入框

一、分词标注

通过分词标注,将十几段长长的句子划分成N个词语,并且按词性做了分类,语文不好的小伙伴,表示介词、代词、处所词 and so on 这些都是什么鬼。
不过令人欣慰的是,它将不同词性的都做了颜色分类,茫茫词海,还是一眼就能发现我们要找的哪一类关键词。
二、实体抽取

将若干种关键信息分类,组成一簇关键词,方便我们对应抽取。
时间。地点、人物以及一应俱全。


在 力导向布局图与 和弦图 之间切换,我们可以看到不一样的效果。
点击左侧的文本效果,分类的更加细致,一目了然

如果说图表效果讲究的是一个字炫,那么文本就是实实在在的表达了。
三、词频统计
关于词频统计,我们在之前的多篇文章都有提及,主要是分析一篇文章那些关键词出现的次数最多,从而分析该问主要的表达意思。
那么,在这样一篇【习大大写给父亲的一封信】里
出现次数最多的是哪些词呢?

话不多说,小伙伴自己体会。
四、文本分类
如果将这边文章在政治、经济、文化、军事、艺术、教育等之间分类,你觉得该分为哪一类呢?
诚实的数据告诉我们,这是一篇教育意义的文章。
谁叫咱跟父爱沾上边呢~满满的教育噢!

五、情感分析
这个算是我们语义分析的重点,毕竟分析的是语义,那么文章表达的喜怒哀乐就是我们必须要了解的。


该文中表达好的语气占了75.73%,正能量占比81.3%
由此可见,这是一篇正能量满满、积极向上、极富教育的回忆性文章。

特定人物的正面得分73.92%,正面的搜狗,必须表达正面的正能量啊~
六、关键词提取
大多数人看一篇文章,看的都是关键词,毕竟在这个快节奏的网络时代,
静下心来认真看一篇文章是极其折磨人的一件事。
于是,我们分析下关键词

其实,通过一开始的词频统计,结果也是不言而喻的。
只是基于词云的分析,更加形象生动。
文本效果下,我们看到的关键词更多更广。

七、关键词联想

数据分析不仅仅是分析当前,基于当前数据挖掘潜在的可能同样重要。
NLPIR在关键词联想方面又走在了前列
具体它都联想到了啥,我就不方面透露了,小伙伴请欣赏上图。
注:以上内容纯属胡说八道,如有雷同,纯属巧合。
总结:以上就是今天我们通过NLPIR做的智能语义分析,这是一款人人都能很快上手的傻瓜式分析系统,如果你向探索更多,那就赶快拿起鼠标,动动手指,进入这个神奇的世界!
想要探索更多,掌握Excel与数据分析的其他技能,
请关注,下期更精彩!
—————————————————————
▼
如果你想更好的在线交流
与999+位小伙伴一起成长
请戳我

长按二维码关注


