大数跨境
0
0

如何用 RapidMiner 6.4.0 进行中文分词

如何用 RapidMiner 6.4.0 进行中文分词 RapidMiner
2015-05-11
1
导读:对中文文本进行分词一直是大家进行中文文本挖掘的瓶颈,RapidMiner Studio 6.4 与 R 集成以一个叫R Scripting的新扩展出现,一起来看看如何运用 RapidMiner 结合

如何用 RapidMiner 6.4.0 进行中文分词

AUDREY HE UNCATEGORISED


背景介绍:RapidMiner Studio 6.4 新功能增强了与备受欢迎的统计语言 R 的集成。该集成主要提供了 RapidMiner 与 R 结合时需要的核心功能。您现在可以在 RapidMiner 流程里面执行 R 代码, 可以将数据传给 R,在 R 脚本被执行后将 R 代码执行结果传回 RapidMiner。由于该集成被完全进行了重写,这样不仅 RapidMiner Studio 和 RapidMiner Server 安装和配置更加容易,而且采用一种更加稳定和安全的集成解决方案。R 集成作为一个叫 R Scripting (R脚本)的新扩展出现,取代了之前的 R 扩展。


长期以来,对中文文本进行分词一直是大家进行中文文本挖掘的瓶颈,下面我们将介绍一下如何利用 RapidMiner 6.4.0 进行中文分词。

首先,我们需要明确的一个问题是,无论是什么分析软件,在进行中文分词的时候都必须借助于语料库,通过对将现有中文文本与语料库中词汇进行匹配,找到中文分词依据。此处我们将集成 R 扩展,进行中文分词。
以下为基本步骤:

步骤一:查看您现有版本是否已将安装 Rscripting 的扩展,若没安装,可进入 help-Marketplace( Update and Extensions) 搜索 Rscripting 进行安装更新。


步骤二:在R中安装与语料库(我们装入当前流行的Rwordseg包)

步骤三:在Rapidminer 6.4.0 中进行中文分词

我们以包含句子“中华人民共和国成立于1949年”的表格为例,将数据表格导入到 Rapidminer 中,并运用 Execute R 算子,如图:

在 Execute R 中,写入代码如下:

rm_main = function(data)
{
library(Rwordseg)
#调用 Rwordseg 库
data2<-as.data.table(segmentCN(data$Sentence))
return(data2)
}

结果视图如下,在 Statistics 中可以看到属性的统计数据如下:

点开最右侧的 Values 即可以看到对于每个词的词频统计:

以上是如何用 Rapidminer6.4.0 进行中文分词以及如何进行词频统计,希望以上信息能够帮到大家。


【声明】内容源于网络
0
0
RapidMiner
结合RapidMiner,介绍数据挖掘与预测分析的实际应用案例,并推送国内外行业前沿信息
内容 35
粉丝 0
RapidMiner 结合RapidMiner,介绍数据挖掘与预测分析的实际应用案例,并推送国内外行业前沿信息
总阅读32
粉丝0
内容35