

如何用 RapidMiner 6.4.0 进行中文分词

RapidMiner

2015-05-11

导读：对中文文本进行分词一直是大家进行中文文本挖掘的瓶颈，RapidMiner Studio 6.4 与 R 集成以一个叫R Scripting的新扩展出现，一起来看看如何运用 RapidMiner 结合

如何用 RapidMiner 6.4.0 进行中文分词

AUDREY HE 05/11/2015 MONDAY UNCATEGORISED

背景介绍：RapidMiner Studio 6.4 新功能增强了与备受欢迎的统计语言 R 的集成。该集成主要提供了 RapidMiner 与 R 结合时需要的核心功能。您现在可以在 RapidMiner 流程里面执行 R 代码，可以将数据传给 R，在 R 脚本被执行后将 R 代码执行结果传回 RapidMiner。由于该集成被完全进行了重写，这样不仅 RapidMiner Studio 和 RapidMiner Server 安装和配置更加容易，而且采用一种更加稳定和安全的集成解决方案。R 集成作为一个叫 R Scripting （R脚本）的新扩展出现，取代了之前的 R 扩展。

长期以来，对中文文本进行分词一直是大家进行中文文本挖掘的瓶颈，下面我们将介绍一下如何利用 RapidMiner 6.4.0 进行中文分词。

首先，我们需要明确的一个问题是，无论是什么分析软件，在进行中文分词的时候都必须借助于语料库，通过对将现有中文文本与语料库中词汇进行匹配，找到中文分词依据。此处我们将集成 R 扩展，进行中文分词。
以下为基本步骤：

步骤一：查看您现有版本是否已将安装 Rscripting 的扩展，若没安装，可进入 help-Marketplace( Update and Extensions) 搜索 Rscripting 进行安装更新。