大数跨境
0
0

哈工大刘挺:哈工大 SCIR 实验室的 NLP 研究 | CCF-GAIR

哈工大刘挺:哈工大 SCIR 实验室的 NLP 研究 | CCF-GAIR 雷峰网
2018-06-03
39
导读:我们不去碰与语言无关的纯机器学习问题,同时也避免承担企业马上就要解决而且的确通过工程手段有可能解决的问题 ~

刘挺教授专访:哈工大SCIR的研究布局与NLP的未来趋势

NLP领军人物谈实验室发展方向与产业落地前景

哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)是国内顶尖的自然语言处理研究机构之一,拥有高影响力的研究成果和大量核心技术。其负责人刘挺教授是CCF-GAIR大会自然语言处理专场主席,曾被剑桥大学统计为NLP领域世界第八的顶会论文作者。

哈工大SCIR在做什么?

雷锋网:您近期是否有更侧重工业界发展? 

刘挺:我们始终以学术研究和人才培养为核心。2018年已有12篇CCF A类会议论文被接收,包括5篇IJCAI、4篇AAAI和3篇ACL。尽管与云孚科技有深入合作,我的工作重心仍主要在学校。

雷锋网:能否介绍实验室最近的工作内容?

刘挺:我们的两个代表性项目为事理图谱对话技术平台DTP

  • 事理图谱:描述事件演化规律的知识库,目前已构建金融领域的图谱,包含超过150万个事件节点和180万条因果边,应用于医疗、司法等领域。
  • DTP对话平台:专为开发者打造的中文对话机器人构建平台,可简化语义理解和对话管理,提供任务型对话系统的快速开发接口。

SCIR的研究理念与方法论

雷锋网:您的研究思路是什么?

刘挺:我们坚持应用基础研究定位,注重结合机器学习前沿和企业真实需求,强调研究的实际可行性。

核心原则包括:

  • 化繁为简:如选择依存文法替代短语结构文法。
  • 尊重实际:推动语义依存分析,强调中文重意合的特点。
  • 强调动手:研究生需完成演示系统,例如LTP平台。
  • 拓展式创新:从句法到语义,从知识图谱到事理图谱持续演进。

未来研究方向规划

雷锋网:如何规划SCIR的未来研究方向?

刘挺:实验室总体布局为四大研究方向和七个小组:

  • 句子级NLP:语言分析、文本顺滑。
  • 人机对话:对话机器人、客服机器人。
  • 篇章级NLP:阅读理解、信息抽取、作文生成。
  • 社会计算:情感分析、社会预测、消费意图挖掘。

目前在校师生逾百人,并保持紧密协作机制。

NLP的发展趋势与产业化路径

雷锋网:去年您提出NLP发展的十大趋势,今年是否得到验证?

刘挺:十个趋势全面印证,并将持续影响NLP发展:

  • 语义表示转向分布式;
  • 深度学习成为主流;
  • NLP开放平台普及;
  • 自动构建语言知识库;
  • 场景化对话机器人兴起;
  • 深度文本理解推进;
  • 情感分析强化;
  • 社交媒体处理发展;
  • 自由文本生成探索;
  • NLP+垂直行业融合。

我们已在DTP、事理图谱、情感分析、NLP+教育/司法/金融等方面积极布局。

雷锋网:如何看待NLP的技术落地前景?  

刘挺:我认同NLP将成为继CV之后的人工智能突破口。但其产业化难度更大,主要原因如下:

  • 语言理解复杂度高,当前准确率尚未达到CV水平;
  • 商业模式尚未成熟,用户难以接受付费模式。

然而,NLP与垂直行业的结合将是一条新路径,如医疗中的病历分析、金融中的股市预测等。

人机对话与GAIR大会展望

雷锋网:经过一年发展,人机对话有哪些进展?

刘挺:主要体现在端到端任务型对话、聊天系统的情感引入以及评测机制的完善。

  • 端到端任务型对话系统结构更简单,迁移性更好;
  • 聊天功能趋向情感引导与特定主题控制;
  • 我们正联合讯飞、华为举办第二届中文人机对话评测。

雷锋网:CCF-GAIR 2018 NLP论坛议程设计有何重点?

刘挺:我们将围绕知识图谱、对话系统、情感分析及NLP产业化等热点话题展开探讨,重点呈现历史脉络与未来趋势。

如何开展 NLP 研究?

雷锋网:作为最后,在 NLP 的研究方向上,您能否为该领域的师生提一些建议呢?

刘挺:近年来 NLP 成为人工智能领域的一大热点,很多毕业生的工资也都随着水涨船高,但是我们也应该冷静地看到 NLP 技术还有很多瓶颈有待突破。我主要就如何选题谈几点我的见解。

1、要有实际需求
一个课题必须有实际需求,可能是现实的需求,也可能是潜在的需求;可能是直接的需求,也可能是间接的需求,总之是的的确确被人们所需要的。举个反例,比如自动文摘,这是我的博士论文课题,但实际应用需求始终不明确。自动文摘的结果用于编辑出版,质量无法保证;用于帮助人们快速浏览资料,搜索引擎提供的包含查询词的网页片段(Snippet)已经起到了这个作用。因此,时至今日,站在作者角度给出的能够概括全文主旨的自动文摘技术到底用在何处,仍不清楚。

2、有较大的未知空间
有些技术已经成熟,相关产品在市场上大面积应用了,在研究上就不宜再展开。

3、与自己以往的工作有关联
如果你觉得自己的研究领域太窄,或者竞争对手太多,或者缺乏兴趣,则可以适当扩展研究方向,但最好是相关性的扩展。例如从自然语言处理(NLP)扩展到社会媒体计算,这种扩展是从底层技术到应用系统的延伸,非常自然。如果跳跃性太大,和文本处理完全脱节,一方面无法发挥既有的技术积累,另一方面也让同行感觉你不够专注,不容易得到认可。

4、有可能得到国家的支持
对于资深学者,选定一个课题后,可以写出立项建议去说服政府或军方支持他的工作,从而填补国家空白,成为国内这一方向的先驱。对于刚出道的年轻人,可能无力直接影响政府,那只有自己预先判断几年后可能成为热点的方向,先行一步,做出一些成绩。等大气候适宜时,由于已有一定成果,也有机会被认可为这个领域的先行者,并获得国家支持。

【声明】内容源于网络
0
0
雷峰网
洞见智能未来,共与产业变迁
内容 15908
粉丝 0
认证用户
雷峰网 深圳英鹏信息技术股份有限公司 洞见智能未来,共与产业变迁
总阅读216.1k
粉丝0
内容15.9k