大数跨境
0
0

12月22日论文推荐(附下载地址)

12月22日论文推荐(附下载地址) 学术头条
2018-12-21
1
导读:周末也要学习系列。

论文名:

Anatomy of a Privacy-Safe Large-Scale Information Extraction System Over Email


作者:


Ying Sheng (Google)

Sandeep Tata (Google)

James B. Wendt (Google)

Jing Xie (Google)

Qi Zhao (Google)

Marc Najork (Google)


推荐理由:


“Anatomy of a Privacy-Safe Large-Scale Information Extraction System Over Email”是一篇Applied Data Science Track的文章,这也是Google Gmail团队最近几年若干实用型文章中的一篇。记得KDD 2010的时候他们团队就有一篇推荐相关收信人的文章,方法非常简单、实用,而且很快该方法就迅速上线到系统,目前已经成为Gmail的标配。这次发表的文章是从Gmail的邮件内容中抽取结构化信息,例如个人相关的账单信息,飞机行程信息等。和传统的信息抽取不同,这里的抽取更关键的是要保证规模以及抽取中可能遇到的隐私问题。下图是整个抽取系统的架构图。



这个全新的抽取架构叫做Juicer,核心的技术方面一个是把传统的基于模板的方法进行了扩展,此外在抽取的时候加入了对隐私保护的考虑。例如具体抽取模板的时候使用了k-anonymity方法进行了匿名化,而且初始的标注数据是一个很小的由用户自愿拿出来的标注集。另外还有个很大的挑战是数据质量,由于训练数据比较少,所以数据的偏差性很大,系统通过一些观察,比如偏差主要是倾向资深用户,所以系统的训练主要是用老/资深用户的数据进行训练,这一定程度上纠正了偏差问题。最后在几个不同案例的抽取上,系统取得了很好的效果。



Abstract


Extracting structured data from emails can enable several assistive experiences, such as reminding the user when a bill payment is due, answering queries about the departure time of a booked flight, or proactively surfacing an emailed discount coupon while the user is at that store.


This paper presents Juicer, a system for extracting information from email that is serving over a billion Gmail users daily. We describe how the design of the system was informed by three key principles: scaling to a planet-wide email service, isolating the complexity to provide a simple experience for the developer, and safeguarding the privacy of users (our team and the developers we support are not allowed to view any single email). We describe the design tradeoffs made in building this system, the challenges faced and the approaches used to tackle them. We present case studies of three extraction tasks implemented on this platform—bill reminders, commercial offers, and hotel reservations—to illustrate the effectiveness of the platform despite challenges unique to each task. Finally, we outline several areas of ongoing research in largescale machine-learned information extraction from email.


论文获取方式:后台回复“20181222


由清华大学—中国工程院知识智能联合研究中心举办的知识·智能系列报告会将于2019年1月份举行第1期,届时会邀请学术界的大咖来跟大家分享,大家最想看到哪个主题?请投上您宝贵的一票!!!



[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。

分享干货


AMiner迄今为止已发布14期AI系列研究报告,您可在后台回复对应数字获取报告。

1 →  《自动驾驶研究报告》

2 →  《机器人研究报告》

3 →  《区块链研究报告》

4 →  《行为经济学研究报告》

5 →  《机器翻译研究报告》

6 →  《通信与人工智能研究报告》

7 →  《自动驾驶研究报告》前沿版

8 →  《自然语言处理研究报告》

9 →  《计算机图形学研究报告》

10 → 《超级计算机研究报告》

11  → 《3D打印研究报告》

12  → 《智能机器人研究报告》前沿版

13  → 《人脸识别研究报告》

14  → 《人工智能芯片研究报告》


推荐阅读:


分享|Yoshua Bengio讲座视频

NeurIPS 2018值得一读的强化学习论文清单

一万字纯干货|机器学习博士手把手教你入门LSTM(附代码资料)

中国西北大学和北京大学的研究结果是否将终结CAPTCHA验证码时代?

卡内基梅隆大学博士分享|神经语言模型的最新进展(内附71页PPT)

NeurIPS 2017 论文在2018年的引用量排名揭晓,第一名并非最佳论文奖

2018年机器学习和人工智能的主要发展有哪些?2019年会有哪些趋势?

斯坦福大学CS 230的深度学习秘籍—带你速览深度学习核心知识

收藏|史上最完整AI知识清单!!!涵盖神经网络、机器学习、深度学习和大数据等领域


微信公众号菜单栏为大家设置了“论文推荐”和“优质分享”专栏,“北京讲座”移至“优质分享”专栏内,欢迎大家关注。



学术头条

发掘科技创新的原动力



您的转发就是我们最大的动力



点击阅读原文访问AMiner官网

【声明】内容源于网络
0
0
学术头条
致力于学术传播和科学普及,重点关注大模型、AI4Science 等前沿科学进展。
内容 1019
粉丝 0
学术头条 致力于学术传播和科学普及,重点关注大模型、AI4Science 等前沿科学进展。
总阅读605
粉丝0
内容1.0k