作者:BOB STEMBRIDGE
引言
大众传媒上涉及专利的头条新闻,会让人觉得专利的唯一目的,是阻止他人的公平竞争和讨价还价来收取大额的许可费。这样的故事逻辑见诸媒体的,包括苹果对三星,谷歌对微软,以及诺基亚对黑莓的专利战报道。
尽管是部分反映了专利的现实,但仅仅关注专利战就好比管中窥豹,而全面的考察才能获得更为公允的观点。
专利制度旨在激发创新,通过对发明人提供经济利益,来让他们将想法完全公开。相应的,其他人可以学习和在此基础上改进。专利的获得商业回报的潜力,使得专利本身成为一个有价值的资产类型。但是专利的真正价值,是这些尘封的文档锁藏了人类巨大的知识宝库。地方病的治疗,虚弱体质的处理,类似这样的对技术难题的无数解决方案都在专利文献中报道。按照美国专利商标局在20世纪70年代的一个研究,80% 的通过专利披露的信息是在其他来源中没有的。
但要想从专利文档中解锁信息却困难重重。专利是法律文件,其写法常使发明的实质变得难以理解。专利权是有国别的,所以专利以不同的语言出版,除了英文和中文,还有俄文、日文、韩文等等。我们怎样才能最好的获取利用这个技术和商业信息的宝藏呢?
汤森路透的德温特世界专利索引(Derwent World Patents Index®,DWPI)用科学和工程技术专家人工编写的英文的专利题目和文摘信息,来提供对全球专利信息的无与伦比的获取方式,迄今已经50多年。汤森路透对全球50个数据来源的每项发明进行分类和标引,来让知识产权专业人员迅速找到所需的信息和做出有最好信息支持的决策。那么,DWPI是怎样做到这些的呢?
初步加工
汤森路透每星期从全球各大专利局,以不同格式,收集大约75,000 个专利文件。无论这些文件提供的方式,我们都将其转成统一的格式的电子数据,以导入到DWPI 编辑系统中。这个数据的转换和查验过程把所有的专利著录项,标准化为统一的DWPI 综合数据格式。
步骤包括:
1. 把所有的数据字符串转化为标准格式
2. 对每一个数据字符串做内容查验
3. 数据格式的标准化,使得检索更轻松也更可靠
著录项目数据的校正和增强
原始收到的专利数据可能存在多种错误,有格式上的,也有著录项的内容上的。汤森路透结合技术和人工手段来审查和编辑数据,发现和修正数据错误,让专利封面页的著录数据尽可能没有错误。这一点很重要,举个例子,如果专利优先权信息有错误未被改正,往后加工的专利家族数据会有严重的差错。
对专利的优先权日、优先权号,申请日和申请号的数据,都要检查是否有数据错误和丢失,进行审查和订正。同样要查验和订正的,还有国际专利分类号(International Patent Classification, IPCs)数据,如果发现缺IPC分类号,就会有熟悉该技术专题的专家为该文件补上4 位字符的IPC 子分类,来保证按该字段入口的检索能够查全。
数据加工中会特别留意发明人姓名和公司(专利权人)名称。为了检索的一致性,发明人的姓名统一按“姓, 首字母”的格式。对于专利权人名称,汤森路透维护着一个专有的专利权人名称字典,目前包含超过170万条记录。每件专利的专利权人名称都跟字典查对,如果对上了,则采用标准的专利权人名称,和由标准名称衍生的一个由4 个字母组成的专利权人代码。如果查对不到,则审查该情形,要么改正后可以查对上,要么在字典里增加含新的公司名称和代码的记录。
在数据加工中,每周都会遇到几千个新的名称。这里面有的来自拼写错误,而多数确实是尚未被收录的。俄罗斯、韩国、中国和日本的名称来自音译,使得要识别同一名称的不同版本格外困难。来自不同国家的音译会产生看起来完全不一样的英文名称,而当一个西方国家的公司名称先被音译到别的语言,比如中文或日文,再被音译回来到英文时,这种不一样会更加严重。DWPI 的编辑流程,被设计成便于发现,查对和订正这些数据错误,以尽可能保证最佳检索效果。
专利权人代码(PATENTEE ASSIGNEE CODES, PACO)
对所有的专利权人分配4 个字母的可检索代码PACO。PACO 有4 种,在Thomson Innovation 平台上,DWPI 以下述格式提供这4 种代码:
非标准代码。这些代码用N结尾,例如ACME-N
标准代码。这些代码用C 结尾,例如SIEI-C
个人姓名。这些代码用I结尾,例如SMIT-I
俄国公司代码。这些代码用R 结尾,例如MIKR-R
对新收录的公司分配非标准代码(通常是公司名称的前4 个字母)。由于不同的公司可能分配到相同的非标准代码,对那些在DWPI 中有相当规模的专利组合的公司,则分配每家公司唯一的标准代码。例如代码SIEI-C 仅用于Siemens AG 公司。在可以确定母公司和下属公司关系时,对下属公司也使用同一标准代码。由此,代码SIEI-C 也被用于Siemens AG 的下属公司,如Siemens Corp,Siemens Ltd,Osram-Sylvania AG 等。
同族专利的归并
专利权是只在特定国家或地区有效的。要让一项发明在不同国家受保护,就要在每个国家申请专利。这种情形,使得多件专利公开文件描述的是同一项发明。把这些专利文件作为单独的记录来检索的话,同一项发明就会多次被检到,有的可能是使用者不熟悉的语言,若这些专利间的关联不给使用者清楚的提示,这样的专利检索显然会效率低下,而漏检某个感兴趣国家的专利还会带来风险。DWPI 的编辑流程,被设计成便于发现同一发明的不同专利文件,继而将其归并到同一个专利家族,这一针对该项发明的DWPI 记录。
任何家族相类似的,是有一个族长和一些相关联的亲属。专利家族的族长是“基本专利”,而相关的亲属叫“等同专利”。就一项发明,DWPI 编辑系统接收到的第一件专利公开文件为基本专利,该件专利文件将用于生成就该项发明的完整的DWPI 记录,包括所有的著录项信息,题目、摘要、附图、分类号和索引信息。随后DWPI 编辑系统若就该项发明接收到等同专利文件,则将其著录项信息增加到相应的已有DWPI 记录中,来生成完整的专利家族信息。
按照1883 年的巴黎公约,申请人从第一次递交专利申请文件起(即优先权日起),有十二个月的时间可以在别处提出专利申请而以第一次提出专利申请之日为申请日。
这一规则很重要,若没有这个公约,可以预想,后续提交的专利申请就会遇到相冲突的在先技术,而在先技术的范围是任何与该申请的权利要求的原创性相关的公开信息。先前的专利申请进入在先技术会使后续申请丧失新颖性而得不到授权。这个公约的重要性同时在于其提供了一种鉴别同一专利家族的不同成员的机制。那些后续申请在要求按第一次申请的优先权时,会在文件首页提供优先权细节(包括优先权日,和优先权申请号)。这个信息可以由计算机获得和查对,用来把同一专利家族的所有成员联系起来。
专利家族信息示例

在这个例子中,那件用星号标出的GB 专利是基本专利,而US 和EP 专利在其专利文件的首页的优先权信息中提供了起初的GB 专利申请号和申请日,由此被识别为等同专利,归并到这个专利家族中。

确定等同专利
所有新收到的专利文件,都按其申请和优先权信息,与整个DWPI 数据库中的申请和优先权信息作一次检索对比。
基础专利和等同专利的编辑规则需要处理专利的继续申请、部分继续申请、分案申请和统一多国专利申请流程的专利合作条约(Patent Cooperation Treaty,PCT)申请等情形。编辑流程中,处理中的专利的申请数据和所有优先权数据,会与DWPI 数据库的所有超过2,300 万条记录来检索匹配。如果完全匹配上,就产生一件等同专利,如果没有匹配上,就是一件基本专利。如果有多项优先权,有的匹配上了,有的没有,则仍然作为一件基本专利,同时将其与部分匹配上的专利家族建立一个交叉索引。这样,DWPI 编辑流程不光可以从某个特定的专利家族看到专利在哪些地方申请,还可以看到有关联的专利家族。
每年DWPI 数据库会新增超过150 万条的基础专利记录,和大约300 万件等同专利。
非公约等同专利
有时候,一项发明的等同申请的提交超过了巴黎公约规定的十二个月。这种情形下,后续的申请文件中不带有可以用来匹配专利家族的优先权数据。但这些后续申请,不管怎么说,仍然是就相同的发明人的相同的发明的专利申请,是真正的等同专利,把这些“非公约”的等同专利收编和使之成为完整的专利家族的一部分很重要,而DWPI 编辑流程被设计来确保非公约等同专利也能被正确的识别和标引。
DWPI 编辑流程会在每周发现大约1,500 件专利没有优先权数据,但却可能是等同专利。对这些专利,将按发明人、专利权人、发明主题等信息,人工在DWPI 数据库中检索,来查找和鉴别其可能与之等同的专利。如果匹配上了,就把匹配上的专利作为优先权数据加到这件处理中的专利上,和将其作为等同专利处理。这样,即使专利中缺漏了巴黎公约数据,DWPI编辑流程也能保证了属于同一个专利家族的等同专利会被正确的包括进来。
人工重写的增强数据
尽管专利制度的设计,以给予发明方商业利益,来换取知识共享,现实上专利仍然是法律文件,并因此充斥着晦涩难懂的法律语言。要想领会专利里包含的丰富技术内容,需要有擅长从专利文档中解码技术创新的本质并予以明白表述的技术专家来帮忙。而这正是DWPI 编辑团队中约400 名科学和工程技术专家的工作。一件包含新的发明的基础专利出现,则将其按技术主题分类,提交给相应的DWPI 技术专家来审阅和编写文摘。
编写摘要
对一项新发明编写摘要,首先要审阅整个专利文件,同时对权利要求所述的发明予以特别关注,而后按一组定义好的字段编写结构性摘要,来提取和清楚的描述该发明。使用结构性摘要模板的方式让DWPI专利专家把从专利中提炼的信息按一组信息模块来组织,每个模块聚焦在专利的不同方面,从而方便检索。
信息模块包括:标题、新颖性、详细描述、独立权利要求项、技术要点、生物活性、生物学机制、用途、优势、附图说明、较宽披露、特定物质、给药、实施例、定义。
这些字段报道的内容是:
专利标题,也叫德温特标题,是在编写摘要里最重要的字段。它用不超过240 个字符描述发明及其应用,是在线检索显示的首要字段,用于让DWPI 用户快速判断该条记录与要找的内容的相关性。
新颖性字段用于概括本发明与现有技术的不同之处,即本发明的哪些地方是新的。大部分发明都是在已知技术上的增量改进,而新颖性字段聚焦报道这些改进。
详细描述就权利要求所定义的发明的最宽范围给出完整细节。当新颖性字段不能概括出主要的权利要求时,摘要中就会加入详细描述。
技术要点在该发明的核心技术之外提供进一步的信息。它也描述实施发明的优选方案。这些优选方案相对于详细描述所述的发明将范围缩小,按照他们最相关的技术领域联系在一起。
生物学机制字段描述一个生物活性物质在分子水平如何作用(仅用于药品和农用化学品专利)。
用途字段描述发明的全部用途和工业应用,特别强调了与新颖性相关的主要应用。
优势字段描述了发明由其新颖性而获得的优势,通常会联系在先技术存在的问题。
附图说明用来对摘要附图提供标题式的说明,对图里编号的部件的说明,以及当图中有非英语文字时的侧重解释。
当专利说明书中披露的发明相对于权利要求描述范围更宽时,会增添较宽披露字段。它也包括权利要求所定义的发明范围以外的那些那些创新点和应用。
特定物质给出在权利要求中宽泛定义的新物质(例如新化合物)的具体例子。该字段也描述与发明的新颖性直接相关或例证的特定物质。
给药字段给出药品剂量和给药方法方面的细节,以及农用化学品的施用量(仅对药品和农用化学品专利)。
对专利中披露的对权利要求所声称的发明提供支持其具有物理优势的具体数据的实施例,实施例字段给予概要描述。该字段也可能是就发明如何实施的细节信息,或者用来描述制备新的化学或生物物质(比如新化合物)的方法。
定义字段用于提供长的化学式定义。
常言道百闻不如一见。DWPI 专家从专利说明书附图中挑选出最具有代表性作为摘要附图,该图不一定是专利文件首页的附图。通过这种方式,来让知识产权专业人员更容易也更快速的理解发明内容。
对专利分类
增强专利信息的下一步,是进行一致的和详尽的分类,来辅助信息检索和分析。
DWPI 记录使用了两种专有的分类法:
德温特分类号
德温特手工代码
德温特分类号
德温特分类是高级别的字母数字代码分类,将所有的技术领域分为300 个类。分类的主旨是按主题做简单清楚的归类,来提高检索的精准。德温特分类包括:
A 部到G 部包含了药物、聚合物和化学专利
H 部到M 部包含了带有显著化学内容的工程专利
P 部和部分Q 部主要是机械或通用发明
Q 部到X 部包含了从汽车到纳米技术的工程专利
德温特分类面向整个专利文件,考虑了所有的权利要求尤其是涉及使用了化学品或聚合物的,即使发明主题非化学。
当一项专利从逻辑上说可以归属到不止一个部时,则这几个部都将包括它。因此,若一项专利涉及用于聚合纤维的新染料,它就会被归到A 部、E 部和F 部的相应类别中。
德温特手工代码分类
德温特手工代码是字母数字组成的分类码,对文本搜索提供一个替代方案。这些代码看重发明的发明性、重要性和商业应用。手工代码的分类由DWPI 技术专家完成,保证了分类法的一致性,因此与基于词的文本检索相比,能够显著的提供技术检索的速度和精准度,让使用者的宝贵时间不致浪费在查看无关的检索结果上。
手工代码已历经35 年多的发展,有超过22,000 个代码。
手工代码提供更细分的专利子类,以凸显更为特定的专利新颖性和应用。例如:
X22 电动车、机动车(类)
X22-H 摇窗机构
X22-H02 摇窗机构马达
D15 水处理(类)
D04-A 水处理
D04-A01净化
D04-A01G 通过离子交换
手工代码由三个字符组成的分类号打头,就专利中的技术作高级别的分类。
手工代码把技术进一步分到更特定的领域。手工代码越长,分类越精确和聚焦。
再举一例,想要得到“乳腺癌的治疗方法”的德温特手工代码,我们首先选择B 部代表药品,然后找到B14 代表药品活性。
要找的与癌症有关的药物是B14 下的B14-H,而其下还有更精确的子分类。继续往下找到B14-H01D 是内分泌癌,继而往下有B14-H01D1 乳腺癌和B14-H10D2 甲状腺癌。
至此,我们找到了所需的代码B14-H01D1。
手工代码不依赖描述发明概念的构词,因而比文本检索有优势。不论专利原文的语种和国别,手工代码保持分类法的一致性。手工代码同时体现发明的新颖性和应用,这有利于精确检索,并可以组合使用,从而提供对特定技术信息的轻松而强大的检索。
在技术分类的A-聚合物、B-药物、C-农业化学品和E-一般化学品中,还对专利记录增加了“深度索引”,来对这些专利中的内容作更充分的标引。
质量控制
在创建一条DWPI 记录的所有阶段—从数据转换、查验、编写摘要、分类标引—都有严格的质量控制流程,来确保只有最高质量的信息被添加进DWPI 数据库的230 多万条记录中。
结论
DWPI 提供无与伦比的全球专利文献获取,涵盖包括药品、农药和兽药、聚合物、化学品、机械、电子和电气工程的所有技术。利用DWPI,您可以识别专利性、了解一项创新是否侵权或有效、获取竞争情报和监测产业趋势、发现新市场和新市场机会、找出专利许可机会、制定自己开发还是从外部购买的决策、解决技术问题、和调研并购对象。
无论您对专利的兴趣是在于技术内容、或是商业计划和开发、或是保护本机构的创新,DWPI 可靠和增强的专利数据具有诸多关键特色,使其脱颖而出成为您所能得到的最受信赖的专利研究信息源,为您尽可能的呈现最完整的视野。
欲想了解更多内容,请联系:
汤森路透知识产权与科技
市场负责人 王琳
电话:010-57601216
传真:010-82862088
Email:Victoria.wang@thomsonreuters.com
订阅:点击屏幕右上角按钮查看公众账号->点击关注
分享:点击屏幕右上角按钮->发送给朋友/分享到朋友圈
联系我们:
汤森路透科知识产权与科技集团
电话:010-57601200
Email:info.china@thomsonreuters.com
产品技术支持:
电话:4008822031
Email:ts.support.china@thomsonreuters.com
网址:ip-science.thomsonreuters.com.cn
微博:weibo.com/2304618037
在线大讲堂微博群:http://q.weibo.com/569008

