大数跨境
0
0

科技强国: AIPD美国人工智能专利数据(1976-2023)

科技强国: AIPD美国人工智能专利数据(1976-2023) 数据皮皮侠
2025-04-19
2

1871

AIPD美国人工智能专利(1976-2023)


数据简介


在人工智能技术革命的浪潮中,美国始终保持着全球创新的前沿地位。为应对技术变革带来的挑战,USPTO 于 2025 年发布人工智能战略,强调通过优化专利审查流程、培养专业人才、加强国际合作等举措,进一步推动人工智能技术的创新与应用。该战略依托其专利数据库(AIPD 2023)的技术升级,采用改进的 BERT 模型提升专利文本分析精度,确保对人工智能相关发明的高效识别与分类。这些数据不仅为学术界和产业界提供了研究支撑,主要以工作场景中的AI暴露度相关指数为研究核心,也为政策制定者评估技术趋势、制定创新政策提供了重要依据。

美国专利商标局(USPTO)在2021 年公开发布了“the Artificial Intelligence Patent Dataset (AIPD)”,即《人工智能专利数据集》。该数据是由Giczy等专家使用专门开发的机器学习模型,从1976 年至 2020 年公布的美国专利整体中识别出来的人工智能专利所组成,主要基于专利标题、专利摘要文本、专利权力要求来识别各项专利中的8个人工智能技术构成要素,分别是

-machine learning(机器学习):包含从数据中学习的计算方法。

-vision(此等语境指计算机视觉):通过从视觉输入中提取信息来理解图像和视频

-natural language processing(自然语言处理):包含理解语言的方法

-speech(此等语境指语音处理):通过处理音频来解析词语序列

-evolutionary computation(进化计算):包含受生物启发的方法(如遗传算法),这类程序通过从随机生成的突变集合中选择最优方案实现自我优化

-AI hardware(人工智能硬件):包括专门设计用于执行人工智能软件的物理硬件

-knowledge processing(知识处理):包含表征信息并从现有知识库中提取新事实的方法

-planning and control(规划与控制):包含生成实现特定目标计划的系统

根据美国专利商标局(USPTO)的描述,Pairolero等人(2023)对数据进行了扩展,以识别 1976 年至 2023 年公布的包含人工智能内容的美国专利文件。AIPD提供了专利与人工智能相关的预测概率,依照派罗莱罗等人(2023)的做法,8个人工智能技术构成要素分别以“模型评估分数”的形式来衡量一项专利中各项要素中的含量,同时以用二元变量的形式代表该专利是否为人工智能专利,分别在50%、86%、93%的预测阈值情况下。若预测概率超过 86% 的阈值,就将该专利归类为人工智能专利。

因此,本数据集基于AIPD 2023版中“predict86_any_ai”进行筛选,若该专利在这项指标中为1,则判定为人工智能专利。与此同时,我们还保留了原始数据中的其他指标,仅排除了“predict50_any_ai”。另外,我们将该筛选出来的数据,与谷歌专利数据-美国全量专利数据进行匹配合并,基于“appl_id”= “格式化申请号”,同时“pub_dt”= “专利公开日期”。据观察,谷歌美国专利中的“格式化申请号”是基于“appl_id”8位数代码加上“US”,而且部分申请号有两个专利公开日期,可能是因为专利的预公开和正式公开、持续案件或分案申请、修正和重新公开、行政错误或特殊情况等原因导致,所以我们在未做任意排除。最后,该筛选版本为AIPD美国人工智能专利(1976-2023)——86%全版,为方便大家研究使用,我们将它按照公开日期年份进行数据划分为不同年份csv。

接下来,我们参照Wei Jiang和Junyoung Park等(2025)的做法,整理并制作了一份AIPD美国人工智能专利(1976-2023)——86%精版。他们的研究中指出,大概有四分之一的专利从未被引用过,且少于1%的专利被引用过超过100次,因此需做精度筛选来找出能够重塑生产过程的技术专利,具体而言是选出每年的顶尖1%的AI专利,它是基于adjusted forward citation counts(调整后的向前引用计数)所衡量的,并且计算方式为其原始引用次数除以同年同季度在相同合作专利分类(CPC)子类中授予的人工智能专利的平均引用次数。我们根据该描述设计出以下公式:

我们基于前文所述的86%全版做出以上计算。需要注意的是,所合并用的谷歌美国专利数据中,合作专利分类(CPC)为嵌套形式,打个比方,以下是其中一条专利的CPC信息:

[{'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}]

因为CPC信息中分类繁多,且个别有重复,所以我们只选择每份专利的首次出现的首要分类的分类代码用作“首要首选CPC subclass”进行计算,该条件一定是基于首要分类为True的情况。

数据来源

谷歌专利数据-美国全量专利数据,美国专利商标局(USPTO),由数据皮皮侠团队人工整理,全部内容真实有效。

数据范围

美国人工智能专利

时间跨度

1976-2023

数据格式

数据格式为csv形式

数据指标

核心指标(仅限精版)

doc_id

格式化申请号

专利公开日期

引用次数

季度

首要首选CPC subclass

平均引用次数

调整后的向前引用计数

源于美国专利商标局(USPTO)的原始数据AIPD自带指标

doc_id

flag_patent

predict86_any_ai

predict93_any_ai

ai_score_ml

ai_score_evo

ai_score_nlp

ai_score_speech

ai_score_vision

ai_score_planning

ai_score_kr

ai_score_hardware

由于篇幅有些,仅展示部分谷歌专利数据指标

专利公开编号

专利申请号

国家/地区代码

种类代码

专利申请种类

PCT编号

专利族id

spif专利公开编号

spif专利申请编号

专利受让人

统一的专利受让人信息

专利审查员


数据展示

参考文献

[1] Jiang, W., Zhang, S., Xiao, R. (Jiqiu), & Park, J. (2025). AI and the Extended Workday: Productivity, Contracting Efficiency, and Distribution of Rents. NBER Working Paper Series. https://doi.org/10.3386/w33536

[2] Giczy, A.V., Pairolero, N.A. & Toole, A.A. Identifying artificial intelligence (AI) invention: a novel AI patent dataset. J Technol Transf 47, 476–505 (2022). https://doi.org/10.1007/s10961-021-09900-2

[3] Pairolero, N.A., Giczy, A.V., Torres, G. et al. The artificial intelligence patent dataset (AIPD) 2023 update. J Technol Transf (2025). https://doi.org/10.1007/s10961-025-10189-8

[4] https://www.uspto.gov/ip-policy/economic-research/research-datasets/artificial-intelligence-patent-dataset

声明:本数据由数据皮皮侠团队整理,仅用于学术研究

数据引用格式

请您在任何基于“数据皮皮侠”数据库所产生的中文研究成果(含学术论文、公开发表的研究报告等)均包括以下表述或类似表述声明:

本研究使用的数据来自PPData数据库。

例如:文中使用的农业研究相关数据来自PPData农业研究数据库。

其中,“农业研究相关数据”替换成实际使用的数据名称。

请您在任何基于“数据皮皮侠”数据库所产生的英文研究成果(含学术论文、公开发表的研究报告等)均包括以下表述或类似表述声明:

The data used in this study came from PPData database.

The agricultural research data used in this paper are from PPData agricultural research database.

Where "agricultural research related data" is replaced with the actual data name used.

声明:本数据由数据皮皮侠团队整理,仅用于学术研究

资源获取方式


 数据编号  1871


高级会员或永久会员 可在官网搜索对应编号免费下载

官方网站:www.ppmandata.cn


非高级会员或永久会员 可进入官网

索对应编号后在网页右上角通过数据元购买

以1533为示例:







报销材料出具、会员活动咨询、机构合作洽谈等联系皮皮侠002


往期热门数据推荐(点击跳转)

1、1715 供应链创新试点DID(2007-2023)

2、1712 城市生态韧性(2007-2019)

3、1711 农业数字化与绿色化(2012-2020)

4、1717 消费者投诉与上市公司匹配数据库(2018-2024.7)

5、1708 美股上市公司10-k年报(2003-2024)

【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读16
粉丝0
内容2.1k