大数跨境

百年百科全书巨头怒告OpenAI:这场AI版权之争,关乎每个人的知识未来

百年百科全书巨头怒告OpenAI:这场AI版权之争,关乎每个人的知识未来 洞见畏来
2026-03-17
1
导读:📚⚖️ 百年百科全书巨头怒告OpenAI:这场AI版权之争,关乎每个人的知识未来当拥有250年历史的知

当拥有250年历史的知识殿堂与最前沿的人工智能巨头对簿公堂,这不仅仅是一场官司,而是关乎知识生产、版权保护与技术创新的三方博弈。

               
AI时代,知识的"投喂"成了原罪?

2024年,一个令人意想不到的消息传来——拥有近250年历史的《大英百科全书》及其旗下著名的《韦氏词典》,把当下最炙手可热的AI公司OpenAI告上了法庭。

是的,你没听错。就是那个几代人在图书馆里翻阅过的、封面烫金的大部头百科全书,那个美国人查单词必用的权威词典,现在正和ChatGPT的母公司打得不可开交。

按照诉讼文件的说法,OpenAI涉嫌"大规模侵犯版权"。具体来说,大英百科全书方面指控OpenAI在未经许可的情况下,抓取了将近10万篇在线文章用于训练其大语言模型。更让他们气愤的是,ChatGPT有时候会直接"复制粘贴"百科全书的内容来回答用户问题,连改都不带改的。

这已经不是什么新闻了。从《纽约时报》到加拿大的地方报社,从科技媒体到出版集团,起诉OpenAI的名单越拉越长。但大英百科全书的加入,让这场战争有了不一样的意味——它代表着人类几百年积累的知识权威,正在与AI这个"新知识生产机器"正面碰撞。

               
RAG技术:一把双刃剑

要说这次诉讼中最值得关注的点,莫过于原告提到的RAG技术——检索增强生成(Retrieval Augmented Generation)。

简单解释一下这是什么东西。传统的大语言模型就像一个博览群书的学者,但它的知识有个截止日期,而且有时候还会"信口开河"——也就是大家常说的AI幻觉。RAG技术就像是给这位学者配了一个实时联网的助手,遇到不懂的问题就去查最新的资料,然后再组织语言回答。

听起来很美好对吧?但问题就出在这里。

大英百科全书指控说,ChatGPT的RAG系统直接从他们的数据库里"拿"内容。用户的提问被转化成查询请求,系统去百科全书的仓库里翻找答案,然后包装成ChatGPT自己的回答返还给用户。这样一来,用户得到了想要的答案,却从来没去过百科全书的网站,更别说点击广告或者订阅付费了。

用诉讼文件里的话说:"ChatGPT通过生成回答来替代出版商的内容,直接与出版商形成竞争,从而剥夺了像大英百科全书这样的网络出版商的收入。"

这话听着是不是有点耳熟?当年搜索引擎刚出现的时候,传统媒体也是这么抱怨的——谷歌把用户"截留"在了搜索结果页,没人点进原始网站了。历史似乎总是在重复自己。

               
幻觉问题:名誉受损谁来买单?

除了版权侵权,大英百科全书的诉讼还提到了另一个有意思的点——AI幻觉导致的"名誉损害"

这事儿说来有点黑色幽默。ChatGPT有时候会一本正经地胡说八道,而且更糟的是,它还会把这些胡说的内容"栽赃"给某个权威来源。比如它可能会编造一段历史,然后说"根据《大英百科全书》记载"……

原告在诉讼中指出,这种虚假归因不仅损害了出版商的声誉,还可能"危及公众持续获取高质量、可信赖在线信息的机会"。毕竟,如果人们发现"大英百科全书"这个金字招牌被用来背书各种AI胡编乱造的内容,久而久之,谁还相信知识权威呢?

这一点触及了一个更深层的焦虑:在AI时代,真相的锚点正在松动。当机器可以模仿任何人的语气、引用任何"来源"、生成任何"事实",我们赖以判断信息可靠性的那些线索——品牌声誉、出版机构、作者身份——都变得可疑起来。

               
起诉OpenAI的"复仇者联盟"

大英百科全书不是一个人在战斗。

如果你梳理一下过去两年起诉OpenAI的机构名单,会发现这几乎是一张传统媒体与出版业的"全明星阵容"

原告 类型 主要诉求
《纽约时报》 主流媒体 数十亿美元赔偿,停止未经授权使用
Ziff Davis集团 科技出版 旗下Mashable、CNET等内容的版权保护
美国地方报社联盟 地方媒体 包括《芝加哥论坛报》《丹佛邮报》等
加拿大媒体集团 国际媒体 《多伦多星报》、加拿大广播公司等
大英百科全书 知识出版 10万篇文章被侵权
多位作家 个人创作者 集体诉讼,训练数据侵权

这场诉讼浪潮的背后,是整个内容产业对AI时代的生存焦虑。

这些出版商们心里清楚,AI不是洪水猛兽,它确实带来了效率的提升。但问题是——这种提升是建立在谁的基础上? 如果AI公司可以随意抓取互联网上的内容来训练模型,然后用模型生成的新内容去替代原始内容,那原始内容的生产者靠什么活下去?

这就好比一个农夫辛辛苦苦种了一年的庄稼,收割机公司直接把庄稼收走去训练自动驾驶,然后卖收割机给所有人,农夫却连一分钱补偿都没拿到。长此以往,谁还愿意当农夫?

               
法律的天平:创新与保护的拉锯战

说了这么多,关键问题还是——OpenAI这么做,到底违法吗?

答案可能会让你失望:目前还真不好说。

美国的版权法在这个问题上还没有形成强有力的判例。训练AI是否属于"合理使用"(fair use)?生成式AI的输出算不算衍生作品?这些问题都还在等待法院的裁决。

不过,有一个案例值得关注。在前不久的一起诉讼中,AI公司Anthropic说服了联邦法官威廉·阿尔苏普(William Alsup),认定使用版权内容作为训练数据具有足够的"变革性",可以构成合理使用。这听起来对AI公司是个好消息。

但法官同时指出,Anthropic在获取这些内容的过程中存在违法行为——他们非法下载了数百万本书,而不是花钱购买。这种"获取方式的非法性"最终让Anthropic付出了15亿美元的集体诉讼和解金。

这个判决传达了一个微妙的信息:用别人的内容训练AI,也许法律上说得过去;但你怎么拿到这些内容的,可能会让你栽跟头。

回到大英百科全书的案子,OpenAI是怎么拿到那10万篇文章的?是通过公开的API?还是爬虫抓取?亦或是买了第三方数据集?这些细节可能会影响案件的走向。

               
更深层的追问:知识的未来属于谁?

抛开法律技术细节,这个案子其实提出了一个更宏大、也更让人不安的问题:

在AI时代,知识究竟应该由谁来生产、由谁来掌控、由谁来获利?

大英百科全书代表的,是人类几百年形成的知识生产体系——专家撰写、同行评审、机构背书、付费获取。这个体系虽然慢、虽然贵,但它保证了知识的准确性和权威性。

而OpenAI代表的,是一种全新的知识生产方式——算法从海量数据中提取模式,生成看似合理的内容。它快、它便宜、它24小时在线,但它也会犯错,而且有时候错得离谱。

这两种模式的冲突真实存在。如果AI公司可以不承担知识生产成本,利用这些知识训练模型,再反过来与原始生产者竞争,那这个生态系统还能持续多久?

反过来说,如果每一笔训练数据都要获得授权付费,AI的发展会不会被拖慢?创新门槛会不会变得高不可攀?

这就是法官们需要权衡的——在保护创作者权益和鼓励技术创新之间,如何找到那个微妙的平衡点?

               
写在最后:我们都是利益相关者

这场官司的结果,会影响到每一个普通人。

如果AI公司被判需要为训练数据付费,ChatGPT可能会涨价;如果法院认定训练数据属于合理使用,可能会有更多出版商把内容锁在付费墙后,互联网上的免费高质量内容会越来越少。

更重要的是,这个案子会塑造未来几十年知识生产与消费的规则。我们会生活在什么样的信息环境里?是能轻松获取AI生成的内容,但真假难辨?还是需要为每条可靠信息付费,但至少知道它来自可信的来源?

大英百科全书与OpenAI的这场对决,看似是两个巨头的商业纠纷,实则是整个人类社会在数字化浪潮中必须做出的选择

而对我们普通用户来说,最务实的态度或许是:享受AI便利时,也别忘了那些默默生产知识的人。如果连大英百科全书都活不下去了,我们又该相信谁呢?

【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 633
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读228
粉丝0
内容633