|
|
新智元报道
$ [! `4 L6 _0 H/ f* s( R" U编辑:倾倾 v9 W, n$ f+ u( `3 F' N2 t6 W+ y
【新智元导读】3月16日,大英百科全书联合韦氏词典,起诉了OpenAI,并且罗列了ChatGPT的「四宗罪」。不要觉得Britannica心狠,此前ChatGPT编造错误信息,却把来源伪托给Britannica。OpenAI未作回应。
1 _7 z' O4 _ X$ c6 M! a$ mOpenAI又被起诉了。+ W& `/ l5 h. j+ e# S
3月16日,大英百科全书联合旗下的韦氏词典,对OpenAI提起诉讼。
5 D! j* [3 ]5 m' G原因是,它认为ChatGPT进行了大规模的版权侵权。; z/ U# D0 p' S' F3 g
Britannica比所有原告准备得更充分:它紧抓训练数据抓取、模型记忆输出、RAG实时检索,同时追加《兰纳姆法》商标侵权。
y" M+ L: H, v7 [- r0 ]这是AI版权诉讼史上,第一次有人试图把整条生成链路一锅端。" S o4 h/ w3 [6 |( k
GPT-4能逐字默写大英百科+ x! p' p0 M; n
根据TechCrunch报道,Britannica直接点名GPT-4,认为它已经记住了其大量版权内容,能够按需输出近乎逐字逐句的复制品。
9 `4 U: m& O/ A% ]# @不是相似,不是接近,是逐、字、复、制。
0 m4 M6 t5 u. H# J4 e6 v. {2 j这背后有一定的技术依据。斯坦福和耶鲁的研究团队曾做过实验,从主流大模型中提取《哈利·波特》原文,最高提取率达到96%。
c- a' J; R- e1 d; s+ j/ _% m, K' }3 v! C# Y' ]
8 U8 L$ z, o4 V8 j
也就是说,训练数据里的内容,有相当一部分被记在了模型权重里,在特定提示词下可以几乎原样还原。
) F) T8 r' ? G' bBritannica持有的版权内容规模并不小。它旗下近10万篇在线文章、百科条目和词典释义,覆盖从科学、历史到文学的几乎所有主要知识领域。
8 B* |# t B+ B: A) E这些内容由专业编辑和学科专家历经数十年积累而成。在维基百科崛起之前,这套体系就是人类知识的标准索引。
3 D1 s, f" Q2 r2 q9 H! N) F' }而OpenAI一直在灰色地带游走。# O/ j. g' \0 U. n- x* s% b
查一次资料,也算侵权3 B/ |3 K; L+ Y. C
此前,各方一直在争论:用我的内容训练模型,算不算版权侵权?$ z! ^! C5 T1 ?, P, V, K
Britannica这次的指控更进一步。他的指控分三层:2 C5 P: C2 |4 |
第一层,未经许可抓取近10万篇内容用于大模型训练。/ X1 S, t) R( D; P, Y
第二层,ChatGPT在生成回答时,输出了Britannica内容的完整或部分逐字复制,这构成直接侵权。, |. f' N1 H* z
第三层,也是最具争议的一层。OpenAI在ChatGPT的RAG工作流中使用了Britannica文章。" p2 o0 k3 ^, n( q
RAG是ChatGPT扫描外部数据库、获取最新信息的机制。2 T8 r3 ?( t* n7 q. d
7 f3 _1 M$ A4 d# `' X: z1 {1 c- X' r! j7 ?. V
Britannica认为,即便它的内容没有进入训练集,但只要它出现在实时检索里,就被视为侵权。
1 U% T+ Z- }9 |& c这种想法前所未有,它意味着不管是静态训练还是动态检索,只要调用了版权内容而未获授权,都要负责。) c/ x/ T% Q8 i, e8 ^, M' w/ Y9 ?
更有意思的是第四条指控:Lanham Act商标侵权。
! N7 V1 R. ~3 a0 O# B( R, X; OBritannica认为,ChatGPT有时会产生幻觉,然后把这些错误内容归因于Britannica,制造Britannica生成了错误信息的假象。
2 Y- ]# l, b( `. }这不单单是侵权,Britannica的品牌信誉都要替OpenAI的错误买单。
Y7 L7 Z* d" G' p7 z& v; l1 b* r这危及公众持续获取高质量、可信赖在线信息的能力。4 u: Y3 K3 O' i& `$ E3 I. L
同一个问题:德国说侵权,英国说没有; ~1 l, q5 ~+ Q4 Y& Q* Y1 W. Z
这是整场官司的核心,也是目前全球司法界争论最激烈的问题之一。
- U. ?6 {9 z1 Y, v5 x; x! [德国慕尼黑法院在GEMA诉OpenAI案中认定:GPT-4和GPT-4o的模型权重中确实嵌入了歌词,这构成版权意义上的复制,可以提出禁令和赔偿请求。0 V/ B1 [- T+ K- m. [3 N' F) D% M
. @. v9 d! K# A$ z G3 M: \8 `
2 c& Y! _9 Z' w6 E# ?& u0 e7 `- F模型权重是AI在训练过程中学到的数值参数,它决定了模型会输出什么。在慕尼黑法院看来,只要能从这些参数里还原出作品就足以构成侵权。3 A% l7 z7 C, w4 @4 |3 k. e
英国高等法院在Getty Images诉Stability AI案中得出了完全相反的结论。
" E# B4 R9 h7 b3 E0 o& N7 {- P; t9 I' H7 f1 T% F; z* {
" X! \; e b3 o
AI模型不是侵权副本,因为其权重既不包含也不复制版权作品本身,只存储了学习到的规律性模式。
: F7 [- e9 M& f! B" }) h美国这边,Anthropic曾在版权诉讼中说服联邦法官William Alsup,认定将内容用作训练数据具有足够的转化性,可以适用合理使用原则。$ c: }3 }; z* M6 ?! E. F+ ~
但Alsup同时认定Anthropic非法下载了数百万本书而非付费获取,这一点构成违法,最终促成了1.5亿美元的集体和解。% U" q; j' o; [& K: s0 X
Britannica这起案子在纽约提起,适用的是美国联邦法律。, r" G! a5 V% u' g* u, @
但目前没有确立性先例明确说明用版权内容训练LLM究竟算不算侵权,每起案子的结果,在相当程度上仍取决于具体法官的认定逻辑。& y( w+ U3 z4 J" J
如果法院认可实时检索也构成侵权,那对整个AI行业的影响将远超任何一起训练数据纠纷。5 b8 _( o% b/ T l- e) t
告Perplexity,是在给OpenAI热身
4 Z3 ~8 F8 _5 N7 e! E9 K' X0 o, `这不是Britannica第一次出手。
: X" Z) q3 [3 q- ~, T6 t+ A早在2025年9月,Britannica就对Perplexity提起了类似的版权和商标侵权诉讼,该案目前仍在审理中。, x& [1 o5 @. X4 u# x# }
8 H4 l: |, ]7 K+ Q. w
' F9 ~3 o' [, a+ BPerplexity是一家以RAG为核心产品逻辑的AI搜索公司。
, B* q" D! m) @( t/ Y2 ]Britannica选择先打Perplexity,像是在做法律预演,摸清RAG侵权这条路的可行性,然后再把同样的逻辑复制到OpenAI身上。
2 {& L" v! F' @) H- J( m与此同时,行业里的版权战场正在全面升温。/ M6 d' T6 G5 y& J% d9 r
《纽约时报》、Ziff Davis、美国和加拿大十余家报纸先后起诉OpenAI。$ S1 k6 H/ ^6 \1 j
6 A8 W8 g/ ~1 I$ @; A6 B
- d/ Z3 B1 n, F- a& \: k# V U: H: fThe Intercept和US News & World Report也已加入原告队伍。
5 D" F, z# x3 _& @6 W9 R1 b截至目前,专门追踪AI版权诉讼的网站ChatGPT Is Eating The World统计显示,这已是针对OpenAI的第63起版权诉讼。
+ D' A+ ]7 _6 sOpenAI对TechCrunch的置评请求未作回应。
/ l0 Z; \& V0 Y) r9 \: L1 M' \* z# `$ p被维基百科打残,又被ChatGPT截流: Q4 g) D: `% k x/ j* B
退一步看,有些事情比赔偿金额更值得关注。
7 w6 ?. L/ ~4 e3 n. ~7 y- X9 S& ^Britannica创立于1768年,是英文世界里持续时间最长的百科全书品牌,它代表的是几百年人类知识整理传统的某种象征。4 ], ~. V6 S x1 h" E
当这样一个机构出现在AI版权诉讼的原告席上,传递的信号很清晰:知识权威这个概念,正在试图通过法律手段,重新在AI生态里划定自己的边界。" G. f ^. ?6 k1 @. {3 m
Britannica曾是纸质百科时代的绝对权威,被维基百科打得几乎找不到存在感。
! j9 ~3 A/ y! S: O( f& ]& F+ x6 C% {% U# v" Y) h" S. C
2 e9 S2 M. T3 }% X4 O' x2 a
后来转型为数字订阅平台,靠着内容的可信度和专业性重新站稳脚跟。
1 G s7 l x6 J" f) R- q: w如今,ChatGPT的出现让它又一次面临被替代的威胁——但不是被更好的百科替代,而是被一个用它内容训练出来、但不分给它一分钱的模型替代。
5 \4 K* t9 l- r# c [. ]诉状里有一句话:
- f, z+ m4 i- N e) n& JChatGPT通过生成替代出版商内容的回复,抢走了出版商的流量。
5 u0 S! _' W% S. ~这是商业模式的正面冲突。RAG这条指控是否能站住脚,目前没有人能给出确定答案。3 v4 ]/ k; [, @" h, A8 [2 t: i
但如果法院哪天认可了这个逻辑,整个行业的实时检索管道都需要重新谈授权。6 ~9 h5 H* K" i, @1 H9 R$ W9 G
所有以联网搜索+AI生成为核心产品的公司,都要面临这样的问题。) P. a% Z1 E2 z9 e5 F: h9 v- f
250年的老牌百科,正在用一份诉状,尝试给AI的边界划一条线。
% J+ i" ~: U- S3 ^( x4 h- s这条线最终画在哪里?2026年,大概会有答案。
B+ F0 H, X! \: B* [: k参考资料:
8 B4 @3 l$ z8 D* N$ @ ahttps://www.reuters.com/legal/litigation/encyclopedia-britannica-sues-openai-over-ai-training-2026-03-16/
0 {4 }. V/ e8 D- N- L, a% Hhttps://techcrunch.com/2026/03/16/merriam-webster-openai-encyclopedia-brittanica-lawsuit/5 i, |, e& p: K% S; r
https://the-decoder.com/encyclopedia-britannica-sues-openai-for-training-on-nearly-100000-articles-without-permission/0 P! Y V# }- n2 Q
https://gizmodo.com/encyclopedia-britannica-sues-openai-over-ai-training-data-20006077709 {* t6 A/ Y" ^
https://news.bloomberglaw.com/ip-law/britannica-merriam-webster-accuse-openai-of-copying-thEIr-works
8 g$ W: `+ X5 b+ T/ ohttps://chatgptiseatingtheworld.com/wp-content/uploads/2026/03/Encyclopedia_Britannica_Inc-v-OpenAI-COMPLAINT-Mar-13-2026.pdf
1 s8 r9 o j/ e) |( U' Ihttps://www.aol.com/articles/encyclopedia-britannica-sues-openai-over-141324436.html |
|