|
|
新智元报道, r+ B/ }0 v8 w1 y9 q5 L
编辑:倾倾
1 d, t2 l8 J. S, V6 V1 o; s【新智元导读】3月16日,大英百科全书联合韦氏词典,起诉了OpenAI,并且罗列了ChatGPT的「四宗罪」。不要觉得Britannica心狠,此前ChatGPT编造错误信息,却把来源伪托给Britannica。OpenAI未作回应。6 y) e* p! e# l' U" L$ ]( z V$ O
OpenAI又被起诉了。# v# f. ^2 D5 m$ M2 K1 @, [# `
3月16日,大英百科全书联合旗下的韦氏词典,对OpenAI提起诉讼。
5 Q/ i s% c1 [, W" C原因是,它认为ChatGPT进行了大规模的版权侵权。
/ ^. H' {& H3 e2 b$ q6 C5 hBritannica比所有原告准备得更充分:它紧抓训练数据抓取、模型记忆输出、RAG实时检索,同时追加《兰纳姆法》商标侵权。
, p& p, y% d- y3 a" R这是AI版权诉讼史上,第一次有人试图把整条生成链路一锅端。
* C8 [6 M: q& \: {. {GPT-4能逐字默写大英百科2 w: p! n& s0 a' O& ^
根据TechCrunch报道,Britannica直接点名GPT-4,认为它已经记住了其大量版权内容,能够按需输出近乎逐字逐句的复制品。
- l3 n* q9 T% X5 Z- L3 {+ `不是相似,不是接近,是逐、字、复、制。
$ `, m/ i! I8 j4 ^6 ~/ U* D p" {. n这背后有一定的技术依据。斯坦福和耶鲁的研究团队曾做过实验,从主流大模型中提取《哈利·波特》原文,最高提取率达到96%。/ K% L* A: E$ \3 b9 M% t
8 k& h. ^4 E) O
7 D9 o3 i/ t- x: L也就是说,训练数据里的内容,有相当一部分被记在了模型权重里,在特定提示词下可以几乎原样还原。' ^0 s* K/ ?9 }" N
Britannica持有的版权内容规模并不小。它旗下近10万篇在线文章、百科条目和词典释义,覆盖从科学、历史到文学的几乎所有主要知识领域。
# `' z. |$ X+ A* j- f这些内容由专业编辑和学科专家历经数十年积累而成。在维基百科崛起之前,这套体系就是人类知识的标准索引。
; x$ J/ V$ }0 z: G" ^5 d而OpenAI一直在灰色地带游走。; y+ X- M4 W: E1 n/ O* k1 V
查一次资料,也算侵权
% Z3 c# b' ?+ }1 a此前,各方一直在争论:用我的内容训练模型,算不算版权侵权?5 k- E @1 k! A* h* A
Britannica这次的指控更进一步。他的指控分三层:
. a8 d/ X2 D6 U4 G2 H第一层,未经许可抓取近10万篇内容用于大模型训练。
, t4 _5 C- t+ P s第二层,ChatGPT在生成回答时,输出了Britannica内容的完整或部分逐字复制,这构成直接侵权。
1 x4 M5 \! d$ H. z第三层,也是最具争议的一层。OpenAI在ChatGPT的RAG工作流中使用了Britannica文章。
2 ?& |6 j: r$ D2 c( Z/ Q- ZRAG是ChatGPT扫描外部数据库、获取最新信息的机制。
3 v0 E# W4 [# C( z2 e# H
2 X7 j; J. o8 _$ x0 ~0 R7 e ^, O4 x8 d+ }& t8 l
Britannica认为,即便它的内容没有进入训练集,但只要它出现在实时检索里,就被视为侵权。+ Z' f* }. K$ d6 E! I
这种想法前所未有,它意味着不管是静态训练还是动态检索,只要调用了版权内容而未获授权,都要负责。
) x( W& l3 W) ^& {- u# Z, d更有意思的是第四条指控:Lanham Act商标侵权。/ A! V2 \, O/ p( P
Britannica认为,ChatGPT有时会产生幻觉,然后把这些错误内容归因于Britannica,制造Britannica生成了错误信息的假象。
5 F7 y5 E, I: V这不单单是侵权,Britannica的品牌信誉都要替OpenAI的错误买单。
4 u" k' _- |9 Y0 R3 @+ l/ V这危及公众持续获取高质量、可信赖在线信息的能力。$ A5 T' t. c0 ?& q/ ?& f2 w3 `
同一个问题:德国说侵权,英国说没有
3 z$ P) d, a o5 E1 O这是整场官司的核心,也是目前全球司法界争论最激烈的问题之一。
% E+ m7 L# e. p; ~德国慕尼黑法院在GEMA诉OpenAI案中认定:GPT-4和GPT-4o的模型权重中确实嵌入了歌词,这构成版权意义上的复制,可以提出禁令和赔偿请求。
; [( T* P: R' c* [6 [ `
" @: L) \- y$ C1 Q7 p" S0 ^. B$ j1 [ h7 z1 y* @. t1 \/ D8 b! }! u K' p
模型权重是AI在训练过程中学到的数值参数,它决定了模型会输出什么。在慕尼黑法院看来,只要能从这些参数里还原出作品就足以构成侵权。
) q6 P5 Z) u5 h8 H- Z1 z9 E英国高等法院在Getty Images诉Stability AI案中得出了完全相反的结论。) D% s6 t# _/ Y
4 P$ U, _; u5 ^1 o# w( s
7 o4 ~2 P" w/ V! I. n0 JAI模型不是侵权副本,因为其权重既不包含也不复制版权作品本身,只存储了学习到的规律性模式。9 i ~6 E- B! Z' e% e) V
美国这边,Anthropic曾在版权诉讼中说服联邦法官William Alsup,认定将内容用作训练数据具有足够的转化性,可以适用合理使用原则。
. I/ T/ L1 t, h z2 K( [但Alsup同时认定Anthropic非法下载了数百万本书而非付费获取,这一点构成违法,最终促成了1.5亿美元的集体和解。
}4 r" @9 }( s" Q5 f! y- L9 l3 lBritannica这起案子在纽约提起,适用的是美国联邦法律。. d" ]# l) R. { B! S' A
但目前没有确立性先例明确说明用版权内容训练LLM究竟算不算侵权,每起案子的结果,在相当程度上仍取决于具体法官的认定逻辑。9 c2 ~" ^* a& ~4 n) D4 E
如果法院认可实时检索也构成侵权,那对整个AI行业的影响将远超任何一起训练数据纠纷。- P N+ N4 o/ f) x* x
告Perplexity,是在给OpenAI热身& g1 G- p- _' X B. j! N$ z) o9 @
这不是Britannica第一次出手。
8 N5 p# V+ _0 j. y7 x早在2025年9月,Britannica就对Perplexity提起了类似的版权和商标侵权诉讼,该案目前仍在审理中。& O0 e! u5 P- S4 `" R, P6 z
' K7 s1 h% T4 ?8 C' k9 s* [' p F3 U$ w$ S# c) x! w
Perplexity是一家以RAG为核心产品逻辑的AI搜索公司。- |4 K9 i5 w1 I6 `1 t: y
Britannica选择先打Perplexity,像是在做法律预演,摸清RAG侵权这条路的可行性,然后再把同样的逻辑复制到OpenAI身上。
2 W; Y% V$ U, `9 v- l% S2 s+ O5 A( q与此同时,行业里的版权战场正在全面升温。! w; p) I e9 {& @' r6 p0 v; X- t
《纽约时报》、Ziff Davis、美国和加拿大十余家报纸先后起诉OpenAI。0 @7 W7 ~; C; M( P) C7 I: p
7 V9 _+ \% O5 Q' I: c
" r' Y( o' ?* K- k" \The Intercept和US News & World Report也已加入原告队伍。* h2 Q% p% u4 Q) V0 u" ]
截至目前,专门追踪AI版权诉讼的网站ChatGPT Is Eating The World统计显示,这已是针对OpenAI的第63起版权诉讼。
0 O9 S7 v$ T, Y, D* z9 e- |OpenAI对TechCrunch的置评请求未作回应。
+ E; I/ T; ?! Q4 q" P B+ |被维基百科打残,又被ChatGPT截流
' N! Y- V( \1 }3 U5 w+ ^/ C/ D退一步看,有些事情比赔偿金额更值得关注。
4 e: |1 e) e+ G0 _6 A* k7 y3 OBritannica创立于1768年,是英文世界里持续时间最长的百科全书品牌,它代表的是几百年人类知识整理传统的某种象征。
4 Q2 D3 u9 ~: C; h当这样一个机构出现在AI版权诉讼的原告席上,传递的信号很清晰:知识权威这个概念,正在试图通过法律手段,重新在AI生态里划定自己的边界。
8 u) G D F( u7 {0 jBritannica曾是纸质百科时代的绝对权威,被维基百科打得几乎找不到存在感。 v! b) f6 j& J0 w* U6 q6 z& n$ f
$ n" f0 C4 x4 M) l! N% Y$ W" e- M. u
7 [' j5 w7 `, i& q) r, @- b" F后来转型为数字订阅平台,靠着内容的可信度和专业性重新站稳脚跟。
2 _/ l/ Q( A3 \5 D如今,ChatGPT的出现让它又一次面临被替代的威胁——但不是被更好的百科替代,而是被一个用它内容训练出来、但不分给它一分钱的模型替代。9 g( d$ t0 J2 o+ a9 l
诉状里有一句话:* K) s$ G7 b4 L* e
ChatGPT通过生成替代出版商内容的回复,抢走了出版商的流量。8 B' n m! o5 A0 |0 V
这是商业模式的正面冲突。RAG这条指控是否能站住脚,目前没有人能给出确定答案。
/ l _& M3 f2 ?5 b, c7 h; `但如果法院哪天认可了这个逻辑,整个行业的实时检索管道都需要重新谈授权。9 w5 ?, k0 U- L5 u
所有以联网搜索+AI生成为核心产品的公司,都要面临这样的问题。2 M+ {0 r. _/ m
250年的老牌百科,正在用一份诉状,尝试给AI的边界划一条线。
. L! c3 t0 R8 l/ x# {6 {这条线最终画在哪里?2026年,大概会有答案。
1 k! v: k9 I' p, ]1 E3 b. ]参考资料: [5 v8 h( i" ^/ X
https://www.reuters.com/legal/litigation/encyclopedia-britannica-sues-openai-over-ai-training-2026-03-16/
1 j7 Q& S9 Q- V3 { bhttps://techcrunch.com/2026/03/16/merriam-webster-openai-encyclopedia-brittanica-lawsuit/
2 ^8 T _9 v2 c; L l6 |* Fhttps://the-decoder.com/encyclopedia-britannica-sues-openai-for-training-on-nearly-100000-articles-without-permission/" m; L$ v: U( m* Q' t& J, _
https://gizmodo.com/encyclopedia-britannica-sues-openai-over-ai-training-data-20006077706 s0 x/ n& i$ P4 G7 c, l9 K0 c% Q
https://news.bloomberglaw.com/ip-law/britannica-merriam-webster-accuse-openai-of-copying-thEIr-works9 i- q4 _, u5 M3 Y* h/ w: ^
https://chatgptiseatingtheworld.com/wp-content/uploads/2026/03/Encyclopedia_Britannica_Inc-v-OpenAI-COMPLAINT-Mar-13-2026.pdf, e! E6 a7 ]* i* w
https://www.aol.com/articles/encyclopedia-britannica-sues-openai-over-141324436.html |
|