业界动态
13 家媒体怒告OpenAl等AI巨头背后:“合理使用”or“偷窃”?内容创作为何成了大模型的“免费午餐”?,OpenAI,公司,每日经济新闻
2024-07-07 02:53:04
13 家媒体怒告OpenAl等AI巨头背后:“合理使用”or“偷窃”?内容创作为何成了大模型的“免费午餐”?,OpenAI,公司,每日经济新闻

想象一下,在一个巨大(da)的机(ji)房内,数不清的服(fu)务器闪烁着(zhe)点点亮光,随着(zhe)数据流的进入,大(da)语言(yan)模型将其一股脑儿“吞食”,随后开始高速分析和处理。在日复一日的数据“投喂”和深度学习(xi)技术的推动下,大(da)模型表现得(de)越来越类人化,OpenAI等一众AI公司也(ye)随之迎来迅(xun)猛发展。

然而,对于到底“投喂”了(le)什么数据,是否(fou)获取授权,这些AI公司总是讳莫如深。伯克利(li)计算机(ji)科学家(jia)Stuart Russell等学者认为,大(da)模型吞噬了(le)大(da)多数互联网信息,以复制人类智能并将其以自动化形式镜像(xiang)回(hui)馈给我们。

当意识到其网站上发布的故事都被自动抓取成了(le)大(da)模型的“食物”后,以《纽约时(shi)报》为首的媒体/出版机(ji)构向(xiang)OpenAI等发起了(le)版权诉讼。《每日经济新闻》记者在采访哈佛法(fa)学院教授丽贝卡o塔什内特、安杰世泽(ze)律师事务所(suo)合伙人于雯竹后了(le)解到,此类案件判定的难点在于如何确(que)定AI输出内容与媒体报道间的“实质性相似”

而另(ling)一方面,OpenAI等科技公司也(ye)向(xiang)媒体/出版机(ji)构抛出了(le)橄榄枝,因为数据总有耗光的一天。研究机(ji)构Epoch AI近期预测,大(da)模型将在2026年(nian)至2032年(nian)之间消耗完所(suo)有可用数据。

“应该(gai)大(da)声要求(qiu)赔偿” !13家(jia)媒体发起反击(ji)

2009年(nian)末,媒体大(da)亨罗伯特o默多克曾在一场论(lun)坛上说:“有些人觉得(de)他(ta)们有权拿走我们的新闻内容,还无需为新闻生产贡(gong)献一分钱。他(ta)们几乎侵吞了(le)我们的全部(bu)新闻,这可不是合理使用。说得(de)直白些,这就是偷。”

当时(shi),随着(zhe)谷歌等新兴互联网公司的出现,美(mei)国报业的广告(gao)收入腰斩。而如今,OpenAI等生成式AI公司的强势崛起,类似的一幕似乎又开始重演。

新闻集团首席执行官罗伯特o汤姆(mu)森就曾表示,“[媒体]的集体知识产权正受到威胁,我们应该(gai)大(da)声要求(qiu)赔偿。”新闻行业律师Steven Lieberman更是直言(yan),OpenAI的巨大(da)成功也(ye)要归功于其他(ta)人的工作(zuo),它在未经许(xu)可或(huo)付款的情况(kuang)下获取了(le)大(da)量优质内容。

据外媒,ChatGPT主要通过阅读书籍、文章和公开的网络内容来学习(xi),包括来自互联网的在线新闻文章。类似的大(da)语言(yan)模型也(ye)依赖的是社交媒体帖子、博客、数字化书籍、在线评论(lun)、维基百科页面以及您能想到的几乎所(suo)有的网络信息。

在意识到ChatGPT对历(li)史和时(shi)事的了(le)解源自其网站上发布的故事(甚至是付费内容)时(shi),去年(nian)年(nian)底,《纽约时(shi)报》对OpenAI以及微软提起诉讼,指控后者未经授权使用该(gai)报版权内容训练(lian)AI模型,并在ChatGPT产品中呈现给用户。

该(gai)案打响了(le)媒体机(ji)构起诉OpenAI的第一枪,随后又有多家(jia)媒体加入了(le)这一反抗(kang)的队列。据《每日经济新闻》记者的不完全统计,截至今年(nian)6月(yue)底,已至少有13家(jia)新闻媒体机(ji)构对OpenAI和微软提起了(le)侵权诉讼。这里面有Alden Global投资集团旗(qi)下的八家(jia)地区性知名报纸,包括芝加哥论(lun)坛报、纽约每日新闻、丹(dan)佛邮报、圣何塞水星报,还有数字新闻媒体The Intercept、Raw Story和AlterNet,以及非盈利(li)新闻组织The Center for Investigative Reporting。

图片来源:每经制图

判断这种数据抓取行为是否(fou)侵犯(fan)版权,是一个复杂且有争议的问题。”安杰世泽(ze)律师事务所(suo)合伙人、中国和美(mei)国纽约州(zhou)执业律师于雯竹在接受每经记者采访时(shi)表示。

这起诉讼只是各行业与生成式AI公司斗争的缩(suo)影。

美(mei)国当地时(shi)间6月(yue)24日,全球三大(da)唱片公司索尼音乐集团、环球音乐集团和华纳音乐联合多家(jia)唱片公司,向(xiang)AI音乐生成公司Suno和Udio开发商(shang)Uncharted Labs发起诉讼,指控后者非法(fa)使用版权音乐来训练(lian)模型并提供服(fu)务。

唱片公司指控Suno抄袭了(le)662首歌曲,Udio抄袭了(le)1670首歌曲,正在尝试(shi)索取每件音乐作(zuo)品最高15万美(mei)元的赔偿费用。

8个月(yue)的角力尚无结(jie)果:“实质性相似”还是“合理使用”?

越来越多的关于生成式AI技术的法(fa)律之争也(ye)让人开始正视媒体/出版商(shang)与颠覆性技术之间的关系。

据著名广告(gao)周刊Adweek,谷歌去年(nian)5月(yue)推出了(le)基于AI的搜索引擎Search Generative Experience(SGE)测试(shi)版,接受采访的媒体高管和搜索引擎优化专家(jia)称,出版商(shang)必须为自然搜索流量的大(da)幅下降做好准备,下降幅度可能在20%到60%之间。而出版商(shang)在开放网络上的搜索流量减少通常意味着(zhe)数字广告(gao)收入下降。新型媒体公司Raptive创新执行副总裁Marc McCollum估计,在目前的SGE下,整个出版业每年(nian)的广告(gao)收入损失可能高达20亿美(mei)元。

而《纽约时(shi)报》的起诉不仅是媒体领域的重要里程(cheng)碑案件,亦可以为法(fa)律业界提供极具参考价值的信息。

“就版权法(fa)而言(yan),本案的重要影响在于版权法(fa)在数字和AI时(shi)代的适用范围。特别是对于新闻报道这类具有较高公共利(li)益的文本内容,如何平衡(heng)版权保护和信息自由将成为一个关键问题。” 于雯竹对记者说道。

在于雯竹看来, 如果《纽约时(shi)报》的诉讼获得(de)成功,将树立一个重要的法(fa)律先例,鼓励其他(ta)文字类媒体、版权机(ji)构和作(zuo)家(jia)团体组织跟随起诉OpenAI及类似的AI公司。本案可能会督(du)促AI公司重视AI模型训练(lian)的合法(fa)性,可能推动相关行业规(gui)范的建立。

目前,该(gai)案件已经持续将近8个月(yue),但还没有定论(lun)。

1)媒体之难:证明“实质性相似”

《纽约时(shi)报》在起诉书中称,ChatGPT几乎逐字复制了(le)其新闻报道。该(gai)报举例称,2019年(nian),《纽约时(shi)报》发表了(le)一篇荣获普利(li)策奖的关于纽约市出租(zu)车(che)行业掠(lue)夺性贷款的系列文章。该(gai)报称,只要稍加提示,ChatGPT就会一字不差地背(bei)诵其中的大(da)部(bu)分内容。

来源:《纽约时(shi)报》起诉书

在其他(ta)多家(jia)媒体的起诉书中,记者发现,其法(fa)律论(lun)证和主张都基于美(mei)国1976年(nian)版权法(fa)和《数字千(qian)年(nian)版权法(fa)》(DMCA)。

对于这两(liang)部(bu)法(fa)案中涉及AI的内容,于律师告(gao)诉记者,“就1976年(nian)版权法(fa)而言(yan),侵权的判定通常依赖于原作(zuo)品和被指控侵权作(zuo)品之间的相似性,以及实际的复制行为。本案中实际复制行为相对容易证明,因为OpenAI并未否(fou)认其训练(lian)数据中包含《纽约时(shi)报》的文章。”

然而难点在于,“证明最终生成的文本构成版权侵权仍需满足‘实质性相似’测试(shi),因为它有助于判断受版权保护的表达元素是否(fou)被复制,还是仅复制了(le)其中的思(si)想。版权保护的是表达,而不是思(si)想。你可以用自己的语言(yan)重新实现他(ta)人的思(si)想,这不构成版权侵权。但如果你使用他(ta)人的语言(yan)——即他(ta)们的表达——那就是版权侵权。”于律师说道。

谈及DMCA,于雯竹解释道:“其中的一项规(gui)定鼓励版权持有者在数字资产中添加内容管理信息(CMI),例如帮助识别创作(zuo)者或(huo)权利(li)持有者的信息,并禁止他(ta)人移除这些信息。”

然而,《纽约时(shi)报》起诉书提到,OpenAI在抓取其文章以创建数据库时(shi),移除了(le)这些信息,违反了(le)DMCA。

来源:《纽约时(shi)报》起诉书

“实际上,美(mei)国是判例法(fa)国家(jia),而其版权法(fa)及DMCA并未特别规(gui)定与AI相关的法(fa)律内容,对于OpenAI的行为是否(fou)属于侵权的认定,法(fa)院依据的是相关的先例及其对相关法(fa)律条文的解释。”于雯竹表示。

2)OpenAI的“盾牌”:“合理使用”

而在回(hui)应《纽约时(shi)报》版权侵权诉讼时(shi),OpenAI强调使用公开材料训练(lian)AI模型属于合理使用。这一规(gui)则基于美(mei)国1976年(nian)版权法(fa)第 107 条规(gui)定。

哈佛法(fa)学院教授丽贝卡o塔什内特(Rebecca Tushnet)在接受《每日经济新闻》记者采访时(shi)认为,“美(mei)国版权法(fa)既提供了(le)广泛的权利(li),也(ye)提供了(le)广泛的例外。关键问题是AI训练(lian)是否(fou)构成‘合理使用’,以及当AI输出与现有作(zuo)品过于相似时(shi),该(gai)问题到底应该(gai)归咎于模型还是用户的滥用。

塔什内特认为,“OpenAI提供了(le)有一个有趣的主张,即(AI)要获得(de)高度相似的输出,必须故意用《纽约时(shi)报》原始文章中的大(da)量引文来提示模型,这表明错误(wu)在于提示者(用户的滥用)。”

“‘合理使用’是美(mei)国版权法(fa)的一项关键优势,使其能够(gou)应对不断变化的情况(kuang)。它促成了(le)我们所(suo)知道的现代互联网的兴起,尤其是搜索引擎。按照同样的推理,只要输出通常不是从特定作(zuo)品中复制而来,创建AI模型就应该(gai)被视为变革性的和公平的。” 她对记者解读称,“我认为这是一个相当标准的有关‘合理使用’的问题。”

根据1976年(nian)版权法(fa),判定合理使用的认定包括四个因素。其中,于雯竹认为,最重要的是第四点:使用对版权作(zuo)品的潜在市场或(huo)价值的影响。 “简(jian)而言(yan)之,就是新作(zuo)品是否(fou)对原作(zuo)品构成‘市场损害’。”

图片来源:每经制图

《纽约时(shi)报》在起诉书中称,OpenAI的AI工具不仅未经授权使用了(le)《纽约时(shi)报》的数据进行训练(lian),还分流了(le)《纽约时(shi)报》网站的流量,导致(zhi)了(le)公司广告(gao)、订阅和授权营收的损失。因此《纽约时(shi)报》公司向(xiang)OpenAI和微软提出数十(shi)亿美(mei)元的索赔,并要求(qiu)他(ta)们停止使用自己的内容数据。

“我认为OpenAI的‘合理使用’辩护在理论(lun)上具有较大(da)的合理性,但其成功与否(fou)取决于法(fa)院对四因素测试(shi)的具体评估。”她说道。

塔什内特也(ye)表示,“我对法(fa)院是否(fou)会驳回(hui)(OpenAI)的所(suo)有辩护持怀疑态度,但没有什么是绝对肯定的。”

窘境(jing)之下的合作(zuo)

目前,OpenAI可以合法(fa)地为其模型“喂食”什么内容这一问题仍待(dai)解决,但媒体机(ji)构的策略开始呈现分化趋势。

当地时(shi)间6月(yue)27日,《时(shi)代》杂志与OpenAI宣布,两(liang)家(jia)公司达成了(le)一项多年(nian)内容授权协议和战略合作(zuo)伙伴关系。该(gai)协议允许(xu)OpenAI将这家(jia)出版商(shang)的内容引入ChatGPT,并帮助训练(lian)其最先进的AI模型。

据新闻稿介(jie)绍(shao),OpenAI可以通过这笔交易访问《时(shi)代》过去100多年(nian)的档案和文章,以训练(lian)其AI模型,并在其面向(xiang)消费者的产品(如ChatGPT)中用于回(hui)复用户的询问。但双方的交易价值并未透(tou)露(lu)。

今年(nian)5月(yue),OpenAI和新闻集团也(ye)达成了(le)类似的合作(zuo)关系。在此合作(zuo)下,OpenAI有权访问新闻集团旗(qi)下媒体的当前和存档文章,包括《华尔街日报》、《MarketWatch》、《巴伦周刊》、《纽约邮报》等。

《每日经济新闻》记者注意到,过去半(ban)年(nian)时(shi)间,OpenAI已连(lian)续与多家(jia)媒体机(ji)构达成协议。

图片来源:每经制图

对媒体机(ji)构来说,接受OpenAI等AI巨头抛来的橄榄枝,与科技公司在AI新时(shi)代合作(zuo),共同探索新的资讯形态、商(shang)业模式和分成比例,可能是最好的选择。

与OpenAI合作(zuo)的媒体公司认为,生成式AI将继续存在,最好分一杯羹,而不是冒(mao)着(zhe)过时(shi)的风险。此外,与OpenAI合作(zuo)让出版物在某种程(cheng)度上可以控制他(ta)们的新闻报道在ChatGPT响应中的呈现方式。

正如新闻集团首席执行官Robert Thomson所(suo)称,“(与OpenAI的协议)认可了(le)顶(ding)级新闻应有顶(ding)级价格。数字化时(shi)代的一大(da)特征(zheng)是分销者占据主导地位,而内容创作(zuo)者经常利(li)益受损。很(hen)多媒体公司都被无情的科技大(da)潮所(suo)卷席。我们现在有责任抓住这一最大(da)的机(ji)遇。”

有外媒评论(lun)称,起诉或(huo)许(xu)也(ye)是《纽约时(shi)报》谈判的手段之一。实际上,在起诉之前,《纽约时(shi)报》与OpenAI一直在商(shang)谈授权合作(zuo)协议,但在OpenAI加入了(le)新的免责条款后,谈判破裂。

对科技公司来说,支付授权费用一方面可以有效化解法(fa)律风险,另(ling)一方面可以获得(de)更多优质训练(lian)数据,优质数据才是成为决定未来AI大(da)模型的关键因素。毕竟,当前各大(da)科技公司都正面临数据枯(ku)竭的现状。

在6月(yue)更新的一项研究成果中,人工智能研究机(ji)构Epoch AI称,据他(ta)们估测,目前人类生成的公开文本总量约为300万亿个Token,但使用数据的速度远远超过了(le)生成数据的速度,这意味着(zhe)大(da)模型将在2026年(nian)至2032年(nian)之间消耗完所(suo)有可用数据。

图片来源:Epoch AI网站

那与AI公司合作(zuo)到底能给媒体机(ji)构带(dai)来多大(da)的收益?

以新闻集团举例,《每日经济新闻》记者注意到,除2024财年(nian)第二财季由于图书出版成本降低以及与宣布的5%裁员计划(hua)相关的总成本节省所(suo)带(dai)来的高额净收入之外,新闻集团每个季度的净收入均在6000万美(mei)元以内。

而《华尔街日报》援引知情人士称,新闻集团与OpenAI的协议价值在五年(nian)内可能超过2.5亿美(mei)元,包括现金和使用OpenAI技术的积分形式的补偿。如此算来,相当于OpenAI每年(nian)将向(xiang)新闻集团支付高达5000万美(mei)元的内容授权费用,这相当于新闻集团将近一个财季的净收入。

从近期科技公司与媒体达成的合作(zuo)金额来说,这一交易可以算是AI行业发展的里程(cheng)碑事件。而且,新闻集团与OpenAI的协议并非是一份独家(jia)授权协议,意味着(zhe)新闻集团还可以从谷歌等其他(ta)AI公司继续获得(de)授权收入。

汤森路透(tou)的财报也(ye)证实了(le)合作(zuo)带(dai)来的收益。《每日经济新闻》记者查询汤森路透(tou)公司的财报发现,2024年(nian)第一季度,该(gai)公司收入为18.85亿美(mei)元,同比增长8%。该(gai)公司在财报中写道,“(增长)主要是由于‘三大(da)’部(bu)门(该(gai)公司的法(fa)律、企业和税务以及会计部(bu)门)的经常性收入和交易收入的强劲增长,以及路透(tou)社新闻部(bu)门的生成式 AI 相关内容许(xu)可收入。”

来源:汤森路透(tou)财报

一季度财报显示,路透(tou)社新闻业务的收入为2.1亿美(mei)元,同比增长3%。这一增长主要是由于汤森路透(tou)与伦敦证券(quan)交易所(suo)集团(LSEG)数据分析部(bu)门签订的新闻协议,根据该(gai)协议,路透(tou)社新闻将向(xiang)LSEG授权提供新闻内容,后者用于生成AI相关内容。2024年(nian)第一季度,仅该(gai)协议为路透(tou)社新闻业务带(dai)来的收入就高达9600万美(mei)元。

每日经济新闻

发布于:四川省
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7