原标题:AI公司是真“饿了” 开始花钱买你拍的“废片”
做过Up主、YouTuber或是视频自媒体从业者都知道,一部传到平台上10分钟的成片,背后可能是几个小时的素材。如同快充般的「拍摄1小时,剪出1分钟」。而在电影行业,常见素材比也在10:1到20:1甚至更高。
那些被弃用的素材叫做「废片」,在成片输出后,这些素材就如同废品一样,留着只会占据硬盘空间。
但就像现实生活有愿意花钱收废品,现在大AI公司想开始花钱「收废片」了。
1月11日,据外媒报道,Open AI、Google、Moonvalley等公司正在购买视频创作者们拍摄但未使用的「废片」。高质量4K、无人机、3D动画素材,1-4美元(约合7.3-30元)一分钟,为了YouTube、TikTok、Instagram等网络视频制作的素材1-2美元(约7.3-15元)一分钟。
这么看,只要废片质量足够好,一个小时的废片最高能卖1800元,可能比平台给Up主的分成还高。
01
AI巨头,是真的「饿了」
为什么这些科技公司,要花钱买用户拍了不用的废片?
原因很简单:视频数据不够用了。
生成式视频模型、自动驾驶系统甚至机器人训练,都需要大量的视频作为训练数据。而优质视频不仅创作门槛高,在AI时代的版权划分也很模糊。
广告、电影公司的版权价格昂贵,网络平台通常也只有发行权而非使用权,和导演及制作团队签署的版权合同里,也鲜少涉及到AI使用权的条款。
视频网站同理,如果视频模型想合法抓取YouTube的视频,那应该联系YouTube还是YouTuber?这同样是AI时代还没解决的版权灰色问题。
YouTube 也没有第三方内容的使用许可权|图源:YouTube
2024 年 4 月美国众议员提出的《生成式 AI 版权披露法案》,要求数据集制作者向注册员提交「任何受版权保护的作品的充分详细摘要」,否则将面临罚款。
在此背景下,Open AI、Google 还有其他 AI 公司就想到了「不买成片买废片」的方式。
不过 AI 大公司并不直接和创作者对接,而是通过第三方专业公司去联系平台和创作者,他们只付钱。怎么谈、找谁买、买回来怎么用,这些都由中介公司和平台协商。
几家中介公司表示,目前已经买了 500 多万美元的素材,对接的 AI 公司多达 17 家,包括 OpenAI、Meta、微软等。
AI 公司买回来后也不能乱用,由第三方专业公司做「中介担保」限制了废片的使用范围:AI 公司不能创建创作者的数字分身;不能在 AI 模型里重现专属创作者的 AI 场景,比如直接生成某个 Up 主固定的背景或是用 ta 的经典梗、口头禅等;不能用有损创作者声誉的方式使用素材。
对网红 YouTuber 而言,脸是「身份标识」|图源:PewDiePie
YouTube 在上个月也加入了类似的新功能:YouTuber 自行决定 AI 是否能抓取自己的视频内容,甚至可以选择授权的 AI 公司(当然也可以全选)。不过目前 YouTube 还没有给出授权费用的政策。
授权名单中有十八家主流AI公司|图源:YouTube
02
视频模型的军备竞赛
互联网内容的发展,随着带宽和信息量的增长,轨迹从文字逐渐转向视频,大模型也是如此。
视频模型成为过去一年大模型最卷的赛道,很多AI公司更进一步,直接开始卷可以生成动态场景的「世界模型」,但无论哪种模型,数据养料都离不开视频。于是各大AI公司纷纷开始了军备竞赛,谁能拿到更多的视频数据,谁的视频模型可能就会更好。
在前不久的CES 2025上,英伟达发布了世界基础模型平台Cosmos。据介绍,Cosmos经过了2000万小时的视频训练量。然而英伟达在去年就曾被404 Media爆出,在未经授权的前提下,违规抓取了大量YouTube和Netflix的视频以训练「内部名称为Cosmos的产品」。
英伟达内部在Slack的聊天记录|图源:404 Media
据爆出的英伟达内部聊天记录,英伟达的AI科学家和高管汇总了大量YouTube精选视频数据集用于模型训练,包括一个名为HD-VG-130M的数据集,该数据集由北大的研究人员构建,包含1.3亿个YouTube数据,使用权限仅限于学术研究。
在被质疑「YouTube服务条款禁止下载,数据也只能用于研究目的」后,英伟达高管表示「受版权保护的数据能否用于训练,目前是一个悬而未决的法律问题……在大语言模型上,我相信我们的法律团队已经批准了这种做法,因此也可能会批准视频训练。」
在英伟达之前,OpenAI的视频大模型Sora已经被YouTube点名批评了。正在和OpenAI打官司的《纽约时报》率先报道称,OpenAI采集了超一百万小时的YouTube视频用来训练GPT-4。
而对Sora训练数据来源,当时的OpenAI首席技术官(已离职)Mira Murati直言「实际上,我也不确定」YouTube CEO Neal Mohan回应称「如果OpenAI使用YouTube视频来训练Sora,就明确违反了YouTube的使用条款。」
同样的态度,YouTube又把这段采访发给了404 Media,回应了一次英伟达。
也有视频模型另辟蹊径,将在未来两个月内公布的新视频模型「Marey」要做行业里「最干净」的,他们号称全部训练数据都拿到了授权,而且Marey的目标用户就是好莱坞和整个电影行业的大型工作室。
图源:Moonvalley
这是因为电影不仅是视频质量素材的巅峰,也是对版权规范最严格的视频领域。
对网络视频创作者而言,废片本身的归宿就是备份硬盘甚至回收站,如今有大公司愿意出钱让「废片再利用」,如果这种模式能持续运转,也不失为对小创作者的一种营收手段。
对更大牌的「创作者」,比如电影公司、制片厂而言,技术早已渗透甚至改造了电影行业,从CGI生成、虚拟制作到AI合成语音、面部去老化等等,AI无非是一种提高影视制作效率的新技术手段。
但无论大小创作者,或许对AI视频生成都有着「杀鸡取卵」的警惕感。试想,当一个创作者源源不断地把自己的废片卖给AI模型,当AI模型已经足够以假乱真的时候,我们是否还真的需要一个具体的创作者出镜?当AI可以生成电影级空镜头,极具视觉冲击的特效后,电影行业还是否需要技术高超的摄影师、数字特效制作者……
「学习你,追赶你,替代你」这是每一个创作者面对生成式AI的进化时,都难以避免的恐惧。只能自我安慰道:在挡不住的AI浪潮下,废片还能卖钱,这总比免费当个「数据提款机」要强吧。