AI公司是真“饿了” 开始花钱买你拍的“废片”-公司|是真|“|AI-鹿科技

　　原标题：AI公司是真“饿了” 开始花钱买你拍的“废片”

　　做过Up主、YouTuber或是视频自媒体从业者都知道，一部传到平台上10分钟的成片，背后可能是几个小时的素材。如同快充般的「拍摄1小时，剪出1分钟」。而在电影行业，常见素材比也在10:1到20:1甚至更高。

　　那些被弃用的素材叫做「废片」，在成片输出后，这些素材就如同废品一样，留着只会占据硬盘空间。

　　但就像现实生活有愿意花钱收废品，现在大AI公司想开始花钱「收废片」了。

　　1月11日，据外媒报道，Open AI、Google、Moonvalley等公司正在购买视频创作者们拍摄但未使用的「废片」。高质量4K、无人机、3D动画素材，1-4美元（约合7.3-30元）一分钟，为了YouTube、TikTok、Instagram等网络视频制作的素材1-2美元（约7.3-15元）一分钟。

　　这么看，只要废片质量足够好，一个小时的废片最高能卖1800元，可能比平台给Up主的分成还高。

　　AI巨头，是真的「饿了」

　　为什么这些科技公司，要花钱买用户拍了不用的废片？

　　原因很简单：视频数据不够用了。

　　生成式视频模型、自动驾驶系统甚至机器人训练，都需要大量的视频作为训练数据。而优质视频不仅创作门槛高，在AI时代的版权划分也很模糊。

　　广告、电影公司的版权价格昂贵，网络平台通常也只有发行权而非使用权，和导演及制作团队签署的版权合同里，也鲜少涉及到AI使用权的条款。

　　视频网站同理，如果视频模型想合法抓取YouTube的视频，那应该联系YouTube还是YouTuber？这同样是AI时代还没解决的版权灰色问题。

　　YouTube 也没有第三方内容的使用许可权｜图源：YouTube

　　2024 年 4 月美国众议员提出的《生成式 AI 版权披露法案》，要求数据集制作者向注册员提交「任何受版权保护的作品的充分详细摘要」，否则将面临罚款。

　　在此背景下，Open AI、Google 还有其他 AI 公司就想到了「不买成片买废片」的方式。

　　不过 AI 大公司并不直接和创作者对接，而是通过第三方专业公司去联系平台和创作者，他们只付钱。怎么谈、找谁买、买回来怎么用，这些都由中介公司和平台协商。

　　几家中介公司表示，目前已经买了 500 多万美元的素材，对接的 AI 公司多达 17 家，包括 OpenAI、Meta、微软等。

　　AI 公司买回来后也不能乱用，由第三方专业公司做「中介担保」限制了废片的使用范围：AI 公司不能创建创作者的数字分身；不能在 AI 模型里重现专属创作者的 AI 场景，比如直接生成某个 Up 主固定的背景或是用 ta 的经典梗、口头禅等；不能用有损创作者声誉的方式使用素材。

　　对网红 YouTuber 而言，脸是「身份标识」｜图源：PewDiePie

　　YouTube 在上个月也加入了类似的新功能：YouTuber 自行决定 AI 是否能抓取自己的视频内容，甚至可以选择授权的 AI 公司（当然也可以全选）。不过目前 YouTube 还没有给出授权费用的政策。

　　授权名单中有十八家主流AI公司｜图源：YouTube

　　视频模型的军备竞赛

　　互联网内容的发展，随着带宽和信息量的增长，轨迹从文字逐渐转向视频，大模型也是如此。

　　视频模型成为过去一年大模型最卷的赛道，很多AI公司更进一步，直接开始卷可以生成动态场景的「世界模型」，但无论哪种模型，数据养料都离不开视频。于是各大AI公司纷纷开始了军备竞赛，谁能拿到更多的视频数据，谁的视频模型可能就会更好。

　　在前不久的CES 2025上，英伟达发布了世界基础模型平台Cosmos。据介绍，Cosmos经过了2000万小时的视频训练量。然而英伟达在去年就曾被404 Media爆出，在未经授权的前提下，违规抓取了大量YouTube和Netflix的视频以训练「内部名称为Cosmos的产品」。

　　英伟达内部在Slack的聊天记录｜图源：404 Media

　　据爆出的英伟达内部聊天记录，英伟达的AI科学家和高管汇总了大量YouTube精选视频数据集用于模型训练，包括一个名为HD-VG-130M的数据集，该数据集由北大的研究人员构建，包含1.3亿个YouTube数据，使用权限仅限于学术研究。

　　在被质疑「YouTube服务条款禁止下载，数据也只能用于研究目的」后，英伟达高管表示「受版权保护的数据能否用于训练，目前是一个悬而未决的法律问题……在大语言模型上，我相信我们的法律团队已经批准了这种做法，因此也可能会批准视频训练。」

　　在英伟达之前，OpenAI的视频大模型Sora已经被YouTube点名批评了。正在和OpenAI打官司的《纽约时报》率先报道称，OpenAI采集了超一百万小时的YouTube视频用来训练GPT-4。

　　而对Sora训练数据来源，当时的OpenAI首席技术官（已离职）Mira Murati直言「实际上，我也不确定」YouTube CEO Neal Mohan回应称「如果OpenAI使用YouTube视频来训练Sora，就明确违反了YouTube的使用条款。」

　　同样的态度，YouTube又把这段采访发给了404 Media，回应了一次英伟达。

　　也有视频模型另辟蹊径，将在未来两个月内公布的新视频模型「Marey」要做行业里「最干净」的，他们号称全部训练数据都拿到了授权，而且Marey的目标用户就是好莱坞和整个电影行业的大型工作室。

　　图源：Moonvalley

　　这是因为电影不仅是视频质量素材的巅峰，也是对版权规范最严格的视频领域。

　　对网络视频创作者而言，废片本身的归宿就是备份硬盘甚至回收站，如今有大公司愿意出钱让「废片再利用」，如果这种模式能持续运转，也不失为对小创作者的一种营收手段。

　　对更大牌的「创作者」，比如电影公司、制片厂而言，技术早已渗透甚至改造了电影行业，从CGI生成、虚拟制作到AI合成语音、面部去老化等等，AI无非是一种提高影视制作效率的新技术手段。

　　但无论大小创作者，或许对AI视频生成都有着「杀鸡取卵」的警惕感。试想，当一个创作者源源不断地把自己的废片卖给AI模型，当AI模型已经足够以假乱真的时候，我们是否还真的需要一个具体的创作者出镜？当AI可以生成电影级空镜头，极具视觉冲击的特效后，电影行业还是否需要技术高超的摄影师、数字特效制作者……

　　「学习你，追赶你，替代你」这是每一个创作者面对生成式AI的进化时，都难以避免的恐惧。只能自我安慰道：在挡不住的AI浪潮下，废片还能卖钱，这总比免费当个「数据提款机」要强吧。