大数据属于谁

人工智能（AI）的一个重要功能是搜集、处理大数据，以此为基础生成AI产品。例如，美国的OpenAI公司在2022年11月30日发布了聊天机器人程序ChatGPT（大型语言模型），其功能就是建立在大数据的基础之上。ChatGPT的应用范围广泛，可以用于回答问题、文本生成（写文案）、翻译、代码生成等多个领域。

然而，在这些用于生成AI产品的大数据中，有不少涉及知识产权问题。在这种情况下，一场“数据起义”正在美国及其他AI技术较发达的国家和地区爆发。电影从业者、艺术家、作家、社交媒体公司和新闻机构将矛头指向ChatGPT和Stable Diffusion等生成式AI工具，指责它们在未经许可或未提供补偿的情况下，非法利用内容创作者的作品训练大型语言模型。

“数据起义”是生成式AI工具崛起后由知识产权的归属问题引发的，其核心议题在于数据是否具有价值，如果有价值，应如何保护其价值。

AI产品的基础是大数据，即传统数据处理应用软件无法处理的大规模的、复杂的数据集。维克托·迈尔-舍恩伯格在《大数据时代》一书中将大数据定义为通过对所有数据进行分析处理而不是采用随机抽样方法处理的数据。大数据可以包括来源各异的大量结构化或非结构化数据。结构化数据是指可以被录入数据库的数据，如商业机构的订单、金融交易或医疗机构的患者和药物数据。非结构化数据则是指无法轻易录入传统数据库中的数据，如电子邮件、社交媒体上的各类帖子、文章、视频、照片、录音等。

无论是结构化数据，还是非结构化数据，都具有一定的价值，因此可以将其分为原始数据和价值数据两类。原始数据包括各类个人或事物的数据，如性别、年龄、住址、职业等。这些数据具有价值，商家可以利用其投放广告，厂家可以通过分析这些数据研发产品。不过，很多原始数据是应当受到法律保护的隐私数据。价值数据，又称内容数据，是指众多创作者（作家、艺术家、记者、翻译家、新闻媒体等）在各类互联网平台上发表的文字、图片、视频作品以及程序员发布的代码等。这些数据都是通过个人或团体的脑力劳动、体力劳动创造的知识产品，不仅有价值，而且有知识产权。

现在，一些大型信息技术公司可以随意从网络上抓取大量的内容数据，然后用这些数据训练AI，从而产生更强大、更具有商业价值的AI软件，如ChatGPT-4，已经涉及知识产权侵权。在内容数据的创作者看来，他们创作的内容数据应受到知识产权的保护，因此，一些创作者已经采取行动，甚至提起诉讼，以保护自己创造的内容数据。

在美国，包括乔迪·皮科特、玛格丽特·阿特伍德和阮越清在内的5000多名作家签署了一份请愿书，要求科技公司在使用他们的作品（主要为书籍）作为训练数据时，要征得其许可，并给予其署名权和经济补偿。美国的《纽约时报》和《华盛顿邮报》等媒体也表示，使用受版权保护的新闻文章作为AI产品的训练数据具有潜在风险和法律问题，呼吁AI公司尊重作者、出版商的创作劳动和知识产权。

为了争取权益，美国编剧工会已在5月2日开始罢工，要求影视作品投资方、制作方提高编剧的待遇，反对AI侵犯他们的知识产权。该工会称“AI就是一种彻头彻尾的‘剽窃机器’”。美国演员工会及广播电视艺人联合工会也在7月13日罢工，要求流媒体巨头为他们提供更公平的利润分配和更好的工作条件，并要求制片公司保证不会以AI技术生成的面孔和声音来替代演员。

一些个人和机构还将诉讼提上了议事日程。Reddit和推特等社交媒体公司、《纽约时报》和美国全国广播公司（NBC）等新闻机构、科幻作家保罗·特伦布雷和女演员莎拉·西尔弗曼等除了反对AI公司擅自收集他们的作品内容数据外，还向OpenAI公司和Meta公司提起了诉讼。

AI公司也在寻找法律依据，以对抗“无偿使用内容数据”的争议。OpenAI公司辩称，使用受版权保护的作品训练AI模型是合理的，因为这符合美国版权法中“转换性使用”的概念，只要材料以一种“变革性”的方式改变，就会创造一个例外。此外，他们还提到了1992年美国联邦上诉法院的一项判决，允许公司对其他公司的软件代码进行逆向工程，以设计竞争产品。另外，一些技术公司还以惯例为由，称许多公司都使用来自公共来源的数据（如发布到开放网络和公共数据集的信息）训练AI模型。然而，无论AI公司如何辩解，都无法否认内容数据是知识产品的客观属性。因此，现阶段需要通过立法来解决这一争议。

在法律尚不明确的情况下，内容数据的创作者处于弱势地位，他们只能通过有限的方式保护自己的权益。首先，创作者可以通过机构与AI公司进行谈判并签署协议，比如，美联社在7月14日同意授权OpenAI公司使用1985年以后的新闻报道档案，美联社则可以利用其AI技术和产品进行创作。然而，个人创作者并不具备机构媒体那样强大的力量，他们只能通过一些设置屏障的方法限制AI公司使用其内容数据，比如，锁定作品，防止AI获取；编写具有颠覆性的内容以干扰AI的学习；抵制发布AI生成内容的网站。然而，可以想象，这些方法无法完全阻止强大的AI公司对内容数据的搜集、抓取和使用。目前，一些AI公司的技术能使生成的新产品与原始内容数据有较大的差异，以证明他们并未剽窃内容数据。此外，一些AI公司还在产品中安装了过滤器，确保不会生成与现有内容数据（作品）非常相似的内容。例如，YouTube视频平台已经使用相关技术，可以检测并自动删除已上传的受版权保护的内容数据。

在信息时代，内容数据创作者与AI公司之间的矛盾亟待法律调节，以实现社会公正。当前，内容数据创作者的行动和法律诉讼正在推动这一进程。欧洲议会于2023年6月通过了欧盟《人工智能法案》，随后该法案将进入欧盟委员会、欧洲议会和成员国之间的三方谈判协商程序，以确定最终的立法文本。中国于2023年7月13日也公布了《生成式人工智能服务管理暂行办法》。然而，目前国内外出台的法律法规仍然存在不完善之处，例如，如何确定内容数据被AI碎片化地搜集采用，如何保护内容数据创作者的权益，都需要详尽和明确的解释。

【责任编辑】张小萌

经典小说推荐

杂志订阅