天下再无免费数据？“美版贴吧”向AI公司收取数据使用费

您所在的位置：首页 > 资讯 > > 正文

科创板日报 2023-04-20 13:46:59

《科创板日报》4月19日讯（编辑郑远方）AIGC热潮下，数据重要性愈发凸显。以ChatGPT为首的人工智能，由庞大数据集训练而成。如今，已有公司“揭竿而起”要求收费，不再甘于被微软、谷歌等科技巨头免费用数据。

当地时间周二，Reddit宣布，将向使用其API训练AI聊天机器人的公司收取数据使用费，其中便包含微软、谷歌、OpenAI等。

之前这些公司都通过应用程序编程接口（API）下载并处理论坛上的聊天内容，并将聊天内容当做免费训练工具，用于开发新AI系统。例如，谷歌聊天机器人Bard的底层算法之一便是用Reddit聊天数据训练而来；OpenAI的ChatGPT也将Reddit数据纳入大型语言模型的训练内容。

(相关资料图)

Reddit是美国访问量最大的网站之一，用户可以在其中创建并分享内容，还有人将其称为“美国版百度贴吧”。

公司创始人兼首席执行官Steve Huffman表示，“Reddit比互联网上任何其他地方都更适合聊天，平台上很多内容是用户只会私下说的、或压根不会说的东西。Reddit的数据库确实很有价值，我们没有必要免费提供这些价值给世界上最大的公司。”

这也是首次有社交媒体公司明确向OpenAI等收取费用，开放访问权用于开发人工智能系统。

目前，Reddit暂未公布具体收费标准，但其表示，将会给出不同的等级，根据使用者的规模和需求来收费。此外，这一举措不会影响那些使用API来创建和维护内容审核工具的人，Reddit会为他们提供专门的iOS和Android应用程序。

实际上，眼下已意识到数据价值的公司并不止Reddit——图片托管服务商Shutterstock已把图像数据出售给OpenAI，帮助开发了DALL-E；许多公司也在使用API追踪推特上的聊天内容，推特计划针对API使用收取几万到几十万美元不等的费用。

▌数据已成“AI发展的胜负手”

为了不断改进AI模型，有两个关键因素不可或缺：强大的计算能力和大量可用的数据。一些大型AI开发公司通常拥有足够的算力，但仍会在互联网上寻找改进算法所需的数据，数据来源包括维基百科、各种数字化书籍、学术文章和Reddit论坛上的聊天内容等。

OpenAI就曾透露，训练ChatGPT使用了45TB的数据、近1万亿个单词，大概是1351万本牛津词典所包含的单词数量。

知乎在日前发布大模型“知海图AI”，其倚仗的一大有力支撑便是中文互联网大量问答内容。知乎创始人、董事长兼CEO周源表示，AI时代，生产力的三要素分别是应用场景、专有数据和基础模型。其中，知乎以问答为基础的讨论场景是天然的应用场景，构成了独一无二的专有数据。

而彭博的BloomberGPT训练数据总量约为5300亿次，其中金融行业数据约为2720亿次，约占所有训练数据的54.2%，来源包括网络、新闻、公司公告与财务报表以及彭博自己的新闻库。

海量数据为基础的大模型训练产生了突现能力（Emergent Ability），带来AI研究范式转变。只有在训练数据量足够大时，量变才能引起质变。而GPT相比于此前模型所具备的“泛化能力”，就是以海量数据为基础产生的。

在这种情况下，数据更有了“AI发展的胜负手”之称——算法、算力和数据是AI发展的三大重要基础。东吴证券指出，对于我国而言，算法和算力都可以通过挖掘优质人才、引进优秀工程实践，或者直接购买海外优质资产追赶。而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀，未来数据将成为AI发展的胜负手，并有望为中国训练自己的大模型，走出差异化道路提供重要基础。