在2024年,Reddit成为了社交媒体领域的明星。这家近20岁的老将,不仅成功在纽交所上市,还在上市后的第三季度首次实现盈利,其股价更是飙升到了上市首日开盘价的350%左右。这一连串的成功,都得益于一个共同的推动力——人工智能(AI)。
Reddit上的内容,因其高质量和多样性,成为了发展AI大模型技术的宝贵语料库。去年2月,Reddit与谷歌达成了一项每年价值约6000万美元的协议,允许谷歌使用Reddit的内容来训练其人工智能模型。Reddit表示,他们相信平台不断增长的数据将成为领先大型语言模型(LLM)培训的关键要素,同时也为Reddit开辟了新的盈利渠道。
紧接着,在上市后的5月,Reddit又与OpenAI建立了类似的合作关系。Reddit的问答内容将被整合到OpenAI的产品中,而Reddit平台的编辑功能和附加模组也将加入由OpenAI技术驱动的AI功能。这种双向合作,不仅为Reddit提供了技术支持,也为OpenAI提供了丰富的语料。
那么,在众多UGC(用户生成内容)社交平台中,为何Reddit能独得AI大模型厂商的青睐呢?
从业务生态上看,Reddit是一个相对独立的平台,其背后由多个利益集团及个人控股,没有像国内某些社交平台那样拥有丰富的产品生态和产业链。这种独立性使得Reddit在合作时无需顾及自身的生态组合,可以将语料作为筹码进行交易。
在内容模式上,Reddit通过subReddit(子论坛)来组织内容,用户可以创建和加入不同的子论坛,发帖和评论。用户还可以对帖子和评论进行“点赞”或“点踩”,被点赞的内容会获得更多的曝光机会,而被点踩的内容则可能被隐藏。这种机制形成了良好的语料产出正向循环,使得Reddit的内容质量得以持续提升。
从发展阶段上看,Reddit在创立近20年后才开始盈利,收入结构相对单一。在AI大模型时代到来之际,Reddit看到了业务拓展和盈利的新机遇。
以此为模板,我们来分析国内具有较多文字语料且业务较为独立的UGC平台,如B站、小红书、微博、豆瓣、知乎和贴吧等。在这些平台中,谁最有可能成为AI时代的中国Reddit呢?
相比之下,B站、小红书、微博、豆瓣、知乎和贴吧等相对独立的C端社交平台产品,尤其是以文字内容为主的平台,更有可能成为AI时代的语料供应商。这些平台上的用户自发内容判定机制和平台自身的内容判定机制,都会影响到语料的质量。同时,平台用户画像与AI的适配度也是厂商考虑的重要因素。
在进一步筛选中,我们发现B站、小红书和微博在内容质量、用户粘性和商业化程度等方面表现较为突出。然而,小红书目前正处于商业化探索上升期,且自己也在测试多个AI功能,因此可能并不愿意将语料出售给其他厂商。而B站和微博则更有可能与AI大模型厂商达成类似Reddit的合作模式。
B站的内容储备量高且质量上乘,长视频内容易于转化为文字,同时拥有大量的观点性思考和粘性较高的社区氛围。然而,将平台内容用于与AI大模型厂商合作前,需要先解决用户协议问题。B站需要确保用户对评论、视频和文字等内容用于AI训练持接受态度。
微博则与B站有所不同。微博的用户对于自己的内容被用来生成AI内容似乎并不排斥,甚至微博的评论机器人“罗伯特”已经成为提升用户粘性的手段之一。这种高接受程度使得微博成为AI大模型厂商的理想语料供应商。
当然,除了B站和微博外,其他平台如知乎等也可能成为AI时代的语料供应商。但考虑到篇幅有限,此处不再赘述。
在卖语料的过程中,做好平台和用户的内容协议是第一步。只有确保用户同意并接受自己的内容被用于AI训练,平台才能合法地提供语料给AI大模型厂商。
值得注意的是,社交平台用户风格会直接影响到作为语料供应商所训练的AI的性格。因此,在选择语料供应商时,AI大模型厂商需要仔细考虑平台的用户特点和内容风格。
随着AI技术的不断发展,语料库的质量和多样性将成为AI大模型训练的关键因素。可以预见的是,在2025年,AI训练将进入语料比拼阶段。谁拥有更高质量的语料库,谁就能在AI竞赛中占据先机。