维基百科正在试图劝阻人工智能开发者抓取其平台,通过发布一套专门针对训练AI模型的优化数据集。维基媒体基金会在周三宣布与Kaggle(一个由谷歌拥有的数据科学社区平台,专门托管机器学习数据)合作,发布一套“结构化的维基百科内容英文及法文”测试数据集。维基媒体表示,该数据集在Kaggle上托管,考虑到了机器学习工作流程,使得AI开发者更容易获取可供建模、微调、基准测试、对齐和分析的可读文章数据。该数据集中的内容是开放授权的,截至4月15日,包含了研究总结、简短描述、图片链接、信息框数据和文章段落,但不包括引用或非书面元素(如音频文件)。根据维基媒体的说法,Kaggle用户可以获取“结构良好的维基百科内容JSON表示”,这应该是“抓取或解析原始文章文本”的更具吸引力的替代方案,因为这一问题目前导致维基百科的服务器承受压 力,自动化AI机器人不断消耗平台带宽。维基媒体已经与谷歌和互联网档案馆签署了内容分享协议,但Kaggle的合作将使这些数据更易于为小型公司和独立数据科学家所用。Kaggle合作伙伴负责人Brenda Flynn表示:“作为机器学习社区获取工具和测试的地方,Kaggle对能够托管维基媒体基金会的数据感到非常兴奋。Kaggle期待在保持这一数据的可访问性、可用性和实用性方面发挥作用。”
发表回复