Meta的新人工智能聊天机器人在Facebook和Instagram的公开帖子上进行了训练_全球看点

meta平台的最高政策主管在接受路透社采访时表示，该公司使用Facebook和Instagram上的公开帖子来训练其新的meta人工智能虚拟助手，但为了尊重消费者的隐私，排除了只与家人和朋友分享的私人帖子。

meta全球事务总裁尼克·克莱格(Nick Clegg)本周在公司年度Connect会议间隙表示，meta也没有使用其消息服务上的私人聊天作为模型的训练数据，并采取措施从用于训练的公共数据集中过滤私人细节。

克莱格说:“我们试图排除那些包含大量个人信息的数据集。”他补充说，meta用于培训的“绝大多数”数据都是公开的。

他以linkedIn为例，该网站的内容元出于隐私考虑故意选择不使用。

克莱格发表上述言论之际，包括meta、OpenAI和Alphabet旗下的谷歌(Google)在内的科技公司因未经许可使用从互联网上抓取的信息来训练它们的人工智能模型而受到批评，这些模型吸收大量数据，以总结信息并生成图像。

这些公司正在权衡如何处理在这一过程中被吸走的私人或受版权保护的材料，它们的人工智能系统可能会复制这些材料，同时面临作者指控它们侵犯版权的诉讼。

周三，在meta年度产品大会Connect上，首席执行官马克·扎克伯格发布了该公司首批面向消费者的人工智能工具，meta AI是其中最重要的产品。与以往专注于增强现实和虚拟现实的会议不同，今年的大会主要讨论的是人工智能。

该公司表示，这款助手是基于强大的Llama 2大型语言模型定制的，该模型于今年7月发布，用于公共商业用途。

它将能够生成文本、音频和图像，并将通过与微软的必应搜索引擎的合作获得实时信息。

克莱格说，用于训练元人工智能的公开Facebook和Instagram帖子包括文本和照片。

他说，meta还对该工具可以生成的内容施加了安全限制，比如禁止创建公众人物的逼真图像。

关于受版权保护的材料，克莱格表示，他预计会有“相当数量的诉讼”，涉及“创造性内容是否受现有合理使用原则的保护”，该原则允许出于评论、研究和模仿等目的有限地使用受保护的作品。

克莱格说:“我们认为是这样，但我强烈怀疑这将在诉讼中发挥作用。”

一些拥有图像生成工具的公司有助于复制米老鼠等标志性人物，而其他公司则为这些材料付费，或者故意避免将它们包括在训练数据中。

例如，OpenAI今年夏天与内容提供商Shutterstock签署了一项为期六年的协议，将使用该公司的图像、视频和音乐库进行培训。

当被问及meta是否采取了任何此类措施来避免复制受版权保护的图像时，一位meta发言人指出，新的服务条款禁止用户生成侵犯隐私和知识产权的内容。