在一个使人工智能民主化的激进新项目中,超过 1,000 名 AI 研究人员创建了一个比 GPT-3 更大的多语言大型语言模型,并且将免费提供以供使用。
巴黎--这与人工智能研究中的摇滚音乐会一样近。在位于巴黎郊区的法国国家科学研究中心的超级计算中心内,一排排看起来像黑色冰箱的东西以震耳欲聋的 100 分贝嗡嗡作响。 它们构成了超级计算机的一部分,该超级计算机已经花费了 117 天来孕育一种名为 BLOOM 的新大型语言模型 (LLM),其创建者希望它代表了与通常开发 AI 方式的根本不同。
与其他更著名的大型语言模型(例如 OpenAI 的 GPT-3 和 Google 的 LaMDA)不同,BLOOM(代表 BigScience 大型开放科学开放访问多语言模型)旨在尽可能透明,研究人员共享有关培训所依据的数据、开发过程中面临的挑战以及他们评估其性能的方式。OpenAI 和谷歌没有分享他们的代码或向公众公开他们的模型,外部研究人员对这些模型的训练方式知之甚少。
BLOOM 是去年由1,000 多名志愿者研究人员在一个名为 BigScience 的项目中创建的,该项目由 AI 初创公司 Hugging Face 使用法国政府的资金进行协调。它于 7 月 12 日正式启动。研究人员希望开发一种性能与其他领先模型一样的开放获取 LLM,这将导致 AI 开发文化的长期变化,并帮助周围的研究人员民主化获取尖端 AI 技术世界。
该模型的易用性是其最大的卖点。现在它已经上线,任何人都可以在 Hugging Face 的网站上免费下载和修改它。用户可以从多种语言中进行选择,然后输入请求让 BLOOM 执行诸如编写食谱或诗歌、翻译或总结文本或编写编程代码等任务。AI 开发人员可以使用该模型作为基础来构建自己的应用程序。
它有 1760 亿个参数(决定如何将输入数据转换为所需输出的变量),比 OpenAI 的 1750 亿个参数 GPT-3 还要大,BigScience 声称它提供了与其他模型相似的准确性和毒性水平大小相同。对于西班牙语和阿拉伯语等语言,BLOOM 是这种规模的第一个大型语言模型。
但即使是该模型的创建者也警告说,它不会解决围绕大型语言模型的根深蒂固的问题,包括缺乏关于数据治理和隐私的适当政策,以及算法倾向于吐出有毒内容,如种族主义或性别歧视语言。
走向开源
大型语言模型是经过大量数据训练的深度学习算法。它们是人工智能研究最热门的领域之一。GPT-3 和 LaMDA 等强大的模型生成的文本读起来就像是人写的一样,它们具有改变我们在线处理信息的方式的巨大潜力。它们可以用作聊天机器人或搜索信息、审核在线内容、总结书籍或根据提示生成全新的文本段落。但他们也充满了问题。在这些模型开始产生有害内容之前,只需要一点点刺激。
这些模型也非常独特。他们需要使用大量昂贵的计算能力来接受海量数据的培训,而这只有像谷歌这样的大型(而且主要是美国)科技公司才能负担得起。
大多数开发尖端 LLM 的大型科技公司都限制了外部人员的使用,并且没有发布有关其模型内部运作的信息。这使得很难追究他们的责任。保密性和排他性是 BLOOM 研究人员希望改变的。
Meta 已经摆脱了现状:2022 年 5 月,该公司发布了自己的大型语言模型 Open Pretrained Transformer (OPT-175B),以及其代码和详细说明模型训练方式的日志。
但是 Meta 的模型只能根据要求提供,并且它的许可证将其使用限制为研究目的。拥抱脸更进一步。详细介绍其过去一年工作 的会议记录并上传到网上,任何人都可以免费下载该模型并将其用于研究或构建商业应用程序。
BigScience 的一个重点是从一开始就将道德考虑嵌入到模型中,而不是把它们当作事后的想法。LLM 接受了大量通过互联网收集的数据的培训。这可能是有问题的,因为这些数据集包含大量个人信息,并且经常反映危险的偏见。该小组专门为 LLM 开发了数据治理结构,应该更清楚地说明正在使用哪些数据以及它属于谁,并且它从世界各地获取了在网上不容易获得 的不同数据集。
该组织还推出了一项新的责任人工智能许可证,类似于服务条款协议。它旨在阻止在执法或医疗保健等高风险领域使用 BLOOM,或用于伤害、欺骗、剥削或冒充他人。自愿参与该项目并共同创建许可证的 AI 研究员丹麦承包商说,该许可证是在法律赶上之前自我监管 LLM 的一项实验。但最终,没有什么能阻止任何人滥用 BLOOM。
起草BLOOM 道德章程的Hugging Face 的伦理学家 Giada Pistilli 说,该项目从一开始就有自己的道德准则,作为模型开发的指导原则。例如,它强调招募来自不同背景和地点的志愿者,确保外部人员可以轻松复制项目的发现,并公开发布其结果。
支持大量不同语种语言
这一理念转化为 BLOOM 与当今可用的其他 LLM 之间的一个主要区别:该模型可以理解的大量人类语言。它可以处理其中的 46 种语言,包括法语、越南语、普通话、印度尼西亚语、加泰罗尼亚语、13 种印度语言(如印地语)和 20 种非洲语言。超过 30% 的训练数据是英文的。该模型还可以理解 13 种编程语言。
这在英语占主导地位的大型语言模型世界中是非常不寻常的。这是法学硕士是通过从互联网上抓取数据来构建的另一个结果:英语是在线最常用的语言。
BLOOM 能够改善这种情况的原因是,该团队召集了来自世界各地的志愿者以其他语言构建合适的数据集,即使这些语言在网上没有得到很好的体现。例如,Hugging Face 与非洲 AI 研究人员组织了研讨会,试图找到数据集,例如来自地方当局或大学的记录,这些数据集可用于训练非洲语言模型,Hugging Face 实习生兼 Masakhane 研究员 Chris Emezue 说,一个致力于非洲语言自然语言处理的组织。
包括这么多不同的语言可能对较贫穷国家的人工智能研究人员有巨大帮助,他们经常难以获得自然语言处理,因为它使用了大量昂贵的计算能力。BLOOM 允许他们跳过开发和训练模型的昂贵部分,以便专注于构建应用程序和微调模型以执行其母语的任务。
“如果你想在 [自然语言处理] 的未来中包含非洲语言……在训练语言模型时将它们包含在内是非常好的和重要的一步,”Emezue 说。
谨慎处理,规避风险
斯坦福大学计算机科学副教授、专门研究大型语言模型的 Percy Liang 表示,BigScience 在围绕 BLOOM 建立社区方面做了一项“非凡的”工作,它从一开始就涉及道德和治理的方法是一种深思熟虑的方法。
然而,梁认为这不会导致 LLM 发展的重大变化。“OpenAI 以及谷歌和微软仍在继续前进,”他说。归根结底,BLOOM 仍然是一个大型语言模型,它仍然带有所有相关的缺陷和风险。OpenAI 等公司没有向公众发布他们的模型或代码,因为他们认为,已经进入他们的性别歧视和种族主义语言使他们太危险,无法以这种方式使用。
Hugging Face 的 AI 研究员和伦理学家 Margaret Mitchell 说,BLOOM 也可能包含不准确和有偏见的语言,但由于该模型的一切都是公开的,人们将能够询问该模型的优缺点。
BigScience 对人工智能的最大贡献可能最终不是 BLOOM 本身,而是其志愿者参与的众多衍生研究项目。例如,这些项目可以加强模型的隐私凭证,并提出在不同领域使用该技术的方法,比如生物医学研究。
“一种新的大型语言模型不会改变历史进程,”Hugging Face 的研究员 Teven Le Scoo 说,他是 BLOOM 培训的共同领导者。“但拥有一种人们可以实际进行研究的良好开放语言模型具有强大的长期影响。”当谈到 LLM 的潜在危害时,“潘多拉的盒子已经敞开,”Le Scoo 说。“你能做的最好的事情就是为研究人员创造最好的条件来研究它们。”