(资料图)
一支百来名斯坦福大学研究人员组成的团队在 2021 年夏天发布了一篇论文,共同完成了这项工作。
中心主任 Percy Liang 在第一次基础模型研讨会开场演讲中表示:“我认为我们现在只开发了现今基础模型很小一部分的能力,更不用说未来的模型了。”
涌现指仍在发掘的 AI 特征,比如基础模型中的许多新生技能。他还把 AI 算法和模型架构的混合称为同质化,该趋势推动了基础模型的形成(见下图)。
这个领域正在继续快速发展。
企业家兼 Google Brain 前高级研究科学家 Ashish Vaswani 表示:“我们已进入到一个通过神经网络这样的简单方法就能成倍增加新能力的时代。”他曾领导 2017 年那篇关于 Transformer 的开创性论文的研究工作。
他们的工作也显示了这些模型庞大的规模和计算量。GPT-3 是在一个含近万亿个单词的数据集上训练的,并且拥有高达 1750 亿个参数。而参数量是衡量神经网络能力和复杂性的一个关键指标。
而在 10000 个 NVIDIA GPU 上训练而成的最新版本——ChatGPT 更加轰动,在短短两个月内就吸引了超过 1 亿用户。ChatGPT 帮助许多人了解了可以如何使用这项技术,它的发布被称为人工智能的“iPhone 时刻”。
初创企业 NLP Cloud 是领先初创企业培育计划——NVIDIA 初创加速计划的成员。该公司表示其在为航空公司、药店和其他用户服务的一项商业产品中使用了大约 25 个大型语言模型。专家们预计,越来越多的模型将在如 Hugging Face 的模型中心等网站开放源码。
基础模型也在不断变得更大、更复杂。所以许多企业已经在定制预训练的基础模型来加快向 AI 转型的速度,而不是从头开始构建新的模型。
即刻点击“阅读原文”或扫描下方海报二维码,在 NVIDIA On-Demand 上观看 GTC 精选回放,包括主题演讲相关精选、中国本地精选内容、生成式 AI 专题以及全球各行业及领域最新成果!
关键词: