全球新动态：AI大模型“无米下锅”？合成数据多重优势凸显硅谷巨头正加速布局

来源：凤凰网 2023-05-20 17:06:41

《科创板日报》5月20日讯（编辑邱思雨）5月19日，北京拟组织实施“北京市通用人工智能产业创新伙伴计划”，谋划建设国家级数据训练基地。

(资料图片)

北京提出，在谋划建设国家级数据训练基地的过程中，要开发涵盖文本、图像、视频等多模态的高质量数据集，助力国家级数据训练基地建设。支持发展基于AIGC技术的合成数据新产业。

回溯到今年3月初，中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称，建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”，助力打造面向人工智能未来发展的数据优势。

被多次点名强调的合成数据，究竟是何方神圣？

顾名思义，合成数据（synthetic data）是通过计算机技术人工生成的数据，而不是由真实事件产生的数据。但合成数据具备“可用性”，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试并验证大模型。

在训练大模型的过程中，除了需要庞大的数据量以外，数据的质量同样至关重要。例如，ChatGPT的训练使用了45TB的数据、近1万亿个单词。据姚前分析推测，ChatGPT等大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点等。总体来看，数据来源严重依赖于现有的互联网公开文本数据。

但互联网文本数据有限，GPT-3的参数量已达到千亿级别，如果下一代大模型的参数达到万亿级别以上的话，数据短缺问题恐成为训练的瓶颈。在此背景下，合成数据的重要性日益凸显。

01 合成数据：更高效率、更低成本、更高质量

正如上文所述，“更高效率、更低成本、更高质量”是目前合成数据的优势所在。市场调研机构Gartner预测，到2024年，人工智能和数据分析项目中的数据预计有60%将来自合成数据。具体来看：

“更高效率”：合成数据能够在相对较短的时间内大量生成，且能够精确地复制原始数据集的统计特征，但又与原始数据不存在任何关联，便于在更大范围内分享和使用；

“更低成本”：合成数据服务商AI.Reverie指出，人工标注一张图片可能需要6美元，但人工合成的话只需要6美分；

“更高质量”：合成数据能够补充边缘案例，可以通过深度学习算法合成原始数据中没有的罕见样本，保障了数据的多样化。

除此以外，在AIGC时代，数据的隐私性、保密性、安全性等问题尤为重要。例如，医疗行业的数据通常会包括患者个人健康信息等；金融行业则涉及到历史交易信息等敏感数据。

利用合成数据训练AI大模型则能够有效规避用户隐私问题。在上述案例中，通过合成数据集，医疗机构能够在不提供患者隐私信息的条件下训练相关模型完成药物研发工作；金融机构则能够在不提供敏感的历史交易信息前提下，通过合成数据集训练量化交易模型提升获利能力，也可以用来训练客服机器人以改善服务体验。

《麻省理工科技评论》（MIT Technology Review）将大模型合成数据列为2022年十大突破性技术之一，称其有望解决人工智能领域的“数据鸿沟”问题。

02 先行应用于计算机视觉巨头已争相布局

具体到产业应用层面，合成数据先行应用于计算机视觉领域，例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练，但获取原始数据却相对较难。

以自动驾驶领域为例，实际驾驶场景路况复杂、变量较多，且极端天气下获取真实路况数据可能存在困难或危险，因此难以完全依赖于真车现场数据。但是，通过合成数据集模拟各种驾驶场景，就能够在保障人员和设备安全的条件下，提升自动驾驶能力。

目前，合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。摩根大通于2021年9月提出通过合成数据来加快金融领域的AI研究和模型开发，以解决欺诈检测和反洗钱等问题，并改善服务体验；美国运通也同样正在尝试创建合成数据来训练、优化其用于欺诈检测的AI模型。

微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。

英伟达自动驾驶仿真平台DRIVE Sim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力；

谷歌利用AI生成的医疗记录来帮助预测保险诈骗；

微软开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase，并创建了合成人脸数据库。

Meta于2021年11月收购了合成数据创业公司AI.Reverie。

国内方面，据《科创板日报》不完全统计，A股上市公司中：

天风证券、上海证券等多家机构分析师一致认为，AIGC模型算法创建的合成数据功能将为新技术产业提供支撑，让数据约束不再成为产业发展瓶颈。

关键词：

图片推荐

全球新动态：AI大模型“无米下锅”？合成数据多重优势凸显硅谷巨头正加速布局

利用合成数据训练AI大模型则能够有效规避用户隐私问题。

环球快报:班上适合的游戏教室_适合班级教室玩的游戏有哪些简介介绍

对于适合班级教室玩的游戏有哪些这个问题感兴趣的朋友应该很多，这个也是目前大家比较关注的问题，那么下面

陈梦最新采访！德班必成巴黎奥运分水岭，双线对抗伊藤美诚|视焦点讯

陈梦作为参加德班世乒赛年龄最大的国乒女队员，自然围绕大满贯最后一块拼图的问题成为了关注焦点，不过她在

逆水寒手游横吹桃花奇遇怎么完成横吹桃花奇遇任务通关攻略-当前关注

逆水寒手游奇遇横吹桃花怎么触发？这个奇遇算起来是跟三个地点有关，看起来很复杂但是实际上做起来还是比较

韩国市民举行大规模集会反对日本核污染水排海-环球热资讯

当地时间5月20日下午，大批韩国民众在首尔市中心举行集会，反对日本将福岛核电站核污染水排放至大海。（总

供货合同书样本_供货合同书

1、产品经销合同甲方:以下简称甲方)乙方:(以下简称乙方)为谋求共同发展，甲、乙双方本着互惠互利的原则，经

当前时讯：“520”来临近95万枝“云花”乘高铁畅销全国

中新网昆明5月20日电 (邓瑜黄先健)记者20日从中国铁路昆明局集团有限公司(下称“国铁昆明局”)获悉，

千里之外有爱的陪伴和“家”的温暖-世界独家

千里之外有爱的陪伴和“家”的温暖

前沿资讯!中国一妻多夫制什么时候实行（中国一妻多夫制是真的吗）

中国一妻多夫制什么时候实行，中国一妻多夫制是真的吗这个很多人还不知道,现在让我们一起来看看吧！1、中国

20万插混SUV又一卷王吉利银河L7动态首试

在今天，20万元级别插混SUV的又一卷王产品——吉利银河L7开启了动态首试，在视频中，我们将通过车辆在场地

全球关注：百度传情还能用吗_百度传情官网

1、百度传情服务可让您在百度网页搜索结果页中，向某个人送出祝福、传递情感。2、百度传情的使用方法：打开

朗格推出限量版 Tourbograph Perpetual 腕表

在德国品牌朗格(A Lange&Söhne)创立175周年之际，我们见证了该品牌的几项重大更新，但其中最引人注目的是

微三云贺龙教你运用必胜客模式打造自己的私域流量（2）

必胜客是全球知名的披萨连锁店品牌，成立于1958年，总部位于美国。经过近60年的发展，必胜客已在全球120多

每日视点！庾澄庆被传心脏病死亡经纪人辟谣：哈林哥很健康，目前正在录制真人秀

原标题：庾澄庆被传心脏病死亡经纪人辟谣：哈林哥很健康，目前正在录制真人秀　　联合新闻网、中时新闻网等

江苏如皋：唱好初夏“兴农曲” 绘出丰产“好钱景”

田家少闲月，五月人倍忙。走进江苏如皋长江镇，田间地头随处可见农户们“抢农时，忙农事”的辛劳身影。栽插

赛尔号雷伊雷神天明闪怎么获得?_赛尔号雷伊雷神天明闪怎么学天天日报

1、这种方法要靠人品，只要他一打出致命你就要重来，他一用极光刃你也要重来，方法是：雷伊闪电斗气一直用

环球快报:黎簇重生老九门年代_黎簇

1、《沙海》属于《盗墓笔记》的后传，记述数年后发生的事。2、吴邪成熟，不再天真，开始对于那似乎永远也无

每日速读!昆虫记蟋蟀的特点和品质_昆虫记蟋蟀的特点

1、摘要：汉语语涉及白蚁、蜉蝣、蜻蜓、虱、蚤、螳螂、蝼蛄、螽斯、蟋蟀、蝉、牛、萤、蝶、蛾、蠖、蜂、蚁

《堆叠大陆》宝箱作用介绍

堆叠大陆游戏中玩家可以收集资源打造各类建筑，而且在收集资源的过程中会得到一些宝箱，那么这些宝箱有什么

山东黄金于甘肃参设矿业公司，注册资本4.5亿_天天速看料

企查查APP显示，近日，甘肃金舜矿业有限责任公司成立，法定代表人为杨晓东，注册资本4 5亿元人民币，经营范

全民健身线上运动会满月 230万人参赛曝光破11亿

5月20日，2023年全民健身线上运动会启动已满一个月。据统计，上线（包括已完赛）30余项赛事，直接参赛的人

一般纳税人综合税负率怎么算_一般纳税人增值税税负率怎么算

1、税负指的是实际应交纳的增值税占销售收入的百分比2、增值税税负是已交增值税收入税负是由所属行业和所

曼城即将6年5冠，谁能打破垄断？网友调侃：瓜迪奥拉是“毒瘤”|天天快资讯

据每日邮报报道，曼城在周三的欧冠半决赛次回合压倒性4比0击败皇马，闯入欧冠决赛后，保安人员从更衣室里拿

首届“宁夏城市文学”论坛在石嘴山市启幕|全球看点

宁夏新闻网讯（记者倪金凤文图）5月19日，由宁夏文联、石嘴山市委宣传部主办，以“坚定文化自信　

自制腰果奶食谱

腰果奶非常棒，而且呈奶油状——确实是最好的坚果奶选择之一。然而，它有点贵，这就是为什么在家里制作这种

招商信用卡协商还款怎么谈？协商还款后还能用吗？

信用卡逐渐成为人们日常消费的主要支付方式之一，但是由于各种原因，有些人会面临还款困难。在这种情况下，

长马本周日开跑！这些人可免费乘坐轨道交通

2023年5月21日（周日）长春马拉松比赛即将鸣枪开跑为配合马拉松比赛需要满足广大参赛者及观赛者的出行需求

【微济阳】重磅！崔寨街道将迎来近万人回迁..._环球今日报

【微济阳】重磅！崔寨街道将迎来近万人回迁 ,拆迁,崔寨,回迁,安置房,安置小区

蓝色预警继续！今年第14轮沙尘来袭！

据@天津气象受上游沙尘传输影响今天上午天津地区PM10将短时间内有所增加峰值浓度约400微克立方米另据中国

我国首座深远海浮式风电平台“海油观澜号”成功并网投产世界热文

中国海油官微20日发布消息，我国首座深远海浮式风电平台“海油观澜号”成功并入文昌油田群电网，这是我国首

热点资讯

更多>>

综合资讯

+更多

热点资讯

+更多

打新配号失败是什么意思?新股已配号是中签了么?: 打新配号失败是什么意思?1、投资者参与新股打新没有获得配号，那么可能是因为投资者没有申购新股的资格，也可能是因为投资者没有开通相应的 [详细]