世界速看：科大讯飞高建清：「底座+能力+应用」是科大讯飞AIGC整体布局的三层架构

来源：现代服务产业技术创新战略联盟 2023-04-30 07:05:08

ChatGPT掀起AIGC浪潮后，关于它的影响，成为了行业内外最为热议的话题之一。

宏观的观点已不胜枚举：改变世界、AI的iPhone时刻……

(资料图片仅供参考)

但如果回归到技术本质，它到底会带来哪些变革？

我们认为，它会改变信息分发获取的模式。革新内容生产模式，变革人机交互模式，同时也会促进多个产业的升级。

这是科大讯飞AI研究院常务副院长高建清，在首届中国AIGC产业峰会上给出的答案。

作为国产AI的中坚力量，在这股最新趋势下，科大讯飞始终被寄予厚望。

尤其在2月初，他们率先给出类ChatGPT技术与产品跟进情况及定档时间，更是把行业内外的期待值拉满了。

具体如何？还得5月6日见分晓。

但提前剧透已经来了。

在首届中国AIGC峰会现场，在语音识别、语音合成、自然语言理解等领域拥有深厚积累和成果的科大讯飞AI研究院常务副院长高建清，分享了科大讯飞对于AIGC趋势的理解、技术进展、产品应用，以及认知智能大模型相关思考等内容。

为了完整体现他的思考，在不改变原意的基础上，量子位对其演讲内容进行了编辑整理，以飨读者。

中国 AIGC 产业峰会是由量子位主办的行业峰会，近 20 位产业代表与会讨论。线下参与观众 600+，线上收看观众近 300 万，得到了包括 CCTV2、BTV 等在内的数十家媒体的广泛报道关注。

演讲要点

“底座+能力+应用”是科大讯飞AIGC整体布局的三层架构。

语音合成将会向着交互更加拟人化、情感化、口语化的方向发展，并且要控制好音色、音律、口音等语义信息。

ChatGPT引发的创新，让AI在逻辑推理、多角色、多风格文本生成上都有了巨大进步。

大模型会改变信息分发获取的模式，并给内容生产模式、人机交互带来变革。

以下为高建清演讲全文：

音频创作也会向大模型方向发展

非常荣幸能有这样的机会和大家分享科大讯飞在AIGC方面的技术探索与应用创新方面的一些进展。

如下是科大讯飞在整个AIGC领域的布局情况。

科大讯飞在AIGC的三大模块：音频创作、视觉创作和文本创作，都有一些自己的理解和进展。

在音频创作方面，讯飞是一家以语音起家的公司，我们在音频创作方面有语音合成的全栈能力；在视觉创作方面，积累了以虚拟人为核心的完整视频创作能力；在文本生成方面，讯飞这些年主要围绕行业应用做了很多工作。

今天将主要围绕这三个方面展开介绍。

首先看一下音频创作。

在这一领域，我们认为最重要的技术之一是语音合成。

现阶段，播报式的语音合成已经接近或达到真人水平，接下来的发展趋势是什么？

我们认为，首要的发展趋势是如何在交互领域实现更好的拟人化、情感化以及口语化，总之让它更像真人。

另外，在内容生产领域，如何更好控制音色、音律、口音等语音里最重要的语义信息，也是一个重要的发展方向。

这两年我们也在这些领域有了一些进展。

首先是虚拟声音自动创作方面。

语音合成里，和声音相关的两个最主要元素：

第一是音色

第二是韵律信息

我们对这两部分进行显示建模，这样当你给系统输入一个人设时，比如青年甜美的女声，就可以生成对应的音色。

目前我们通过这一技术已经虚拟生成了500个声音，并在讯飞开放平台上开放。在满分为5.0MOS分的情况下，我们生成的声音超过4.0MOS分，已经达到了可用的阶段，有了这种虚拟生成声音的方式，大家可以选择生成喜欢的一些声音。

第二方面，怎样向多情感、多风格方面拓展？

去年，科大讯飞发布了全新的语音合成系统，即多情感多风格SMART-TTS系统。

这是一个端到端的方案，输入文本直接得到语音输出。其中有三个关键模块，第一是跨模态预训练，第二是韵律预训练，第三是声学预训练。三部分各司其职。

第一个模块可以提高语音合成中韵律的自然度；第二个模块是一个中间模块；最后一个模块可以提高声音整体的音质。

通过这样一个系统合成的声音，和专业声音演员录音水平的差距0.05MOS，已经取得了非常好的进展。

MOS是Mean Opnion Score的缩写，译为平均意见得分，是音频质量主观评估方法的一种。在语音合成领域，常见的有自然度MOS(MOS of naturalness)，相似度MOS(MOS of similarity)。

在这个系统中，我们还拓展了多个风格。

以往大家熟悉的语音合成主要用于播报、交互等领域，现在我们可以支持纪录片、游戏解说、广告直播等十多个领域。

同时，语音的情感能得到控制，SMART-TTS提供11种情感，每个情感有20档调节能力。我们发现，停顿、重音、语速等关键属性对于声音的表现力非常重要，这些也可以进行调节。我们也将这些能力开放给开发者，让大家都能创造并得到想要的声音。

下面是一个简单的demo，其中有各种不同风格的声音。

以下视频来源于

科大讯飞研究院

还有通过声音合成制作的二十四节气纪录片。

，时长01:08

可以看到，近年来声音合成已经不是传统意义上的播报、机器风格，已经向多感情、更多场景去拓展。

接下来音频创作会向什么方向发展？

我们认为有两个大方向：

第一，大家今天谈论最多的是大语言模型。在声音领域，大语言模型也是一个重要方向，ChatGPT给声音创作领域带了很多启示。

如果我们用Audio大语言模型方案，有可能对语音合成中的一些关键因素，比如口音、韵律等特征，进行很好的控制。

另外就是声音艺术。其实现在追求的不仅是声音能够表达意思，而是怎样能从自然可懂到悦耳享受。比如在声音中插入音效、环境音，会对整个语音合成的感受有很大改善。

5月发布大模型新成果

接下来来看第二部分，即科大讯飞在视觉创作方面的一些进展。

在虚拟人多模态合成方面，科大讯飞从2018年首发多语种虚拟人口唇驱动，2021年发布了2D真人捏脸系统。目前已经形成了3D虚拟口唇表情和动作的AI驱动到AI贯穿3D形象构建的全流程。

首先看一下虚拟人领域的关键技术——动作生成。

众所周知肢体语言对虚拟人来说非常关键，业界传统方法是采用动作库。

要知道，动作生成和两个因素有很大关系：

第一是语音发音中的韵律节奏

第二是动作意图

针对这两部分进行建模，能够很好实现动作合成，讯飞研究院提出的语义驱动虚拟人动作技术，在虚拟人动作的拟人度和契合度方面，都较传统方案有很大改善，从2.63分提升到3.75分左右。

第二个方面也一样，我们希望实现语音可控的半身数字人像生成。

通过文本语义约束的人像语义空间构建、基于扩散模型的人像语义向量生成两个阶段，输入一个人设，就能动态生成下图右边这些图像。这些图像是半身数字人的形象。

最后一个虚拟人的关键因素就是3D虚拟人的动态生成。

近两年科大讯飞研究院打造了个性化3D虚拟人复刻系统，实现了基于一张图片、一段语音就能驱动3D虚拟人，同时还支持3D虚拟人发型、眼睛、嘴型进行动态二次编辑。

在这些虚拟人技术的基础上，我们在产品方面也有一些探索。

讯飞音乐发布了AI虚拟歌手Luya，通过上述所说的音色创作技术，给这个虚拟歌手赋予了一定声音的能力。通过AI变声以及歌曲合成，现在TA已经发布了十多首歌曲，其中一些歌曲也得到了大众的喜爱。

那么问题来了，虚拟人未来的发展趋势是什么？

首先我们认为，现在虚拟人制作过程中还有很多人工环节，如果把AI能力融合进去的话，全流程加入AI会解决很多问题。

另外AIGC这一两年的发展速度非常迅猛，从文本到声音到图像，这些全栈能力的集合，让我们觉得可以形成以虚拟人为中心的全栈视觉生成能力。

接下来，再看一下科大讯飞在AIGC方面产品创新的一些探索。

首先是我们推出了讯飞智作APP，这个APP结合了以上很多AIGC能力，希望能够打造一个音视频内容的AI创作基地，这里有一个简单的demo：

，时长00:32

第二个是讯飞音乐的词曲家平台。

通过AI的辅助作词作曲，可以帮助创作者提高生产力。通过歌曲试音及质量分析，能够使采买人和音乐人之间的沟通变得更加顺畅。

最后再简单介绍一下科大讯飞在文本生成方面的思考。

关于文本生成，我们在教育、医疗等行业应用上做了很多工作。过往的一些进展今天不做过多赘述，主要分享一下我们在大模型基础能力上的一些理解和布局。

首先，ChatGPT基于所谓大语言模型，正是因为模型数据量巨大，使得它对信息记忆非常完整。

第二个是它范式上的最大变化，是将以往NLP里面每一个任务进行单独建模，ChatGPT是典型多任务的对话式理解的建模，正是因为它对多任务同时建模，使得模型在底层的语义理解能力极大增强；

另外，它采用学习的方法，能够将人类反馈非常好地融入到模型中。

正是这几方面创新，让AI在逻辑推理、多角色、多风格文本生成等方面都有了很大进步。

同时，大模型也会给产业带来非常大变革。

我们认为它会改变信息分发、获取模式，首先会给搜索引擎带来非常大的影响，其次也会给内容生产模式带来革新；第三对于人机交互会产生一个大变革。

在这个趋势下，科大讯飞在大模型方面也在开展一些工作。主要会基于我们对自身所在领域的理解，包括场景、数据、场景中的行为等方面，以及在教育、医疗、人机交互、办公这些方向。

之前讯飞研究院也在认知智能大模型上有一定积累和探索，5月6日我们也将有新的发布，敬请大家期待！

—完—

【END】

免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。

文章来源：量子位

关键词：

图片推荐

世界速看：科大讯飞高建清：「底座+能力+应用」是科大讯飞AIGC整体布局的三层架构

ChatGPT掀起AIGC浪潮后，关于它的影响，成为了行业内外最为热议的话题之一。宏观的观点已不胜枚举：改变世

比亚迪一季度净利润超2021年全年

根据比亚迪发布的第一季度财报，比亚迪一季度营收1201 74亿元，同比增长79 83%；归母净利润41 3亿元，同比

当前讯息：我国煤炭价格持续下行增产保供见成效

央视网消息：今年以来，多方推进煤炭增产保供工作，产量得到提升，价格也出现下行。据中国煤炭工业协会统计

陌上春来农事忙丨试验田里种下增收“新希望” 世界通讯

眼下正是农忙时节。4月28日，在铁岭市铁岭县蔡牛镇的一片土地里，刚刚播种的田垄整齐排列着，泛着油光的黑

美丽辽宁丨大黑山风景区杜鹃花竞相绽放

大连金普新区的春日图景，少不了杜鹃花的一抹亮色。日前，大黑山风景区杜鹃花竞相绽放，与之相关的一系列主

全球即时：铁路民航高速客流激增辽宁交通运输系统全力做好假期出行服务

4月29日，春节之后的第一个小长假如期来临。假期首日，出行需求集中释放，我省铁路、民航、高速公路运营等

辽宁发布“五一”旅游消费市场提醒告诫天天热资讯

“五一”假期前夕，为进一步规范经营者价格行为，保护消费者合法权益，省市场监管局发布全省旅游消费相关市

辽宁省第五届双品网购节在铁岭启幕

日前，由省商务厅、省文化和旅游厅和铁岭市政府主办的“辽宁省第五届双品网购节”暨“铁岭·最快乐”网红铁

环球新消息丨最新三星Galaxy Z Fold 5渲染图曝光，机身尺寸有望缩减至250g！

据数码博主i冰宇宙的爆料显示，最新的三星GalaxyZFold5以及三星GalaxyZFlip5的渲染图得以曝光，与目前的各

切实保障水利建设资金需求

【切实保障水利建设资金需求】今年以来，我国水利基础设施建设全面提速，水利建设投资完成明显好于去年同期

武警湖南总队：“湘约美食节” 让小长假里的新兵团更有烟火味-今日快看

美食节里美食多。色香味俱全。自己动手做烧烤。对炊事班战友的手艺点赞。各类游戏也深受官兵欢迎。准备集体

孙思程

1、孙思程，出生于2016年6月11日，中国内地男演员。2、2020年，参演的动作片《急先锋》上映。2021年，

关于牛年牛的吉祥成语都哪些_牛年牛的吉祥成语介绍焦点要闻

欢迎观看本篇文章，小勉来为大家解答以上问题。关于牛年牛的吉祥成语都哪些，牛年牛的吉祥成语介绍很多人还

全球短讯！生长素的生理作用优质课视频_生长素的生理作用

1、人生长激素的主要生理作用：　1 促生长作用：多种因素可调节机体生长，其中生长激素是最关键的。2、人幼

世界即时：草坪风景图片大全（草坪葬）

1、草坪葬树葬花坛葬都很好。2、既环保又省钱。3、生态葬是指人的遗体火化后，通过“草坪葬”、“水葬”、

环球观速讯丨宝宝输尿管狭窄的症状_输尿管狭窄的症状

1、输尿管狭窄的原因很多，如输尿管感染、结石、息肉、先天性狭窄、输尿管受压、放疗等。其临床表现与狭窄

万邦达4月12日盘中涨幅达5%-天天即时

以下是万邦达在北京时间4月12日10:11分盘口异动快照：4月12日，万邦达盘中涨幅达5%，截至10点11分，报8 84

解决问题最高明的方法：打开自己环球新动态

打开思维曾有这样一个犹太人，想租用银行的保险柜，保存自己价值50万美元的股票。但大部分银行的保险柜租金

一月开什么花_一月开的花有哪些

欢迎观看本篇文章，小勉来为大家解答以上问题。一月开什么花，一月开的花有哪些很多人还不知道，现在让我们

焦点观察：刹车辅助系统重要吗_刹车辅助系统

1、刹车辅助系统包括：电子制动辅助系统“EBA”和制动力辅助系统“BA”（也称为“BAS”），指能够通过判断

2D寻物游戏《藏在小镇里的猫》现已在steam发售_焦点热议

2D寻物游戏《藏在小镇里的猫》现已在steam发售。国区售价11元，首周享8折优惠。在令人放松的手绘小镇风景中

铝热反应化学方程式三氧化二铁（铝热反应化学方程式）

1、氧化铁:2Al+Fe2O3=Al2O3+2Fe四氧化三铁:8Al+3Fe3O4=4Al2O3+9Fe二氧化锰:4Al+3MnO2=2Al2O3+3Mn(反

网易邮箱注销账号_如何注销163邮箱账号|每日聚焦

1、3个月不登陆就自动注销了163免费email不支持直接注销，只需要您90天不用（木有登陆且木有用pop收信）您的

焦点讯息：世界最强球员:足球运动员肌肉照片

1、他们是世界顶级运动员！他们拥有无与伦比的超强身体素质，在力量、速度、爆发力、耐力、敏捷性、对抗能

相形见拙读音_相形见拙|聚焦

1、相形见绌释义和同类的事物相比较，显出不足。2、词目相形见绌发音xiāngxíngjiànchù释

奥运冠军罗雪娟深度体验森歌新品冠军品质成烹饪新选择

4月27日，AWE2023如期举行。作为家电行业一场具有风向标意义的科技盛会，现场汇集了来自世界各地的参展商及

狄龙：在对我得到40分前，我不会尊重任何人，湖人赢在运气！_天天资讯

狄龙：在对我得到40分前，我不会尊重任何人，湖人赢在运气！,狄龙,湖人主场,孟菲斯灰熊队,勒布朗詹姆斯,阿

重庆九龙坡：城市更新项目“点亮”老街区

新华社重庆4月29日电题：重庆九龙坡：城市更新项目“点亮”老街区新华社记者吴燕霞、李晓婷寻常巷陌添了城

天天观天下！YOKOHAMA优科豪马品牌介绍_优科豪马轮胎

日本横滨橡胶集团成立于1917年，是全球最大的轮胎橡胶制造商，致力于轮胎的生产和销售。横滨橡胶集团作为一

俄副外长：俄美关系处于极低点情况下，美方有意维持其驻俄使馆工作全球信息

据塔斯社29日报道，俄罗斯副外长韦尔希宁在采访中表示，尽管华盛顿和莫斯科之间的关系处于极低水平，但美国

热点资讯

更多>>

综合资讯

+更多

热点资讯

+更多

股票价格上涨是什么决定的?股票突然拉升是怎么回事?: 股票价格上涨是什么决定的?股票价格上涨主要是由供求关系决定的，就跟买菜一样，买菜的人多了但是供给的菜不足，菜价必然上升;当人们对菜的 [详细]