30分钟,打造撒贝宁的“孪生”AI主持人
近日,观众欣喜地看到在央视网络春晚舞台上,撒贝宁有了个虚拟孪生兄弟“小小撒”,这是AI虚拟主持人首次上岗与原型同台秀技,这让小撒很是感慨——正在直面自己的未来职业危机。
据透露,打造这样一个AI孪生主播,仅需约30分钟。那么,究竟其中有何奥妙之处?
如同原型孪生般逼真
是否见过,让撒贝宁“无话可说”的主持对手?
只见,小小撒一出场,小撒就忍不住说:“我的天,感觉像照镜子一样。”甚至从外貌上看,直呼简直就是“失散多年的孪生兄弟”。
而小小撒也并非花瓶摆设,很能掌控现场,妙语连珠,几乎不留余地。以至于一旁的小撒“委屈”地插话:“能给我说一句吗?”
显然,与以前僵硬、机械形象的虚拟人技术相比,引入人工智能,按真人原型架构出的虚拟主持人,在技术上有了相当大的提升。
“为了与真实的主持人有所区分,技术团队在形象设计上做了一定程度的变化。比如,这次可爱的‘小小撒’个头要高一点,更健谈些。”美国人工智能公司偶邦(ObEN)联合创始人郑毅向科技日报记者介绍说。
当然,小小撒也并非独家打造,因为节目中除了虚拟孪生撒贝宁,其他主持人朱迅、高博、龙洋的孪生AI主持人也都纷纷亮相。
本世纪初,英国广播公司发布第一个虚拟主持人Anaova之后,虚拟主持人成了一个科技研究热点。“能闻其声,也见其人”,今年网络春晚可谓是这一技术在国内首次大规模应用。
用数据“喂养”长大
常言道,“台上一分钟,台下十年功”。而此次培养虚拟主持人的过程却大大提速。
记者了解到,打造这样一个AI虚拟孪生主播的技术叫作PAI(Personal AI),在20多项专利申请技术的支撑下,只需撒贝宁等主持人的面部扫描和半小时的录音数据,即可生成形象和声音模型。
“在AI语音技术的基础上,无需主持人录入大量文本建立语音数据库。只需其较短的几十句标准原声,通过特征参数提取,利用迁移学习算法即可建立其独特发声模型。由此,任何输入的文字都可用主持人的声音读或唱出来,甚至能运用中日英韩四种语言。”郑毅说。
据介绍,随着越来越多的数据“喂养”,小小撒在成长中会掌握更多技能,甚至包括小撒的喜好、说话方式等,在另一层面上与其更为相似。再加上动作捕捉训练,以及传感器及运动跟踪设备,更突显了原型主持人的个性化特色,大大增强辨识度。
“现在的深度学习和机器学习,是在原有自动化规则上多了学习能力——自己发现规律。换言之,由于人类很难发现规律中的细节,而AI可通过大量训练让电脑学习去发现内在规律及细节。”华为人工智能算法工程师张侗冬告诉记者。 在某种意义上,正如主持人朱迅所言,“通过数据载体的形式,跟真实世界亲密互动,我们实现了‘永生’。”
从数字世界到人类世界的鸿沟
未来的世界是平行的数据世界,社会的主角是人,数据世界的主角是数字化的人。那么,在人工智能时代,虚拟主持人有什么发展瓶颈?
郑毅指出,“‘情感’是人类的专利。从语音模拟到语意模拟,虚拟主持人面临从数字世界到人类世界的鸿沟,尽管其在模仿音色、语速、停顿时都没问题,但是知道意思、怎么回答,却不理解感情内涵,要做到抑扬顿挫目前还很难。”
据介绍,语意学习,虽然也有“兴奋”“悲伤”“着急”等情感模型,但在模拟过程中,虚拟主持人不能及时调动,需要人工参与。虚拟人仍然像个嗷嗷待哺的婴儿,人类如何孕育它成长,为其构筑怎样的世界观,将是未来深入探索的方向。
郑毅表示,相信AI虚拟主持人不仅是一个技术产生到技术落地的过程,也是一个信任交接的过程。当初攻关虚拟主持人技术的一大初衷,是想通过主持人、明星这样有一定公信力人物的带动,增加人们对人工智能的信任。因为我们还处于技术成长阶段,而未来人与人工智能的相处也应从信任开始,例如未来像公务繁杂的职场人,如果拥有一个数字化的另一个自己,模拟自身意愿,便可代劳成为贴心助手,打理日常琐事,是不是会让生活省心很多?相信人工智能可以给我们带来更多生活便利,创造更好的生活。
有业内人士评价说,今年网络春晚中AI应用的一小步,可能将会带来掀开虚拟主持人时代的一大步。“当然若虚拟人上岗,工资依然发给我们人类就好。”有人戏称。(记者 华 凌 通讯员 闫 欣)
关键词: