作者| 武静静
大语言模型对很多问题都能提供高质量回复的背后,一个关键的环节就是数据标注。
(相关资料图)
数据标注工作在大语言模型的运作过程中相当于一个内容过滤器——筛选出针对提问较高质量的回答,按照分数排序,最终把得分最高的回答呈现到用户面前。这部分工作,有的靠技术来完成,有的则需要依赖人工作业。
科技公司大多会采取两种方式来做数据标注:自建团队、找外包公司。此前外媒曾报道称,ChatGPT所使用的标注数据由肯尼亚工人完成。国内,百度正试图加大力度和合作方共建数据标注基地来完成。
日前,百度智能云启动运营了首个大模型数据标注基地——位于海口市秀英区的百度智能云(海口)人工智能基础数据产业基地,该基地可以为各行各业提供大模型数据服务,也是百度智能云推动大模型产业落地的又一重要布局。
百度智能云称,目前已经在全国与各地政府合作,共建了十多个数据标注基地,累计为当地提供超过1.1万个稳定就业岗位,间接带动5万人就业。
1.大模型时代,数据标注正在升级换代
数据标注是人工智能解决问题的关键一环。
在传统的判别式AI场景中也需要数据标注。比如自动驾驶领域,在教会系统识别车或者人之前,需要先通过摄像头或者雷达搜集环境信息,并通过人工,对这些信息进行标注,之后反馈给模型进行训练,模型才会知道哪些是车,哪些是人。
整个过程中,标注师需要把人、车、道路等框出来,让模型反复训练。尤其在一些复杂的场景,比如闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等的识别更依赖数据标注师的工作。
生成式AI的出现对数据标注工作提出了新的要求。一般来看,大语言模型对人工数据的标注的需求主要出现在微调(SFT)以及基于人类反馈的强化学习(RLHF)阶段。
比如,需要有人在模型不会写诗的时候,通过人工教会模型诗的形式,下一次,它就可以“有样学样”的写出一首诗。此外,由于大语言模型会针对同一个问题生成很多回答,标注师需要对某些回答进行打分,告诉它哪些回答是好的,哪一些回答的不好,让模型下一次表现的更好。如此,反复循环, 大模型就能做出一个更好的回复。
这个过程中,标注师要做的事情更难了。他承担的类似一个专业的模型辅导老师一样的角色,需要具备一定的知识和技能,才能胜任。
百度智能云数据标注基地业务产品负责人胡驰提到,大语言模型标注过程中,通过人工不断的标注,能够让大模型的表现与人类的价值观,包括思维方式的对齐,最终它能像人一样去解决很多实际的问题。
胡驰表示,“大模型标注基地重点要评估三大指标:高效标注工具、高端人才梯队、高级别数据安全,只有三管齐下,才能为大模型提供好的数据。”
2.标注师本科率100%
这次在百度的海口大模型数据标注基地现场,我们见到文心一言背后的标注师们是如何工作的。
比如,在“怎么样和喜欢的女生表白?”这一问题下面,模型会提供几个回答,标注师按照这些回复,依据百度自己建立的分数体系进行打分,按照打分进行排序,最终反馈给模型。
他们的日常工作就是:对大模型生成的内容进行评价、反馈,通过这些人工标注数据,让大模型学习人类的思维方式,从而使大模型更加聪明。
百度智能云大模型数据标注师王洁玉说道:“和传统的数据标注师要求不同,大模型标注师都需要本科以上学历,我觉得主要是因为大模型数据涉及的知识面很广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。在入职的前两个月,公司会对我们进行集体培训和考核,通过考核后才能正式上岗。”
为提高数据标注的质量和效率,百度智能云自主研发了业内领先的大模型数据标注平台,支持从大模型微调、强化学习到模型评估的数据生产闭环。结合平台独有的人机协同标注、多轮智能审核等智能化工具,可大幅提升数据标注的产能和质量,同时帮助企业实现降本增效。
据了解,海口数据标注基地现拥有数百名专职大模型数据标注师,标注师的本科率达到100%。百度智能云还搭建了全流程数据服务人才梯队,以及构建了多领域专家资源库,可以针对来自不同行业的数据服务需求,迅速搭建专家团队,对特定领域的任务提供监督微调和强化训练数据,保证数据交付质量,目前已覆盖计算机、法律、医疗等领域。
更难的技术,对人才素质要求更高的工作,大模型正在引发更广泛的变化。
(封面图:百度智能云海口人工智能基础数据产业基地作业区,百度供图。)
关键词: