国产ChatGPT「套壳」的秘密，现在被找到了

来源：引领外汇网 2023-05-28 16:47:02

比算力更急缺的是高质量数据

编者按：本文来自微信公众号量子位（ID：QbitAI），作者：衡宇，创业邦经授权发布。

“科大讯飞套壳ChatGPT！”“百度文心一言套皮Stable Diffusion！”“商汤大模型实则抄袭！”……

【资料图】

外界对国产大模型产生质疑已经不是一次两次了。

业内人士对这个现象的解释是，高质量的中文数据集实在紧缺，训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车，就会生成相似结果，进而引发乌龙事件。

其余办法中，用现有大模型辅助生成训练数据容易数据清洗不到位，重复利用token会导致过拟合，仅训练稀疏大模型也不是长久之计。

业内渐渐形成共识：

通往AGI的道路，对数据数量和数据质量都将持续提出极高的要求。

时势所需，近2个月来，国内不少团队先后开源了中文数据集，除通用数据集外，针对编程、医疗等垂域也有专门的开源中文数据集发布。

高质量数据集虽有但少

大模型的新突破十分依赖高质量、丰富的数据集。

根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则（scaling law）可以看到，独立增加训练数据量，是可以让预训练模型效果变更好的。

这不是OpenAI的一家之言。

DeepMind也在Chinchilla模型论文中指出，之前的大模型多是训练不足的，还提出最优训练公式，已成为业界公认的标准。

△主流大模型，Chinchilla参数最少，但训练最充分

不过，用来训练的主流数据集以英文为主，如Common Crawl、BooksCorpus、WiKipedia、ROOT等，最流行的Common Crawl中文数据只占据4.8%。

中文数据集是什么情况？

公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等，以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在，但整体数量和英文数据集相比可谓九牛一毛。

并且，其中部分已经老旧，可能都不知道最新的NLP研究概念（新概念相关研究只以英文形式出现在arXiv上）。

中文高质量数据集虽有但少，使用起来比较麻烦，这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上，清华计算机系教授唐杰分享过，千亿模型ChatGLM-130B训练前数据准备时，就曾面临过清洗中文数据后，可用量不到2TB的情况。

解决中文世界缺乏高质量数据集迫在眉睫。

行之有效的解决方法之一，是直接用英文数据集训大模型。

在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中，GPT-3.5在非英文排行榜位居第二（第一是GPT-4）。要知道，96%的GPT-3.5训练数据都是英文，再刨去其他语种，用来训练的中文数据量少到可以用“千分之n”来计算。

国内top3高校某大模型相关团队在读博士透露，如果采用这种方法，不嫌麻烦的话，甚至可以给模型接一个翻译软件，把所有语言都转换成英语，然后把模型的输出转换为中文，再返回给用户。

然而这样喂养出的大模型始终是英文思维，当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容，往往处理不佳，出现翻译错误或潜在文化的偏差。

还有个解决办法就是采集、清洗和标注中文语料，做新的中文高质量数据集，供给给大模型们。

开源数据集众人拾柴

察觉现况后，国内不少大模型团队决定走第二条路，着手利用私有数据库做数据集。

百度有内容生态数据，腾讯有公众号数据，知乎有问答数据，阿里有电商和物流数据。

积累的私有数据不一，就可能在特定场景和领域建立核心优势壁垒，将这些数据严格搜集、整理、筛选、清洗和标注，能保证训出模型的有效性和准确性。

而那些私有数据优势不那么明显大模型团队，开始全网爬数据（可以预见，爬虫数据量会非常大）。

华为为了打造盘古大模型，从互联网爬取了80TB文本，最后清洗为1TB的中文数据集；浪潮源1.0训练采用的中文数据集达5000GB（相比GPT3模型训练数据集为570GB）；最近发布的天河天元大模型，也是天津超算中心搜集整理全域网页数据，同时纳入各种开源训练数据和专业领域数据集等的成果。

与此同时，近2个月来，中文数据集出现众人拾柴火焰高的现象——

许多团队陆续发布开源中文数据集，弥补当前中文开源数据集的不足或失衡。

其中部分整理如下：

CodeGPT：由GPT和GPT生成的与代码相关的对话数据集；背后机构为复旦大学。

CBook-150k：中文语料图书集合，包含15万本中文图书的下载和抽取方法，涵盖人文、教育、科技、军事、政治等众多领域；背后机构为复旦大学。

RefGPT：为了避免人工标注的昂贵成本，提出一种自动生成事实型对话的方法，并公开我们的部分数据，包含5万条中文多轮对话；背后是来自上海交大、香港理工大学等机构的NLP从业者。

COIG：全称“中国通用开放指令数据集”，是更大、更多样化的指令调优语料库，并由人工验证确保了它的质量；背后的联合机构包括北京人工智能研究院、谢菲尔德大学、密歇根大学、达特茅斯学院、浙江大学、北京航空航天大学、卡内基梅隆大学。

Awesome Chinese Legal Resources：中国法律数据资源，由上海交大收集和整理。

Huatuo：通过医学知识图谱和GPT3.5 API构建的中文医学指令数据集，在此基础上对LLaMA进行了指令微调，提高了LLaMA在医疗领域的问答效果；项目开源方是哈工大。

Baize：使用少量“种子问题”，让 ChatGPT 自己跟自己聊天，并自动收集成高质量多轮对话数据集；加州大学圣迭戈分校（UCSD）与中山大学、MSRA合作团队把使用此法收集的数据集开源。

当更多的中文数据集被开源到聚光灯下，行业的态度是欢迎与欣喜。如智谱AI创始人兼CEO张鹏表达出的态度：

值得注意的是，除了预训练数据，目前阶段人类反馈数据同样不可或缺。

现成的例子摆在眼前：

与GPT-3相比，ChatGPT叠加的重要buff就是利用RLHF（人类反馈强化学习），生成用于fine-tuing的高质量标记数据，使得大模型向与人类意图对齐的方向发展。

提供人类反馈最直接的办法，就是告诉AI助手“你的回答不对”，或者直接在AI助手生成的回复旁边点赞或踩一踩。

先用起来就能先收集一波用户反馈，让雪球滚起来，这就是为什么大家都抢着发布大模型的原因之一。

现在，国内的类ChatGPT产品，从百度文心一言、复旦MOSS到智谱ChatGLM，都提供了进行反馈的选项。

但由于在大部分体验用户眼中，这些大模型产品最主要的还是“玩具”属性。

当遇到错误或不满意的回答，会选择直接关掉对话界面，并不利于背后大模型对人类反馈的搜集。

So～

今后遇到AI生成回答有错误或遗漏时，请不要吝惜一次点击，高举你手中的“”或“”，让大模型能收集更多的人类反馈。

关键词：

图片推荐

国产ChatGPT「套壳」的秘密，现在被找到了

国产ChatGPT「套壳」的秘密，现在被找到了,比算力更急缺的是高质量数据

为何给唐僧配四个徒弟？真相竟是这样！

为何给唐僧配四个徒弟？真相竟是这样！,在观音上长安寻觅取经人的路上，沿途遇见了流沙河的沙僧、福陵山的

天涯社区：确实遇到资金流动性困难，将直播筹款全力重启

天涯社区：确实遇到资金流动性困难，将直播筹款全力重启

全国人民代表大会几年举行一次啊

1、全国人民代表大会会议每年举行一次，由全国人民代表大会常务委员会召集。2、全国人民代表大会每届任期五

塞尔达传说王国之泪斯斯毕艾神庙位置分享-天天快播报

可能有很多塞尔达传说王国之泪玩家不知道塞尔达传说王国之泪斯斯毕艾神庙位置分享，接下来就是第一资讯网小

九牧王(601566.SH)：副董事长陈加贫及其一致行动人拟增持2%至3%股份

格隆汇5月28日丨九牧王(601566 SH)公布，公司副董事长陈加贫及其一致行动人于2023年4月27日至2023年5月25日

在美国，理发看似赚钱多，实则难入行富不了

在观网看到一个热帖“同事赴美20年回来，谈谈她眼中的美国”。有些内容觉得需要商榷。本人只在美国待过2年

陈梦击败孙颖莎，成就新的大满贯，对刘国梁和马琳都很重要

世乒赛女单决赛陈梦击败孙颖莎没有任何悬念，应该说孙颖莎等这一天也已经很久了。实际上孙颖莎每次对战陈梦

2023亚布力中国企业家论坛·石家庄峰会与会嘉宾在我市参观考察寻找对接突破点合作共赢促发展

5月27日，出席2023亚布力中国企业家论坛·石家庄峰会的与会嘉宾到石家庄市国际生物医药园、石家庄以岭药业

天天速读：经典名作《水果篮子》新舞台剧主角定妆海报 10月开演

日本漫画家高屋奈月原作、经典漫画《水果篮子》将推出全新舞台剧，预定10月开演，日前官方公布了五大主角的

H＆M宣布三里屯太古里旗舰店将闭店

该店占地面积超过1200平方米，三层零售空间内销售男装、女装和童装等品类，是品牌在中国开设规模最大的门店

韩亚航空乘客称空中开舱门为透气！最高面临10年监禁速看

韩国警方27日说，前一天在韩亚航空一架客机着陆前打开机舱门的乘客告诉警方，他这么做是因为感到“透不过气

每日头条!蓟州区龙港社区切实摸准居民需求：市集进社区服务送到家

“居民有需求社区有服务”，今年以来，蓟州区文昌街道龙港社区党委积极发挥党建引领作用，依托社区一社一品

属羊和属兔的婚姻如何，男属羊女属兔婚姻状况

属羊和属兔的婚姻如何十二生肖的更佳配对、结婚年龄（仅供参考）属牛的人与属鼠、属蛇和属鸡的人结婚为更佳

下周展望：美债上限解决+美股强势反弹，下周市场风险偏好有望提升_当前关注

根据最新消息，美国政府已就提高债务上限达成一致，为市场带来了积极的利好消息。这一消息对于全球金融市场

世界热头条丨高山仰止景行行止虽不能尔至心尚之_ldquo 高山仰止景行行止虽不能至心向往之 rdquo 什么意思

1、出自《诗经·小雅·车舝》，是说一个人的品德如高山一般让人景仰，如大道一般让世人遵循。2、让人不禁将

巴洛克式建筑_巴洛克式

1、 "巴洛克 "的字义源于葡萄牙语，意指 "变了形的珍珠 "！因为一直与蕾丝、花边这些小资词汇 "并肩战斗 "

视讯！小孩缺锌吃什么药最好呢?

小孩子难养，家长在养育孩子的过程中，对于孩子身体发育需要的各种营养元素，家长必须重视，比如钙元素、锌

【速看料】烤披萨的做法_怎么做烤披萨

欢迎观看本篇文章，小升来为大家解答以上问题。烤披萨的做法，怎么做烤披萨很多人还不知道，现在让我们一起

江西新余可提供每时乐微波炉维修服务地址在哪|每日报道

1、请电话咨询维修服务400-682-2080

自卫还击全集（自卫原则）

当前大家对于自卫原则都是颇为感兴趣的，大家都想要了解一下自卫原则，那么小美也是在网络上收集了一些关于

全球新消息丨休产假时的工资怎么算员工休产假工资怎么算

今天来聊聊关于休产假时的工资怎么算，员工休产假工资怎么算的文章，现在就为大家来简单介绍下休产假时的工

公募投资人士：北交所相关标的及北证 50 指数未来成长性可期-焦点

e公司讯，截至目前，首批北证50指数产品获批已满半年时间。整体来看，8只相关产品成立迄今业绩优势并不明显

宝可梦终极红宝石3ds 口袋妖怪终极红宝石下载

今天来聊聊关于宝可梦终极红宝石3ds，口袋妖怪终极红宝石下载的文章，现在就为大家来简单介绍下宝可梦终极

2024或将全面取消艺术特长生？教育部下发消息，家长表示猝不及防_全球观察

虽然说现在高等教育在逐渐普及，拥有大学本科学历的学生越来越多了。但是根据每年高考的录取数据来看，考上

全国麦收进度达7.9% 各地全力做好抢收保障

点击看视频当前，黄淮海小麦主产区收获正陆续进行，面对降雨天气，各地全力以赴做好应急抢收保障。农业农村

多图直击！东方航空开启C919飞机首次商业飞行

今天（28日）上午10时32分，中国东方航空使用中国商飞全球首架交付的C919大型客机，执行MU9191航班，从上海

贵州织金县一水电站放水两名教师被卷走，当地成立联合调查组

“因为上级检查说校园装饰缺少本土元素，我姐姐和同事们去河里捡鹅卵石，遇到上游水电站突然放水，我姐姐和

厨房台面安装步骤有哪些厨房台面安装步骤有哪些图片当前热讯

1、用胶带测量待安装平台区域的长度和宽度，然后根据实际情况考虑分别安装水槽和台面。2、清理旧桌子和水槽

世界热头条丨如何走上教育写作之路？这位名师的干货指南各位老师请收好→

在实际的教师发展案例中，是否写作常常成为名师和普通教师的分水岭。教师要研究教材、课程标准、不断变化的

热点资讯

更多>>

综合资讯

+更多

热点资讯

+更多

新股投资怎么分散风险?打新股的风险高吗?: 新股投资怎么分散风险?【1】分期购买投资产品。分散投资的方式是指在购买产品的时间上分散，采取分散购买是很有必要的。投资者可以采取平均 [详细]