雷军发文：小米研发大模型的方向是轻量化和本地部署

来源：凤凰网 2023-08-25 16:11:47

集微网消息，8月25日，雷军发文指出小米做大模型的思路可能和很多公司不太一样，选择主力突破的是轻量化和本地部署。

在文中，雷军透露了小米大模型研发的更多信息：

【资料图】

· 数据上，自己挖掘整理的训练数据占比达到了80%，其中小米自有的产品和业务数据量达到3TB；

· 结构上，根据对Transformer结构的理解，融合了自身的实践经验进行改良；并且充分考虑设备端芯片的特色要求，合理设置模型的宽度和深度，致力于达到效率和效果的最佳均衡。

· 训练策略上，采用小米提出的ScaledAdam优化器和Eden学习率调度器，显著提升收敛速度的同时减少了优化器中显存的浪费。

· 模型部署到端侧后，信息不用上传到云端，所有计算都在本地进行，可以从根本上保证用户隐私不被泄露。

以下为全文内容：

在上周的年度演讲上，我宣布了小米科技战略升级：深耕底层技术、长期持续投入、软硬深度融合，AI全面赋能，即（软件×硬件）ᴬᴵ。同时，也给大家介绍了小米的科技理念：选择对人类文明有长期价值的技术领域，坚持长期持续投入。

AI是未来的生产力，也是小米决定长期持续投入的底层赛道之一。我们在很早就开始组建AI团队，相关团队成员已经超过3000人。这些年的持续投入，为我们的自动驾驶、机器人等业务都取得了非常优秀的成果。

今年，我们迎来了一次重大的技术革命——AI大模型技术，在4月份，我们组建了AI大模型团队，并快速在小爱同学上落地应用。

我们做大模型的思路可能和很多公司不太一样，我们选择主力突破的是轻量化和本地部署。

为什么呢？

首先，大模型需要海量数据，所以很容易涉及到隐私问题，还需要巨大算力，用起来成本也很高。接着，我们是一家手机公司，怎么把自己的优势利用起来？我们想的是，它能不能轻量化？能不能本地部署，在手机端就能用上大模型？

沿着这个思路，我们团队进展非常顺利，小米自研大模型在近日的权威中文评测榜单C-EVAL和CMMLU中，取得同参数量级第一的好成绩；小米自研手机端侧大模型初步跑通，部分场景效果媲美云端。真的特别特别厉害。

很多人还想了解小米大模型研发的更多信息，今天，就和大家好好聊聊。

1、解码大模型

ChatGPT出现以来，大模型优异的理解能力和生成能力令人惊艳，关于其用途的探索也越来越多。目前看来，很多传统的自然语言处理任务都可以用它来完成，比如搜索、翻译、问答、摘要、信息抽取和分类以及写作等。在日常生活中，所有基于对话的服务，如客服、教育、咨询、导游等，以ChatGPT为代表的大模型都有一定的用武之地。

大模型指参数数量巨大、层次结构复杂的机器学习模型。这些模型通常具有十亿到千亿甚至万亿个参数，通过大量的数据进行训练，提供更高的理解和生成能力。

在我们看来，大模型不仅是指模型参数多、尺寸大，更重要的是代表了一种新的训练范式。我们将其总结为：大数据、大任务、大参数。

- 大数据：指需要用海量的数据去训练，让模型从中自动挖掘出所需的信息。通常采用自监督或者无监督学习方式，无需人工标注就可以提炼规律、学习知识，从而提升模型的眼界。

- 大任务：指学习的目标足够复杂、覆盖面广。这样才能“强迫”模型按照模块化、高类聚、低耦合的方式组织知识点，实现举一反三的泛化能力。

- 大参数：指模型的知识容量。大模型的参数规模越大，模型的表达能力和学习能力也就越强。

在这个范式中，我们认为大数据和大任务是不可或缺的。如果没有大数据，模型不可能学到丰富的常识；如果没有大任务，知识点和技能点不可能在模型中有机高效地组织起来。

2、布局人工智能全力突破大模型

以AI为基石，沉淀技术积累

我们基于未来的思考与理解，选择对人类文明有长期价值的战略方向，并坚持长期持续的投入。我们已经布局了12个技术领域，99个细分赛道，未来五年（2022-2026）至少投入1000亿以上的研发经费！

AI是未来的生产力，也是小米长期持续投入的底层赛道。小米很早就对人工智能进行布局，2016年小米AI实验室成立，并组建了第一支视觉AI团队，今年4月成立专职大模型团队，历经7年6次扩展，小米人工智能团队已经有3000多人，逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。

成为浪潮之上的角逐者，必须有对技术的沉淀和积累。作为小米AI技术的“试验田”和“弹药库”，小米AI实验室会研发中长期的前沿技术，围绕小米业务做储备，在集团需要的时候输出“弹药”。小米对AI的深刻认识与掌握的技术能力，也有效地赋能了手机、机器人等各个业务板块。

大模型是未来科技的发展趋势，更是下一个人工智能的高地。2021年开始，小米就对大模型的方向特别关注，并开展了对话大模型的预研工作。在闲聊对话场景下，依托于月活超过1.15亿的智能语音助理小爱同学，小米研发了参数规模为28亿的对话模型，达到了当时同等参数规模下业界的较高水平。这为小米积累了多卡分布式训练的经验，为后续开展大规模语言模型训练奠定了基础。

小米大模型：轻量化、本地部署

小米拥有品类众多的设备，是全球规模领先的消费级物联网平台。设备多样，使用场景也各不相同，一个大模型难以兼顾。如果把一部分大模型能力下放到端侧，不仅能更好地保护用户隐私、而且有机会在本地实现千人千面的个性化定制。

软硬结合，生态连结，这是大模型技术与小米生态结合的最优方案，让用户既可以拥有数据安全，又可以拥有大模型的先进生产力。因此，“轻量化、本地部署”是小米大模型技术的主力突破方向。

目前，我们自研的13亿参数的端侧模型已经在手机端跑通，部分场景效果媲美60亿模型在云端的运算结果。与早些时候市场上放出的手机端大模型的方案相比，小米会调整模型结构和参数大小，适配各种芯片在内存和算力上的特点，致力于达到功耗、推理速度和生成效果的最佳平衡。

3、布局人工智能全力突破大模型

自有数据更懂小米

数据上，我们自己挖掘整理的训练数据占比达到了80%，其中小米自有的产品和业务数据量达到3TB。因此我们的大模型最懂小米的产品，最懂小米的业务。

效率和效果的最佳平衡

结构上，我们根据对Transformer结构的理解，融合了自身的实践经验进行改良；并且充分考虑设备端芯片的特色要求，合理设置模型的宽度和深度，致力于达到效率和效果的最佳均衡。

更多策略更少浪费

训练策略上，采用小米提出的ScaledAdam优化器和Eden学习率调度器，显著提升收敛速度的同时减少了优化器中显存的浪费。由于模型的知识容量有限，需要更精巧地安排训练数据的顺序，使得模型尽可能多地掌握知识点和技能，减少参数的浪费，以此实现“轻量化”。

为用户隐私安全保驾护航

模型部署到端侧后，信息不用上传到云端，所有计算都在本地进行，可以从根本上保证用户隐私不被泄露。即使在端云结合的服务框架下，隐私信息会存储在端侧，涉及它们的计算也尽可能在端侧完成。即使偶尔需要使用云端的能力，信息也会经过处理和加密。

4、仰望技术星空脚踏体验实地

截至2023年8月10日，小米自研的大规模预训练语言模型MiLM-6B，参数规模为64亿，在权威中文评测榜单C-EVAL和CMMLU中位列同等参数规模大模型第一。

在C-Eval评估中，MiLM-6B 的平均分为60.2，总榜单排名第10、同参数量级排名第1。

“C-Eval”是由上海交通大学、清华大学、爱丁堡大学共同构建的一个针对基础模型的综合中文评估套件。它由 13948 道多项选择题组成，涵盖 52 个不同学科和四个难度级别，覆盖人文、社科、理工，及其他专业四个大方向，用以帮助中文社区研发大模型。

在CMMLU评估中，MiLM-6B在Five-shot和Zero-shot 测试中的平均分分别为57.17和60.37，均位列中文向模型第1。

“CMMLU”是一个综合性的中文大模型评估基准，涵盖了从基础学科到高级专业水平的67个主题，涉及自然科学、社会科学、人文、以及常识等，专门用于评估语言模型在中文语境下的知识和推理能力。

通过打榜，验证了我们对特定垂域进行定向增强的技术能够达到怎样的效果，这也是用轻量化模型进行业务定制的必备能力。虽然小米大模型取得了优异的成绩，但我们不会把榜单排名与用户体验画上等号。好成绩的背后，更重要的还是打磨技术、沉淀方法论，将它们运用到产品，提升用户体验才是我们的终极目标。

科技应着眼于解决问题，以需求与应用为落点。小米大模型采用“轻量化、本地部署”的方案，能够更好地解决多场景、个性化的用户需求。一方面，大模型本地运行无需担心“弱网、无网”情况，且响应速度快，使用稳定；另一方面，在提供更加个性化服务的同时，也能够更好地保护用户隐私，让技术真正改善用户体验，让成绩真正落地有效。

5、始终坚持小米愿景始终坚持技术为本铁律

小米作为一家科技公司，将始终坚持我们的愿景、价值观：让所有人都能享受科技带来的美好生活，同时始终坚持技术为本的铁律，持续加大研发投入。2023年，小米研发投入预计会超过200亿。

此外，截至目前，我们的全球专利数已超过32000+件。质量也非常高，在《全球5G标准必要专利及标准提案研究报告（2023）》中，首次进入全球前十，可以说，在榜的企业，小米是最年轻的，速度最快的！

小米还很年轻，但是在技术投入与技术积累上，已经走在前列，取得了巨大的进展。时代在不断变化，小米也在不断成长，这一次小米科技战略升级，代表着我们不仅要对现在的生活有贡献，也要对人类未来的生活进步发展有贡献，构建我们的核心竞争力，成为一家真正伟大的科技公司。

未来，小米将扩大模型规模，不断探索端云结合、多模态融合的大模型解决方案，与小爱同学、MIUI、IoT、机器人、汽车等业务结合，提升小爱同学的理解能力与智能家居指令的识别能力等，给予用户更加个性化的智能体验，按照我们的思路，走出不一样的道路。(校对/赵碧莹）

THE END

关键词：

图片推荐

雷军发文：小米研发大模型的方向是轻量化和本地部署

集微网消息，8月25日，雷军发文指出小米做大模型的思路可能和很多公司

硅业分会

硅业分会：本周工业硅期现货价格整体持稳短期内呈持稳微涨态势金十期货

吉林广播电视台2022年度部门决算公布

2023年8月25日，吉林广播电视台发布《2022年度吉林广播电视台部门决算

优德精密（300549）8月25日主力资金净卖出2238.40万元

截至2023年8月25日收盘，优德精密(300549)报收于23 46元，下跌6 79%，

良种攻关+良法种田助力秋粮丰产丰收

良种攻关+良法种田助力秋粮丰产丰收

康平向阳小学举办法治进校园知识讲座

为增强学生们的法治意识，做知法、守法的合格小学生，近日沈阳市康平县

中国海鲜行业市场发展环境发展如何？ 2023年海鲜行业市场发展环境分析

中国是世界上海鲜消费量最大的国家之一，同时也是海产进出口大国。蓬勃

东方甄选急着“入淘”，俞敏洪想要打造“东方多选”？

交个朋友达成抖音、淘宝、京东三平台直播的壮举，东方甄选也坐不住了。

上海电信“千兆光网+5G专网”助力智慧校园建设

上海电信“千兆光网+5G专网”助力智慧校园建设

法检协同推进生态环境司法保护高质效发展

法治日报讯记者张昊8月15日，最高人民法院、最高人民检察院联合发布一

爱奇艺引入AIGC辅助内容运营：站内全端AIGC运营素材超70万条

8月22日，爱奇艺发布2023年第二季度财报，其中公布了AIGC方面取得的进

逐步回归供应端逻辑，棉价或振荡偏强

据卓创资讯调研，新疆天气适宜，新季棉花长势略有恢复，单产降幅预估小

轻伤害检察院可以不予批捕吗有哪些规定

轻伤害检察院能不予批捕，人民检察院不批准逮捕的，如需要继续侦查，并

国金证券：给予瑞尔特买入评级

国金证券股份有限公司张杨桓,尹新悦近期对瑞尔特进行研究并发布了研究

8部门：加强燃料等大宗商品监测引导

加强重点建材产品价格监测，发布建筑材料工业行业景气指数，引导供需动

明天凌晨2点视频直播利雅得胜利，刘淳解说，C罗能否率队逃离降级区？

8月26日（周六）凌晨2点，沙特联第3轮，利雅得胜利将客场对阵哈萨征服

兴齐眼药：8月24日融资买入1655.77万元，融资融券余额4.09亿元

8月24日，兴齐眼药（300573）融资买入1655 77万元，融资偿还3125 35万

嘉寓股份：8月24日融资买入44.8万元，融资融券余额1563.3万元

8月24日，嘉寓股份（300117）融资买入44 8万元，融资偿还53 11万元，融

中盐集团发布声明：食盐储备供应充足质量安全有保障

8月24日，中国盐业集团有限公司发布关于保障食盐市场供应的声明，全文

青岛发布数字金融发展三年行动方案

本报8月24日讯市地方金融监管局日前联合人民银行青岛市分行、国家金融

上半年小微贷款增加超370亿元，青岛普惠金融跑出“加速度”

上半年小微贷款增加超370亿元、利率下降0．33个百分点，青岛普惠金融跑

德邦证券给予金力永磁买入评级业绩短期承压新能源汽车领域产品收入持续增长

德邦证券08月25日发布研报称，给予金力永磁（300748 SZ，最新价：16 36

场内ETF资金动态：恒生科技指数走高，港股互联网ETF上涨

来源：巨灵财经，作者：巨灵团队8月25日A股三大指数集体低开，截至午间

高利贷利息怎么说的

高利贷利息是超过同期银行同类贷款利率四倍，如果逾期未还，还实行利滚

交银国际：维持网易-S“买入”评级目标价升至185港元

交银国际发布研究报告称，维持网易-S(09999)“买入”评级，上调2023和2

没火之前檀健次是老司机，火之后檀健次女粉是个中翘楚：射在脸上

今年暑假，如果我没有说错，大火了两部剧，一部成毅主演的《莲花楼》，

开发商承诺“降价补差价” 深圳年内首个“保价”楼盘出炉

据第一财经，“降价补差价”，“敢保价，满纷信心。”8月24日，一张关

成都首个夜消费主题巴士发车 “干杯成华·夜生活节”正式开启

8月24日，由成都市商务局联合成都市成华区人民政府主办的“干杯成华·

广发期货：铁矿石可以关注1-5反套机会，单边观望

【现货】青岛港口PB粉环比-14元吨至889元吨，超特粉环比-11元吨至73

中国传统手工纸的探寻之路

随着工业的快速发展，许多传统技艺已经逐渐淡出了人们的视线。然而，也

热点资讯

更多>>

综合资讯

+更多

热点资讯

+更多

良种攻关+良法种田助力秋粮丰产丰收: 良种攻关+良法种田助力秋粮丰产丰收 [详细]