首页>资讯 > 图片资讯 > 正文

雷军发文:小米研发大模型的方向是轻量化和本地部署

来源:凤凰网    2023-08-25 16:11:47

集微网消息,8月25日,雷军发文指出小米做大模型的思路可能和很多公司不太一样,选择主力突破的是轻量化和本地部署

在文中,雷军透露了小米大模型研发的更多信息:


【资料图】

· 数据上,自己挖掘整理的训练数据占比达到了80%,其中小米自有的产品和业务数据量达到3TB;

· 结构上,根据对Transformer结构的理解,融合了自身的实践经验进行改良;并且充分考虑设备端芯片的特色要求,合理设置模型的宽度和深度,致力于达到效率和效果的最佳均衡。

· 训练策略上,采用小米提出的ScaledAdam优化器和Eden学习率调度器,显著提升收敛速度的同时减少了优化器中显存的浪费。

· 模型部署到端侧后,信息不用上传到云端,所有计算都在本地进行,可以从根本上保证用户隐私不被泄露。

以下为全文内容:

在上周的年度演讲上,我宣布了小米科技战略升级:深耕底层技术、长期持续投入、软硬深度融合,AI全面赋能,即(软件×硬件)ᴬᴵ。同时,也给大家介绍了小米的科技理念:选择对人类文明有长期价值的技术领域,坚持长期持续投入。

AI是未来的生产力,也是小米决定长期持续投入的底层赛道之一。我们在很早就开始组建AI团队,相关团队成员已经超过3000人。这些年的持续投入,为我们的自动驾驶、机器人等业务都取得了非常优秀的成果。

今年,我们迎来了一次重大的技术革命——AI大模型技术,在4月份,我们组建了AI大模型团队,并快速在小爱同学上落地应用。

我们做大模型的思路可能和很多公司不太一样,我们选择主力突破的是轻量化和本地部署。

为什么呢?

首先,大模型需要海量数据,所以很容易涉及到隐私问题,还需要巨大算力,用起来成本也很高。接着,我们是一家手机公司,怎么把自己的优势利用起来?我们想的是,它能不能轻量化?能不能本地部署,在手机端就能用上大模型?

沿着这个思路,我们团队进展非常顺利,小米自研大模型在近日的权威中文评测榜单C-EVAL和CMMLU中,取得同参数量级第一的好成绩;小米自研手机端侧大模型初步跑通,部分场景效果媲美云端。真的特别特别厉害。

很多人还想了解小米大模型研发的更多信息,今天,就和大家好好聊聊。

1、解码大模型

ChatGPT出现以来,大模型优异的理解能力和生成能力令人惊艳,关于其用途的探索也越来越多。目前看来,很多传统的自然语言处理任务都可以用它来完成,比如搜索、翻译、问答、摘要、信息抽取和分类以及写作等。在日常生活中,所有基于对话的服务,如客服、教育、咨询、导游等,以ChatGPT为代表的大模型都有一定的用武之地。

大模型指参数数量巨大、层次结构复杂的机器学习模型。这些模型通常具有十亿到千亿甚至万亿个参数,通过大量的数据进行训练,提供更高的理解和生成能力。

在我们看来,大模型不仅是指模型参数多、尺寸大,更重要的是代表了一种新的训练范式。我们将其总结为:大数据、大任务、大参数。

- 大数据:指需要用海量的数据去训练,让模型从中自动挖掘出所需的信息。通常采用自监督或者无监督学习方式,无需人工标注就可以提炼规律、学习知识,从而提升模型的眼界。

- 大任务:指学习的目标足够复杂、覆盖面广。这样才能“强迫”模型按照模块化、高类聚、低耦合的方式组织知识点,实现举一反三的泛化能力。

- 大参数:指模型的知识容量。大模型的参数规模越大,模型的表达能力和学习能力也就越强。

在这个范式中,我们认为大数据和大任务是不可或缺的。如果没有大数据,模型不可能学到丰富的常识;如果没有大任务,知识点和技能点不可能在模型中有机高效地组织起来。

2、布局人工智能 全力突破大模型

以AI为基石,沉淀技术积累

我们基于未来的思考与理解,选择对人类文明有长期价值的战略方向,并坚持长期持续的投入。我们已经布局了12个技术领域,99个细分赛道,未来五年(2022-2026)至少投入1000亿以上的研发经费!

AI是未来的生产力,也是小米长期持续投入的底层赛道。小米很早就对人工智能进行布局,2016年小米AI实验室成立,并组建了第一支视觉AI团队,今年4月成立专职大模型团队,历经7年6次扩展,小米人工智能团队已经有3000多人,逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。

成为浪潮之上的角逐者,必须有对技术的沉淀和积累。作为小米AI技术的“试验田”和“弹药库”,小米AI实验室会研发中长期的前沿技术,围绕小米业务做储备,在集团需要的时候输出“弹药”。小米对AI的深刻认识与掌握的技术能力,也有效地赋能了手机、机器人等各个业务板块。

大模型是未来科技的发展趋势,更是下一个人工智能的高地。2021年开始,小米就对大模型的方向特别关注,并开展了对话大模型的预研工作。在闲聊对话场景下,依托于月活超过1.15亿的智能语音助理小爱同学,小米研发了参数规模为28亿的对话模型,达到了当时同等参数规模下业界的较高水平。这为小米积累了多卡分布式训练的经验,为后续开展大规模语言模型训练奠定了基础。

小米大模型:轻量化、本地部署

小米拥有品类众多的设备,是全球规模领先的消费级物联网平台。设备多样,使用场景也各不相同,一个大模型难以兼顾。如果把一部分大模型能力下放到端侧,不仅能更好地保护用户隐私、而且有机会在本地实现千人千面的个性化定制。

软硬结合,生态连结,这是大模型技术与小米生态结合的最优方案,让用户既可以拥有数据安全,又可以拥有大模型的先进生产力。因此,“轻量化、本地部署”是小米大模型技术的主力突破方向。

目前,我们自研的13亿参数的端侧模型已经在手机端跑通,部分场景效果媲美60亿模型在云端的运算结果。与早些时候市场上放出的手机端大模型的方案相比,小米会调整模型结构和参数大小,适配各种芯片在内存和算力上的特点,致力于达到功耗、推理速度和生成效果的最佳平衡。

3、布局人工智能 全力突破大模型

自有数据更懂小米

数据上,我们自己挖掘整理的训练数据占比达到了80%,其中小米自有的产品和业务数据量达到3TB。因此我们的大模型最懂小米的产品,最懂小米的业务。

效率和效果的最佳平衡

结构上,我们根据对Transformer结构的理解,融合了自身的实践经验进行改良;并且充分考虑设备端芯片的特色要求,合理设置模型的宽度和深度,致力于达到效率和效果的最佳均衡。

更多策略更少浪费

训练策略上,采用小米提出的ScaledAdam优化器和Eden学习率调度器,显著提升收敛速度的同时减少了优化器中显存的浪费。由于模型的知识容量有限,需要更精巧地安排训练数据的顺序,使得模型尽可能多地掌握知识点和技能,减少参数的浪费,以此实现“轻量化”。

为用户隐私安全保驾护航

模型部署到端侧后,信息不用上传到云端,所有计算都在本地进行,可以从根本上保证用户隐私不被泄露。即使在端云结合的服务框架下,隐私信息会存储在端侧,涉及它们的计算也尽可能在端侧完成。即使偶尔需要使用云端的能力,信息也会经过处理和加密。

4、仰望技术星空 脚踏体验实地

截至2023年8月10日,小米自研的大规模预训练语言模型MiLM-6B,参数规模为64亿,在权威中文评测榜单C-EVAL和CMMLU中位列同等参数规模大模型第一。

在C-Eval评估中,MiLM-6B 的平均分为60.2,总榜单排名第10、同参数量级排名第1。

“C-Eval”是由上海交通大学、清华大学、爱丁堡大学共同构建的一个针对基础模型的综合中文评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同学科和四个难度级别,覆盖人文、社科、理工,及其他专业四个大方向,用以帮助中文社区研发大模型。

在CMMLU评估中,MiLM-6B在Five-shot和Zero-shot 测试中的平均分分别为57.17和60.37,均位列中文向模型第1。

“CMMLU”是一个综合性的中文大模型评估基准,涵盖了从基础学科到高级专业水平的67个主题,涉及自然科学、社会科学、人文、以及常识等,专门用于评估语言模型在中文语境下的知识和推理能力。

通过打榜,验证了我们对特定垂域进行定向增强的技术能够达到怎样的效果,这也是用轻量化模型进行业务定制的必备能力。虽然小米大模型取得了优异的成绩,但我们不会把榜单排名与用户体验画上等号。好成绩的背后,更重要的还是打磨技术、沉淀方法论,将它们运用到产品,提升用户体验才是我们的终极目标。

科技应着眼于解决问题,以需求与应用为落点。小米大模型采用“轻量化、本地部署”的方案,能够更好地解决多场景、个性化的用户需求。一方面,大模型本地运行无需担心“弱网、无网”情况,且响应速度快,使用稳定;另一方面,在提供更加个性化服务的同时,也能够更好地保护用户隐私,让技术真正改善用户体验,让成绩真正落地有效。

5、始终坚持小米愿景 始终坚持技术为本铁律

小米作为一家科技公司,将始终坚持我们的愿景、价值观:让所有人都能享受科技带来的美好生活,同时始终坚持技术为本的铁律,持续加大研发投入。2023年,小米研发投入预计会超过200亿。

此外,截至目前,我们的全球专利数已超过32000+件。质量也非常高,在《全球5G标准必要专利及标准提案研究报告(2023)》中,首次进入全球前十,可以说,在榜的企业,小米是最年轻的,速度最快的!

小米还很年轻,但是在技术投入与技术积累上,已经走在前列,取得了巨大的进展。时代在不断变化,小米也在不断成长,这一次小米科技战略升级,代表着我们不仅要对现在的生活有贡献,也要对人类未来的生活进步发展有贡献,构建我们的核心竞争力,成为一家真正伟大的科技公司。

未来,小米将扩大模型规模,不断探索端云结合、多模态融合的大模型解决方案,与小爱同学、MIUI、IoT、机器人、汽车等业务结合,提升小爱同学的理解能力与智能家居指令的识别能力等,给予用户更加个性化的智能体验,按照我们的思路,走出不一样的道路。(校对/赵碧莹)

THE END

关键词:

雷军发文:小米研发大模型的方向是轻量化和本地部署

集微网消息,8月25日,雷军发文指出小米做大模型的思路可能和很多公司

硅业分会

硅业分会:本周工业硅期现货价格整体持稳短期内呈持稳微涨态势金十期货

吉林广播电视台2022年度部门决算公布

2023年8月25日,吉林广播电视台发布《2022年度吉林广播电视台部门决算

优德精密(300549)8月25日主力资金净卖出2238.40万元

截至2023年8月25日收盘,优德精密(300549)报收于23 46元,下跌6 79%,

良种攻关+良法种田 助力秋粮丰产丰收

良种攻关+良法种田助力秋粮丰产丰收

康平向阳小学举办法治进校园知识讲座

为增强学生们的法治意识,做知法、守法的合格小学生,近日沈阳市康平县

中国海鲜行业市场发展环境发展如何? 2023年海鲜行业市场发展环境分析

中国是世界上海鲜消费量最大的国家之一,同时也是海产进出口大国。蓬勃

东方甄选急着“入淘”,俞敏洪想要打造“东方多选”?

交个朋友达成抖音、淘宝、京东三平台直播的壮举,东方甄选也坐不住了。

上海电信“千兆光网+5G专网”助力智慧校园建设

上海电信“千兆光网+5G专网”助力智慧校园建设

法检协同推进生态环境司法保护高质效发展

法治日报讯记者张昊8月15日,最高人民法院、最高人民检察院联合发布一

爱奇艺引入AIGC辅助内容运营:站内全端AIGC运营素材超70万条

8月22日,爱奇艺发布2023年第二季度财报,其中公布了AIGC方面取得的进

逐步回归供应端逻辑,棉价或振荡偏强

据卓创资讯调研,新疆天气适宜,新季棉花长势略有恢复,单产降幅预估小

轻伤害检察院可以不予批捕吗有哪些规定

轻伤害检察院能不予批捕,人民检察院不批准逮捕的,如需要继续侦查,并

国金证券:给予瑞尔特买入评级

国金证券股份有限公司张杨桓,尹新悦近期对瑞尔特进行研究并发布了研究

8部门:加强燃料等大宗商品监测引导

加强重点建材产品价格监测,发布建筑材料工业行业景气指数,引导供需动

明天凌晨2点视频直播利雅得胜利,刘淳解说,C罗能否率队逃离降级区?

8月26日(周六)凌晨2点,沙特联第3轮,利雅得胜利将客场对阵哈萨征服

兴齐眼药:8月24日融资买入1655.77万元,融资融券余额4.09亿元

8月24日,兴齐眼药(300573)融资买入1655 77万元,融资偿还3125 35万

嘉寓股份:8月24日融资买入44.8万元,融资融券余额1563.3万元

8月24日,嘉寓股份(300117)融资买入44 8万元,融资偿还53 11万元,融

中盐集团发布声明:食盐储备供应充足 质量安全有保障

8月24日,中国盐业集团有限公司发布关于保障食盐市场供应的声明,全文

青岛发布数字金融发展三年行动方案

本报8月24日讯市地方金融监管局日前联合人民银行青岛市分行、国家金融

上半年小微贷款增加超370亿元,青岛普惠金融跑出“加速度”

上半年小微贷款增加超370亿元、利率下降0.33个百分点,青岛普惠金融跑

德邦证券给予金力永磁买入评级 业绩短期承压 新能源汽车领域产品收入持续增长

德邦证券08月25日发布研报称,给予金力永磁(300748 SZ,最新价:16 36

场内ETF资金动态:恒生科技指数走高,港股互联网ETF上涨

来源:巨灵财经,作者:巨灵团队8月25日A股三大指数集体低开,截至午间

高利贷利息怎么说的

高利贷利息是超过同期银行同类贷款利率四倍,如果逾期未还,还实行利滚

交银国际:维持网易-S“买入”评级 目标价升至185港元

交银国际发布研究报告称,维持网易-S(09999)“买入”评级,上调2023和2

没火之前檀健次是老司机,火之后檀健次女粉是个中翘楚:射在脸上

今年暑假,如果我没有说错,大火了两部剧,一部成毅主演的《莲花楼》,

开发商承诺“降价补差价” 深圳年内首个“保价”楼盘出炉

据第一财经,“降价补差价”,“敢保价,满纷信心。”8月24日,一张关

成都首个夜消费主题巴士发车 “干杯成华·夜生活节”正式开启

8月24日,由成都市商务局联合成都市成华区人民政府主办的“干杯成华·

广发期货:铁矿石可以关注1-5反套机会,单边观望

【现货】青岛港口PB粉环比-14元 吨至889元 吨,超特粉环比-11元 吨至73

中国传统手工纸的探寻之路

随着工业的快速发展,许多传统技艺已经逐渐淡出了人们的视线。然而,也

综合资讯

+更多

热点资讯

+更多
良种攻关+良法种田 助力秋粮丰产丰收
良种攻关+良法种田助力秋粮丰产丰收 [详细]

Copyright @ 2008-2020  www.43710.com   All Right Reserved Powered by 财经情报网 版权所有

财经情报网   联系邮箱:562 66 29@qq.com

网站备案:沪ICP备2020036824号-12