9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式发布。早在发布会前一天,腾讯就已经揭示了其相关命名和图标。
而今日在发布会上,腾讯混元大模型正式开启公测,目前需要排队预约体验。
图为9月7日腾讯安全公众号
图源:腾讯云
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,腾讯将迈入“全面拥抱大模型”时代,他指出,大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值,“腾讯将立足于未来,立足于实效,让数字化工具在产业中用起来、用得好。
全链路自主研发,混元大模型超越ChatGPT
图源:网络
从2021年开始,腾讯先后推出千亿和万亿参数的NLP稀疏大模型,打破CLUE三大榜单纪录,实现在中文理解能力上的新突破。近期,腾讯的混元AI万亿大模型登顶权威中文测评基准CLUE榜首并超越人类水平。
目前,腾讯混元大模型参数规模超千亿,预训练语料超2万亿tokens,拥有强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力。
有数据显示,混元大模型采用腾讯太极机器学习平台自研的机器学习框架,太极AngelPTM训练框架的训练速度相比业界主流框架提升1倍,AngelHCF推理框架的推理速度比业界主流框架提升1.3倍。
图源:腾讯
此外,混元大模型依托于腾讯领先的基础设施,腾讯云星星海自研服务器、腾讯云高性能算力集群性能提升3倍,自研星脉高速网络3.2T通信带宽,实现10倍通信性能提升。
基于此,混元大模型在算法层面进行了一系列自研创新,提高了模型可靠性和成熟度。
图源:腾讯
针对大模型出现的“幻觉”问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%至50%;
通过强化学习的方法,让混元大模型学会识别陷阱问题,对不安全问题说“不”,面对安全诱导类问题的拒答率提升20%;
通过位置编码优化,提高了超长文的处理效果和性能,结合指令跟随优化,让产出内容更符合字数要求,提升超长文本的生成和续写能力;
图源:腾讯
腾讯提出思维链的新策略,有效强化模型对问题的拆解和分步思考的倾向,让应用助手能够像人一样结合实际的应用场景进行思维推理。
在现场演示中,腾讯并没有对混元大模型进行现场的“刁难”测试,而是通过5个简单的问题,揭开了混元大模型的“神秘身份”。
1.你是谁?
2.混元的核心技术架构是什么?
3.混元的模型参数量有多大?
4.混元的训练数据截止到什么时候?
5.作为混元大模型,你有什么特长和优点?
图源:腾讯
图源:腾讯
从现场演示透露出的一些信息可以看到,混元大模型的核心架构基于Transformer,进行多轮迭代,并具有一定调用外部插件工具的能力;参数量达到千亿级别,当前版本的混元大模型知识截止到2023年7月,在现场中,腾讯集团副总裁蒋杰还提到混元大模型的知识库还将不断更新,将进行每月迭代。
而在第5个问题中,演示工作人员打错“特点”做“特长”,混元大模型也能够进行纠正理解。
蒋杰还在现场出题,考验混元大模型在实际场景中是否具备逻辑推理能力:“买一堆咖啡,上午喝了一半,下午又喝了剩下的一半,这时还剩30杯,一共买了多少杯”
图源:腾讯
混元大模型也能够实现快速响应,利用数学方程进行推理并回答正确。
图源:腾讯
在信通院测评中,混元大模型在模型开发中共测试29个能力项,模型能力中共测试37个能力项,综合评级4+级,获当前最高分。并在中文理科高考题子项、数学题子项均超越GPT4。
图源:腾讯
目前,混元大模型已实现与腾讯会议、腾讯文档、腾讯广告、腾讯游戏、腾讯金融科技、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品结合,并取得初步效果。
其中混元大模型在广告场景中的应用,实现适应行业与地域特色、满足千人千面要求以及文字、图片、视频的自然融合,蒋杰更是表示混元大模型超越Midjourney、超过开源的SD模型。不需争抢,混元+业务打造腾讯技术底座
图为腾讯集团副总裁蒋杰
此前,马化腾曾表示腾讯不急于推出大模型半成品。此次,腾讯集团副总裁蒋杰将当下推出的混元大模型,定义成一个“可用”“可实践”的版本。
蒋杰表示,大模型的发展不能也不会只靠烧钱推动,一定需要落地到具体的场景产生价值,落的场景越多,使用的用户越多,产生的商业价值、数据越多,通用大模型的训练成本就会被摊的越薄、推理成本也就降的越低,而模型能力却会更强
图源:腾讯
在发布会上,腾讯宣布混元大模型今日起对外开放,用户可通过腾讯云进行体验,支持直接调用 API 接口,或者将混元作为基底模型,在公有云上进行精调。
目前的混元大模型版本支持多轮对话、内容创作、逻辑推理、知识增强等功能,多模态文生图也将在后续上线。
图源:混元大模型
收费方面,腾讯混元大模型将为每个在白名单中的已实名腾讯云企业账号提供累计10万 token的免费调用额度,开通服务后即可使用。在免费额度用完后,按如下价格进行计费:腾讯混元大模型高级版每1000 token收费0.14元。(注:1token约等于1个中文汉字或3个英文字母)
蒋杰在接受媒体采访时表示,其实今天腾讯大模型的应用就是跟腾讯业务的深度结合,今天是和腾讯会议的结合,与腾讯文档的结合,那未来可以是跟微信的结合,QQ、腾讯视频、腾讯音乐等的结合。
清华大学人工智能研究院视觉智能研究中心主任邓志东表示,大模型的价值在于应用。只有在多样化的实际应用场景中赋能智能经济与智能社会的发展,才能找到产业价值,同时也才能成就大模型自身。
大模型之家认为,腾讯此次推出混元大模型,是作为国内领先的技术企业发展的必然,将混元大模型结合腾讯自身业务场景,能够实现数据训练库的不断扩充和数智化业务的提升,助力推动中国人工智能行业新发展,同时,混元大模型的推出也是腾讯在推进数字化转型、加快技术创新方面的重要举措,混元大模型具体表现如何,让我们一起拭目以待!