来源: 最后更新:2024-05-09 15:52:15
阿里云正式发布了通义千问2.5,模型性能全面赶超GPT-4 Turbo,声称地表最强中文大模型。
据了解,通义千问2.5最新开源的1100亿参数模型在多个基准测评中均取得了最佳成绩,成功超越了Meta的Llama-3-70B模型,成为开源领域的新标杆。
相比通义千问2.1版本,通义千问2.5在上述四项能力上分别提升了9%、16%、19%和10%,其中中文能力更是持续领先业界。
在权威基准OpenCompass上,通义千问2.5的得分追平了GPT-4 Turbo,这是该基准首次有国产大模型取得如此出色的成绩。这一成绩不仅证明了通义千问2.5在中文语境下的卓越性能,也展示了阿里云在人工智能领域的创新能力。
除了通义千问2.5外,阿里云还发布了最新款开源模型Qwen1.5-110B。这款拥有1100亿参数的模型在MMLU、TheoremQA、GPQA等基准测评中均超越了Meta的Llama-3-70B模型,并在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上荣登榜首,进一步巩固了通义开源系列在业界的领先地位。
通义的多模态模型和专有能力模型也展现出了业界顶尖的影响力。其中,通义千问视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越了Gemini Ultra和GPT-4V,目前已在多家企业落地应用,为各行各业带来了实质性的帮助。
此外,通义千问代码大模型CodeQwen1.5-7B也是值得一提的亮点。这款模型在HuggingFace代码模型榜单Big Code上位居前列,同时还是国内用户规模第一的智能编码助手通义灵码的底座。
腾讯为什么告老干妈(腾讯跟老干妈什么情况)
突然确诊癌症中晚期,已转移!宁波男子无法接受:怎么可能!医生:发现一个,全家高危!
疑似皇马前主席之孙公然辱华,皇马却称“将致力于消除足球界种族歧视”?
韩军称朝鲜军人无意中越界 韩军称朝鲜军人无意中越界了吗
中纪委再打两“虎”!还有一“虎”被免职,一“虎”获刑十五年!
吉林市将举办世界锅包肉大赛,此前召开座谈会论证锅包肉起源
哪些爱爱姿势更容易怀孕 选择这些爱爱姿势帮助生儿生女
男性精子存活时间有多久 精子存活率低怎么办
医生算错怀孕周数怎么办 孕龄胎龄预产期原来是这样算的
备孕未准妈妈请注意 这里有份孕前自检表请签收
疑似皇马前主席之孙公然辱华,皇马却称“将致力于消除足球界种族歧视”?
中纪委再打两“虎”!还有一“虎”被免职,一“虎”获刑十五年!中纪委再打两“虎”!还有一“虎”被免职,一“虎”获刑十五年!,常委,
停经几天能测出怀孕 诊断怀孕的常用方法有哪些 “疯狂”的栀子花:最高每斤卖35元!犍为栀子花价飙涨数倍,迎上中式新茶饮风口 澳媒揭露西方媒体歪曲报道中国真相:“它们不会告诉不想让我们听到的消息” monster monster眼镜