科研资讯

谁更擅长23个模型?解答科学问题的排名来了

研发家 | 2025-07-11
33

近日,一个基准测试平台显示,由ChatGPT研发团队开发的人工智能(AI)模型o3被选为解决多个领域科学问题的最佳人工智能工具。

据《自然》报道,艾伦人工智能研究所(Ai2)开发的Sciarena平台根据23个大型语言模型对科学问题的答案进行了排名。102名研究人员根据答案的质量投票。经过1.3万多次投票,美国Open人工智能公司开发的O3模型在自然科学、医疗卫生、工程和人文社会科学领域排名第一。

中国深度求索公司的DeepSeek-R1模型在自然科学问题的回答中排名第二,在工程领域排名第四。谷歌的Gemini-2.5-Pro模型在自然科学问题的回答中排名第三,在工程和医疗卫生领域排名第五。

Armann研究人员Ai2 Cohan表示,用户对o3模型的偏好可能是因为该模型在引用文献时经常提供大量细节,并能在技术上做出详细的回应。但他指出,目前还不清楚为什么不同的模型会有所不同。不同的培训数据和模型优化目标可以在一定程度上解释这种差异。

SciArena是最新开发的评估AI模型在特定任务中表现的平台之一,也是首批利用众包反馈模型在科学任务中表现排名的平台之一。澳大利亚国立大学的Rahul “Sciarena促使人们仔细评估大型语言模型辅助的文献相关任务。”

为了对这23个大型语言模型进行排名,Sciarena平台允许研究人员提交科学问题。然后,两个随机选择模型作出答案,这些答案将引用另一个AI研究工具Semanticai2开发以Scholar的文献为支撑。未来,用户会投票决定哪种模型的答案更好,两种模型的答案相当,或者两种模型的表现都很差。

目前,Sciarena平台已向公众开放,客户可以免费提出研究问题。所有用户都可以收到两个模型的答案,并投票表现,但只有经过验证并同意相关条款的用户才能投票。该公司表示,它将经常更新这个列表。

澳大利亚悉尼大学的Jonathan Kummerfeld表示,这将有助于研究人员及时掌握他们所在领域的最新文献,并“找到他们可能错过的研究成果”。他补充说,该平台也可能促进人工智能模型的创新,因为它提供了一种透明的方法来衡量进展。

然而,该平台存在一个潜在的问题,即对用户参与的依赖。在这方面,Cohan表示,该平台是免费的,包含了最先进的模型,这是对用户的一种鼓励。

“阅读大型语言模型产生的论文摘要并不能取代阅读论文本身。”因为它可能与所引用的论文有矛盾,可能误解术语,也可能无法准确地回答问题。

版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
分享

赞一个

33
推荐会议 更多>>
IEEE出版|2026年区块链技术与基础模型国际学术会议(BTFM 2026)

IEEE Xplore,EI Compendex,Scopus

IEEE出版|2026年区块链技术与基础模型国际学术会议(BTFM 2026)

IEEE出版

前沿会议

2026-03-20 - 2026-03-22
2026年高端装备与智能机器人国际学术会议 (ICAEIR 2026)

EI Compendex,Scopus

2026年高端装备与智能机器人国际学术会议 (ICAEIR 2026)

交叉学科

官方推荐

2026-03-27 - 2026-03-29
IEEE出版 | 2026年计算智能与机器学习国际学术会议(CIML 2026)

EI Compendex,Scopus,IEEE Xplore

IEEE出版 | 2026年计算智能与机器学习国际学术会议(CIML 2026)

早鸟价

官方推荐

2026-03-27 - 2026-03-29
2026年能源系统与未来电网国际学术会议(ESFG 2026)

EI Compendex,Scopus

2026年能源系统与未来电网国际学术会议(ESFG 2026)

检索稳定

IOP出版

2026-03-27 - 2026-03-29
第二届控制系统与电气工程国际学术会议(ICCSEE 2026)

EI Compendex,Scopus

第二届控制系统与电气工程国际学术会议(ICCSEE 2026)

多届检索

热门会议

2026-04-17 - 2026-04-19
2026年计算力学与智能系统国际学术会议(CMSS 2026)

EI Compendex,Scopus

2026年计算力学与智能系统国际学术会议(CMSS 2026)

新会上线

前沿会议

2026-04-17 - 2026-04-19
IEEE出版 | 2026年智能感知与自主控制国际学术会议(IPAC 2026)

EI Compendex,Scopus

IEEE出版 | 2026年智能感知与自主控制国际学术会议(IPAC 2026)

优质会议

早鸟价

2026-04-24 - 2026-04-26
2026年先进电子与自动化技术国际学术会议(AEAT 2026)

EI Compendex,Scopus

2026年先进电子与自动化技术国际学术会议(AEAT 2026)

新会上线

交叉学科

2026-04-24 - 2026-04-26