科研资讯

谁更擅长23个模型?解答科学问题的排名来了

研发家 | 2025-07-11
33

近日,一个基准测试平台显示,由ChatGPT研发团队开发的人工智能(AI)模型o3被选为解决多个领域科学问题的最佳人工智能工具。

据《自然》报道,艾伦人工智能研究所(Ai2)开发的Sciarena平台根据23个大型语言模型对科学问题的答案进行了排名。102名研究人员根据答案的质量投票。经过1.3万多次投票,美国Open人工智能公司开发的O3模型在自然科学、医疗卫生、工程和人文社会科学领域排名第一。

中国深度求索公司的DeepSeek-R1模型在自然科学问题的回答中排名第二,在工程领域排名第四。谷歌的Gemini-2.5-Pro模型在自然科学问题的回答中排名第三,在工程和医疗卫生领域排名第五。

Armann研究人员Ai2 Cohan表示,用户对o3模型的偏好可能是因为该模型在引用文献时经常提供大量细节,并能在技术上做出详细的回应。但他指出,目前还不清楚为什么不同的模型会有所不同。不同的培训数据和模型优化目标可以在一定程度上解释这种差异。

SciArena是最新开发的评估AI模型在特定任务中表现的平台之一,也是首批利用众包反馈模型在科学任务中表现排名的平台之一。澳大利亚国立大学的Rahul “Sciarena促使人们仔细评估大型语言模型辅助的文献相关任务。”

为了对这23个大型语言模型进行排名,Sciarena平台允许研究人员提交科学问题。然后,两个随机选择模型作出答案,这些答案将引用另一个AI研究工具Semanticai2开发以Scholar的文献为支撑。未来,用户会投票决定哪种模型的答案更好,两种模型的答案相当,或者两种模型的表现都很差。

目前,Sciarena平台已向公众开放,客户可以免费提出研究问题。所有用户都可以收到两个模型的答案,并投票表现,但只有经过验证并同意相关条款的用户才能投票。该公司表示,它将经常更新这个列表。

澳大利亚悉尼大学的Jonathan Kummerfeld表示,这将有助于研究人员及时掌握他们所在领域的最新文献,并“找到他们可能错过的研究成果”。他补充说,该平台也可能促进人工智能模型的创新,因为它提供了一种透明的方法来衡量进展。

然而,该平台存在一个潜在的问题,即对用户参与的依赖。在这方面,Cohan表示,该平台是免费的,包含了最先进的模型,这是对用户的一种鼓励。

“阅读大型语言模型产生的论文摘要并不能取代阅读论文本身。”因为它可能与所引用的论文有矛盾,可能误解术语,也可能无法准确地回答问题。

版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
分享

赞一个

33
推荐会议 更多>>
第七届机械工程、智能制造与机电一体化学术会议(MEIMM2026)

EI Compendex,Scopus

第七届机械工程、智能制造与机电一体化学术会议(MEIMM2026)

高届数

热门会议

2026-06-26 - 2026-06-28
2026年内燃机技术与能源动力工程国际学术会议(ICTEPE 2026)

EI Compendex,Scopus

2026年内燃机技术与能源动力工程国际学术会议(ICTEPE 2026)

IOP出版

即将截稿

2026-06-26 - 2026-06-28
第二届通信网络与智能系统工程国际会议(ICCNSE 2026)

EI Compendex,Scopus,IEEE Xplore

第二届通信网络与智能系统工程国际会议(ICCNSE 2026)

热门会议

IEEE出版

2026-06-26 - 2026-06-28
第二届物联网、数据科学与先进计算国际学术会议(IDSAC2026)

EI Compendex,IEEE Xplore

第二届物联网、数据科学与先进计算国际学术会议(IDSAC2026)

检索稳定

IEEE出版

2026-07-03 - 2026-07-05
2026年先进电子材料与器件应用国际学术会议(AEMDA 2026)

EI Compendex,Scopus,IEEE Xplore

2026年先进电子材料与器件应用国际学术会议(AEMDA 2026)

985主办

IEEE出版

2026-07-17 - 2026-07-19
第三届可再生能源技术与电气工程国际学术会议(RETEE 2026)

EI Compendex,Scopus

第三届可再生能源技术与电气工程国际学术会议(RETEE 2026)

高届数

热门会议

2026-07-24 - 2026-07-26
2026年计算机感知与神经网络国际学术会议(CPNN 2026)

IEEE Xplore,EI Compendex,Scopus

2026年计算机感知与神经网络国际学术会议(CPNN 2026)

IEEE出版

官方推荐

2026-08-21 - 2026-08-22