如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-18 18:40:12
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-25 23:20:11跨平台GUI框架到底应该自绘还是原生控件绑定?
- 2025-06-25 23:55:11苏超比赛为什么常州一输再输,却无人指责?
- 2025-06-25 23:20:11如何评价b站数码区up主 “大狸子切切里”?
- 2025-06-25 23:40:12当初中俄为什么不摧毁朝鲜的核设施,让朝鲜拥有了自己的核武器?
- 2025-06-25 23:55:11如何看待罗永浩回忆被华为公司余承东野蛮人式挖人?
- 2025-06-25 23:10:11独立开发者为什么坚持独立而不愿意合作?
- 2025-06-25 23:35:12豆包推出 AI 编程,在「编辑模式」下可以直接前端改图和文字,体验如何?对行业会带来怎样的影响?
- 2025-06-25 23:35:12光靠自己在家挥木刀,每天150下,10年后能成为剑术高手吗?
- 2025-06-26 00:25:12曹玉磊冒充「清华院长」频繁参加活动遭官方打***,他为何能堂而皇之以***身份开展活动?其将受到哪些处罚?
- 2025-06-25 23:35:12vmware 虚拟机如何安装?
推荐产品
-
duckdb的性能如何?
最近更着duckdb的 这个官方博客 做了下实验。 随机生成 -
如何从零开始开发一款独立游戏?
最不该在独立游戏里卷的东西全被你挑出来了。 游戏代码自己敲, -
毕设答辩,老师说node不可能写后台怎么办?
三个选择: 不要讲,现场 VSCODE 打开给他 demo -
有没有什么路由器让你用过之后彻底惊艳了?
tplink商用版本路由器 路由+交换机+3个大饼AP挂天上
新闻动态
最新资讯

