网站首页包装检测设备阅览室桌椅隐型眼镜一体机办公设备眼镜布验钞机

当前位置：首页 >

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

2025-06-21 17:15:11 次

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 为什么水泥封不住尸臭?

上一篇 : 为什么水泥封不住尸臭? >

上一篇 : 为什么水泥封不住尸臭?

咦这事和我之前参加过的讨论有关，我应该可以回答至少一部分原因...

2025-06-24
因为人越忙越有空，越闲越他妈累。我个人发现，精神高度集中...

2025-06-24
...

| 入职第一天有什么瞬间让你马上想离职的？ |

入职第一天。发现电脑分内外网。每个人发两台电脑。 ...
查看详情>>

| 比特币是什么？ |
| 如何编写让别人看不懂的代码？ |
| 有一双超级大长腿是什么感觉？ |
| winkawaks游戏模拟器怎么运行? |
| 为什么Go仅仅160MB的安装包就可以编译程序，而Rust却还需要几个GB的VC++才能编译？ |
| 为什么 mac mini 的 m4 版本价格这么低呢？ |
| 各位都在用Docker跑些什么呢？ |
| 如果世界是虚拟的，当两个镜子对面放，将会无限反射，会不会将 cpu 算力耗光？ |
| 怎么看待B站舞蹈区和某些风格比较暴露的up？ |
| 请问一个网站都是怎么制作和运营的？ |

如何评价网传鸿蒙 PC 成功裸机启动 Windows ARM？ 2025-06-24
为什么国内程序员们没有联合起来设计一种中英文严格2:1宽度比的字体呢？ 2025-06-24
用J***a写Android的时代是不是要结束了？ 2025-06-24
一名女子在杭州万象城遭挟持被捅 20 多刀，隆胸***体救了一命，这反映出哪些公安系统的问题？ 2025-06-24
AI 都能写代码了，还要学计算机吗？ 2025-06-24
冬天也要穿胸罩吗? 2025-06-24

...

[ 查看详细 ]

PHP现在真的已经过时了吗？ 2025-06-24
没有上进心的男人都不考虑未来的吗？ 2025-06-24
家里想搞一个服务器，怎么才不违规？ 2025-06-24
为什么有些NAS用户弄那么多硬盘? 2025-06-24
如何评价网传鸿蒙 PC 成功裸机启动 Windows ARM？ 2025-06-24

第一和第二代的氦气盘都尽量别买，16T的推荐HC550，功耗...

2025-06-24

我用Flutter开发了一款双因素身份验证器，它叫Cloud...

2025-06-24

没有一个全家桶的框架，更像是百花齐放 ***： gin、go...

2025-06-24

Golang 团队从系统调用开始，从头搓了一套，什么都不依赖...

2025-06-24

关注我们

添加微信好友，关注最新动态