网站地图官方微信:
网站首页 包装制品配附件 包装用纸 印章用品 夜视仪 学生 削笔器

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | Postgres 和 MySQL 应该怎么选? |

    目前来看,主要指标pg全方位优于mysql... 本内容是对...

    查看详情>>
  • | 如何看待我国在墨脱建水电站? |

  • | 组nas一定要TDP低的cpu吗? |

  • | 华为自研的仓颉编程语言将于 7 月 30 日开源,这款语言将如何影响未来的开发趋势? |

  • | 目前有多少应用程序会调度NPU? 今年开始大吹特吹的AI PC到底有没有实际意义? |

  • | postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢? |

  • | 为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译? |

  • | 怎么向老婆简单解释nas的用途? |

  • | 哪张照片让你觉得刘亦菲美得不可方物? |

  • | 有哪些专用软件是mac上独有的? |

  • | 只能选一个,你选谁? |

  • 主要还是因为它难。 Avid家的软件是很严谨的面向专业工作...

    2025-06-23
  • MoonBit 的 Beta 版发布意味着语法已趋于稳定,接...

    2025-06-23
  • 如果你需要在知乎上问这个问题,那你大概率不需要 Rust。 ...

    2025-06-23
  • 直接回答不墨迹:直接在项目中集成使用(通过客户端库连接ES集...

    2025-06-23

关注我们

添加微信好友,关注最新动态