JiaXu's Blog

数学教授和GPT o1 mini的“智力对决” AI43秒完成人类数月难题

2024-10-05 1,433 0

在宾夕法尼亚大学，有位数学教授 Robert Ghrist 正在与一款名为 GPT-o1-mini 的 AI 模型展开一场有趣的 “智力对决”。这位教授在努力推导出一个更复杂的瓶颈对偶定理的推广时，经历了无数次的乐观与沮丧的交替。

Ghrist 曾尝试使用多个知名的 AI 模型，包括 GPT-4、Claude-3.5和 Gemini-1.5-Pro。这些模型虽然能做出一些假设并提供证据，但常常因一些微妙的错误而 “翻车”，这让 Ghrist 感到颇为挫败。最终，他与 OpenAI 的 GPT-o1-mini 模型携手，取得了突破。这个模型不仅分析了一个有缺陷的证明，找出了错误，还在短短43秒内生成了一个 “全新且巧妙的正确证明”，其优雅程度竟超过了人类的版本。

GPT-o1-mini 在逻辑任务中表现出色，采用了连锁思维技术，虽然它在逻辑和规划基准测试中超越了传统语言模型，但仍旧存在错误的可能性。Ghrist 对这次经历的总结是:“结果正好处于大型语言模型（LLM）能否证明的边界上。” 他解释说，识别模型的失败模式是这次实验的关键。

尽管获得了成功，Ghrist 也坦承，使用 AI 的过程并不一定比全靠自己来得更快。他甚至表示，依靠这些模型的帮助，最终的论文效果反而更佳。他的论文中还附上了一个附录，详细记录了 AI 模型在成果中的作用。

不过，事情并非总是一帆风顺。就在论文发表后不久，另一位数学家 Sridhar Ramesh 在社交媒体上指出，其实这个证明可以通过 Birkhoff 的一个定理轻松完成，这让 Ghrist 颇感意外。他幽默地承认道:“人类获胜了……” 这次与 AI 的合作，虽然收获了成果，但也让他意识到，有时候人类的智慧才是最有效的解决方案。

贾旭

AI

0 3

历经20年，Linux主线内核终于合并史诗级‘PREEMPT_RT’补丁——最后障碍竟是Linus“一手造成”

ThinkPHP 的老漏洞依旧是黑客手中的大杀器

世界上最流行的软件，快被AI冲垮了！

一文详解中转站为什么这么赚钱？

《时代》AI影响力榜单：字节智谱阿里入选

英伟达开源AI模型

数字员工QoderWake正式发布！Qoder移动端同步上线

鹅厂一口气更新这么多，赶紧收藏节后用得上

发布评论取消回复