AI败给数学家

文章正文

发布时间：2024-12-08 04:25

下棋、写诗、绘画……人工智能（AI）越来越“多才多艺”，连数学也难不倒它。OpenAI的ChatGPT等大语言模型（LLM），几乎在每一次数学测试中都表现良好。不过，AI此前几乎没有触及过数学领域的前沿研究，考试并不能反映它真正的数学能力。

11月22日，在预印本平台arXiv公布的一项研究中，美国技术研究机构Epoch AI召集了60位顶尖数学家，并提出了最具挑战性的数学难题，从而建立了基准更高的大模型数学测试数据库。结果发现，大语言模型的答题正确率还不到2%。这表明AI距离颠覆数学领域还差得很远。

“AI在数学界造成的影响虽然很小，但可以看到它的潜力。”英国帝国理工学院的数学家Kevin Buzzard说，如果有一个模型能从这个数据库测试中脱颖而出，那么数学家的游戏就结束了。

利用互联网及其他来源的大量文本进行训练，LLM能够根据识别模式预测最可能的单词、数字或符号序列。这使其能够回答问题、创作故事或解决数学问题。

之前，AI解决数学问题的正确率并不理想。而今，一些先进模型的正确率已经有所提升。比如，谷歌DeepMind的一个以数学为侧重点的AI模型，达到了国际数学奥林匹克竞赛银牌标准。

但专家指出，这些结果可能夸大了AI模型的数学推理能力。一方面，目前AI数学测试的基准大多相当于高中或本科水平，这与数学家的水平相去甚远，而数学家通常致力于解决几个世纪以来悬而未决的问题。另一方面，这样的测试不具备公平性，因为这些AI模型利用互联网数据进行了大量培训，能“看到”类似问题的解决方案，即存在数据污染。

为了解决上述问题，Epoch AI向60位数学家支付报酬，请他们提出极其困难的原创问题，以建立新的数学测试基准。Epoch AI的数学家Elliot Glazer说，其中有些问题数学家自己也要几天才能解答出来。

此外，为了防止数据污染，数学家只在加密的服务器上讨论、编写试题，并避免使用在线文本编辑器。

Epoch AI团队选择了约150个问题，对6个顶级LLM进行了测试，包括OpenAI和DeepMind的最新版本模型。每道题的解题时间为20秒至1分钟。结果，没有一个模型在测试中得分超过2%。

Buzzard说：“AI距离能够解决这些极具挑战性的数学问题还有很长的路要走。”尽管如此，专家认为AI模型迟早会追上新基准。对此，一些人乐观地认为，AI更多地将作为帮手而不是竞争对手存在，即使AI能够写出人类无法企及的证明过程，数学家在理解这些答案方面仍将发挥至关重要的作用。

但也有人担心AI在数学领域会产生不好的影响。“在AI开始超越人类前，数学家必须考虑谁可以使用这些工具、该花多大的精力训练它们，以及我们到底希望它们做什么。”加拿大渥太华大学的数学家和计算机科学家Maia Fraser说。（徐锐）

标签