科学家设置数学测试新基准，难倒AI

文章正文

发布时间：2024-12-08 04:29

科学家设置数学测试新基准，难倒AI

下棋、写诗、绘画……人工智能（AI）似乎越来越“多才多艺”，就连数学似乎都难不倒它。大语言模型（LLM），如OpenAI的ChatGPT，几乎在每一次数学测试中都表现良好。不过，此前AI几乎没有触及数学领域的前沿研究，并不能反映其真正的数学能力。近日，一项在预印本平台公布的研究中，美国技术研究机构Epoch AI召集60位顶尖数学家提出了原创的具有挑战性的数学难题，建立了基准更高的大模型数学测试数据库，结果发现大语言模型答题正确率不到2%。这表明距离AI打乱该领域还很远。 “AI在数学界造成的影响还很小，但可以看到它的潜力。”英国帝国理工学院数学家Kevin Buzzard说，如果有一个模型能从这个数据库的测试中脱颖而出，那么数学家们的游戏就结束了。利用互联网以及其他来源的大量人工生成文本进行训练，LLM能够根据提示识别预测最可能的单词、数字或符号序列。这使其能够回答问题、创作故事或解决数学问题。以前AI解决数学问题的正确率不理想，而最近，一些先进的模型已经跨越了这一障碍。比如，7月，谷歌DeepMind的一个以数学为侧重点的AI模型达到了国际数学奥林匹克竞赛（世界顶尖的高中数学竞赛）银牌标准；OpenAI于9月发布的o1模型则在之前的AI数学基准测试中获得90以上的分数。但专家指出，这些结果可能夸大AI模型数学推理能力在公众的印象。一方面，目前AI数学测试的基准大多相当于高中或本科水平，与数学届研究领域的水平相去甚远，达到这一水平的数学家通常致力于解决几个世纪以来悬而未决的问题。另一方面，这样的测试不具备公平性，因为这些AI模型利用互联网数据进行大量培训，能“看到”类似问题的解决方案，即存在数据污染。为了解决上述问题，Epoch AI向60位顶尖数学家支付报酬，请他们提出极其困难的原创问题，以建立新的数学测试基准。Epoch AI数学家Elliot Glazer说，其中有些问题人类专家也要几天时间才能解答。此外，为了防止数据污染，数学家们只在加密的服务器上讨论、编写试题，并避免使用在线文本编辑器。 Epoch AI团队选择了约150个问题，对6个顶级LLM进行了测试，包括OpenAI和DeepMind最新版本的模型。每个问题设置的回答时间为20秒至1分钟。结果，没有一个模型在测试中得分超过2分。这些模型经常提供错误的答案，而不是承认失败。 AI距离能够解决这些极具挑战性的数学问题还有很长的路要走。尽管如此，专家们认为AI模型迟早会追平新基准。对此，一些人乐观地认为，AI更多地将作为帮手而不是竞争对手存在，即使AI能够写出人类无法企及的证明过程，数学家在理解这些答案方面仍将发挥至关重要的作用。

而也有专家担心AI在数学领域会产生不好的影响。“在AI开始超越人类前，数学家必须考虑清除谁可以使用这些工具、该花多大的能量训练它们，以及我们到底希望它们做什么。”加拿大渥太华大学数学家和计算机科学家Maia Fraser说。

相关论文信息：https://doi.org/10.48550/arXiv.2411.04872

标签