谷歌开发语言模型Minerva在数学考试中可达到人类平均水准

　　近日，谷歌开发了一个名为Minerva的自然语言处理（Natural Language Processing，NLP）模型，能够回答微分方程、化学、狭义相对论等高难度学科问题。
　　据了解，现在已有的NLP模型（如OpenAI的GPT-3、DeepMind的Gopher等）可以较好地执行总结、翻译、写作等各类文本处理任务。但目前，这类神经网络模型在解决所谓的定量推理问题（如数学问题）方面的能力还有不足。
　　“定量推理是语言模型仍然远远低于人类水平表现的一个领域，”研究人员在谷歌官方博文中解释说，“通常认为，用机器学习解决定量推理问题需要模型架构和训练技术的重大进步。”
　　研究人员还提到，数学等复杂学科问题的解决需要使用自然语言和数学公式解析问题，以及生成数值计算的分步解决方法等多种技能的组合。
　　由于这些挑战，谷歌打造了Minerva这种可以解决定量推理问题的AI模型。
　　6月29日，相关论文以《用语言模型解决定量推理问题》（Solving Quantitative Reasoning Problems with Language Models）为题提交在预印本网站arXiv上。
　　据了解，Minerva建立在PaLM（5400亿参数模型，谷歌2022年4月发布）基础之上，并在一个118GB数据集（包括科学论文和含有数学表达式的网页）上进行训练。
　　研究人员还提到，他们没有删除这些数据中对数学表达式的语义意义至关重要的符号和格式。因此，Minerva学会了如何使用标准数学符号来表达它生成的答案。研究人员在博文中补充道：“为实现STEM（Science、T e c h n o l o g y、E n g i n e e r i n g、Mathematics）推理任务的最先进性能，Minerva结合了小样本提示、思维链或暂存器提示以及多数投票等提示和评估技术。”
　　比如通过思维链提示，研究人员不仅可以让Minerva回答问题，还可以尝试让它解释是如何计算答案的。在某些情况下，这种方法使神经网络能够解决过于复杂的问题。
　　另外，在解答数学问题时，该模型可以找到多种计算相同结果的方法，然后，对生成的不同解决方案进行比较，根据多数投票原则选择最有可能成为正确答案的解决方案。
　　值得一提的是，用户还可以使用谷歌推出的交互式网页试用Minerva的输出效果。
　　为了测试Minerva的准确性，研究人员让其回答跨越多个领域的问题，难度从小学水平到研究生水平，涵盖小学和高中数学竞赛、大规模多任务语言理解基准子集MMLU-STEM、麻省理工学院开放课件等中的各种问题。620亿参数的Minerva在波兰国家数学考试（每年参加人数约有27万名）中达到了57%的基线，这恰好是2021年该国的平均水平，而5400亿参数版本实现了65%的基线。
　　研究人员表示，在所有情况中，相较之下，Minerva都能获得最正确的结果。但值得注意的是，Minerva还是会犯不少错误，其中计算错误和推理错误约各占50%，这些错误大都比较容易解释。而结果正确，推理过程错误的情况被研究者称为“误报”，误报率相对较低，620亿参数的Minerva在数学上产生的误报率低于8%。
　　谷歌对这些错误样本进行了分析，以确定模型后续需要改进的地方。
　　由于Minerva并没有使用底层数学结构来回答问题，这使其无法自动验证答案，因而检测不到“误报”情况。该模型还无法利用计算器或Python解释器等外部工具。因此，它进行需要复杂数值计算的定量推理任务的能力有限。Minerva模型的性能目前与人类的表现还有不小差距。
　　总的来说，通过在大量定量推理数据上训练大模型，并采用一流的AI技术，从而让Minerva在多类定量推理任务上实现较高的提升。
　　机器学习模型已在许多科学学科中发挥重要作用，但它们通常局限于解决特定范围的任务。像Minerva这类能够进行定量推理的模型有许多潜在的应用，包括作为研究人员的辅助工具、为学生提供新的学习机会等。“我们希望解决定量推理问题的通用模型能够有助于推动科学和教育的进一步发展。Minerva已经朝这个方向迈出一步。”研究人员表示。 （麻省）