神经网络如何学习？

神经网络如何学习？ 2024-03-19　

　　神经网络为人工智能领域的突破提供了动力，包括大型语言模型，这些模型目前已被广泛应用于金融、人力资源、医疗保健等领域。但是，这些网络仍然是一个黑盒子，工程师和科学家都很难理解其内部工作原理。现在，由加州大学圣迭戈分校的数据和计算机科学家领导的研究小组给神经网络拍了一张相当于X光的照片，以揭示它们究竟是如何学习的。
　　研究人员发现，统计分析中使用的一个公式提供了神经网络（如ChatGPT的前身GPT-2）如何学习数据中相关模式（即特征）的精简数学描述。这个公式还解释了神经网络如何利用这些相关模式进行预测。
　　加州大学圣迭戈分校计算机科学与工程系博士生、本研究的共同第一作者丹尼尔·比格霍尔（Daniel Beaglehole）说：“我们正试图从第一原理上理解神经网络。有了我们的公式，人们就可以简单地解释网络是利用哪些特征进行预测的。”
　　研究小组在3月7日出版的《科学》杂志上发表了他们的研究成果。
　　现在，人工智能驱动的工具在日常生活中无处不在。银行用它们来审批贷款。医院用它们来分析X光和核磁共振成像等医疗数据。公司用它们来筛选求职者。但目前还很难理解神经网络做出决策的机制，以及可能影响决策的训练数据中的偏差。
　　论文通讯作者、加州大学圣地亚哥分校哈利乔格鲁数据科学研究所教授米哈伊尔·贝尔金（Mikhail Belkin）说：“如果你不了解神经网络是如何学习的，就很难确定神经网络是否能产生可靠、准确和适当的反应，鉴于机器学习和神经网络技术近年来的快速发展，这一点尤为重要。”
　　这项研究是贝尔金研究小组为开发一种解释神经网络如何工作的数学理论所做的努力的一部分。他说：“技术已经远远超过了理论，我们需要迎头赶上。”
　　研究小组还表明，他们用来理解神经网络如何学习的统计公式，即平均梯度外积（AGOP），可以用于提高不包括神经网络的其他类型机器学习架构的性能和效率。
　　贝尔金说：“如果我们理解了驱动神经网络的底层机制，就应该能够构建出更简单、更高效、更可解释的机器学习模型。”
　　贝尔金设想的机器学习系统将需要更少的计算能力，因此也就需要更少的电网电力。这些系统也不会那么复杂，因此更容易理解。
　　（人工）神经网络是一种计算工具，用于学习数据特征之间的关系（即识别图像中的特定物体或人脸）。其中一个任务实例就是确定新图像中的人是否戴眼镜。机器学习解决这个问题的方法是，为神经网络提供许多标注为“戴眼镜的人”或“不戴眼镜的人”的示例（训练）图像。神经网络会学习图像与其标签之间的关系，并提取它需要关注的数据模式或特征，从而做出判断。人工智能系统被认为是黑盒子的原因之一是，通常难以用数学方法描述系统在进行预测时实际使用的标准，包括潜在的偏差。这项新工作为系统如何学习这些特征提供了一个简单的数学解释。
　　特征是数据中的相关模式。在上面的例子中，神经网络可以学习并使用多种特征来判断照片中的人是否戴眼镜。在这项任务中，它需要关注的一个特征是脸部的上半部分。其他特征可能是眼睛或鼻子部位，眼镜经常会停在那里。网络会选择性地关注它认为相关的特征，然后放弃图像的其他部分，如脸部下部、头发等。
　　特征学习是一种识别数据中相关模式的能力，然后利用这些模式进行预测。在眼镜的例子中，网络学会了关注脸部的上半部分。在这篇新的论文中，研究人员确定了一个统计公式，用来描述神经网络是如何学习特征的。
　　研究人员继续证明，将这个公式插入不依赖神经网络的计算系统中，可以让这些系统学习得更快、更高效。
　　“如何忽略不必要的东西？人类在这方面很擅长，”贝尔金说，“机器也在做同样的事情。例如，大型语言模型正在实现这种选择性注意，而我们还不知道它们是如何做到的。我们在《科学》杂志上刊登的论文中，提出了一种机制，至少可以解释神经网络是如何‘选择性注意’的。” （逸文）