数据增强(英語:Data augmentation)是一种统计技术,允许从不完整数据中进行最大似然估计[1][2]。数据增强在贝叶斯推断中有重要应用[3],并且在机器学习中广泛使用,通过训练模型使用已有数据的几个略微修改的副本在训练机器学习模型时减少過適[4]。
在20世纪90年代中期,当卷积神经网络变得更加复杂时,数据量不足成为一个问题,特别是考虑到需要留出一部分数据用于后续测试。为了解决这个问题,有研究提议使用仿射变换扰动现有数据,以创建带有相同标签的新示例[5]。随后,2003年引入了所谓的弹性失真(英语:Elastic deformation)[6],到了2010年代,这些技术被广泛采用[7]。数据增强可以提升卷积神经网络的性能,并且作为对抗卷积神经网络分析攻击的一种对策[8]。
数据增强在图像分类中已成为一种基础工具,用来丰富训练数据集的多样性,以提升模型的泛化能力和性能。几何变换、颜色空间调整和噪声注入等是数据增强在图像分类中的常用工具[9]。