La base di dati MNIST (modified National Institute of Standards and Technology database) è una vasta base di dati di cifre scritte a mano che è comunemente impiegata come insieme di addestramento in vari sistemi per l'elaborazione delle immagini[1][2]. La base di dati è anche impiegata come insieme di addestramento e di test nel campo dell'apprendimento automatico[3][4]. La base di dati è stata creata rimescolando le immagini presenti nell'insieme di dati del NIST.
La base di dati MNIST contiene 60 000 immagini di addestramento e 10 000 immagini di test[5]; metà dell'insieme di addestramento e metà dell'insieme di test sono state prelevate dall'insieme di addestramento del NIST, mentre le altre metà sono state ottenute dall'insieme di test del NIST stesso[6]. Diversi lavori riportati su pubblicazioni scientifiche si sono focalizzati sull'obiettivo di ottenere un basso tasso di errore; in una pubblicazione, che documenta un lavoro basato sull'utilizzo di un sistema gerarchico di reti neurali convoluzionali, viene riportato un tasso di errore dello 0,23 %[7]. Gli autori dell'insieme di dati MNIST mantengono una lista di alcuni metodi che sono stati impiegati su di esso[8]: essi hanno utilizzato, nella loro pubblicazione originaria, una SVM, ottenendo un tasso di errore dello 0,8 %[9].
Le immagini presenti nella base di dati sono la combinazione di due basi di dati nel NIST: lo Special Database 1 e lo Special Database 3, che sono costituiti rispettivamente da cifre scritte a mano da studenti delle scuole superiori e da impiegati dell'ufficio censimento[8].