O banco de dados MNIST (Instituto Nacional de Padrões e Tecnologia Modificado[1]) é um grande banco de dados de dígitos manuscritos, comumente usado para treinar vários sistemas de processamento de imagens.[2][3] O banco de dados também é amplamente utilizado para treinamento e teste no campo do aprendizado de máquina.[4][5] Ele foi criado por meio da "remixagem" das amostras dos conjuntos de dados originais do NIST.[6] Os criadores acharam que, como o conjunto de dados de treinamento do NIST foi retirado de funcionários do Departamento Estadunidense de Senso, enquanto o conjunto de dados de teste foi retirado de estudantes estadunidenses do ensino médio, ele não era adequado para experimentos de aprendizado de máquina.[7] Além disso, as imagens em preto e branco do NIST foram normalizadas para caber em uma caixa delimitadora de 28x28 píxeis e antisserrilhadas, o que introduziu níveis de escala de cinza.[7]
O banco de dados MNIST contém 60.000 imagens de treinamento e 10.000 imagens de teste.[8] Metade do conjunto de treinamento e metade do conjunto de teste foram retirados do conjunto de dados de treinamento do NIST, enquanto a outra metade do conjunto de treinamento e a outra metade do conjunto de teste foram retirados do conjunto de dados de teste do NIST.[9] Os criadores originais do banco de dados mantêm uma lista de alguns dos métodos testados nele.[7] Em seu artigo original, eles usam uma máquina de vetor de suporte para obter uma taxa de erro de 0,8%.[10]
O MNIST estendido (EMNIST) é um conjunto de dados mais recente desenvolvido e lançado pelo NIST para ser o sucessor (final) do MNIST.[11][12] O MNIST incluía imagens apenas de dígitos manuscritos. O EMNIST inclui todas as imagens do NIST Special Database 19, que é um grande banco de dados de letras maiúsculas e minúsculas manuscritas, bem como dígitos.[13][14] As imagens no EMNIST foram convertidas no mesmo formato de 28x28 píxeis, pelo mesmo processo, que as imagens do MNIST. Dessa forma, as ferramentas que funcionam com o conjunto de dados MNIST mais antigo e menor funcionarão provavelmente sem modificações com o EMNIST.
História
O conjunto de imagens no banco de dados MNIST foi criado em 1994[15] como uma combinação de dois bancos de dados do NIST: Banco de dados especial 1 e banco de dados especial 3, que consistem em dígitos escritos por estudantes do ensino médio e funcionários do Departamento do Censo dos Estados Unidos, respectivamente.[7]
O conjunto de dados original era um conjunto de imagens binárias de 128x128, processadas em imagens em escala de cinza de 28x28. Originalmente, havia 60 mil amostras no conjunto de treinamento e no conjunto de teste, mas 50 mil do conjunto de teste foram descartadas. Consulte Cold Case: The Lost MNIST Digits[16] para um histórico detalhado e uma reconstrução do conjunto de teste descartado.
Desempenho
Alguns pesquisadores alcançaram um "desempenho quase humano" no banco de dados MNIST, usando um comitê de redes neurais. No mesmo artigo, os autores alcançaram o dobro do desempenho de humanos em outras tarefas de reconhecimento.[17] A taxa de erro mais alta listada[7] no site original do banco de dados é de 12%, obtida usando um classificador linear simples sem pré-processamento.[10]
Em 2004, pesquisadores obtiveram uma taxa de erro de 0,42% no banco de dados usando um novo classificador chamado LIRA, um classificador neural com três camadas de neurônios, baseado nos princípios do perceptron de Rosenblatt.[18]
Alguns pesquisadores testaram sistemas de inteligência artificial usando o banco de dados submetido a distorções aleatórias. Nesses casos, os sistemas geralmente são redes neurais e as distorções usadas tendem a ser distorções afins ou distorções elásticas.[7] Às vezes, esses sistemas podem ser muito bem-sucedidos. Um desses sistemas atingiu uma taxa de erro no banco de dados de 0,39%.[19]
Em 2011, uma taxa de erro de 0,27%, superando o melhor resultado anterior, foi relatada por pesquisadores que usaram um sistema semelhante de redes neurais.[20] Em 2013, uma abordagem baseada na regularização de redes neurais usando DropConnect atingiu uma taxa de erro de 0,21%.[21] Em 2016, o melhor desempenho de uma única rede neural convolucional foi de 0,25% de taxa de erro.[22] Em agosto de 2018, o melhor desempenho de uma única rede neural convolucional treinada nos dados de treinamento do MNIST sem aumento de dados era de 0,25% de taxa de erro.[22][23] Além disso, o Parallel Computing Center (Khmelnytskyi, Ucrânia) obteve um conjunto de apenas 5 redes neurais convolucionais com desempenho no MNIST de 0,21% de taxa de erro.[24][25] Algumas imagens no conjunto de dados de teste são pouco legíveis e podem impedir que se atinjam taxas de erro de teste de 0%.[26] Em 2018, pesquisadores do Departamento de Engenharia de Sistemas e Informação da Universidade da Virgínia anunciaram um erro de 0,18% com três tipos de redes neurais empilhadas simultaneamente (redes neurais totalmente conectadas, recorrentes e de convolução).[27]
Classificadores
Esta é uma tabela de alguns dos métodos de aprendizado de máquina usados no conjunto de dados e suas taxas de erro, por tipo de classificador:
↑ abcdefLeCun, Yann; Cortez, Corinna; Burges, Christopher C.J. «The MNIST Handwritten Digit Database». Yann LeCun's Website yann.lecun.com (em inglês). Consultado em 30 de abril de 2020
↑Kussul, Ernst; Baidyk, Tatiana (2004). «Improved method of handwritten digit recognition tested on MNIST database». Image and Vision Computing (em inglês). 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008
↑Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). «EMNIST: an extension of MNIST to handwritten letters.» (em inglês). arXiv:1702.05373 [cs.CV]
↑Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). «EMNIST: an extension of MNIST to handwritten letters.» (em inglês). arXiv:1702.05373v1 [cs.CV]
↑Wan, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularization of Neural Network using DropConnect. International Conference on Machine Learning(ICML) (em inglês)
↑ abRomanuke, Vadim (2016). «Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate». Research Bulletin of NTUU "Kyiv Polytechnic Institute" (em inglês). 6 (6): 29–34. doi:10.20535/1810-0546.2016.6.84115
↑ abKowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. (3 de maio de 2018). «RMDL: Random Multimodel Deep Learning for Classification». Proceedings of the 2nd International Conference on Information System and Data Mining (em inglês). [S.l.: s.n.] pp. 19–28. ISBN9781450363549. arXiv:1805.01890. doi:10.1145/3206098.3206111
↑Lindblad, Joakim; Nataša Sladoje (janeiro de 2014). «Linear time distances between fuzzy sets with applications to pattern matching and classification». IEEE Transactions on Image Processing (em inglês). 23 (1): 126–136. Bibcode:2014ITIP...23..126L. PMID24158476. doi:10.1109/TIP.2013.2286904
↑Keysers, Daniel; Thomas Deselaers; Christian Gollan; Hermann Ney (agosto de 2007). «Deformation models for image recognition». IEEE Transactions on Pattern Analysis and Machine Intelligence (em inglês). 29 (8): 1422–1435. CiteSeerX10.1.1.106.3963. PMID17568145. doi:10.1109/TPAMI.2007.1153
↑An, Sanghyeon; Lee, Minjun; Park, Sanglee; Yang, Heerin; So, Jungmin (4 de outubro de 2020). «An Ensemble of Simple Convolutional Neural Network Models for MNIST Digit Recognition». arXiv:2008.10400 [cs.CV]