Un NTM té un controlador de xarxa neuronal acoblat a recursos de memòria externs, amb els quals interactua mitjançant mecanismes d'atenció. Les interaccions de memòria són diferenciables d'extrem a extrem, cosa que permet optimitzar-les mitjançant el descens de gradients.[2] Un NTM amb un controlador de xarxa de memòria a llarg termini (LSTM) pot inferir algorismes simples com ara la còpia, l'ordenació i la recuperació associativa només a partir d'exemples.[3]
Els autors del document original de NTM no van publicar el seu codi font.[4] La primera implementació estable de codi obert es va publicar el 2018 a la 27a Conferència Internacional sobre Xarxes Neuronals Artificials, rebent el premi al millor article.[5][6] Existeixen altres implementacions de codi obert de NTM, però a partir del 2018 no són prou estables per a l'ús de producció.[7][8][9][10][11][12][13] Els desenvolupadors informen que els gradients de la seva implementació de vegades es converteixen en NaN durant l'entrenament per motius desconeguts i fan que l'entrenament falli; [11][12][10] informen de convergència lenta; [8][7] o no informen de la velocitat d'aprenentatge de la seva implementació.[13][9]