Igual que les xarxes neuronals recurrents (RNN), els transformadors estan dissenyats per processar dades d'entrada seqüencials, com el llenguatge natural, amb aplicacions a tasques com la traducció i el resum de text. Tanmateix, a diferència dels RNN, els transformadors processen tota l'entrada alhora. El mecanisme d'atenció proporciona context per a qualsevol posició de la seqüència d'entrada. Per exemple, si les dades d'entrada són una frase en llenguatge natural, el transformador les processa totes juntes. Això permet més paral·lelització que els RNN i, per tant, redueix els temps d'entrenament. Els transformadors van ser introduïts el 2017 per un equip de Google Brain i són cada cop més el model preferit per als problemes de PNL,[2] substituint els models RNN com la memòria a llarg termini (LSTM). La paral·lelització addicional de l'entrenament permet entrenar en conjunts de dades més grans. Això va conduir al desenvolupament de sistemes preentrenats com BERT (Bidirectional Encoder Representations from Transformers) i GPT (Generative Pre-Trained Transformer), que es van entrenar amb grans conjunts de dades d'idiomes, com ara el Corpus de la Viquipèdia i el Common Crawl, i que poden ser bons, ajustat a tasques específiques.[3][4]
El transformador ha tingut un gran èxit en el processament del llenguatge natural (NLP), per exemple les tasques de traducció automàtica i predicció de sèries temporals.[5] Molts models preentrenats com ara GPT-2, GPT-3, BERT, XLNet i RoBERTa demostren la capacitat dels transformadors per a realitzar una gran varietat d'aquestes tasques relacionades amb la PNL i tenen el potencial de trobar aplicacions del món real.[6][7][8]
El model de transformador s'ha implementat en plataformes estàndard d'aprenentatge profund com TensorFlow i PyTorch.
Referències
↑He, Cheng. «Transformer in CV». Transformer in CV. Towards Data Science, 31-12-2021.
↑Wolf, Thomas. «Transformers: State-of-the-Art Natural Language Processing». A: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 2020, p. 38–45. DOI10.18653/v1/2020.emnlp-demos.6.