Персі́вер (англ.Perceiver, укр.Сприймач) — це трансформер, пристосований для обробки нетекстових даних, таких як зображення, звуки та відео, та просторових даних. Трансформери лежать в основі інших відомих систем, таких як BERT і GPT-3, які передували Персіверові.[1] Він використовує механізм асиметричної уваги, щоби переганяти дані входу до латентного вузького подання, що дає йому можливість вчитися з великої кількості гетерогенних даних. На задачах класифікації Персівер наздоганяє або перевершує спеціалізовані моделі.[2]
Історія
Персівер було представлено у червні 2021 року компанією DeepMind.[2] У серпні 2021 року слідом за ним вийшов Персівер ВВ (англ.Perceiver IO).[3]
Конструкція
Персівер сконструйовано без специфічних для певних модальностей елементів. Наприклад, він не має спеціалізованих елементів для обробки зображень, тексту чи звуку. Понад те, він може обробляти декілька корельованих вхідних потоків різної природи. Він використовує невеликий набір латентних вузлів, що утворює вузьке місце для уваги, через яке мусять проходити дані входу. Однією з переваг є усунення проблеми квадратичного масштабування, виявленої в ранніх трансформерах. У попередніх працях використовували спеціальне виділяння ознак для кожної з модальностей.[2]
Він пов'язує ознаки положення, та ознаки, специфічні для модальностей, з кожним елементом входу (наприклад, з кожним пікселем або відліком звуку). Цих ознак можливо навчатися, або конструювати їх за допомогою точновідтворювальних ознак Фур'є.[2]
Щоби створювати шари лінійної складності, та відв'язати глибину мережі від розміру входу, Персівер використовує перехресну увагу. Це відв'язування уможливлює глибші архітектури.[2]
Складові
Модуль перехресної уваги відображує (більший) масив байтів (наприклад, масив пікселів), та (менший) латентний масив, до іншого латентного масиву, знижуючи розмірність. Трансформерова вежа відображує один латентний масив до іншого латентного масиву, який використовується для повторного запиту до входу. Ці дві складові йдуть почергово. Обидві складові використовують увагу «запит-ключ-значення» (ЗКЗ, англ.query-key-value, QKV). Увага ЗКЗ застосовує мережі запиту, ключа та значень, що зазвичай є багатошаровими перцептронами, до кожного з елементів масиву входу, утворюючи три масиви, які зберігають розмірність номерів елементів (або довжину послідовності) своїх входів.
Персівер ВВ
Персівер ВВ (англ.Perceiver IO) здатен гнучко робити запити до латентного простору моделі для отримування результатів довільного розміру та семантики. Він досягає результатів у задачах зі структурованими просторами виходу, такими як розуміння природної мови та зображень, StarCraft II, та багатозадачність. Персівер ВВ відповідає базовому рівневі BERT на основі трансформерів за мовним еталоном GLUE без необхідності видобування позначок входу, та досягає передової продуктивності в оцінюванні оптичного потоку Sintel.[3]
Вихідні дані виробляються через увагу до латентного масиву із застосуванням специфічного запиту виходу, пов'язаного з цим конкретним виходом. Наприклад, щоби передбачити оптичний потік на одному пікселі, запит активуватиме увагу, застосовуючи координати xy пікселя, плюс вкладення задачі оптичного потоку, виробляючи один вектор потоку. Це є різновидом кодувально/декодувальної архітектури, яку використовують в інших конструкціях.