PaLM (англ. Pathways Language Model) — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI[1]. Исследователи также создали версии модели PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба[2].
PaLM способен выполнять широкий спектр задач, включая логические рассуждения, арифметические рассуждения, объяснение шуток, генерацию кода и перевод текстов[2][3][4][5]. В сочетании с подсказками по цепочке рассуждений PaLM достигла значительно более высокой производительности при работе с наборами данных, требующими логических выводов в несколько этапов, таких как текстовые задачи и логические вопросы[1][2].
Впервые об этой модели было объявлено в апреле 2022 года, и она оставалась закрытой до марта 2023 года, когда Google запустил API для работы с PaLM и другими технологиями[6]. Сообщалось, что сначала API будет доступен для ограниченного числа разработчиков, которые присоединятся к списку ожидания, прежде чем он будет открыт для широкой публики[7].
Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM, которая тонко настроена на медицинские данные и превосходит предыдущие модели в тестах где нужно отвечать на медицинские вопросы[8][9]. Med-PaLM была первой моделью, которая получила проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы, она также предоставляет аргументы и может оценивать свои собственные ответы[10].
Google также расширил PaLM с помощью ViT[англ.], чтобы создать PaLM-E, современную языковую модель со зрением, которую можно использовать в робототехнике[11][12]. Модель может соревновательно выполнять задачи по робототехнике без необходимости переобучения или тонкой настройки[13].
Обучение
PaLM предварительно обучена на высококачественном корпусе из 780 миллиардов токенов, которые включают в себя различные задачи на естественном языке и варианты использования. Этот набор данных включает отфильтрованные веб-страницы, книги, статьи в Википедии, новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub, и разговоры в социальных сетях[1][2]. Она основана на наборе данных, используемом для обучения модели Google LaMDA[2]. Часть набора данных, посвященная разговорам в социальных сетях, составляет 50 % корпуса, что помогает модели в её диалоговых возможностях[2].
PaLM 540B была обучена на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенными к 768 хостам, подключённым с использованием комбинации модели и параллелизма данных, что является крупнейшей конфигурацией TPU, описанной на сегодняшний день[2][14]. Это позволило провести эффективное обучение в масштабе с использованием 6 144 чипов, что стало рекордом максимальной эффективности обучения, достигнутой для LLM в этом масштабе с использованием аппаратных FLOP на 57,8 %[3].
Примечания
|
---|
|
Реклама | |
---|
Коммуникации | |
---|
ПО | |
---|
Платформы | |
---|
Инструменты разработки | |
---|
Публикация | |
---|
Поиск (PageRank) | |
---|
Тематические проекты | |
---|
Закрытые проекты | |
---|
См. также | |
---|