Бум штучного інтелекту (також відомий як весна штучного інтелекту[1]) належить до поточного періоду стрімкого та безпрецедентного розвитку в галузі штучного інтелекту, причому гонка породжувального ШІ є ключовим компонентом цього «буму», який всерйоз почався з заснування OpenAI у 2016—2017 роках.[2] Породжувальні системи штучного інтелекту OpenAI, такі як різні моделі GPT (починаючи від 2018 року) та DALL-E (2021 рік), зіграли значну роль у цьому розвитку.[3][4][5]
У 2022 році великі мовні моделі були вдосконалені, настільки, що їх можна було використовувати для чат-ботів; моделі перетворення тексту в зображення були на такому рівні, що їх майже неможливо було відрізнити від зображень, створених людиною;[6] а програмне забезпечення для синтезу мови було здатне ефективно відтворювати людську мову.[7]
Протягом кінця 2022 та 2023 років з'явилися десятки нових веб-сайтів і чат-ботів зі штучним інтелектом, оскільки Big Tech намагалися закріпитися на ринку що призвело до безпрецедентного зростання повсюдного поширення інструментів штучного інтелекту.[8]
Громадська реакція на бум штучного інтелекту була неоднозначною: одні вітали нові можливості, які створює ШІ, його потенціал для користі людства та витонченість, тоді як інші засуджували його за загрозу безпеці праці, «погрозливі» коментарі та надання помилкових відповідей на основі програмування.[9][10][11][12]
GPT-3 — це велика мовна модель, яка була запущена у 2020 році OpenAI і здатна генерувати високоякісний текст, схожий на людський. За текстом було важко визначити, чи був він написаний людиною, чи ні.[13] Оновлена версія під назвою GPT-3.5 використовувалася в ChatGPT, яка згодом привернула велику увагу завдяки своїм детальним і чітким відповідям на запитання з багатьох галузей знань.[14] Нова версія під назвою GPT-4 була випущена в березні 2023 року та використовувалася в пошуковій системі Microsoft Bing.[15][16] Також було випущено інші мовні моделі, наприклад PaLM від Google і LLaMA від Meta Platforms.
У січні 2023 року було випущено DeepL Write, інструмент на основі ШІ для покращення одномовних текстів.[17]
Моделі перетворення тексту в зображення
Однією з перших моделей перетворення тексту в зображення, що привернула широку увагу громадськості, була DALL-E від OpenAI, система-трансформер, анонсована в січні 2021 року[18] У квітні 2022 року було представлено наступника, здатного генерувати складніші та реалістичніші зображення, DALL-E 2[19], а в серпні 2022 року було випущено Stable Diffusion, альтернативу з відкритим кодом[20]
Наслідуючи інші моделі перетворення тексту в зображення, платформи перетворення тексту в відео на основі мовної моделі, такі як DAMO,[21] Make-A-Video,[22] Imagen Video[23] і Phenaki[24], можуть створювати відео з тексту та/або текстові чи графічні підказки.[25]
Синтез мовлення
15.ai була одною із перших загальнодоступних програм синтезу мовлення, яка дозволила людям генерувати природні емоційні голоси з високою точністю перетворення тексту в мовлення з набору вигаданих персонажів із різних медіа-джерел. Вперше вона була випущена у березні 2020 року.[26][27] ElevenLabs представили веб-сайт, на який користувачі можуть завантажувати зразки голосу, що дозволяє генерувати з них інші голоси. Компанія зазнала критики після того, як користувачі почали зловживати її програмним забезпеченням для генерування суперечливих заяв, використовуючи голос знаменитостей, державних службовців та інших відомих людей[28], а також викликала занепокоєння, що це може бути використано для створення більш переконливих діпфейків.[29] Неофіційна пісня, створена з використанням голосів музикантів Дрейка і The Weeknd за допомогою програмного забезпечення для синтезу мовлення, порушила питання про етичність та законність подібного програмного забезпечення.[30]
Див. також
ШІ зима, період скорочення фінансування та інтересу до досліджень штучного інтелекту