У машинному навчанні та добуванні данихстрічкове ядро (англ.string kernel) — це ядрова функція[en], яка діє на стрічках, тобто, скінченних послідовностях символів, які не мають бути однакової довжини. Стрічкові ядра можна інтуїтивно розуміти як функції, які вимірюють подібність пар стрічок: що подібнішими є дві стрічки a та b, то вищим буде значення стрічкового ядра K(a, b).
Припустімо, що потрібно автоматично порівнювати уривки текстів та вказувати їхню відносну подібність. Для багатьох застосувань може бути достатнім знаходити деякі ключові слова, які збігаються точно. Одним із прикладів, де точної відповідності не завжди достатньо, є виявлення спаму.[3] Іншим міг би бути обчислювальний аналіз генів, у якому гомологічнігенимутували, в результаті чого спільні послідовності мають вилучені, вставлені або замінені символи.
Спонукання
Оскільки деякі добре доведені методи кластерування, класифікації та добування інформації
(наприклад, метод опорних векторів) розроблено для роботи з векторами (тобто, дані є елементами векторного простору), застосування стрічкових ядер уможливлює поширення цих методів на обробку даних послідовностей.
Стрічково-ядровий протиставляється ранішим підходам до класифікації текстів, де вектори ознак лише вказували на наявність або відсутність певного слова. Він не лише вдосконалює ці підходи, а й є прикладом цілого класу ядер, пристосованих до структур даних, як почали з'являтися на рубежі XXI сторіччя. Огляд цих методів було складено Гертнером.[4]
Тепер ми можемо відтворити визначення ядра стрічкових підпослідовностей (англ.string subsequence kernel)[1] на стрічках над абеткою. Відображення визначається покоординатно наступним чином:
є мультиіндексами, а є стрічкою довжини : підпослідовності можуть траплятися не неперервними, але прогалини штрафуються. Мультиіндекс задає положення символів, які збігаються з , в . є різницею між першим та останнім елементами , тобто: наскільки розкиданою в є підпослідовність, що збігається з . Параметр може бути встановлено в будь-яке значення між (прогалини не дозволено, оскільки лише є не , а ) та (навіть широко рознесені «трапляння» зважуються однаково із присутностями як неперервний підрядок, оскільки ).
Для декількох відповідних алгоритмів дані надходять до алгоритму лише у виразах, що включають внутрішній добуток векторів ознак, звідси й назва ядрові методи. Бажаним наслідком цього є відсутність потреби в явному обчисленні перетворення , а лише внутрішніх добутків через ядро, яке може бути набагато швидшим, особливо якщо воно наближене.[1]