מכונת תמך וקטורי (באנגלית Support Vector Machine, לרוב נכתב ונהגה כראשי-תבות SVM) היא טכניקה של למידה מונחית (supervised learning) המשמשת לניתוח נתונים לסיווג ולרגרסיה.
כנהוג בתחום זה, דוגמאות האימון מיוצגות כווקטורים במרחב ליניארי. עבור בעיות סיווג, בשלב האימון מתאימים מסווג שמפריד נכון ככל האפשר בין דוגמאות אימון חיוביות ושליליות. המסווג שנוצר ב-SVM הוא המפריד הליניארי אשר יוצר מרווח גדול ככל האפשר בינו לבין הדוגמאות הקרובות לו ביותר בשתי הקטגוריות. כאשר מוצגת נקודה חדשה, האלגוריתם יזהה האם היא ממוקמת בתוך הקו המגדיר את הקבוצה, או מחוצה לו.
SVM אינו מוגבל רק לסיווג ליניארי, ויכול לבצע גם סיווג לא ליניארי באמצעות הוספת קרנל (kernel, גרעין) שבו ממופה הקלט למרחב במימד גבוה.
מוטיבציה
סיווג מידע היא פעולה נפוצה בלמידת מכונה. בהינתן אוסף נתונים אשר צריך להפריד אותם לשתי קבוצות על סמך ניסיון קודם (דוגמאות - האם דואר אלקטרוני הוא ספאם או לא; האם מוטצייתגן מסוימת מסרטנת או לא; האם כלי רכב כבד הוא טנק או משאית) כאשר המטרה היא להחליט לאיזו משתי הקבוצות לשייך נקודה חדשה. כל נקודה באוסף הנתונים מיוצגת על ידי וקטור בגודל קבוע. בגישה של SVM מחלקים את הנקודות במרחב הווקטורי, באמצעות על-מישור (Hyperplane) כך שהמרווח, המרחק, בין אותו על-מישור המחלק את הנקודות לבין הנקודות הממוקמות הכי קרוב אליו, יהיה המרחק המקסימלי האפשרי.
באופן פורמלי יותר, בהינתן קבוצת אימון של n נקודות מהצורה כאשר:
הוא או ומייצג את הקבוצה לה שייכת דוגמה i.
הוא וקטור מאפיינים (features, פיצ'רים) המתארים את נקודה i.
ה-SVM בונה על-מישור שהוא המפריד הליניארי (מפריד את המרחב לשני חצאי מרחבים שכל אחד מהם אמור להכיל בעיקר דוגמאות מסוג אחד), וכן שני על-מישורים מקבילים לו, אחד מכל צד, במרחק זהה, אשר מתלכדים עם דוגמת אימון אחת מכל מחלקה. מטרת ה-SVM היא להגדיל את המרחק בין המפריד הליניארי ובין כל אחד מהמישורים המקבילים (מרחק המכונה שוליים), ולמעשה למצוא את המפריד בעל השוליים הרחבים ביותר. דוגמאות האימון המתלכדות עם מישורי השוליים נקראות וקטורים תומכים, ומכאן נגזר שם האלגוריתם.
את העל-מישור ניתן לייצג באמצעות הנקודות המקיימות: כאשר הוא וקטור נורמלי של העל-מישור (לאו דווקא מנורמל).
הפרדה קשיחה (Hard margin)
אם ניתן להפריד בצורה ליניארית בין הדוגמאות השייכות לכל קבוצה ניתן למצוא שני על־מישורים שיפרידו ביניהן, כך שהמרחק ביניהם יהיה מרבי. האזור התחום בין שני העל־מישורים קרוי שוליים, והעל-מישור בעל השוליים המרביים הוא העל-מישור המצוי באמצע ביניהם. את שני העל־מישורים הנ"ל ניתן לייצג באמצעות ו . גאומטרית, המרחק בין שני העל־מישורים הנ"ל הוא , כך שעל מנת למקסם את המרחק מחפשים את ה- המינימלי.
כדי למנוע מדוגמאות האימון להימצא בשוליים, מוסיפים את האילוצים הבאים לכל דוגמה :
אם הדוגמה חיובית,
אם הדוגמה שלילית.
אילוצים אלו מחייבים שכל נקודה תימצא בצד הנכון של המפריד. לחלופין, ניתן לכתוב אילוצים אלה כאילוץ יחיד
.
הפרדה רכה (Soft margin)
ניתן להרחיב את SVM לטיפול בבעיות שבהן אין הפרדה ליניארית בין שתי הקבוצות באמצעות פונקציית hinge loss:
נשים לב כי הוא ערך המטרה של הדוגמה ה i (ובמקרה שלנו, 1 או -1), ו הוא הפלט ה i. הערך של הפונקציה הוא אפס רק כאשר מתקיים האילוץ , כלומר כאשר הדוגמה נמצאת בצד "הנכון" של השוליים. עבור דוגמאות שנמצאות בצד ה"לא נכון" של השוליים, ערך הפונקציה פרופורציוני למרחק מהשוליים.
מטרת האופטימיזציה היא למזער את
כאשר הפרמטר קובע את נקודת האיזון בין הגדלת השוליים לדרישה שלא יהיו נקודות בצד ה"לא נכון" של השוליים. על ידי הוספת איבר ל hinge loss ניתן להכליל את בעיית האופטימיזציה
עבור ערך גדול של ההתנהגות תהיה דומה לזו של הפרדה קשיחה, אבל ניתן יהיה לספק את האילוצים גם אם הבעיה אינה ניתנת להפרדה ליניארית.
היסטוריה
הבסיס לאלגוריתם למידה חישובית זה הוצג על ידי ולדימיר ופניק ולרנר ב-1963,[1] ופותח ב-1964 על ידי ופניק ואלכסיי צ'רבוננקיס.[2] מאז מהווה כלי מרכזי בפתרון בעיות באמצעים סטטיסטיים. ב-1992 בוסר, גויון וופניק הציגו כיצד ניתן לבנות מסווגים לא ליניאריים באמצעות טריק הקרנל.[3]
חישוב המסווג
חישוב המסווג נעשה באמצעות מינימיזציה של הביטוי
הפונקציה שאותה ממזערים היא פונקציה קמורה של ושל , שאותה ניתן למזער למשל באמצעות מהלך גרדיאנט סטוכסטי (Stochastic Gradient Descent). ניתן להשתמש ב"תעלול הגרעין" (Kernel trick) כדי לטפל בסיטואציות שבהן על-מישור לא יתאר היטב את ההפרדה בין הדוגמאות החיוביות והשליליות. למשל במקרה שבו הדוגמאות הן במישור הממשי הדו-ממדי, כך שהדוגמאות החיוביות נמצאות בתוך מעגל היחידה והשליליות מחוצה לו.
קבוע ענישה
אלגוריתם הלמידה מנסה לספק שתי מטרות: סווג נכון של דוגמאות האימון ומיקסום של השוליים. לא אחת המטרות נמצאות בסתירה, ואז יש צורך להגדיר איזו מטרה יותר חשובה. רוב המימושים של SVM מגדירים קבוע ענישה (penalty) על סווג לא נכון (מסומן באות C). ערך C גבוה פירושו העדפת הסיווג הנכון על פני שוליים רחבים, וC נמוך מעדיף הכללה (שוליים רחבים), גם במחיר שדוגמאות האימון הספציפיות אינן מסווגות נכון.
הפרדה לא ליניארית ותעלול גרעין
בגרסתו הראשון של המודל שהוצגה ב-1963 על ידי ופניק, הגדיר מסווג ליניארי. ב-1992 בוסר, גויון, וופניק הציגו גישה המאפשרת להשתמש ב-SVM לסיווג לא ליניארי באמצעות שימוש ב"תעלול הגרעין" (Kernel Trick).[3] מהלך זה מעתיק את דוגמאות האימון מהמרחב הליניארי המקורי למרחב במימד גבוה יותר, מתוך הנחה שבמרחב החדש ימצא מפריד ליניארי טוב יותר מאשר במרחב המקורי. ההעתקה נעשית בעזרת ה"תעלול" - מחליפים את המכפלה הפנימית בה משתמשים עבור המפריד הליניארי, בפונקציית גרעין (kernel function) אשר מדמה את פיזורם מחדש של הווקטורים המקוריים במרחב עשיר יותר, ללא עלות חישובית משמעותית. עם זאת המעבר למימד גבוה עלול לגרום להגדלה של טעות ההכללה.
המפריד הליניארי במרחב הווקטורי החדש הוא מפריד לא ליניארי במרחב המקורי. את מלאכת הסיווג מבצעים אף היא בעזרת אופרטור הגרעין.