לא קיימת רשימה אוניברסלית מוסכמת של מילות עצירה המשמשת את כל כלי עיבוד השפה הטבעית, וכן לא קיימים כללים מוסכמים לזיהוי של מילים כאלו. ההגדרה של מילה כמילת עצירה יכולה להשתנות בהתאם לתחום שאליו שייך הטקסט ובהתאם למטרת העיבוד. גודל של רשימה כזו יכול לנוע בין מספר בודד של מילים, לבין כמה מאות מילים.[3]
היסטוריה
קונספט דומה שימש ביצירת קונקורדנציות של התנ"ך. הקונקורדנציה העברית "יאיר נתיב" של יצחק נתן בן קלונימוס (אנ') כללה רשימת של מילות יחס ושל צירופים שאינם מוסיפים מידע, הדומים למילות עצירה מודרניות. מכיוון שהמילים הללו נפוצות מאוד, הרשימה לא כללה מראי מקום.[4]
המונח מיוחס להנס פיטר לוהן, אחד מחלוצי אחזור המידע. לוהן הציג את הקונספט בהרצאתו על מיון אוטומטי של מילות מפתח משנת 1959, אך לא השתמש במונח "stop word",[5] המונח החל להופיע בספרות זמן קצר לאחר מכן.[6]
בשנת 1979 הציע ואן רייסברגן (אנ') את הרשימה הסטנדרטית הראשונה שלא התבססה רק על תדירות של הופעת מילים. הרשימה שהציע כללה 250 מילים באנגלית.[7] בשנות ה-80 המציא מרטין פורטר (אנ') את תוכנת ה-Stemming שהתבססה על הרשימה שהציע ואן רייסברגן. הרשימה הזו משמשת כברירת מחדל במגוון יישומי תוכנה.[8]
בשנת 1990 הציע כריסטופר פוקס רשימה של 421 מילים, המבוססת על מידע אמפירי ועל ניתוח שכיחות מילים בקורפוס בראון (אנ').[9]
דוגמאות
בעברית, מילות עצירה עשויות לכלול מילות קישור ומילות יחס כמו "את", "של", "לעומת", "גם", "אחרי", "כל" וכדומה. גם כינויי גוף כמו "אני" או "הוא" בדרך כלל נכללים ברשימה כזו.[10]
מילות קישור כמו for, nor, but, or, yet, so, both, just
מילות יחס כמו in, under, towards, before
באחזור מידע
בטרמינולוגיה של קידום אתרים במנועי חיפוש, מילות העצירה הן מילים נפוצות שמנועי חיפוש רבים נוהגים להשמיט בתהליך עיבוד הנתונים במהלך סריקה או אינדוקס, על מנת לחסוך במקום ובזמן.
מנועי חיפוש מסוימים משמיטים את המילים הללו משאילתת החיפוש. במקרים כאלו יכולה להיווצר בעיה בחיפוש ביטויים שכוללים מילות עצירה כמו "To be or not to be", ובפרט בשמות של להקות כמו "The Who", "The The" או "Take That". מנועי חיפוש אחרים מסירים גם מילים שנפוצות בחיפושים, כמו "רוצה", כדי לשפר את הביצועים.[12]
יצירת רשימה של מילות עצירה בעברית היא משימה פחות טריוויאלית מאשר בשפות אחרות, בגלל העושר המורפולוגי של השפה. פעמים רבות מצטרפות למילים מוספיות אשר משנות קלות את משמעות המילה. בניגוד לשפה האנגלית, שבה מילות עצירה הן ברוב המקרים מילים שלמות כמו The או And, בעברית יידוע מצטרף למילה המיודעת - בדרך כלל בצורה ה"א הידיעה, אך לעיתים באמצעות כינויי שייכות או באמצעות ניקוד מיודע של אותיות השימוש בכ"ל.[14]ו' החיבור גם היא מצטרפת כתחילית למילה.
ישנן מילים שבהיעדר ניקוד ניתן לקרוא במספר צורות. למשל, המילה "עם" - כאשר מדובר במילה "עִם", היא תהיה מושמטת כמילת עצירה, אך כאשר מדובר ב"עַם", היא לא תהיה מוגדרת כמילת עצירה במרבית הטקסטים.[15] כאשר היעדר הניקוד נוסף על העושר המורפולוגי, עשויים להיווצר מקרים בעלי דו-משמעות מבלבלת, שניתן לפתור רק באמצעות ניתוח מקדים של המשפט. מקרה לדוגמה הוא המילה "בצל", שיכולה להיות מנוקדת "בָּצָל" ולהתייחס לירק, או להיגזר מאות השימוש ב' בתוספת המילה "צל", וליצור את המילה המנוקדת "בְּצֵל". את האחרונה ניתן גם ליידע, ובכך ליצור משמעות נוספת - המילה "בַּצֵל", שנגזרת מהאות ב' בתוספת ה"א הידיעה שמתחברות כמוספיות למילה "צל". במקרה הזה, ניתוח מקדים של המשפט היה יכול לזהות את הצורך בהפרדת המילה ל-"ב + צל" למשל, ולהשמיט את התחילית ב' בתהליך השמטת מילות העצירה.