تجزئة النص

المساعدة في نموذج اللغة للاختيار بين العديد من حلول التجزئة والتعرف.

تجزئة النص هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة من خلال أجهزة الحاسب، والتي تعتبر من مواضيع مجال معالجة اللغات الطبيعية. هذه العملية ليست سهلة لأنه في حين وجود حدود صريحة للكلمات في بعض اللغات المكتوبة، مثل المسافات بين الكلمات في الإنجليزية المكتوبة وأشكال الحروف المختلفة بحسب موقعها من الكلمة (بداية أو وسط أو نهاية الكلمة) في العربية، فإن هذه الحدود تكون أحيانًا غامضة وغير موجودة في بعض اللغات المكتوبة.

مشاكل التجزئة

تجزئة الكلمات

تجزئة الكلمات هي عملية تقسيم نص مكتوب بلغة ما إلى الكلمات المكونه له.

في الإنجليزية والعديد من اللغات الأخرى التي تستخدم الأبجدية اللاتينية، تعتبر المسافة فاصل جيد بين الكلمات (محدد للكلمة)، على الرغم من أن استخدام هذه الطريقة محدود بسبب وجود لغات تحتوي على تراكيب لغوية. يتم كتابة العديد من الأسماء المركبة الإنجليزية بطرق مختلفة (على سبيل المثال، ice<span typeof="mw:Entity" id="mwHw"> </span>box = ice-box = icebox ؛ pig sty = pig-sty = pigsty) كما أن هناك اختلاف في ما إذا كان المتحدثون يفكرون بها على أنها مقاطع اسمية أو أسماء مفردة. في المقابل، تُظهر الأسماء المركبة الألمانية تباينًا إملائيًا أقل.

ومع ذلك، فإن المسافة غير موجودة في بعض النصوص المكتوبة، وبدونها تتزايد صعوبة تجزئة الكلمات. من اللغات التي تكون فيها تجزئة الكلمات عملية غير بسيطة: الصينية واليابانية، حيث يتم تحديد الجمل وليس الكلمات، والتايلاندية واللاوية، حيث يتم تحديد العبارات والجمل وليس الكلمات، والفيتنامية حيث يتم تحديد المقاطع وليس الكلمات.

مع ذلك، في بعض أنظمة الكتابة مثل الحروف جعزية التي تستخدم في الأمهرية والتغرينية، تكون حدود الكلمات واضحة (على الأقل تاريخيا) باستخدام أحرف غير المسافة.

قام Unicode Consortium بنشر ملحق قياسي بشأن تجزئة النص، [1] لاستكشاف قضايا التجزئة في النصوص متعددة النصوص.

تقسيم الكلمات هو عملية تحليل النص المتسلسل (أي النص الذي لا يحتوي على مسافات أو فواصل أخرى بين الكلمات) لاستنتاج مكان وجود فواصل الكلمات.

تجزئة المقصد

تجزئة المقصد هي عملية تقسيم الكلمات المكتوبة إلى مقاطع رئيسية (مجموعتان أو أكثر من الكلمات).

تجزئة الجملة

تجزئة الجملة هي عملية تقسيم النص إلى الجمل المكونة له. في الإنجليزية وبعض اللغات الأخرى، يعد استخدام علامات الترقيم، ولا سيما النقطة، تقديرًا تقريبيًا معقولاً لنهاية الجملة. ومع ذلك، حتى في الإنجليزية، فإن هذه المشكلة ليست بالهينة بسبب استخدام النقطة للاختصارات وليس فقط لإنهاء الجملة. على سبيل المثال، «د.» ليس جملة كاملة في «ذهب د. سميث إلى المحلات التجارية في شارع جونز». عند معالجة النص، يمكن أن تساعد جداول الاختصارات التي تحتوي على نقاط في منع الخطأ في تحديد حدود الجملة.

كما هو الحال مع تجزئة الكلمات، لا تحتوي جميع اللغات المكتوبة على أحرف ترقيم يمكن إستخدامها لتحديد حدود الجملة.

تجزئة الموضوع

يشمل تحليل الموضوع مهمتين رئيسيتين: تحديد الموضوع وتجزئة النص. في حين أن الأول هو تصنيف بسيط لنص معين، فإن الأخير يشير إلى أن المستند قد يحتوي على عدة مواضيع، وقد تكون مهمة تجزئة النص هي اكتشاف هذه الموضوعات تلقائيًا وتجزئة النص وفقًا لذلك. وقد تكون حدود الموضوع واضحة من عناوين الأقسام والفقرات، ولكن في حالات أخرى، يحتاج المرء إلى استخدام تقنيات مماثلة لتلك المستخدمة في تصنيف الوثائق.

قد تكون تجزئة النص إلى مواضيع أو خطابات مفيدًا في بعض مهام المعالجة الطبيعية للغات: يمكن أن يحسن بشكل كبير من عملية استرجاع المعلومات أو التعرف على الكلام (عن طريق فهرسة/التعرف على المستندات بشكل أكثر دقة أو عن طريق إعطاء جزئية من مستند كنتيجة لإستعلام ما). وهي ضرورية أيضًا في أنظمة الكشف عن الموضوعات وتتبعها وفي تلخيص النصوص.

تم تجربة العديد من الأساليب المختلفة [2] مثل HMM ، السلاسل المعجمية، تشابه المقاطع عن طريق التواجد المشترك للكلمات، التجميع، نمذجة المواضيع، إلخ.

تعتبر العملية غامضة حيث غالبًا ما يختلف الأشخاص الذين يقومون بتقييم أنظمة تجزئة النص في حدود الموضوع. وبالتالي فإن تقييم تجزئة النص يمثل مشكلة صعبة أخرى.

مشاكل التجزئة الأخرى

قد تكون هناك حاجة إلى تجزئة النص إلى مقاطع أخرى إلى جانب القطاعات المذكورة، بما في ذلك المقاطع الصرفية (مهمة وعادة ما تسمى التحليل الصرفي) أو الفقرات.

نُهج التقسيم الآلي

التجزئة الآلية هي مشكلة في تخصص معالجة اللغات الطبيعية حيث يقوم الحاسب بتنفيذ عملية تجزئة النص.

عندما لا تتوفر علامات الترقيم والقرائن المماثلة بشكل ثابت، غالبًا ما تتطلب مهمة التجزئة استخدام تقنيات متقدمة، مثل اتخاذ القرارات الإحصائية، القواميس الكبيرة، والقيود النحوية والدلالية. عادة ما تعمل أنظمة معالجة اللغات الطبيعية الفعالة وأدوات تجزئة النص على نص من مصادر ومجالات محددة. على سبيل المثال، تعد معالجة نصوص السجلات الطبية مشكلة مختلفة تمامًا عن معالجة المقالات الإخبارية أو الإعلانات العقارية.

تبدأ عملية تطوير أدوات تجزئة النص بتجميع مجموعة كبيرة من النصوص في المجال المرغوب. ثم يتم اتباع إحدى الطريقتين:

  • التحليل اليدوي للنصوص وكتابة مجموعة من القواعد المخصصة
  • وضع تعليقات توضيحية توضح الحدود على عينة من النصوص واستخدم التعلم الآلي

تستخدم بعض أنظمة تجزئة النص بعض الترميزات مثل HTML ومعلومات عن تنسيقات المستندات مثل PDF كأدلة إضافية لتمييز حدود الجملة والفقرة.

انظر أيضًا

المراجع

  1. ^ UAX #29 نسخة محفوظة 16 ديسمبر 2020 على موقع واي باك مشين.
  2. ^ Jeffrey C. Reynar (1998). "Topic Segmentation: Algorithms and Applications". جامعة بنسيلفانيا. IRCS-98-21. مؤرشف من الأصل (PDF) في 2016-03-03. اطلع عليه بتاريخ 2007-11-08.

Read other articles:

Il giardino dei Finzi-Contini Dominique Sanda en un fotograma de la película.Título El jardín de los Finzi-ContiniFicha técnicaDirección Vittorio de SicaProducción Arthur Brauner Arthur Cohn Gianni Hecht LucariGuion Vittorio Bonicelli Ugo PirroBasada en Novela homónima de Giorgio BassaniMúsica Bill Conti Manuel de SicaFotografía Ennio GuarnieriMontaje Adriana NovelliVestuario Giancarlo Bartolini SalimbeniProtagonistas Lino Capolicchio[1]​ Dominique Sanda Helmut Berger Fabio Tes...

 

Опис файлу Опис Емблема ФК Сталь Ряшів. логотип футбольного клубу «Сталь» Ряшів Джерело http://www.90minut.pl/skarb.php?id_klub=371 Час створення невідомо Автор зображення автор невідомий Ліцензія див. нижче Обґрунтування добропорядного використання для статті «Сталь (футбольний кл...

 

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018) المركز الاستكشافي للعلوم بمدينة دسوق، يقع بمدينة دسوق بشمال مصر، تم افتتاحه في يناير 2003 بمبنى مكوّن من خ...

Bubur talbinah Talbinah adalah makanan yang terbuat dari tepung barley, biasanya dibuat dengan menambahkan susu dan madu atau juga bubuk barley kering. Dinamakan talbinah, konon dikarenakan ia memiliki kemiripan dengan susu (al-laban), yaitu karena sifatnya yang lembut dan putih. Talbinah sebagai obat Nabawi Dalam Islam, terdapat riwayat dari Nabi Muhammad Shallallahu'alaihi Wasallam bahwa talbinah dapat membantu meringankan kondisi psikologis orang yang sedang bersedih. Sebagaimana dalam had...

 

Paifang kaca di pintu masuk Guozijian Beijing. Istana Biyong di dalam Guozijian. Ruang baca Kaisar dengan singgasana kekaisaran. Sebuah kamar yang dilengkapi dengan instrumen tradisional Tiongkok. Guozijian Beijing (Hanzi tradisional: 北京國子監; Hanzi sederhana: 北京国子监; Pinyin: Běijīng Guózǐjiān; Wade–Giles: Pei-ching Kuo-tzu-chien), terletak di Jalan Guozijian, Beijing, Tiongkok, adalah perguruan tinggi nasional Tiongkok selama Dinasti Yuan, Dinasti Ming...

 

Overview of costal erosion in Louisiana Land loss in coastal Louisiana between 1932 and 2011 Coastal erosion in Louisiana is the process of steady depletion of wetlands along the state's coastline in marshes, swamps, and barrier islands, particularly affecting the alluvial basin surrounding the mouth of the Mississippi River. In the last century, Southeast Louisiana has lost a large portion of its wetlands and is expected to lose more in the coming years, with some estimates claiming wetland ...

18th century Scottish ship involved in human trafficking Donaghadee in modern-day Northern Ireland, where the William landed with her human cargo in 1740 The Ship of the People (Scottish Gaelic: Soitheach nan daoine) is a moniker given to the Irish ship William, which played a key role in a Scottish human trafficking scandal in 1740, when over a hundred men, women and children were kidnapped from the Hebrides with the intention of selling them as indentured servants[1][2][...

 

Questa voce sull'argomento tennis è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. ATP Challenger Series 2002stagione di tornei Sport Tennis Serie ATP Challenger Series Durata 31 dicembre 2001 – 8 dicembre 2002 Edizione 25ª Tornei 122 Risultati Maggior n. di titoli David Ferrer (4, singolare) Olivier Mutis Dick Norman Raemon Sluiter Federico Browne (6, totali) Giorgio Galimberti Stephen Huss Dick Norm...

 

Roman–Berber town in the province of Africa Proconsularis, located in present-day Tunisia Africa Proconsularis (125 AD) Pocofeltus was a Roman–Berber civitas (town)[1] in the province of Africa Proconsularis,[2] located in present-day Tunisia. It was also the seat of an ancient Roman Catholic diocese.[3][4] The only known ancient bishop of this diocese was the Catholic bishop Surgentius,[5][6] who attended the Council of Carthage (314). ...

Corporate logo from 1976 to 1992 Norsk Data (ND) was a Norwegian manufacturer of minicomputers which operated between 1967 and 1992. The company was established as A/S Nordata – Norsk Data-Elektronikk on 7 July 1967 and took into use the Norsk Data brand in 1975. The company was founded by Lars Monrad-Krohn, Rolf Skår and Per Bjørge, three computer engineers working at the Norwegian Defence Research Establishment which had just built the minicomputer SAM 2. ND's first contract was the del...

 

Multiple star in the constellation Taurus γ Tauri Location of γ Tauri (circled) Observation dataEpoch J2000      Equinox J2000 Constellation Taurus Right ascension 04h 19m 47.6037s[1] Declination +15° 37′ 39.512″[1] Apparent magnitude (V) 3.654[2] Characteristics Spectral type G8III[3] U−B color index +0.84[4] B−V color index +0.99[4] AstrometryRadial velocity (Rv)38.7...

 

1929 film The Lone Wolf's DaughterDirected byAlbert S. RogellWritten bySig HerzigBased onCharacters created by Louis Joseph VanceProduced byHarry CohnJack CohnStarringBert LytellCinematographyJames Van TreesEdited byWilliam HamiltonDistributed byColumbia PicturesRelease date February 18, 1929 (1929-02-18) Running time72 minutes; 7 reelsCountryUnited StatesLanguageEnglish Ad from The Film Daily, 1929 The Lone Wolf's Daughter is a lost[1][2] 1929 feature silent fi...

Argentine footballer (born 1997) You can help expand this article with text translated from the corresponding article in Spanish. (July 2023) Click [show] for important translation instructions. View a machine-translated version of the Spanish article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-transla...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: My Mistake Was to Love You – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this template message) 1974 single by Diana Ross & Marvin GayeMy Mistake (Was to Love You)Single by Diana Ross & Marvin Gayefrom ...

 

1988 film by Stuart Margolin This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Paramedics film – news · newspapers · books · scholar · JSTOR (March 2019) (Learn how and when to remove this template message) ParamedicsDirected byStuart MargolinWritten byBarry BardoRichard KriegsmanProduced byLeslie GreifSt...

Rick Ross discographyRick Ross performing in March 2011Studio albums11Compilation albums1Music videos91EPs1Singles145Soundtrack albums1Mixtapes7 The discography of Rick Ross, an American rapper, consists of 11 studio albums, one compilation album, 145 singles (including 100 as a featured artist), one soundtrack, and 40 music videos. Ross's debut studio album, Port of Miami (2006), features two singles with Hustlin' and Push It. Ross's second studio album, Trilla (2008), produced hit singles s...

 

Category 1 Atlantic hurricane in 1994 For other storms of the same name, see List of storms named Gordon. Hurricane Gordon Gordon near peak intensity off the coast of North Carolina on November 18Meteorological historyFormedNovember 8, 1994DissipatedNovember 21, 1994Category 1 hurricane1-minute sustained (SSHWS/NWS)Highest winds85 mph (140 km/h)Lowest pressure980 mbar (hPa); 28.94 inHgOverall effectsFatalities1,152Damage$594 million (1994 USD)Areas affectedCentra...

 

Países que boicotearon los Juegos Olímpicos de Los Ángeles. El Boicot a los Juegos Olímpicos de 1984 tuvo lugar en respuesta al boicot estadounidense a las Olimpiadas de 1980 en Moscú. El boicot involucró a 15 países (la mayoría de ellos miembros o aliados del bloque soviético), liderados por la Unión Soviética, que inició el boicot el 8 de mayo de 1984. Los países involucrados en el boicot organizaron unas contraolimpiadas llamadas Juegos de la Amistad. Anuncio del boicot La Uni...

2021 American animated short film by Aphton Corbin Twenty SomethingOfficial release posterDirected byAphton CorbinWritten byAphton CorbinProduced byErik LangleyStarring Kaylin Price Ariana Brown Aliyah Taylor Janelle Lasalle Napoleon Highbrou CinematographyAndrew JimenezEdited byAmera RizkMusic byASTUProductioncompanyPixar Animation StudiosDistributed byWalt Disney StudiosMotion PicturesRelease date September 10, 2021 (2021-09-10) Running time7 minutesCountryUnited StatesLangua...

 

City and comune in Marche, Italy Comune in Marche, ItalySan Benedetto del TrontoComuneCittà di San Benedetto del TrontoClockwise from top: Panorama of the city from the hills behind, Gualtieri Tower, Madonna della Marina Cathedral, Fishing boats moored on the quay, Monument to the Fisherman, View of Porta a Mare near the upper village FlagSan Benedetto within the Province of AscoliLocation of San Benedetto del Tronto San Benedetto del TrontoLocation of San Benedetto del Tronto in ItalySh...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!