Språkteknologi

Språkteknologi, datorlingvistik eller datalingvistik, ibland även NLP (engelska: natural language processing), är ett tvärvetenskapligt forskningsområde som omfattar utveckling av datorprogram för att analysera, förstå eller generera mänskligt språk, och även modellering och simulering av mänskligt språkligt beteende med hjälp av datorer. Målet med språkteknologi är att förenkla och förbättra kommunikationen mellan människor och mellan människor och datorer. I detta ingår också alla hjälpmedel som ett datorsystem erbjuder en skribent för att uttrycka sig bättre i tal eller skrift, liksom en del verktyg som hjälper människor att prata med eller skriva till varandra via en dator. Språkteknologi utgörs av både tekniker och språkresurser (olika slags data- och textsamlingar, t.ex. korpora eller korpusar; enspråkiga eller flerspråkiga lexikon, ordböcker, termbanker, taldatabaser osv). Teknikerna tar form som programvara, medan resurserna är den information som programvaran utnyttjar. Språkteknologi bygger på kunskaper inom lingvistik, fonetik, datavetenskap, statistik, artificiell intelligens och kognitiv psykologi. På senare år har ämnet influerats starkt av statistiska metoder och maskininlärning. Intresset för multimodal kommunikation där gester, icke-språkliga symboler och bilder finns tillsammans med text eller tal eller kompletterar den språkliga signalen har också ökat.

Den grundläggande processen i språkteknikutveckling omfattar:

  • att föra in material i datorn, med hjälp av tal eller text, eller manuellt vid ett tangentbord;
  • att tolka det införda materialet, uppdela det i exempelvis enskilda ord, eller koda materialet i symbolisk form;
  • att förstå materialet, anpassat till behovet i den enskilda tillämpningen;
  • att bruka denna förståelse till att t.ex. överföra tal till text, rättstava och avstava, översätta, eller leta efter information;
  • att presentera resultatet på en bildskärm, i en högtalare eller på papper.

Denna processmodell finns i olika varianter, där inte nödvändigtvis alla delar ingår.

Viktiga teknik- och tillämpningsområden inom språkteknologi

  • informationshantering omfattar informationssökning med hjälp av mänskligt språk, både lokalt i t.ex. ett register, på Internet eller på stora textdatabaser. Hit räknas både problem som har att göra med hur frågor ställs, hur informationen lagras, hur sökning sker och hur svaren presenteras. Informationssökning innebär att information i datorlagrad form söks ut med hjälp av olika tekniker, verktyg (sökmotorer) och teknologier (söktjänster). Söktjänsterna använder sökmotorer, även kallade sökrobotar, för att upptäcka, hämta in och indexera webbsidor och gör det möjligt att söka efter innehåll på Internet;
  • textanalys handlar om hur datorn kan tolka texter, förstå vilka grammatiska och kontextuella funktioner olika ord fyller och representera en texts innebörd på ett internt format. Hit hör teknologier som informationsextraktion eller informationsutvinning, textsammanfattning och textgenerering:
    • informationsextraktion som innebär att ur en text plocka ut och strukturera de viktigaste innehållselementen enligt på förhand givna regler så att innehållet kan läggas i en databas eller i formulär
    • informationsutvinning som innebär att från stora mängder text och andra data aggregera återkommande mönster och samband
    • textsammanfattning som innebär att från en eller flera texter formulera en läsbar text som är en sammanfattning av innehållet
    • textgenerering, ibland även NLG (engelska: natural language generation) dvs hur datorn skapar en text från en beskrivning av vad som ska uttryckas. I talspråkssammanhang talar man om istället för talsyntes, att automatiskt från något innehåll generera tal t.ex. en fråga till en användare. I textanalys hör till också delteknologier som t.ex.:
    • åsikts-, värderings- eller attitydanalys
    • genreklassificering
    • läsbarhetsmått och
    • författaridentifiering;
  • talteknologi handlar om att datorn läser upp en text eller förstår talat språk för t.ex. diktering eller för att lyssna på kommandon eller för att kunna tolka talat mänskligt språk till text eller annan användbar information, till exempel i talsvarssystem eller telefontaltjänster;
  • dialogsystem innefattar datorprogram som gör att man föra en mer eller mindre naturlig dialog med en dator, på svenska, engelska eller annat naturligt språk;
  • automatisk översättning mellan två eller flera språk omfattar översättning av texter från ett språk till ett annat, antingen som verktyg som hjälper mänskliga översättare eller som program vilka syftar till att åstadkomma en automatisk översättning. Vanligen ger ett sådant program en första grovöversättning som sedan kan förfinas;
  • frågesvarsystem, att kunna ur en databas hämta information som ges som svar på en fråga ställd i mänskligt språk;
  • skrivstöd, såsom grammatikkontroll och rättstavningshjälp i ordbehandlingsprogram;
  • ämneklassificering och indexering, innebär att klassificera vilka ämnesområden en text handlar om eller tilldela nyckelord till texten;
  • programvaruutveckling, spårbarhetsverktyg mellan mjukvaruartefakter som krav- och testdokumentation, källkod och defektrapporter, duplikatanalys av defekter;
  • teckenigenkänning eller maskinläsning av text ur en bild eller ett inskannat dokument;
  • språkinlärning omfattar intelligenta program eller datorstöd till lärande som kan t.ex. användas av svenskspråkiga personer att förbättra sin svenska, eller som syftar till att lära ut främmande språk.

Dessa områden överlappar delvis – många av dem använder liknande tekniker och komponenter.

Externa länkar

Read other articles:

?Thamnophis godmani Охоронний статус Найменший ризик (МСОП 3.1)[1] Біологічна класифікація Домен: Ядерні (Eukaryota) Царство: Тварини (Animalia) Тип: Хордові (Chordata) Ряд: Лускаті (Squamata) Інфраряд: Змії (Serpentes) Родина: Полозові (Colubridae) Рід: Підв'язкова змія (Thamnophis) Вид: T. godmani Біноміальна назва Tha...

 

العلاقات الرومانية الكينية رومانيا كينيا   رومانيا   كينيا تعديل مصدري - تعديل   العلاقات الرومانية الكينية هي العلاقات الثنائية التي تجمع بين رومانيا وكينيا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارنة رومان

 

Californische vrouwen, waarschijnlijk Pericú, 1726 Kaart met het leefgebied van de Pericú Martelaarschap van de jezuïet Lorenzo Carranco, aan het begin van de Pericú-opstand in Santiago de los Coras de Añiñí, 1 oktober 1734. De Pericú (Cora, Edu) waren indianen, de inheemse bewoners van het huidige Los Cabos, het zuidelijkste deel van de Mexicaanse deelstaat Baja California Sur. Ze zijn sinds eind 18e eeuw linguïstisch en cultureel uitgestorven. Prehistorie Het archeologische verslag...

美版X音素(第一季)第一赛季冠军梅拉尼·阿瑪羅主要信息节目类型真人秀音乐类比赛播出日期2011年9月21日-12月22日評委西蒙·考威尔寶拉·阿巴杜妮可·舒辛格L·A·瑞德(英语:L.A. Reid)雪莉·柯爾(洛杉磯和芝加哥地區海選評委)主持人斯蒂夫·瓊斯(英语:Steve Jones (presenter))頻道福克斯電視臺冠軍Melanie_Amaro.jpg姓名梅拉尼·阿瑪羅家鄉佛羅里達州森賴斯市獲勝曲Listen(英

 

Shopping mall in Thiruvananthapuram, IndiaMall of Travancore (MOT)Main entrance to the mallLocationThiruvananthapuram, IndiaCoordinates8°29′14″N 76°55′32″E / 8.4872°N 76.9255°E / 8.4872; 76.9255AddressNH 66, Near International Airport, Thiruvananthapuram, KeralaOpening dateMarch 23, 2018; 5 years ago (2018-03-23)[1]DeveloperMalabar DevelopersOwnerMalabar GroupNo. of stores and services300+Total retail floor area700,000 square feet ...

 

Daftar ini belum tentu lengkap. Anda dapat membantu Wikipedia dengan mengembangkannya. Bahasa Dialek Matsu 馬祖話 / Mā-cū-huâ平話 / Bàng-huâ Pengucapan[mɑ˧˩ tsu˥ uɑ˩˧˩] / [paŋ˧˩ ŋuɑ˩˧˩]Dituturkan diRepublik TiongkokWilayahKepulauan MatsuEtnisFuzhouneseRumpun bahasaSino-Tibet SinitikMinMin TimurHouguanFuzhouDialek Matsu Sistem penulisanKarakter Tionghoa, Foochow Romanized and Matsu Fuchounese Bopomofo [zh]Status resmiBahasa resmi diKepulauan Mat...

الطيران العُماني     إياتاWY إيكاوOMA رمز النداءOMAN AIR تاريخ الإنشاء 1981م الجنسية سلطنة عمان  المطارات الرئيسية مطار مسقط الدولي برنامج المسافر الدائم السندباد حجم الأسطول 40 الوجهات 48 الشعار الرؤية الحديثة و التقاليد الخالدة المقرات الرئيسية مسقط -  سلطنة عمان شخصيات

 

For the British environmental entrepreneur and author, see Ed Gillespie (sustainability professional). American political strategist Ed GillespieCounselor to the PresidentIn officeJuly 5, 2007 – January 20, 2009PresidentGeorge W. BushPreceded byDan BartlettSucceeded byPete Rouse (2011)Chair of the Virginia Republican PartyIn officeDecember 4, 2006 – June 13, 2007Preceded byKate ObenshainSucceeded byJohn HagerChair of the Republican National CommitteeIn officeJuly 25, 200...

 

Biology of cells Human cancer cells with nuclei (specifically the DNA) stained blue. The central and rightmost cell are in interphase, so the entire nuclei are labeled. The cell on the left is going through mitosis and its DNA has condensed. In biology, cell theory is a scientific theory first formulated in the mid-nineteenth century, that organisms are made up of cells, that they are the basic structural/organizational unit of all organisms, and that all cells come from pre-existing cells. C...

System of organs used for reproduction This article is about the reproductive system of all types of animals, including humans. For information specific to the human reproductive system, see Human reproductive system. Reproductive systemDetailsIdentifiersLatinsystema reproductionisTA98A09.0.00.000TA23467Anatomical terminology[edit on Wikidata] The reproductive system of an organism, also known as the genital system, is the biological system made up of all the anatomical organs involved in...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أبريل 2019) الكسندر ويليام ميليغان معلومات شخصية الميلاد سنة 1858[1][1]  بالارات  الوفاة 30 مارس 1921 (62–63 سنة)  مواطنة أستراليا  الحياة العملية المهنة عال...

 

Анфуса (Анфиса) Андреевна Лубова Дата рождения 22 августа 1929(1929-08-22) Место рождения с. Мокрое Поле, Ординский район, Свердловская область, СССР Дата смерти 20 ноября 2013(2013-11-20) (84 года) Место смерти Пермь, Пермский край, Россия Гражданство  СССР →  Россия Награды и пре...

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Doruma – news · newspapers · books · scholar · JSTOR (August 2016) (Learn how and when to remove this template message) Town in Haut-Uele, Democratic Republic of the CongoNdoromo (Doruma)TownThe church in Ndoromo, home to the Roman Catholic Diocese of Ndoromo...

 

Mr Gay Europe is a male competition for gay Europeans about important LGBTQIA+ themes. Every year a new Mr. Gay Europe will be crowned, who will be an ambassador for the LGBTQIA+ community. It was founded by its former President, Morten Rudå and its current President, Tore Aasheim; and was hosted for the first time in 2005. History In 2005, the competition was held in Oslo, Norway and the winner was Alexander van Kempen from the Netherlands. The following year, Amsterdam was the host city. I...

 

Puerto Rican singer This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources: Olga Tañón – news · newspapers · books · scholar · JSTOR (January 2023) (Learn how and when to remove this template message)...

Amateur film or video typically made just to preserve a visual record of family activities For other uses, see Home movie (disambiguation). Not to be confused with Home video, Independent film, or Home (2015 film). This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Home movie – news · newspapers · books · scholar...

 

Railway station in Pakistan Chaman Railway Stationچمن ریلوے اسٹیشنGeneral informationCoordinates30°55′17″N 66°26′22″E / 30.9214°N 66.4394°E / 30.9214; 66.4394Owned byMinistry of RailwaysLine(s)Rohri-Chaman Railway LineOther informationStation codeCMNHistoryOpened1895Services Preceding station Pakistan Railways Following station Shela Baghtowards Rohri Junction Rohri–Chaman Line Terminus LocationChaman Railway StationLocation within Pakistan ...

 

Sporting event delegationLuxembourg at the2008 Summer OlympicsIOC codeLUXNOCLuxembourg Olympic and Sporting CommitteeWebsitewww.teamletzebuerg.lu (in French)in BeijingCompetitors13 in 7 sportsFlag bearers Raphaël Stacchiotti (opening)Sascha Palgen (closing)Medals Gold 0 Silver 0 Bronze 0 Total 0 Summer Olympics appearances (overview)19001904–190819121920192419281932193619481952195619601964196819721976198019841988199219962000200420082012201620202024 Luxembourg sent a team of 13 to...

Toxic seed of the apricot Apricot kernels Apricot stones (kernels are inside) An apricot kernel is the apricot seed located within the fruit endocarp, which forms a hard shell around the seed called the pyrena (stone or pit).[1][2] The kernel contains amygdalin, a poisonous compound, in concentrations that vary between cultivars. Together with the related synthetic compound laetrile, amygdalin has been marketed as an alternative cancer treatment. However, studies have found th...

 

Richard SilverwoodPersonal informationBorn1976 (age 46–47)Dewsbury, West Yorkshire, EnglandRefereeing information Years Competition Apps 2001–28/7/2016 Super League 432 2006–28/7/2016 Challenge Cup 3 2010–28/7/2016 World Club Challenge 3 2005–13 Internationals 18 Source: [1]As of 17 October 2009 Richard Silverwood (born 1976,[2] in Dewsbury,[3] England) is a retired international rugby league referee.[3] He officiated in the S...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!