Corpus Textual Informatitzat de la Llengua Catalana

Corpus Textual Informatitzat de la Llengua Catalana
URL	ctilc.iec.cat
Tipus	corpus lingüístic de consultació llibre
Comerç ?	No
Registre	Lingüística
Llengua	Català
Propietari	Institut d'Estudis Catalans
Editor	Joaquim Rafel i Fontanals
Ingressos totals	Fons públics de recerca
Estat	Actiu

El Corpus Textual Informatitzat de la Llengua Catalana (CTILC) és un recurs lingüístic que consisteix en un corpus format per una gran varietat de textos escrits en llengua catalana entre el 1832 i 1988.^[1] Ha sigut creat per l'Institut d'Estudis Catalans (IEC) sota la direcció del filòleg Joaquim Rafel i Fontanals.^[2] És orientat a l'estudi lexicogràfic i serveix entre d'altres de base per a la redacció del Diccionari descriptiu de la llengua catalana^[1]^[3] així com per al Diccionari de freqüències.^[4]

Les paraules que inclou provenen de diversos registres lingüístics: de la llengua literària (narrativa, teatre, poesia, assaig) un 40% i de la no literària (tractats i manuals sobre les diverses disciplines, articles en publicacions especialitzades i de divulgació, textos legals, premsa diària i publicacions periòdiques diverses, fullets, prospectes, etc.) un 60%.^[5] El total d'ocurrències dels 173.608 lemes^[6] inclosos en el corpus que va fer-se entre 1985 i 1997 supera els cinquanta-dos milions.^[7]

És un corpus completament anotat pel que fa a la categoria lèxica i morfològica dels mots que conté; cadascuna de les ocurrències del corpus (exceptuant-ne els noms propis i altres seqüències no analitzables) està associada al seu corresponent lema (entitat referencial que agrupa tota la sèrie flexiva i apreciativa d'un mot, així com les seves variants gràfiques) i està etiquetada amb la categoria morfològica que correspon a la seva forma (qualsevol de les formes flexionals, les formes apreciatives o les variants gràfiques que pot adoptar un mot).^[8]

El Corpus és una font d'informació empírica per a fer treballs lingüístics que pot consultar-se un o més lemes o formes. Es poden definir també filtratges per a les consultes que permeten restringir els resultats per autor, obra, cronologia i tipologia de les obres. Recull les formes efectivament usades en les obres. Moltes d'aquestes formes no es corresponen amb les formes normatives de l'IEC. En surten informacions predictibles, per exemple que «de» és la preposició més freqüent, però també que «academicorealistanaturalista» (28 lletres) i «aristotelicohegelianomarxista» (29 lletres) són les paraules més llargues trobades en texts catalans.^[9]

Referències

↑ ^1,0 ^1,1 «Corpus Textual Informatitzat de la Llengua Catalana». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
↑ «Corpus Textual Informatitzat de la Llengua Catalana». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
↑ Janet DeCesaris. De lexicografia: actes del I Symposium Internacional de Lexicografia : Barcelona, 16-18 de maig de 2002). Documenta Universitaria, 2004, p. 115 (Volum 15 de Sèrie activitats). ISBN 9788496367067.
↑ Joaquim Rafel i Fontanals. Diccionari de freqüències: 1. Llengua no literària. tom 1.. Barcelona: Institut d'Estudis Catalans, 1996, p. 1539. ISBN 9788472833319.
↑ Puig Montada, Anna. «Anàlisi de resultats extrets del Diccionari de freqüències de l'IEC». A: Miriam Cabré (red). Actes del Tretzè Col·loqui Internacional de Llengua i Literatura Catalanes. vol.2. Barcelona: L'Abadia de Montserrat, 2007, p. 349-358 (Biblioteca Abat Oliba). ISBN 9788484158462. «El corpus de dades emprat per a la per a l'estudi Corpus Textual Informatitzat de la Llengua Catalana té una extensió considerable i està format per 14613 textos de tipus literari i de 11508 no literaris. [...]»
↑ Puig Montada, p. 349.
↑ Mora, Rosa «52 milions de mots per fer el català d'ara». El País, 24 gener 2013 (2013-01-24) [Consulta: 2 juliol 2014].
↑ Maria Antònia Martí Antonín, «2.2.2. La situació del català» a: Les tecnologies del llenguatge, Edicions de la Universitat Oberta de Catalunya, 2001, pàgina 45
↑ Puig Montada, p. 356.

Bibliografia

Rafel i Fontanals, Joaquim «El "Corpus textual informatitzat de la llengua catalana" y el 'Diccionari del Català Contemporani'. Un proyecto del I.E.C» (en castellà). Anthropos [Barcelona], num. 81, 2-1988, pàg. V-VII.

Enllaços externs

Corpus en línia

[GEC-1] 1,0 ^1,1 «Corpus Textual Informatitzat de la Llengua Catalana». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.

[2] «Corpus Textual Informatitzat de la Llengua Catalana». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.

[3] Janet DeCesaris. De lexicografia: actes del I Symposium Internacional de Lexicografia : Barcelona, 16-18 de maig de 2002). Documenta Universitaria, 2004, p. 115 (Volum 15 de Sèrie activitats). ISBN 9788496367067.

[4] Joaquim Rafel i Fontanals. Diccionari de freqüències: 1. Llengua no literària. tom 1.. Barcelona: Institut d'Estudis Catalans, 1996, p. 1539. ISBN 9788472833319.

[5] Puig Montada, Anna. «Anàlisi de resultats extrets del Diccionari de freqüències de l'IEC». A: Miriam Cabré (red). Actes del Tretzè Col·loqui Internacional de Llengua i Literatura Catalanes. vol.2. Barcelona: L'Abadia de Montserrat, 2007, p. 349-358 (Biblioteca Abat Oliba). ISBN 9788484158462. «El corpus de dades emprat per a la per a l'estudi Corpus Textual Informatitzat de la Llengua Catalana té una extensió considerable i està format per 14613 textos de tipus literari i de 11508 no literaris. [...]»

[FOOTNOTEPuig_Montada349-6] Puig Montada, p. 349.

[7] Mora, Rosa «52 milions de mots per fer el català d'ara». El País, 24 gener 2013 (2013-01-24) [Consulta: 2 juliol 2014].

[8] Maria Antònia Martí Antonín, «2.2.2. La situació del català» a: Les tecnologies del llenguatge, Edicions de la Universitat Oberta de Catalunya, 2001, pàgina 45

[FOOTNOTEPuig_Montada356-9] Puig Montada, p. 356.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Corpus Textual Informatitzat de la Llengua Catalana

Referències

Bibliografia

Enllaços externs

Portal di Ensiklopedia Dunia