El Corpus Textual Informatitzat de la Llengua Catalana (CTILC) és un recurs lingüístic que consisteix en un corpus format per una gran varietat de textos escrits en llengua catalana entre el 1832 i 1988.[1] Ha sigut creat per l'Institut d'Estudis Catalans (IEC) sota la direcció del filòleg Joaquim Rafel i Fontanals.[2] És orientat a l'estudi lexicogràfic i serveix entre d'altres de base per a la redacció del Diccionari descriptiu de la llengua catalana[1][3] així com per al Diccionari de freqüències.[4]
Les paraules que inclou provenen de diversos registres lingüístics: de la llengua literària (narrativa, teatre, poesia, assaig) un 40% i de la no literària (tractats i manuals sobre les diverses disciplines, articles en publicacions especialitzades i de divulgació, textos legals, premsa diària i publicacions periòdiques diverses, fullets, prospectes, etc.) un 60%.[5] El total d'ocurrències dels 173.608 lemes[6] inclosos en el corpus que va fer-se entre 1985 i 1997 supera els cinquanta-dos milions.[7]
És un corpus completament anotat pel que fa a la categoria lèxica i morfològica dels mots que conté; cadascuna de les ocurrències del corpus (exceptuant-ne els noms propis i altres seqüències no analitzables) està associada al seu corresponent lema (entitat referencial que agrupa tota la sèrie flexiva i apreciativa d'un mot, així com les seves variants gràfiques) i està etiquetada amb la categoria morfològica que correspon a la seva forma (qualsevol de les formes flexionals, les formes apreciatives o les variants gràfiques que pot adoptar un mot).[8]
El Corpus és una font d'informació empírica per a fer treballs lingüístics que pot consultar-se un o més lemes o formes. Es poden definir també filtratges per a les consultes que permeten restringir els resultats per autor, obra, cronologia i tipologia de les obres. Recull les formes efectivament usades en les obres. Moltes d'aquestes formes no es corresponen amb les formes normatives de l'IEC. En surten informacions predictibles, per exemple que «de» és la preposició més freqüent, però també que «academicorealistanaturalista» (28 lletres) i «aristotelicohegelianomarxista» (29 lletres) són les paraules més llargues trobades en texts catalans.[9]