Reconocimiento óptico de caracteres

El reconocimiento óptico de caracteres (ROC), generalmente conocido como reconocimiento de caracteres y expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. Así, es posible interactuar con estos mediante un programa de edición de texto o similar.

En los últimos años la digitalización de la información (textos, imágenes, sonido, etcétera) ha devenido un punto de interés para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introducción de caracteres evitando la entrada por teclado implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.

Problemas con el ROC

El proceso básico que se lleva a cabo en el ROC es convertir el texto que aparece en una imagen en un archivo de texto que podrá ser editado y utilizado como tal por cualquier otro programa o aplicación que lo necesite.

Partiendo de una imagen perfecta, es decir, una imagen con sólo dos niveles de gris, el reconocimiento de estos caracteres se realizará básicamente comparándolos con unos patrones o plantillas que contienen todos los posibles caracteres. Ahora bien, las imágenes reales no son perfectas, por lo tanto el ROC se encuentra con varios problemas:

  • El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original.
  • La resolución de estos dispositivos puede introducir ruido en la imagen, afectando los píxeles que han de ser procesados.
  • La distancia que separa a unos caracteres de otros, al no ser siempre la misma, puede producir errores de reconocimiento.
  • La conexión de dos o más caracteres por píxeles comunes también puede producir errores.

Esquema básico de un algoritmo de ROC

Todos los algoritmos de ROC tienen la finalidad de poder diferenciar un texto de una imagen cualquiera. Para hacerlo se basan en cuatro etapas:

  1. Binarización o caracterización.
  2. Fragmentación o segmentación de la imagen.
  3. Adelgazamiento de los componentes.
  4. Comparación con patrones.

Binarización

La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores). Por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen, donde se muestra el número de píxeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los píxeles que no lo superen se convertirán en negro y el resto en blanco.

Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y símbolos que contiene la imagen. A partir de aquí podemos aislar las partes de la imagen que contienen texto (más transiciones entre blanco y negro).

Fragmentación o segmentación de la imagen

Este es el proceso más costoso y necesario para el posterior reconocimiento de caracteres. La segmentación de una imagen implica la detección mediante procedimientos de “etiquetado determinista” o estocástico de los contornos o regiones de la imagen, basándose en la información de intensidad o información espacial.

Permite la descomposición de un texto en diferentes entidades lógicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento.

No existe un método genérico para llevar a cabo esta segmentación de la imagen que sea lo suficientemente eficaz para el análisis de un texto. Aunque las técnicas más utilizadas son variaciones de los métodos basados en proyecciones lineales.

Una de las técnicas más clásicas y simples para imágenes de niveles de grises consiste en la determinación de los modos o agrupamientos (clústeres) a partir del histograma, de tal forma que permitan una clasificación o umbralización de los píxeles en regiones homogéneas.

Adelgazamiento de los componentes

Una vez aislados los componentes conexos de la imagen, se les tendrá que aplicar un proceso de adelgazamiento para cada uno de ellos. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipología.

La eliminación de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen continúe teniendo las mismas proporciones que la original y así conseguir que no quede deforme.

Se tiene que hacer un barrido en paralelo, es decir, señalar los píxeles borrables para eliminarlos todos a la vez. Este proceso se lleva a cabo para hacer posible la clasificación y reconocimiento, simplificando la forma de los componentes.

Comparación con patrones

En esta etapa, se comparan los caracteres obtenidos anteriormente con unos teóricos (patrones) almacenados en una base de datos. El buen funcionamiento del ROC se basa en gran medida en una buena definición de esta etapa.

Existen diferentes métodos para llevar a cabo la comparación. Uno de ellos es el método de proyección, en el cual se obtienen proyecciones verticales y horizontales del carácter por reconocer, y se comparan con el alfabeto de caracteres posibles hasta encontrar la máxima coincidencia.

Existen otros métodos, como por ejemplo:

Aplicaciones

Desde la aparición de los algoritmos de ROC, han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologías. A continuación se muestran algunas de las más destacables aplicaciones que utilizan el ROC.

Reconocimiento de texto manuscrito

Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. No todos escribimos de manera uniforme, y no todos escribimos de la misma forma. El reconocimiento de este tipos de textos continúa siendo un desafío. Para abordar este tipo de problemas se han desarrollado técnicas y aplicaciones específicas a las que se les llama Reconocimiento inteligente de caracteres o ICR (del inglés Intelligent Çharacter Recognition).

Aunque el texto se compone básicamente de caracteres individuales, la mayoría de algoritmos ROC no consiguen buenos resultados, ya que la segmentación de texto continuo es un procedimiento complejo.

En el caso de reconocimiento de escritura manuscrita a la hora de corrección de exámenes, existe la posibilidad, añadiendo un listado de léxico (nombres y apellidos) de acercarse al 100% de acierto. A través de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de países, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras (léxico), el cual puede ir aumentándose según las necesidades.

En el mundo real, a veces se puede llegar a comprender una frase cuando la hemos terminado de leer. Automatizar este proceso implica una operación de niveles morfológico, léxico y sintáctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodología, se utilizan algoritmos robustos que usan una segmentación previa, debido a que se obtiene automáticamente con la descodificación.

Para facilitar el reconocimiento a veces la tecnología ICR requiere que en el documento se tengan recuadros dentro de los cuales se introducen los caracteres manuscritos, siendo obligatorio un carácter por recuadro. Habitualmente se utiliza para formularios que debemos rellenar a mano y tenemos que poner en letras mayúsculas.[1]

Reconocimiento de matrículas

Coche de policía en Dubái con una cámara instalada para el reconocimiento de matrículas

Una de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrícula de un vehículo con condiciones de iluminación, perspectiva y entorno variables.

En la etapa de segmentación, se buscan texturas similares a la de una matrícula y se aísla el área rectangular que forma la matrícula.

Finalmente, se aplica un proceso de clasificación múltiple sobre el conjunto de píxeles pertenecientes a la matrícula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrícula. Si aparece algún error, es corregido.


Indexación con bases de datos

Con el gran aumento de información publicada que ha tenido lugar en los últimos años, cada vez son más los métodos que se emplean para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imágenes. Una de las formas más corrientes de buscar imágenes es a partir de metadatos introducidos manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imágenes mediante el texto que aparecen en ellas, como el buscador DIRS (Document Image Retrieval System) que, mediante un algoritmo de ROC, extrae el texto que aparece en la imagen y lo utiliza como metadato que podrá servir para las búsquedas. Esta tecnología proporciona una posibilidad en la búsqueda de imágenes y demuestra que el ROC aún puede dar mucho de sí.

Reconocimiento de datos estructurados con ROC Zonal

Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semiestructurados (facturas, nóminas, albaranes, pólizas, justificantes bancarios, etcétera), catalogando automáticamente los documentos con los metadatos obtenidos y archivándolos en formato digital de forma indexada para facilitar su posterior búsqueda. Tiene el inconveniente de que es necesario diseñar previamente las plantillas, pero con una buena configuración se ahorra mucho tiempo en el proceso de digitalización.

Véase también

Referencias

Read other articles:

De Bornerbroekse Waterleiding wordt van water voorzien door een inlaatpunt nabij de Twickelervaart De Bornerbroekse Waterleiding is een beek in de Nederlandse provincie Overijssel. De beek ontspringt ten noorden van Delden en stroomt eerst in noordoostelijke richting om vervolgens om Bornerbroek heen te draaien en pal westelijk te gaan stromen. De beek stroomt via een onderleider onder het Twentekanaal naar de buurtschap Ypelo, om daar eerst uit te monden in de Eksose Aa en vervolgens in de R...

 

Ataques durante la rebelión tuareg. La rebelión tuareg de 2007-2009 comenzó en febrero de 2007 en Níger y Malí. El conflicto se debió a que el proceso de desmovilización e integración de los rebeldes a la vida civil o a las fuerzas armadas de sus respectivos países resultó lento e insatisfactorio y el hecho que algunos políticos tuareg integrados a los gobiernos perdieron sus cargos, terminando algunos en prisión. Entre 2005 y 2006 se iniciaron combates en Malí pero pronto se lle...

 

Charter airline at Rouyn-Noranda Airport in Rouyn-Noranda, Quebec, Canada Propair Inc.A formerly owned de Havilland Canada DHC-4 Caribou at Rouyn-Noranda IATA ICAO Callsign - PRO[1] PROPAIR[1] Founded1954AOC #Canada: 253[2]United States: P27F727F[3]Fleet size16[4]HeadquartersRouyn-Noranda, Quebec, CanadaWebsitewww.propair.ca Propair Beech 200 Super King Air Propair Inc. is a charter airline with its headquarters and main base at the Rouyn-Noranda A...

Kongkang jeram Status konservasi Rentan Klasifikasi ilmiah Kerajaan: Animalia Filum: Chordata Kelas: Amphibia Ordo: Anura Famili: Ranidae Genus: Wijayarana Spesies: W. masonii Nama binomial Wijayarana masonii(Boulenger, 1884) Sinonim Huia javana Yang, 1991 Kongkang jeram adalah nama sejenis kodok dari suku Ranidae. Nama ilmiahnya adalah Wijayarana masonii Boulenger, 1884; diberikan untuk mengenang Mason, seorang naturalis Inggris. Dalam bahasa Inggris dikenal sebagai Javan torrent-frog (...

 

Câu lạc bộ bóng đá nữ Sơn LaTên đầy đủCâu lạc bộ bóng đá nữ Sơn LaThành lập2011; 12 năm trướcSânSơn LaChủ tịch điều hànhLường Minh KhánhNgười quản lýLường Văn ChuyênGiải đấuGiải bóng đá nữ vô địch quốc gia2020Thứ 7 Màu áo sân nhà Màu áo sân khách Câu lạc bộ Bóng đá nữ Sơn La là một câu lạc bộ bóng đá nữ Việt Nam, có trụ sở tại Sơn La, Việt Nam. Đội bóng đang c...

 

فونتين ليه كرويسيليس    شعار الاسم الرسمي (بالفرنسية: Fontaine-lès-Croisilles)‏    الإحداثيات 50°13′07″N 2°54′31″E / 50.218611111111°N 2.9086111111111°E / 50.218611111111; 2.9086111111111[1]  [2] تقسيم إداري  البلد فرنسا[3]  التقسيم الأعلى باد كاليه  خصائص جغرافية  المساحة 6.26

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (سبتمبر 2021) تايس إنريكيث معلومات شخصية اسم الولادة (بالإسبانية: Thaïs Henríquez Torres)‏  الميلاد 29 أكتوبر 1982 (العمر 41 سنة)لاس بالماس دي غران كناريا مواطنة إسبانيا  الطول 185 س

 

Bagian dari seriIslam Rukun Iman Keesaan Allah Nabi dan Rasul Allah Kitab-kitab Allah Malaikat Hari Kiamat Qada dan Qadar Rukun Islam Syahadat Salat Zakat Puasa Haji Sumber hukum Islam al-Qur'an Sunnah (Hadis, Sirah) Tafsir Akidah Fikih Syariat Sejarah Garis waktu Muhammad Ahlulbait Sahabat Nabi Khulafaur Rasyidin Khalifah Imamah Ilmu pengetahuan Islam abad pertengahan Penyebaran Islam Penerus Muhammad Budaya dan masyarakat Akademik Akhlak Anak-anak Dakwah Demografi Ekonomi Feminisme Filsafat...

 

قزمة الكور البيضاوية قزمة الكور البيضاوية. ائتمان: المرصد الأوروبي الجنوبي/المسح الرقمي للسماء 2 مراقبة البيانات (J2000 حقبة) جزء من المجموعة المحلية  الكوكبة الكور المكتشف هارلو شابلي  تاريخ الاكتشاف 1938  المطلع المستقيم 02س 39د 59.3ث[1] الميل °−34 ′26 ″57[1] ال...

رسم بياني يوضح تغيير الضغط الجوي خلال اليوم في شمال ألمانيا. المحور الرأسي يبين التغير (بالهيكتو باسكال). الضغط الجوي هو وزن عمود من الهواء على مقطعه العرضي هو وحدة المساحات، وارتفاعه يعادل سُمك الغلاف الجوي. الضغط الجوي = 1 atm أو بالتقريب 1 بار. وهو يتكوّن من عدة غازات (النيتر...

 

SolarAlbum phòng thu của TaeyangPhát hành1 tháng 7 năm 2010 (2010-07-01)Thu âm2009–2010Thể loạiR&B, hip hop, popThời lượng38:0445:52 (Bản đặc biệt)41:48 (Bản quốc tế)Hãng đĩaYG EntertainmentSản xuấtYang Hyun Suk, TeddyThứ tự album của Taeyang Hot(2008) Solar(2010) RISE(2014) Đĩa đơn từ Solar Where U AtPhát hành: 14 tháng 10 năm 2009 (2009-10-14) Wedding DressPhát hành: 16 tháng 11 năm 20...

 

Canadian ice hockey player, coach (b. 1968) Ice hockey player Mark Recchi Hockey Hall of Fame, 2017 Recchi in March 2018Born (1968-02-01) February 1, 1968 (age 55)Kamloops, British Columbia, CanadaHeight 5 ft 10 in (178 cm)Weight 195 lb (88 kg; 13 st 13 lb)Position Right wingShot LeftPlayed for Pittsburgh PenguinsPhiladelphia FlyersMontreal CanadiensCarolina HurricanesAtlanta ThrashersTampa Bay LightningBoston BruinsNational team  CanadaNHL Draft 6...

Spanish politician, jurist and economist (1803–1873) In this Spanish name, the first or paternal surname is Bravo and the second or maternal family name is Murillo. The Most ExcellentJuan Bravo MurilloPortrait by Gutiérrez de la VegaPrime Minister of SpainIn officeJanuary 14, 1851 (1851-01-14) – December 14, 1852 (1852-12-14)MonarchIsabella IIPreceded byRamón María NarváezSucceeded byFederico RoncaliPresident of the Congress of Deputies&#...

 

National University of East TimorUniversidade Nacional Timor Lorosa'e (Portuguese) Universidade Nasionál Timór Lorosa'e (Tetum)MottoSapientia et VeritasMotto in EnglishWisdom and TruthTypePublicEstablished17 November 2000; 23 years ago (2000-11-17)RectorJoão Soares Martins[1]LocationDili,  East TimorCampusSuburbanWebsitewww.untl.edu.tl The National University of East Timor (UNTL; Portuguese: Universidade Nacional Timor Lorosa'e; Tetum: Universi...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Hong Kong Supermarket – news · newspapers · books · scholar · JSTOR (June 2018) (Learn how and when to remove this template message) Hong Kong Supermarket香港超級市場TypePrivateIndustryRetailFounded1981 (Los Angeles, California)FounderJeffrey WuHeadquarte...

Koordinat: 0°25′S 125°25′E / 0.417°S 125.417°E / -0.417; 125.417 Laut MalukuMolucca SeaLokasi Laut Maluku (biru)LetakAsia TenggaraJenis perairanLautBagian dariSamudra PasifikTerletak di negaraIndonesiaArea permukaan200.000 km2 (77.000 sq mi)Kedalaman maksimal4.810 m (15.781 ft)PermukimanBitung, Ternate, Tidore Laut Maluku terletak di barat Samudra Pasifik yang terletak di dekat Provinsi Maluku, Indonesia. Laut ini membatasi Laut Sulawes...

 

Notable people from Ontario, Canada Provincial flag of Ontario This is a list of notable people who were either born or lived in Ontario, Canada, or have spent a large part or formative part of their career in that province. This is a dynamic list and may never be able to satisfy particular standards for completeness. You can help by adding missing items with reliable sources. Film, television, and voice actors Name Notable for Connection to Ontario Patrick J. Adams (born 1981) Suits born in ...

 

Este artículo o sección tiene referencias, pero necesita más para complementar su verificabilidad.Este aviso fue puesto el 12 de mayo de 2020. Albert Solé Solé en el Museo de Historia de Cataluña en 2008.Información personalNacimiento 3 de abril de 1962 (61 años)Bucarest (República Popular Rumana) Nacionalidad EspañolaFamiliaPadre Jordi Solé Tura Información profesionalOcupación Periodista, director de documentales, director de cine y guionista [editar datos en Wikidata]...

South East Hampshire BRTWright StreetLite on the BRT route at Bridgemary, Gosport in June 2022OverviewOwnerHampshire County CouncilArea servedFareham, BridgemaryLocaleGosport, United KingdomTransit typeGuided buswayWebsitewww.firstgroup.com/portsmouth-fareham-gosport/routes-and-maps/eclipseOperationBegan operation22 April 2012; 11 years ago (2012-04-22)Operator(s)First Hampshire & DorsetTechnicalSystem length2 miles (3.4 km) Route map vteGosport EclipseBusway Legend...

 

This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: List of metropolitan areas of Tennessee – news · newspapers · books · scholar · JSTOR (May 2010) (Learn how and when to remove this template message) Nashville, largest metropolitan area Memphis, second largest metropolitan area Knoxville, third largest metropolitan area Chattan...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!