domingo, 14 de agosto de 2011

OCR: reconocimiento de texto


Convertir un documento escrito en modo imagen y formato JPG a un documento de texto tratable

Cuando intentas poner en el interior de un ordenador un documento escrito en una hoja de papel, solo puedes hacerlo de dos formas.
Hacer una foto digital o bien escanearlo.
El escaneo es la manera más apropiada.

Pero cuando lo acabas de escanear, lo tienes metido en el ordenador como si fuese una imagen, no como un texto de letras.
La prueba es que no podrás añadir, ni borrar, ni corregir nada.
Asi necesitas un programa que te convierta estas letras que están expuestas como un dibujo a letras que sean tratables.
Lo que necesitas es un sistema de reconocimiento de texto OCR.
En ingles significa “reconocimiento óptico de caracteres”.

Hay programas que puedes conseguir por internet para esta aplicación, pero Google te ofrece este servicio.
Solo te lo convierte a partir de un archivo JPG, JIF, PNG, PDF (otros tipos, no)


Abre la pagina de GOOGLE (https://www.google.es/)
Pulsa y despliega el menú MAS de la barra superior y luego MUCHO MAS.
Escoge el sub menú DOCS.
Pulsa UPLOAD, el icono rojo a la izquierda y junto al icono rojo “CREATE”
Ahora selecciona el submenú FILES.
Escoge el archivo de imagen JPG que acabas de escanear y que está en tu disco duro.
Acepta o abre el archivo que escoges.
Pulsa START UPLOAD (subir el archivo ahora).
(antes comprueba que estén activadas las casillas “convert documents” y “confirm settings”.

En una sub-pantalla te aparecerá el archivo descargado o que se está descargando.
Espera a que el pequeño rectangulo acabe de llenarse en color gris oscuro y te indique UPLOADED (subido).
(asegurate que sobre el archivo descargado aparece el modo conversión ON.
De no ser asi pulsa Setting y activa “convert uploaded files to Google doc”)

Ahora en la pagina principal de DOCUMENTS (y si no la tienes presente pulsa dicha pestaña superior), te aparecerá este archivo y otros tuyos (si lo hiciste alguna otra vez).
Fijate que a al izquierda del nombre de tu archivo hay un icono que representa el tipo de archivo:
-Si el icono es un cuadrado naranja con una especie de montañas blancas, significa que es un archivo de imagen (aunque contenga texto).
-Si el icono es un cuadrado azul con una especie de lineas blancas, significa que es un archivo de texto.

Lógicamente deberá ser un archivo de imagen.
Con el botón derecho del ratón, pulsa sobre dicho archivo y al desplegarse un nuevo menú, escoge (con el botón izquierdo del ratón) EXPORT TO GOOGLE DOCS.
Espera unos segundos y te lo convertirá.

Ahora te aparecerá el mismo archivo pero en formato texto y lo sabrás porque tiene el mismo nombre, pero con icono del cual te hablé antes, un cuadrado azul con líneas blancas (texto).

Con el botón derecho del ratón, pulsa sobre este archivo con icono azul y al desplegarse un nuevo menú, escoge (con el botón izquierdo del ratón) DOWNLOAD.
Si te pregunta en una nueva ventana, confirma que te lo descargue para Microsoft Word y vuelve a pulsar DOWNLOAD.

Ya lo tienes en tu ordenador como texto y en el mismo lugar donde sueles descargar adjuntos de correos.

Este nuevo archivo tiene el mismo nombre de antes pero con la extensión cambiada.
Si lo abres verás que es una hoja de texto en la cual primero aparece la misma imagen inicial insertada (la cual debes borrar), pero a continuación lo verás en modo texto.
Ahora este texto puedes cambiarle el tamaño y tipo de letra, modificarlo o copiarlo.
No siempre respeta la distribución de párrafos. Eso lo tendrás que arreglar a mano.




Guillermo Blanco 14-10-2011
Actualizado 01-08-2012


No hay comentarios:

Publicar un comentario