2025-02-15

Baroc Recognizer - "Batch and Recursive Optical Character Recognition" (OCR)

 

Hoy quiero presentarte Baroc Recognizer (Batch and Recursive Optical Character Recognition), una herramienta que va a facilitar la forma en que trabajás con documentos digitales. Este software está diseñado para realizar OCR (Reconocimiento Óptico de Caracteres) de manera masiva y recursiva en PDFs e imágenes. Si necesitás extraer texto de cientos de documentos sin tener que hacerlo uno por uno, ¡este programa es para vos!

¿Qué es Baroc Recognizer?
Baroc Recognizer es una solución integral para convertir documentos escaneados o imágenes en texto editable. Con su capacidad para procesar archivos en lote y de forma recursiva, podés ahorrar tiempo y esfuerzo en tareas que, de otra manera, te llevarían horas.

¿Por qué usarlo?
Procesamiento en Lote: Olvidate de abrir cada archivo de forma individual. Con Baroc Recognizer podés seleccionar un grupo de archivos y procesarlos todos a la vez.
Recursividad: Si tenés carpetas con subcarpetas, el programa las recorre automáticamente, buscando y procesando todos los PDFs e imágenes compatibles.
Flexibilidad en la salida: Podés elegir entre combinar todos los resultados en un solo archivo o generar archivos separados para cada documento. ¡La decisión es tuya!
Interfaz Intuitiva: La interfaz está pensada para que, con unos pocos clics, vos configures las opciones de procesamiento, el destino de los archivos y hasta el modo en que se crean las carpetas de salida.
Este software refleja un enfoque práctico para resolver problemas reales de reconocimiento de texto.
¿Cómo funciona?
Selección de Origen: Podés elegir entre seleccionar archivos individuales o una carpeta completa. Si seleccionás archivos, se te da la opción de combinar los resultados en un solo PDF o crear múltiples archivos.
Configuración de Opciones: Definí si querés procesar PDFs, imágenes, o ambos. Además, podés ajustar detalles como la resolución (¡incluso tenés opción a 75 DPI para archivos más livianos!) y cómo se organizarán las carpetas de destino.
Proceso Automático: Una vez configurado, el programa recorre los documentos y, utilizando la tecnología OCR, extrae el texto. El resultado lo podés encontrar en la carpeta de destino que hayas indicado.
Resultados y Control: Mientras se procesa la información, la interfaz te muestra un contador y un resumen del progreso, para que siempre sepas cómo va la operación.
¿A quién va dirigido?
Si trabajás en la digitalización de documentos, gestión de archivos o simplemente necesitás convertir montones de imágenes y PDFs a texto, Baroc Recognizer es la herramienta ideal para vos. Es perfecto tanto para profesionales como para pequeños emprendimientos que buscan eficiencia y precisión en el manejo de datos.

Con una interfaz sencilla, múltiples opciones de configuración y la robustez del procesamiento en lote, este software es una solución indispensable para optimizar tu flujo de trabajo en OCR.

Si te interesa conocer más o descargarlo, visitá aldo.net.ar/baroc_recognizer y descubrí todo lo que este programa tiene para ofrecerte.

2025-02-09

Regex Bulk Replace: Multiple busqueda y reemplazo con expresiones regulares.

Si necesitás transformar textos de forma precisa, Regex Bulk Replace es la herramienta ideal, esta app te permite aplicar múltiples búsquedas y reemplazos en secuencia usando el poder de las expresiones regulares.

¿Qué hace la aplicación?

- Búsqueda avanzada con regex: Podés ingresar patrones de búsqueda complejos para encontrar justo lo que necesitás reemplazar.  

- Reemplazos secuenciales: Configurá varios bloques de búsqueda y reemplazo que se ejecutan uno detrás de otro, perfeccionando el texto paso a paso.  

- Ajustes precisos: Elegí si querés distinguir mayúsculas, buscar palabras completas o realizar cambios en los saltos de línea.  

- Guardá tu trabajo: Además de copiar el resultado, podés guardar tanto la configuración de los bloques como el texto final en un archivo.

En definitiva, Regex Bulk Replace te brinda una forma sencilla y potente de editar textos con expresiones regulares, optimizando tareas repetitivas y ahorrándote tiempo.

https://github.com/aldomach/Regex-Bulk-Replace

2025-01-24

Parrafix Elimina lineas cortadas resultante de la extracción del texto de un pdf

Parrafix


Soluciona el error cuando un txt tiene todos los parrafos cortados, con saltos de lineas, los elimina y deja solo si terminan con punto.

Despues de convertir una archivo pdf a txt todas los renglones terminan con saltos de líneas, esto es incorrecto. deberían ser lineas continuas hasta el punto de fin de parrafo.

Guía: Uso y Función del Script de Procesamiento de Texto

Este archivo adjunto te ayudará a entender para qué sirve el script, qué problemas resuelve y cómo usarlo.

¿Qué hace este script?

El script está diseñado para procesar texto en un archivo, limpiando y ajustando su formato automáticamente. Está pensado especialmente para casos en los que un archivo de texto tiene problemas comunes como:

  1. Palabras divididas por guiones al final de una línea
  2. ejemplo: "pro-\ncesar" pro- salto de linea cesar).
  3. Referencias numéricas innecesarias al final de líneas.
  4. Saltos de línea innecesarios que interrumpen el flujo de los párrafos.

El objetivo principal es mejorar la calidad del texto para que sea más fácil de leer o procesar.

Funciones del script

El script realiza las siguientes transformaciones:

1. Unir palabras cortadas por guiones

  • Cuando una palabra está dividida entre líneas mediante un guion (-), el script elimina el guion y el salto de línea.
    Ejemplo:
    pro-
    cesar
    Se convierte en:
    procesar

2. Eliminar referencias numéricas

Si una línea termina con un texto seguido de un número (ejemplo: "Texto.123\n"), se elimina el número y el salto de línea.

  • Ejemplo:
    Sección.123
    Se convierte en:
    Sección.

3. Eliminar saltos de línea innecesarios

  • Si un salto de línea no está precedido por un punto (.), se reemplaza por un espacio. Esto es útil para unir líneas que deberían formar un solo párrafo.
    Ejemplo:
    Esto es un
    párrafo dividido
    en varias líneas.
    Se convierte en:
    Esto es un párrafo dividido en varias líneas.

¿Qué problemas resuelve?

El script es útil en situaciones como:

  • Archivos de texto generados a partir de documentos escaneados o convertidos de PDF.
  • Archivos donde las líneas están mal formateadas debido a divisiones automáticas de palabras.
  • Necesidad de limpiar referencias o elementos innecesarios en el texto antes de usarlo para otro propósito, como convertirlo a audio o realizar análisis textual.

¿Cómo usar el script?

  1. Asegurate de tener Python instalado en tu computadora.
  2. Guarda el script en un archivo con extensión .py (por ejemplo, parrafix.py).
  3. Desde la línea de comandos, ejecutá el script pasando como argumento el nombre del archivo que querés procesar. Ejemplo:
    python parrafix.py archivo.txt
  4. El script procesará el archivo y generará uno nuevo con el prefijo procesado_ en el mismo directorio. Por ejemplo, si el archivo original era archivo.txt, el resultado será procesado_archivo.txt.

Mensajes útiles del script

  • Archivo no encontrado: Si el archivo no existe, el script te lo indicará y te pedirá que verifiques el nombre del archivo.
  • Texto procesado exitosamente: Indica que el archivo fue procesado y se guardó correctamente.