Hoy quiero presentarte Baroc Recognizer (Batch and Recursive Optical Character Recognition), una herramienta que va a facilitar la forma en que trabajás con documentos digitales. Este software está diseñado para realizar OCR (Reconocimiento Óptico de Caracteres) de manera masiva y recursiva en PDFs e imágenes. Si necesitás extraer texto de cientos de documentos sin tener que hacerlo uno por uno, ¡este programa es para vos!
2025-02-15
Baroc Recognizer - "Batch and Recursive Optical Character Recognition" (OCR)
2025-02-09
Regex Bulk Replace: Multiple busqueda y reemplazo con expresiones regulares.
¿Qué hace la aplicación?
- Búsqueda avanzada con regex: Podés ingresar patrones de búsqueda complejos para encontrar justo lo que necesitás reemplazar.
- Reemplazos secuenciales: Configurá varios bloques de búsqueda y reemplazo que se ejecutan uno detrás de otro, perfeccionando el texto paso a paso.
- Ajustes precisos: Elegí si querés distinguir mayúsculas, buscar palabras completas o realizar cambios en los saltos de línea.
- Guardá tu trabajo: Además de copiar el resultado, podés guardar tanto la configuración de los bloques como el texto final en un archivo.
En definitiva, Regex Bulk Replace te brinda una forma sencilla y potente de editar textos con expresiones regulares, optimizando tareas repetitivas y ahorrándote tiempo.
2025-01-24
Parrafix Elimina lineas cortadas resultante de la extracción del texto de un pdf
Parrafix
Soluciona el error cuando un txt tiene todos los parrafos cortados, con saltos de lineas, los elimina y deja solo si terminan con punto.
Despues de convertir una archivo pdf a txt todas los renglones terminan con saltos de líneas, esto es incorrecto. deberían ser lineas continuas hasta el punto de fin de parrafo.
Guía: Uso y Función del Script de Procesamiento de Texto
Este archivo adjunto te ayudará a entender para qué sirve el script, qué problemas resuelve y cómo usarlo.
¿Qué hace este script?
El script está diseñado para procesar texto en un archivo, limpiando y ajustando su formato automáticamente. Está pensado especialmente para casos en los que un archivo de texto tiene problemas comunes como:
- Palabras divididas por guiones al final de una línea
- ejemplo: "pro-\ncesar" pro- salto de linea cesar).
- Referencias numéricas innecesarias al final de líneas.
- Saltos de línea innecesarios que interrumpen el flujo de los párrafos.
El objetivo principal es mejorar la calidad del texto para que sea más fácil de leer o procesar.
Funciones del script
El script realiza las siguientes transformaciones:
1. Unir palabras cortadas por guiones
- Cuando una palabra está dividida entre líneas mediante un guion (-), el script elimina el guion y el salto de línea.
Ejemplo:
pro-
cesar
Se convierte en:
procesar
2. Eliminar referencias numéricas
Si una línea termina con un texto seguido de un número (ejemplo: "Texto.123\n"), se elimina el número y el salto de línea.
- Ejemplo:
Sección.123
Se convierte en:
Sección.
3. Eliminar saltos de línea innecesarios
- Si un salto de línea no está precedido por un punto (.), se reemplaza por un espacio. Esto es útil para unir líneas que deberían formar un solo párrafo.
Ejemplo:
Esto es un
párrafo dividido
en varias líneas.
Se convierte en:
Esto es un párrafo dividido en varias líneas.
¿Qué problemas resuelve?
El script es útil en situaciones como:
- Archivos de texto generados a partir de documentos escaneados o convertidos de PDF.
- Archivos donde las líneas están mal formateadas debido a divisiones automáticas de palabras.
- Necesidad de limpiar referencias o elementos innecesarios en el texto antes de usarlo para otro propósito, como convertirlo a audio o realizar análisis textual.
¿Cómo usar el script?
- Asegurate de tener Python instalado en tu computadora.
- Guarda el script en un archivo con extensión .py (por ejemplo, parrafix.py).
- Desde la línea de comandos, ejecutá el script pasando como argumento el nombre del archivo que querés procesar. Ejemplo:
python parrafix.py archivo.txt - El script procesará el archivo y generará uno nuevo con el prefijo procesado_ en el mismo directorio. Por ejemplo, si el archivo original era archivo.txt, el resultado será procesado_archivo.txt.
Mensajes útiles del script
- Archivo no encontrado: Si el archivo no existe, el script te lo indicará y te pedirá que verifiques el nombre del archivo.
- Texto procesado exitosamente: Indica que el archivo fue procesado y se guardó correctamente.