2025-02-15

Baroc Recognizer - "Batch and Recursive Optical Character Recognition" (OCR)

 

Hoy quiero presentarte Baroc Recognizer (Batch and Recursive Optical Character Recognition), una herramienta que va a facilitar la forma en que trabajás con documentos digitales. Este software está diseñado para realizar OCR (Reconocimiento Óptico de Caracteres) de manera masiva y recursiva en PDFs e imágenes. Si necesitás extraer texto de cientos de documentos sin tener que hacerlo uno por uno, ¡este programa es para vos!

¿Qué es Baroc Recognizer?
Baroc Recognizer es una solución integral para convertir documentos escaneados o imágenes en texto editable. Con su capacidad para procesar archivos en lote y de forma recursiva, podés ahorrar tiempo y esfuerzo en tareas que, de otra manera, te llevarían horas.

¿Por qué usarlo?
Procesamiento en Lote: Olvidate de abrir cada archivo de forma individual. Con Baroc Recognizer podés seleccionar un grupo de archivos y procesarlos todos a la vez.
Recursividad: Si tenés carpetas con subcarpetas, el programa las recorre automáticamente, buscando y procesando todos los PDFs e imágenes compatibles.
Flexibilidad en la salida: Podés elegir entre combinar todos los resultados en un solo archivo o generar archivos separados para cada documento. ¡La decisión es tuya!
Interfaz Intuitiva: La interfaz está pensada para que, con unos pocos clics, vos configures las opciones de procesamiento, el destino de los archivos y hasta el modo en que se crean las carpetas de salida.
Este software refleja un enfoque práctico para resolver problemas reales de reconocimiento de texto.
¿Cómo funciona?
Selección de Origen: Podés elegir entre seleccionar archivos individuales o una carpeta completa. Si seleccionás archivos, se te da la opción de combinar los resultados en un solo PDF o crear múltiples archivos.
Configuración de Opciones: Definí si querés procesar PDFs, imágenes, o ambos. Además, podés ajustar detalles como la resolución (¡incluso tenés opción a 75 DPI para archivos más livianos!) y cómo se organizarán las carpetas de destino.
Proceso Automático: Una vez configurado, el programa recorre los documentos y, utilizando la tecnología OCR, extrae el texto. El resultado lo podés encontrar en la carpeta de destino que hayas indicado.
Resultados y Control: Mientras se procesa la información, la interfaz te muestra un contador y un resumen del progreso, para que siempre sepas cómo va la operación.
¿A quién va dirigido?
Si trabajás en la digitalización de documentos, gestión de archivos o simplemente necesitás convertir montones de imágenes y PDFs a texto, Baroc Recognizer es la herramienta ideal para vos. Es perfecto tanto para profesionales como para pequeños emprendimientos que buscan eficiencia y precisión en el manejo de datos.

Con una interfaz sencilla, múltiples opciones de configuración y la robustez del procesamiento en lote, este software es una solución indispensable para optimizar tu flujo de trabajo en OCR.

Si te interesa conocer más o descargarlo, visitá aldo.net.ar/baroc_recognizer y descubrí todo lo que este programa tiene para ofrecerte.

2025-02-09

Regex Bulk Replace: Multiple busqueda y reemplazo con expresiones regulares.

Si necesitás transformar textos de forma precisa, Regex Bulk Replace es la herramienta ideal, esta app te permite aplicar múltiples búsquedas y reemplazos en secuencia usando el poder de las expresiones regulares.

¿Qué hace la aplicación?

- Búsqueda avanzada con regex: Podés ingresar patrones de búsqueda complejos para encontrar justo lo que necesitás reemplazar.  

- Reemplazos secuenciales: Configurá varios bloques de búsqueda y reemplazo que se ejecutan uno detrás de otro, perfeccionando el texto paso a paso.  

- Ajustes precisos: Elegí si querés distinguir mayúsculas, buscar palabras completas o realizar cambios en los saltos de línea.  

- Guardá tu trabajo: Además de copiar el resultado, podés guardar tanto la configuración de los bloques como el texto final en un archivo.

En definitiva, Regex Bulk Replace te brinda una forma sencilla y potente de editar textos con expresiones regulares, optimizando tareas repetitivas y ahorrándote tiempo.

https://github.com/aldomach/Regex-Bulk-Replace

2025-01-24

Parrafix Elimina lineas cortadas resultante de la extracción del texto de un pdf

Parrafix


Soluciona el error cuando un txt tiene todos los parrafos cortados, con saltos de lineas, los elimina y deja solo si terminan con punto.

Despues de convertir una archivo pdf a txt todas los renglones terminan con saltos de líneas, esto es incorrecto. deberían ser lineas continuas hasta el punto de fin de parrafo.

Guía: Uso y Función del Script de Procesamiento de Texto

Este archivo adjunto te ayudará a entender para qué sirve el script, qué problemas resuelve y cómo usarlo.

¿Qué hace este script?

El script está diseñado para procesar texto en un archivo, limpiando y ajustando su formato automáticamente. Está pensado especialmente para casos en los que un archivo de texto tiene problemas comunes como:

  1. Palabras divididas por guiones al final de una línea
  2. ejemplo: "pro-\ncesar" pro- salto de linea cesar).
  3. Referencias numéricas innecesarias al final de líneas.
  4. Saltos de línea innecesarios que interrumpen el flujo de los párrafos.

El objetivo principal es mejorar la calidad del texto para que sea más fácil de leer o procesar.

Funciones del script

El script realiza las siguientes transformaciones:

1. Unir palabras cortadas por guiones

  • Cuando una palabra está dividida entre líneas mediante un guion (-), el script elimina el guion y el salto de línea.
    Ejemplo:
    pro-
    cesar
    Se convierte en:
    procesar

2. Eliminar referencias numéricas

Si una línea termina con un texto seguido de un número (ejemplo: "Texto.123\n"), se elimina el número y el salto de línea.

  • Ejemplo:
    Sección.123
    Se convierte en:
    Sección.

3. Eliminar saltos de línea innecesarios

  • Si un salto de línea no está precedido por un punto (.), se reemplaza por un espacio. Esto es útil para unir líneas que deberían formar un solo párrafo.
    Ejemplo:
    Esto es un
    párrafo dividido
    en varias líneas.
    Se convierte en:
    Esto es un párrafo dividido en varias líneas.

¿Qué problemas resuelve?

El script es útil en situaciones como:

  • Archivos de texto generados a partir de documentos escaneados o convertidos de PDF.
  • Archivos donde las líneas están mal formateadas debido a divisiones automáticas de palabras.
  • Necesidad de limpiar referencias o elementos innecesarios en el texto antes de usarlo para otro propósito, como convertirlo a audio o realizar análisis textual.

¿Cómo usar el script?

  1. Asegurate de tener Python instalado en tu computadora.
  2. Guarda el script en un archivo con extensión .py (por ejemplo, parrafix.py).
  3. Desde la línea de comandos, ejecutá el script pasando como argumento el nombre del archivo que querés procesar. Ejemplo:
    python parrafix.py archivo.txt
  4. El script procesará el archivo y generará uno nuevo con el prefijo procesado_ en el mismo directorio. Por ejemplo, si el archivo original era archivo.txt, el resultado será procesado_archivo.txt.

Mensajes útiles del script

  • Archivo no encontrado: Si el archivo no existe, el script te lo indicará y te pedirá que verifiques el nombre del archivo.
  • Texto procesado exitosamente: Indica que el archivo fue procesado y se guardó correctamente.

2024-11-25

Obsidian - Mover Archivos de Fecha a Carpetas Específicas.

Para lograr que las notas con títulos de fecha se muevan automáticamente a una carpeta específica después de crearlas, podés usar el plugin Templater en combinación con algunos ajustes personalizados en Obsidian.

Por Ejemplo: MisNotas\AAAA\AAAA-MM-DD

2024-11-21

Obsidian - Reemplazar fechas dd-mm-aaaa por aaaa-mm-dd.

Obsidian-Regex-Replace es un plugin para Obsidian que te permite realizar búsquedas y reemplazos avanzados utilizando expresiones regulares. Las expresiones
regulares son patrones que te ayudan a buscar y manipular texto de manera eficiente.

2024-11-13

Modulo Power Dc-dc Step-down 24v/12v A 5v 5a 4 Usb

Navegando en internet, me topé con un módulo DC-DC Step-down que me llamó mucho la atención: el modelo de 24V/12V a 5V, con salida de 5A y cuatro puertos USB. Este convertidor es ideal para alimentar dispositivos electrónicos que requieren 5V (como celulares, tablets o dispositivos portatiles), pero funciona desde una fuente de mayor voltaje, como un sistema de 24V o 12V, común en vehículos y aplicaciones industriales.

2024-11-11

Habilitar "Finalizar tarea" en Windows 11

Para finalizar tareas haciendo clic derecho en la barra de tareas de Windows, seguí estos pasos para activar la opción:

  1. Abrí Configuración con la tecla de Windows + I.
  2. Andá a Sistema.
  3. En el menú de la izquierda, hacé clic en Para Programadores (Para Desarrolladores).

2024-11-03

Parrafix - Elimina lineas cortadas de parrafos, resultante de la extracción del texto de un pdf.

Optimizando la Conversión de PDF a Audio con Expresiones Regulares en Notepad++.

Transformar un libro PDF en un archivo de audio puede ser una tarea complicada, especialmente cuando la conversión inicial a TXT resulta en líneas cortadas, lo que afecta la fluidez del texto y, por ende, la calidad del audio final. La solución reside en el uso de expresiones regulares en Notepad++, una herramienta poderosa para limpiar y organizar texto .

Cambiar el tamaño de la barra de tareas de Windows 11

Abrir el Editor del Registro:

  1. Presioná Windows + R para abrir el cuadro de diálogo Ejecutar.
  2. Escribí regedit y presioná Enter.
  3. Navegar a la clave del registro:
  4. Andá a HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\Advanced.
  5. Crear un nuevo valor DWORD (32 bits):
  6. Hacé clic derecho en el espacio en blanco del panel derecho y seleccioná Nuevo > Valor de DWORD (32 bits).

2024-11-02

Elimina el Fondo de las imágenes con BGBye - Background Remover,

fyrean.itch.io bgbye-background-remover permite eliminar fondos de imágenes y videos de manera gratuita. Puedes subir imágenes o videos arrastrándolos y soltándolos, o pegándolos (Ctrl+V), y la herramienta hará el resto.

  • Eliminación de Fondos: Permite eliminar fondos de imágenes y videos utilizando varios métodos avanzados.
  • Interfaz Simple: Es fácil de usar con opciones de arrastrar y soltar, o pegar imágenes y videos.
  • Métodos Avanzados: Utiliza modelos de inteligencia artificial de última generación para una eliminación precisa del fondo. 



2024-10-09

Cargar chromium al inicio rasbperry pi usando .desktop

1. Asegurate de tener Google Chrome instalado

Si todavía no lo tenés, podés instalarlo o usar Chromium, que es la versión libre. Para instalar Chromium, simplemente ejecutá este comando en la terminal:

`sudo apt update && sudo apt install -y chromium-browser`

Si querés usar Google Chrome, primero descargá el instalador desde la web o usá `wget` para bajarlo directamente.

2.  Creá un archivo de autoinicio

Los programas que arrancan automáticamente al iniciar el escritorio están configurados en la carpeta `~/.config/autostart`. Ahí podés agregar un archivo `.desktop` para incluir Google Chrome.

Paso a paso:

1. Abrí la terminal y ejecutá:

    `mkdir -p ~/.config/autostart nano ~/.config/autostart/chrome.desktop`

    Esto abre el editor nano para que puedas crear el archivo.

2. Pegá este contenido dentro del archivo:

    `[Desktop Entry] Type=Application Name=Google Chrome Exec=chromium-browser --start-fullscreen X-GNOME-Autostart-enabled=true`

    - Exec: Es el comando que arranca Chrome o Chromium. Si usás Google Chrome, reemplazá `chromium-browser` por `google-chrome`.

    - --start-fullscreen: Hace que el navegador se abra en pantalla completa (opcional).

3. Guardá el archivo presionando `Ctrl+O`, después `Enter`, y cerrá el editor con `Ctrl+X`.

    

2024-10-03

Traduce cualquier video de youtube.

Speak Subtitles for YouTube es una extensión de navegador que utiliza tecnología de inteligencia artificial para convertir los subtítulos de videos de YouTube en voz natural. Esta herramienta permite que los subtítulos se lean en voz alta mientras ves el video, lo que puede ser especialmente útil para personas con discapacidades visuales o para aquellos que prefieren escuchar el contenido en lugar de leerlo.