Transformar un libro PDF en un archivo de audio puede ser una tarea complicada, especialmente cuando la conversión inicial a TXT resulta en líneas cortadas, lo que afecta la fluidez del texto y, por ende, la calidad del audio final. La solución reside en el uso de expresiones regulares en Notepad++, una herramienta poderosa para limpiar y organizar texto .
En Notepad++, utilicé la expresión regular (?<!\.)\r?\n para identificar y eliminar los saltos de línea que no son precedidos por un punto. Esto permitió que el texto recuperara su continuidad original, asegurando que las frases se mantuvieran completas y los párrafos correctamente estructurados. Al hacerlo, mejoré significativamente la calidad del audio generado a partir del texto.
Palabras cortadas: Buscá saltos cuando la línea termina en guion medio (-) precedido de una o más letras o el caracter espacial SHY( Soft Hyphen)
- Cualquiera de los dos caracteres
- Expresión Regular: ([A-Za-z]+)([\xAD-])(\r?\n)+([A-Za-z]+)
- Reemplazo: \1\4
- Si el documento está correctamente identificado el caracter "-" debería ser shy (SHY - Soft Hyphen) \xAD
- Expresión Regular:([A-Za-z]+)\xAD(\r?\n)+([A-Za-z]+)
- Reemplazo: \1 \3
- Si el documento guion medio (-)
- Expresión Regular: ([A-Za-z]+)-(\r?\n)+([A-Za-z]+)
- Reemplazo: \1\3
- Minusculas al inicio: Eliminar todos los saltos cuando al final y al inicio de la proxima línea tiene minusculas.
- Expresión Regular: ([a-z]+)(\r?\n)+([a-z]+)
- Reemplazo: \1 \3
- Coma y Puntoy coma:
- Expresión Regular:([A-Za-z]+)([,;])?(\r?\n)([A-Za-z]+)
- Reemplazo: \1 \3
- Números de Referencias: Elimina las referencias a pie de página, números que están después de un punto al final de un renglón.
- Expresión Regular: ([a-zA-Z]+\.)(\d+)(\r?\n)
- Reemplazo: \1\3
- Saltos de línea: Eliminá los saltos de línea cuando estas no terminen con un punto.
- Expresión Regular: (?<!\.)\r?\n
- Reemplazo: (espacio)
- Encontrar titulos escritos en mayuscula (hacer manualmente).
- (?<![a-z])[A-Z]+\r?\n