Transcribir / Convertir

Se me ha ocurrido una idea para la cual tengo que consultar un montón de documentos con datos, estos en PDF… he estado jugando con ellos, los formatos de origen son tan disimbolos como la época en que los generaban directamente en excel y los pasaban por adobe distiller y generaban el pdf hasta los actuales que directamente en word los graban como pdf con todo la información extra que pueden imaginar…

Necesito varios datos que son números, entonces algunas series son relativamente similares y tan solo hay que convertirlas de porcentajes a los números que representan, por supuesto trabajo que cualquier hoja de calculo hace gnumeric es donde he empezado a trabajar.

Pero la gran pregunta, ¿habrá una forma sencilla y sin dolor de extraer el texto y los datos de los PDF sin tener que andar transcribiendo?, ¿y que sea software libre?, copiar y pegar no es tan opción ya que tiene casi el mismo margen de error que transcribir, al menos en mi caso.

Comencé a probar poppler-utils pero no he obtenido el resultado deseado, también no le he dedicado más de tres horas, no de corridas y repartidas en el mismo número de meses, ¿sera que alguien ya se enfrentó a algún problema similar?

Esta entrada fue publicada en planetalinux, sysadmin y etiquetada , , , . Guarda el enlace permanente.

2 respuestas a Transcribir / Convertir

  1. Gunnar dijo:

    Sabes que yo leo mi correo desde la consola, con mutt. Para no perder el tiempo lanzando un programa basado en X si puedo evitarlo, uso ‘pdftotext’ para convertir mi PDF en texto plano y verlo en el mismo mutt, seguro podrás hacer lo mismo para desde ahí analizar tranquilamente.

    Nomás porque no lo pediste pero no te vas a quejar ;-) te paso mi .mailcap:

    application/pdf; pdftotext %s – ; copiousoutput
    image/*; cacaview %s
    application/msword; antiword %s ; copiousoutput
    application/vnd.oasis.opendocument.text; odt2txt –width=80 %s ; copiousoutput
    application/vnd.openxmlformats-officedocument.wordprocessingml.document; docx2txt %s – ; copiousoutput

    • vicm3 dijo:

      Jeje, gracias, esperaba más respuestas de planetalinux, pero se agradece, en efecto desde que escribí estuve probando pdftofext, como son más bien tablas y números, no me ha dado los resultados esperados todavía, creo es cosa de jugar un rato con las opciones, creo al final hasta transcribir puede ser más útil ya que son variados los tipos de archivo fuente aunque todos se presenten como pdf, algunos son meras imágenes escaneadas y convertidas en pdf, que alguna vez por ahí me hice un script para hacer OCR de los juegos de los horarios que publicaban en jpg en la página de la liga… espero haberlo metido en mi repo, ya que ese + el pdftotext me van a ser útiles para algunos casos… y ni siquiera lo documente pero sirva para que no se me olvide, lo hice en su momento con gocr.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.