Se me ha ocurrido una idea para la cual tengo que consultar un montón de documentos con datos, estos en PDF… he estado jugando con ellos, los formatos de origen son tan disimbolos como la época en que los generaban directamente en excel y los pasaban por adobe distiller y generaban el pdf hasta los actuales que directamente en word los graban como pdf con todo la información extra que pueden imaginar…
Necesito varios datos que son números, entonces algunas series son relativamente similares y tan solo hay que convertirlas de porcentajes a los números que representan, por supuesto trabajo que cualquier hoja de calculo hace gnumeric es donde he empezado a trabajar.
Pero la gran pregunta, ¿habrá una forma sencilla y sin dolor de extraer el texto y los datos de los PDF sin tener que andar transcribiendo?, ¿y que sea software libre?, copiar y pegar no es tan opción ya que tiene casi el mismo margen de error que transcribir, al menos en mi caso.
Comencé a probar poppler-utils pero no he obtenido el resultado deseado, también no le he dedicado más de tres horas, no de corridas y repartidas en el mismo número de meses, ¿sera que alguien ya se enfrentó a algún problema similar?
Sabes que yo leo mi correo desde la consola, con mutt. Para no perder el tiempo lanzando un programa basado en X si puedo evitarlo, uso ‘pdftotext’ para convertir mi PDF en texto plano y verlo en el mismo mutt, seguro podrás hacer lo mismo para desde ahí analizar tranquilamente.
Nomás porque no lo pediste pero no te vas a quejar ;-) te paso mi .mailcap:
application/pdf; pdftotext %s – ; copiousoutput
image/*; cacaview %s
application/msword; antiword %s ; copiousoutput
application/vnd.oasis.opendocument.text; odt2txt –width=80 %s ; copiousoutput
application/vnd.openxmlformats-officedocument.wordprocessingml.document; docx2txt %s – ; copiousoutput
Jeje, gracias, esperaba más respuestas de planetalinux, pero se agradece, en efecto desde que escribí estuve probando pdftofext, como son más bien tablas y números, no me ha dado los resultados esperados todavía, creo es cosa de jugar un rato con las opciones, creo al final hasta transcribir puede ser más útil ya que son variados los tipos de archivo fuente aunque todos se presenten como pdf, algunos son meras imágenes escaneadas y convertidas en pdf, que alguna vez por ahí me hice un script para hacer OCR de los juegos de los horarios que publicaban en jpg en la página de la liga… espero haberlo metido en mi repo, ya que ese + el pdftotext me van a ser útiles para algunos casos… y ni siquiera lo documente pero sirva para que no se me olvide, lo hice en su momento con gocr.