{"id":1549,"date":"2016-03-09T14:23:10","date_gmt":"2016-03-09T20:23:10","guid":{"rendered":"http:\/\/blografia.net\/vicm3\/?p=1549"},"modified":"2016-03-09T14:23:10","modified_gmt":"2016-03-09T20:23:10","slug":"transcribir-convertir","status":"publish","type":"post","link":"https:\/\/blografia.net\/vicm3\/2016\/03\/transcribir-convertir\/","title":{"rendered":"Transcribir \/ Convertir"},"content":{"rendered":"<p>Se me ha ocurrido una idea para la cual tengo que consultar un mont\u00f3n de documentos con datos, estos en PDF&#8230; he estado jugando con ellos, los formatos de origen son tan disimbolos como la \u00e9poca en que los generaban directamente en excel y los pasaban por adobe distiller y generaban el pdf hasta los actuales que directamente en word los graban como pdf con todo la informaci\u00f3n extra que pueden imaginar&#8230;<\/p>\n<p>Necesito varios datos que son n\u00fameros, entonces algunas series son relativamente similares y tan solo hay que convertirlas de porcentajes a los n\u00fameros que representan, por supuesto trabajo que cualquier hoja de calculo hace gnumeric es donde he empezado a trabajar.<\/p>\n<p>Pero la gran pregunta, \u00bfhabr\u00e1 una forma sencilla y sin dolor de extraer el texto y los datos de los PDF sin tener que andar transcribiendo?, \u00bfy que sea software libre?, copiar y pegar no es tan opci\u00f3n ya que tiene casi el mismo margen de error que transcribir, al menos en mi caso.<\/p>\n<p>Comenc\u00e9 a probar\u00a0<a href=\"https:\/\/packages.debian.org\/jessie\/poppler-utils\">poppler-utils<\/a>\u00a0pero no he obtenido el resultado deseado, tambi\u00e9n no le he dedicado m\u00e1s de tres horas, no de corridas y repartidas en el mismo n\u00famero de meses, \u00bfsera que alguien ya se enfrent\u00f3 a alg\u00fan problema similar?<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Se me ha ocurrido una idea para la cual tengo que consultar un mont\u00f3n de documentos con datos, estos en PDF&#8230; he estado jugando con ellos, los formatos de origen son tan disimbolos como la \u00e9poca en que los generaban &hellip; <a href=\"https:\/\/blografia.net\/vicm3\/2016\/03\/transcribir-convertir\/\">Sigue leyendo <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"advanced_seo_description":"","jetpack_seo_html_title":"","jetpack_seo_noindex":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"jetpack_post_was_ever_published":false},"categories":[10,8],"tags":[579,296,578,580],"class_list":["post-1549","post","type-post","status-publish","format-standard","hentry","category-planetalinux","category-sysadmin","tag-convertir","tag-pdf","tag-pdftosrc","tag-transcribir"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack-related-posts":[{"id":1044,"url":"https:\/\/blografia.net\/vicm3\/2013\/05\/tpp-peor-que-sopa-o-el-naftatlc\/","url_meta":{"origin":1549,"position":0},"title":"TPP, peor que SOPA o el NAFTA\/TLC","author":"vicm3","date":"1 mayo, 2013","format":false,"excerpt":"Gunnar difunde informaci\u00f3n muy importante en su blog sobre acuerdos comerciales que est\u00e1n sucediendo pueden pasar y que no est\u00e1n haciendo mucho ruido en los medios y en\u00a0 en los interwebz mexicanos, lo cual de inicio ya es preocupante, la informaci\u00f3n y su difusi\u00f3n me parece muy importante, pero tambi\u00e9n\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"tpp_spanish_720px","src":"https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2013\/04\/tpp_spanish_720px.png?resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2013\/04\/tpp_spanish_720px.png?resize=350%2C200 1x, https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2013\/04\/tpp_spanish_720px.png?resize=525%2C300 1.5x, https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2013\/04\/tpp_spanish_720px.png?resize=700%2C400 2x"},"classes":[]},{"id":2121,"url":"https:\/\/blografia.net\/vicm3\/2019\/11\/mas-de-raspado-en-la-red\/","url_meta":{"origin":1549,"position":1},"title":"M\u00e1s de raspado en la red","author":"vicm3","date":"5 noviembre, 2019","format":false,"excerpt":"No me gustaba mucho el termino webscrap porque me sonaba a una forma adornada de decir hacer un espejo de informaci\u00f3n, ahora que he estado haciendo algunos ejercicios de un curso de datos y periodismo, encuentro que bien hecho es m\u00e1s que descargarse todos los datos, en realidad como lo\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":2048,"url":"https:\/\/blografia.net\/vicm3\/2019\/06\/grandes-datos\/","url_meta":{"origin":1549,"position":2},"title":"Grandes Datos","author":"vicm3","date":"14 junio, 2019","format":false,"excerpt":"Y bueno he estado trabajando con un mont\u00f3n de archivos PDF y ha sido interesante, ya que me encontr\u00e9 que los sistemas que estaba consultado eran feos, ahora ya est\u00e1n bonitos, pero sigue siendo una lata consultarlos ya que no se puede hacer una consulta diferente a partir de la\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":1988,"url":"https:\/\/blografia.net\/vicm3\/2019\/01\/hipoteticamente\/","url_meta":{"origin":1549,"position":3},"title":"Hipot\u00e9ticamente","author":"vicm3","date":"24 enero, 2019","format":false,"excerpt":"Digamos que hay gente que registra mi correo porque registro un correo que se parece o porque no se sabe su correo y lo registra como el mio... y siguiendo en la misma l\u00f3gica pensemos en que el cifrado es importante para proteger datos, y ya que estamos en esto\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":1306,"url":"https:\/\/blografia.net\/vicm3\/2014\/04\/publicacion-en-formato-digital\/","url_meta":{"origin":1549,"position":4},"title":"Publicaci\u00f3n en formato digital","author":"vicm3","date":"23 abril, 2014","format":false,"excerpt":"Una de las noticias de principio de este a\u00f1o o finales del anterior que se antojaba interesante era que un par de publicaciones de la UPN se pasaban | a\u00f1ad\u00edan versi\u00f3n digital [1], lo cual me pareci\u00f3 muy buena idea, ya hace un par de a\u00f1os se hab\u00edan puesto a\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":1360,"url":"https:\/\/blografia.net\/vicm3\/2014\/09\/de-trebejos-y-textos\/","url_meta":{"origin":1549,"position":5},"title":"De trebejos y textos","author":"vicm3","date":"9 septiembre, 2014","format":false,"excerpt":"En noviembre de 2012 me encontr\u00e9 revisando algunos documentos que est\u00e1n en mis directorios personales, pero que cargo junto con los del trabajo, organice lo que es personal y lo complete con mi directorio que no estaba en control de versiones, con una estructura similar a la del trabajo y\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]}],"_links":{"self":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/posts\/1549","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/comments?post=1549"}],"version-history":[{"count":0,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/posts\/1549\/revisions"}],"wp:attachment":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/media?parent=1549"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/categories?post=1549"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/tags?post=1549"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}