{"id":2121,"date":"2019-11-05T10:55:42","date_gmt":"2019-11-05T16:55:42","guid":{"rendered":"http:\/\/blografia.net\/vicm3\/?p=2121"},"modified":"2019-11-05T11:01:18","modified_gmt":"2019-11-05T17:01:18","slug":"mas-de-raspado-en-la-red","status":"publish","type":"post","link":"https:\/\/blografia.net\/vicm3\/2019\/11\/mas-de-raspado-en-la-red\/","title":{"rendered":"M\u00e1s de raspado en la red"},"content":{"rendered":"<p class=\"western\" lang=\"es-ES\" align=\"left\">No me gustaba mucho el termino webscrap porque me sonaba a una forma adornada de decir hacer un espejo de informaci\u00f3n, ahora que he estado haciendo algunos ejercicios de un curso de datos y periodismo, encuentro que bien hecho es m\u00e1s que descargarse todos los datos, en realidad como lo dice, raspar los datos de una inmensidad de cosas que no te quieres traer.<\/p>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">Entonces raspar me gusto m\u00e1s, siguiendo con esto de la transparencia, en el CONSOL pasado tuve el gusto de conocer a Petrosh y de platicar largo y tendido, al estar m\u00e1s cerca del rancho Electr\u00f3nico le comente que quise ir a una charla \/ taller que hubo en octubre de 2018 llamada \u201cHackeando Infomex T\u00e9cnicas de scrapeo de la plataforma de Informaci\u00f3n P\u00fablica\u201d que medio segu\u00ed en twitter lo que fueron poniendo me conecte y no pude ver mucho de lo que dijeron y no tuve la previsi\u00f3n de respaldar el pad que se utilizo donde ven\u00edan algunas ideas que seguro ya implemente, pero regresando al platicar de esto y de lo que iba a hablar en Consol, me quedo un poco de inquietud de lo que se platico y de que un poco a prop\u00f3sito se mantuvo perfil bajo por el tema y porque no se quiere hacer mucho ruido, por el \u00e1rea un tanto gris en la que se encuentra ese tipo de actividad.<\/p>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">Hace poco estuve pensando en que en efecto en es un relajo entre SIPOT donde reportan las obligaciones de transparencia y las diferentes partes de las p\u00e1ginas de gobierno que hacen transparencia proactiva y de inter\u00e9s publico (que justo lo que le interesa al publico y nos gustar\u00eda saber es lo que menos ponen) record\u00e9 que Infomex es donde se solicita informaci\u00f3n y que ciertamente las respuestas luego son m\u00e1s interesantes porque ademas son publicas.<\/p>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">Ya he desechado al menos para esta entrega el aprendizaje autom\u00e1tico, pero se me ocurri\u00f3 y si obtenemos todas las respuestas publicas para un organismo, \u00bfque tan dif\u00edcil puede ser?<\/p>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">El propio Infomex en su secci\u00f3n de datos abiertos provee de JSON, CSV y alg\u00fan otro formato con todas las peticiones y respuestas que se puede trabajar, que puede ser por a\u00f1o, por dependencia o global, el m\u00e1s interesante por supuesto es el global, pero casi que esta pensado para que se le dificulte a uno su uso muy a prop\u00f3sito, por el tama\u00f1o son uno 800MB de registros\u2026 con los cual un rato estuve jugando en Gnumeric, encontr\u00e9 los de la dependencia que me interesaba y el folio que representaba la informaci\u00f3n, ahora una cosa que no es demasiado clara hasta que ha estado uno usando el sistema un rato es que a las peticiones se les puede contestar, con inexistente, reservado, se requiere m\u00e1s informaci\u00f3n en proceso, terminado, con informaci\u00f3n entregada, etc\u00e9tera, entonces los folios que m\u00e1s interesantes me resultaron, no ten\u00edan informaci\u00f3n, o no correspond\u00edan con los p\u00fablicos, es decir con los que si contienen informaci\u00f3n.<\/p>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">En la interfaz de Infomex uno puede consultar los datos por ente, fecha y otros, pero el que me pareci\u00f3 m\u00e1s interesante fue el de ente, con informaci\u00f3n entregada en formato digital, de esta consulta se puede exportar una hoja de calculo o PDF por supuesto que despu\u00e9s de haber trabajado ya un rato con PDF de esta vista que provee folio de solicitud, fecha de recepci\u00f3n, unidad de informaci\u00f3n, respuesta, fecha de respuesta, etc. Y exportar, de todas formas es bastante in\u00fatil el archivo exportado ya que aunque provee de URL estos solo funcionan en la vista de la aplicaci\u00f3n web y no en el PDF o en el XLS exportado.<\/p>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">Pero, en este se encuentran todos los n\u00fameros de folios de las respuestas y eso revisando la p\u00e1gina es suficiente porque la URL de la descarga la construye con esos n\u00fameros entonces, digamos exportamos nuestro PDF<\/p>\n<pre class=\"western\" lang=\"es-ES\">pdftotext archivote.pdf archivote.txt<\/pre>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">Y en teste no es m\u00e1s que buscar las cadenas de los folios, por ejemplo<\/p>\n<pre class=\"western\" lang=\"es-ES\">grep 1234 archivote.txt &gt; folios.txt<\/pre>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">Y bueno recordando mis inicios en bash cuando hice mi primer contador pues me hice este peque\u00f1o script.<\/p>\n<pre class=\"western\" lang=\"es-ES\">#!\/bin\/bash\r\n\r\n# Obtener todas las respuestas de infomex\r\nfor i in $( cat folios.txt )\r\n\r\ndo\r\n\r\necho $i\r\n\r\n          wget \"https:\/\/foo.bar\/MimeAdjuntoSeguimientoGenerator.action?folio=$i&amp;respuesta=6\" -U \"Mozilla\/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.6) Gecko\/20040206 Firefox\/0.8\" --no-check-certificate\r\n\r\n            done\r\n\r\necho;\r\n<\/pre>\n<p>Por supuesto no quiero dejar toda la URL para evitar que alguien que este aprendiendo bash nada m\u00e1s copie y pegue y termine pegando a un servidor de por si lento.<\/p>\n<p class=\"western\" lang=\"es-ES\" align=\"left\">Y bueno ahora tengo 1571 archivos de respuestas\u2026 a esto si se antoja aplicarle procesamiento de lenguaje natural para encontrar patrones&#8230;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>No me gustaba mucho el termino webscrap porque me sonaba a una forma adornada de decir hacer un espejo de informaci\u00f3n, ahora que he estado haciendo algunos ejercicios de un curso de datos y periodismo, encuentro que bien hecho es &hellip; <a href=\"https:\/\/blografia.net\/vicm3\/2019\/11\/mas-de-raspado-en-la-red\/\">Sigue leyendo <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"advanced_seo_description":"","jetpack_seo_html_title":"","jetpack_seo_noindex":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"jetpack_post_was_ever_published":false},"categories":[5,9,3,10],"tags":[765,834,249,245,822,724,835,805,833],"class_list":["post-2121","post","type-post","status-publish","format-standard","hentry","category-debraye","category-educacion","category-general","category-planetalinux","tag-aprendizaje","tag-big-data","tag-diy","tag-educacion","tag-grandes-datos","tag-investigacion","tag-raspado-de-red","tag-software-libre","tag-web-scraping"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack-related-posts":[{"id":31,"url":"https:\/\/blografia.net\/vicm3\/2004\/11\/jubilacin\/","url_meta":{"origin":2121,"position":0},"title":"Jubilaci\u00f3n","author":"vicm3","date":"5 noviembre, 2004","format":false,"excerpt":"Y no la m\u00eda, que la veo improbable y lejana, la de mi tel\u00e9fono celular un motorota Star Tack 7xxx el cual ha salido mucho mas aguantador de lo que uno podria haber pensado posible en un tel\u00e9fono de esos, bien vale recordar que motorota anteriormente se dedicaba a construir\u2026","rel":"","context":"En \u00abGeneral\u00bb","block_context":{"text":"General","link":"https:\/\/blografia.net\/vicm3\/category\/general\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":2048,"url":"https:\/\/blografia.net\/vicm3\/2019\/06\/grandes-datos\/","url_meta":{"origin":2121,"position":1},"title":"Grandes Datos","author":"vicm3","date":"14 junio, 2019","format":false,"excerpt":"Y bueno he estado trabajando con un mont\u00f3n de archivos PDF y ha sido interesante, ya que me encontr\u00e9 que los sistemas que estaba consultado eran feos, ahora ya est\u00e1n bonitos, pero sigue siendo una lata consultarlos ya que no se puede hacer una consulta diferente a partir de la\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":2025,"url":"https:\/\/blografia.net\/vicm3\/2019\/05\/de-datos-y-graficas\/","url_meta":{"origin":2121,"position":2},"title":"De datos y gr\u00e1ficas","author":"vicm3","date":"15 mayo, 2019","format":false,"excerpt":"En los \u00faltimos d\u00edas han aparecido un mont\u00f3n de datos sobre la contaminaci\u00f3n en la ciudad de M\u00e9xico y en la Zona Metropolitana del Valle de M\u00e9xico (ZMVM) con esto y la cobertura de los medios nos hemos enterado de cosas buenas, malas y p\u00e9simas, de como ha ido cambiando\u2026","rel":"","context":"En \u00abDebraye\u00bb","block_context":{"text":"Debraye","link":"https:\/\/blografia.net\/vicm3\/category\/debraye\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2019\/05\/Screenshot-from-2019-05-15-21-29-41.png?resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2019\/05\/Screenshot-from-2019-05-15-21-29-41.png?resize=350%2C200 1x, https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2019\/05\/Screenshot-from-2019-05-15-21-29-41.png?resize=525%2C300 1.5x, https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2019\/05\/Screenshot-from-2019-05-15-21-29-41.png?resize=700%2C400 2x"},"classes":[]},{"id":2301,"url":"https:\/\/blografia.net\/vicm3\/2021\/01\/congresos-y-charlas-2019\/","url_meta":{"origin":2121,"position":3},"title":"Congresos y charlas 2019","author":"vicm3","date":"3 enero, 2021","format":false,"excerpt":"Recurso Educativo Abierto: Trabajando con datos de los Sistemas de Portales de Obligaciones de Transparencia del gobierno de M\u00e9xico en educaci\u00f3n D\u00eda 1. Noveno Encuentro En l\u00ednea de Educaci\u00f3n Cultura y Software Libres #9EDUSOL 7 de octubre de 2019 17:05 a 17:30 https:\/\/www.youtube.com\/watch?v=nb9RwXW0wKE Mart\u00ednez, V( 2019), Recurso Educativo Abierto: Trabajando\u2026","rel":"","context":"En \u00abEducaci\u00f3n\u00bb","block_context":{"text":"Educaci\u00f3n","link":"https:\/\/blografia.net\/vicm3\/category\/educacion\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/img.youtube.com\/vi\/nb9RwXW0wKE\/0.jpg?resize=350%2C200","width":350,"height":200},"classes":[]},{"id":2505,"url":"https:\/\/blografia.net\/vicm3\/2023\/05\/sistema-integrado-de-informacion-de-la-educacion-superior-siies\/","url_meta":{"origin":2121,"position":4},"title":"Sistema Integrado de Informaci\u00f3n de la Educaci\u00f3n Superior SIIES","author":"vicm3","date":"19 mayo, 2023","format":false,"excerpt":"Por 2021, me supongo si no es que antes, con la Ley General de Educaci\u00f3n (2019), apareci\u00f3 por ah\u00ed el Sistema Integrado de Informaci\u00f3n de la Educaci\u00f3n Superior (SIIES). Que tiene datos muy interesantes al respecto, desde su aparici\u00f3n no tiene un medio de contacto, bueno si lo tiene en\u2026","rel":"","context":"En \u00abEducaci\u00f3n\u00bb","block_context":{"text":"Educaci\u00f3n","link":"https:\/\/blografia.net\/vicm3\/category\/educacion\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blografia.net\/vicm3\/wp-content\/uploads\/2023\/05\/1105.png?resize=350%2C200","width":350,"height":200},"classes":[]},{"id":608,"url":"https:\/\/blografia.net\/vicm3\/2008\/11\/de-estadsticas-a-estadsticas\/","url_meta":{"origin":2121,"position":5},"title":"De estad\u00edsticas a estad\u00edsticas","author":"vicm3","date":"23 noviembre, 2008","format":false,"excerpt":"Y bueno, los hits a nuestro sitio los hab\u00eda estado llevando con webalizer, debido a que es incre\u00edblemente f\u00e1cil de configurar y a que en realidad es lo que he usado por a\u00f1os, sin embargo, tiene varias limitaciones, la mas grande es que no es un programa soportado o m\u00e1s\u2026","rel":"","context":"En \u00abSin categor\u00eda\u00bb","block_context":{"text":"Sin categor\u00eda","link":"https:\/\/blografia.net\/vicm3\/category\/sin-categoria\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]}],"_links":{"self":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/posts\/2121","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/comments?post=2121"}],"version-history":[{"count":0,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/posts\/2121\/revisions"}],"wp:attachment":[{"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/media?parent=2121"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/categories?post=2121"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blografia.net\/vicm3\/wp-json\/wp\/v2\/tags?post=2121"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}