Grandes Datos

Y bueno he estado trabajando con un montón de archivos PDF y ha sido interesante, ya que me encontré que los sistemas que estaba consultado eran feos, ahora ya están bonitos, pero sigue siendo una lata consultarlos ya que no se puede hacer una consulta diferente a partir de la que ya ha uno ha realizado, tiene que hacer uno de nuevo todo el camino, entonces como esto es solamente una especie de portal a otro portal o página institucional, me fije en a que página me llevaba.

En el sistema más viejo lleva a un php nuke [1] y como no es muy compleja la jerarquía que tiene de archivos, en un directorio docs están todos los que me interesan, en realidad en un subdirectorio, así que con un wget http://foo.bar/doc/esto -np -nc -r me traje todo, dicho se a de paso, np para que no suba en la jerarquía y no se traiga más cosas que las que quiero, nc para que no tenga el mismo archivo con diferente numeración y -r para que traiga todo lo que hay en el subdirectorio, resultado 187MB de archivos.

El segundo sistema usa Joomla [2]y hace la pésima elección de gestionar sus descargas con phocadownload [3] y digo pésima desde el punto de vista de recuperar archivos que han desaparecido o cambiado de lugar, pésima porque no da un URL limpio, da una cosa como http://foo.bar/index.php?option=com_phocadownload&view=category&download=1940:se14&id=381:2018&Itemid=310 que ademas fuerza la descarga del PDF entonces archive.org o el cache de google no capturan los archivos si se mueven y si eventualmente el sitio desaparece se llevará todos sus archivos sin posibilidad de recuperarlos con versiones anteriores del sitio, para complicar la cosa, tampoco es sencillo descargarlo con wget, ya que los vínculos son generados, di una revisión de como hace scrapping la gente de grandes datos y no vi mejor opción que una herramienta que ya uso hace tiempo httrack [4], si vi un montón de librerías de python y varios sitios web y aplicaciones pero para lo que necesito esta lo logra sin tanta ceremonia y ya tiene rato de existir.

Otro problema que me tope, es que con el phocadownload no me fue posible al menos con httrack, seguro si filtro los php y termino escribiendo mi propio código podría lograr no traerme el sitio completo que resulto medir 1.1G, 981 PDF y el sitio anterior 1G y 1049 archivos PDF, entonces tal cual vi en la conferencia Grande Datos en Ciencias Sociales y Politicas Públicas, en la intervención de Tom Smith [5] <<“Big data” often means “data produced by someone else” and there’s lots of it>> totalmente no es que sea realmente gigantesca la cantidad no son petabytes de información pero son 981 archivos de los cuales después de analizar de una forma distinta la tarea, deducí se producen 4 informes al año por ya 5 años, 20 archivos… pues no, no son tantos datos y si es posible recuperarlos de forma manual sin tardar el tiempo de pensar en siquiera como construir un script que lo haga.

En fin que estaba pensando en aplicarle técnicas de grandes datos y si hice alguna cosa, utilice recoll [6] para dar una revisada a las palabras que me interesaba buscar en el mismo, quise crearme unas nubes de frecuencias de palabras con los textos que encontré y probé word_cloud [7] pero no me termino de gustar, por supuesto para que este funcionara primero tuve que sacar el texto de los PDF o buscar en ellos y pdfgrep [8] y pdftotext [9] son grandes herramientas que ya tenia instaladas o no me había percatado de que ya había usado, total que creo que me conviene más dedicarme a mis datos específicos y dejar para otro momento las otras ideas de grandes datos, ya que lo que estuve medio leyendo en coursera [10] y en lo de INEGI/COLMEX no me es completamente útil para lo que estoy investigando, pero que interesantes cosas he encontrado en el camino.

[1] https://www.phpnuke.org
[2] https://www.joomla.org/
[3] https://www.phoca.cz/phocadownload
[4] http://www.httrack.com/
[5] https://www.inegi.org.mx/eventos/2019/bigdata/default.html
[6] https://www.lesbonscomptes.com/recoll/
[7] https://github.com/amueller/word_cloud
[8] https://pdfgrep.org/
[9] https://www.xpdfreader.com/pdftotext-man.html
[10] https://www.coursera.org/

Esta entrada ha sido publicada en Debraye, Educación, General, planetalinux y etiquetada como , , , , , , , , . Guarda el enlace permanente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.