[un/loquer] Descargar una serie de URL's consecutivas de forma sistemática

Federico lopez fede2001 en hotmail.com
Mie Abr 13 20:30:24 UTC 2016


Necesitaba bajar los grupos de investigación que están inscritos en Colciencias, la URL's que describen los grupos están definidas por un número al final que parece que va incrementando, el reto es que el número tiene varios ceros adelante entonces no lograba hacer un script que se trajera todas las URL, hice varios intentos parciales, Brolin encontró la manera (mientras se bañaba).
El siguiente test baja los primeros mil grupos de investigación usando tres contadores, uno se encarga de los miles, otro de los decimos, otro de las unidades.Agregando más contadores se pueden traer cien mil, un millón; el programador fue bastante cauteloso (o iluso) de dejar espacio como para 99 trillones (en numeración de escala corta) de grupos de investigación en Colombia.  


#!/bin/bashfor a in {0..9}do  for b in {0..9}  do    for c in {0..9}    do      wget http://190.242.114.26:8080/gruplac/jsp/visualiza/visualizagr.jsp?nro=00000000000$a$b$c    done  donedone
http://pastebin.com/U7fKFhr3

Luego de bajarlos a una carpeta se pueden buscar palabras claves con 
$ grep "*palabra*"

saludos, 
fede.

 		 	   		  
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <https://lists.aktivix.org/pipermail/unloquer/attachments/20160413/1afafeba/attachment.html>


Más información sobre la lista de distribución unloquer