Descargas masivas con wget (mp3, videos, etc...)

Descargas masivas con wget (mp3, videos, etc...)


Hoy le toca el turno a una pequeña utilidad poco conocida por los neofitos, pero muy útil para realizar descargas desde la shell de Linux, estamos hablando del fantástico wget. Muchos de nosotros hemos utilizado el wget para hacer alguna descarga y poco más...pero eso llega a su fin, ya que hoy vamos a ver como convertir el wget en "El Gestor de Descargas de Linux".

Lo primero es instalarnos el wget, yo creo que viene por defecto con cualquier instalación base, pero por si acaso ya sabeis "apt-get install wget" o "rpm -i wget", etc...

Una vez instalado podemos realizar la descarga de un archivo sin más que teclear:

  • wget ruta_del_archivo

Esto nos puede parecer muy bonito...pero si solo podemos hacer esto vaya un truño. Tranquilos, que hay más; vamos a ver como descargarnos todos los archivos mp3 de una lista de páginas que le indiquemos, el comando a emplear será el siguiente (después explicaré que significa cada opción paso a paso):

  • wget -r -l1 -H -t1 -nd -N -np -A.mp3 -erobots=off -i ~/listurl.txt

Ahora veremos que es cada opción de las que hemos añadido:

  • -r indica a wget que haga la descarga de forma recursiva, es decir va a una URL, y sigue cada enlace que encuentra.
  • -l1 esto le dice a wget que siga los enlaces, pero solo hasta 1 nivel, es decir que no siga los enlaces encontrados en las páginas enlazadas.
  • -H esto se usa para que baje archivos en otros dominios, no solo en el actual.
  • -np indica que no siga enlaces a directorios padre.
  • -A.mp3 le dice a wget que solo baje archivos terminados en mp3, evidentemente podemos indicarle el patrón que queramos, pero en este caso solo nos interesan los mp3.
  • -nd esta opción sirve para que wget no nos cree la estructura de directorios, sino que lo descarge todo en el mismo directorio.
  • -t1 se usa para que si falla una descarga haga solo 1 reintento más, así no se nos atascará en un archivo si este falla.
  • -erobots=off es para que ignore los archivos robots.txt
  • -N esto es para no descargar el mismo archivo 2 veces, a menos que sea una copia más reciente.
  • -i listurl.txt este último comando sirve para indicarle cual es el archivo en el que tenemos la lista de URL's que queremos saquear :P

Se podrían añadir algunas opciones más, como por ejemplo:

  • -b esto pondría la descarga en background (segundo plano), asi podemos hacer más cosas mientras se bajan los archivos.
  • -o archivo_de_logs.log con esto le decimos que guarde en un log lo que va haciendo...es útil cuando mandamos el proceso a un segundo plano, para ver como ha ido todo.

Hay muchas más opciones que hacen de wget una verdadera maravilla, para consultarlas todas ya sabeis:

  • man wget

A darle caña al wget, un saludo a todos!

Fuentes: man wget y Jeffre Ven Blog

0 comentarios: