Domina el poder de descarga con wget en Linux: Una guía para aprovechar wget

, , Leave a comment

Wget es una herramienta de línea de comandos para descargar archivos y sitios web en Linux. Es muy útil para hacer copias de seguridad de páginas web o para descargar grandes archivos desde la web. Aquí hay un tutorial sobre cómo usar wget en Linux:

  1. Descarga e instalación de wget

Para descargar e instalar wget en Linux, puedes utilizar el administrador de paquetes apt-get. Abre una terminal y escribe lo siguiente:

sudo apt-get update
sudo apt-get install wget
  1. Ejemplo básico de uso

Para descargar un archivo desde una URL, simplemente ejecuta el siguiente comando en la terminal:

wget https://www.example.com/file.zip

Este comando te descargará el archivo «file.zip» desde la URL «https://www.example.com«.

  1. Otras opciones de wget

Wget tiene varias opciones que pueden ser útiles para descargas más complejas. Algunas de ellas son las siguientes:

  • Para descargar todo el contenido de una página web, incluyendo imágenes, scripts y otros recursos, puedes usar el siguiente comando:
wget --recursive --no-parent http://www.example.com/
  • Si quieres descargar solo ciertos archivos o directoríos de una página web, puedes especificar los patrones de descarga con el parámetro «-P». Por ejemplo, si quieres descargar todos los archivos que se encuentren en «/news/» de http://www.example.com/, puedes usar este comando:
wget -r -P /news/ http://www.example.com/
  • Puedes controlar la velocidad de descarga usando el parámetro «-b», que especifica el número de bytes por segundo que deseas transferir. Por ejemplo, para limitar la descarga a 50 kBps, puedes usar:
wget -b 50K -O output.txt ftp://ftp.example.com/file.txt
  1. Limitaciones de wget

Es importante tener en cuenta algunas limitaciones de wget. En primer lugar, no es capaz de descargar algunos tipos de archivos, como archivos FTP o SCP. También puede haber restricciones en cuanto a la cantidad de datos que se pueden descargar de manera segura de algunas páginas web. Esto puede evitarse mediante la configuración de proxy o cambiando las opciones del servidor web.

En resumen, wget es una herramienta poderosa para descargar archivos y sitios web en Linux. Conoce sus opciones y limitaciones para aprovecharlo al máximo.

Otra opción: spider

Para crear un script en Bash que genere un archivo llamado «imagenes.txt» con un listado de imágenes de una página web utilizando la herramienta «wget», puedes seguir estos pasos:

  1. Abre un editor de texto en tu sistema, como Nano o Vim.
  2. Crea un nuevo archivo y comienza con la línea de declaración del intérprete de Bash:
$ #!/bin/bash
  1. A continuación, define la URL de la página web de la cual deseas extraer las imágenes. Puedes asignarla a una variable para mayor comodidad:
$ url="https://www.ejemplo.com"
  1. Utiliza el comando «wget» con la opción «–spider» para analizar la página web y obtener una lista de enlaces a los archivos. Esto evitará descargar los archivos y solo mostrará la información:
$ wget --spider -r -nd --no-parent "$url" 2>&1 | grep -E -o -e 'https?://[^"]+' | grep -E -i -e '.*\.(jpeg|jpg|png|gif)' > imagenes.txt
  • La opción «–spider» le indica a «wget» que no descargue los archivos.
  • Las opciones «-r» y «-nd» permiten la recursión y evitan la creación de directorios locales.
  • La opción «–no-parent» evita que «wget» suba al directorio padre.
  • La parte 2>&1 | grep -E -o -e 'https?://[^"]+' | grep -E -i -e '.*\.(jpeg|jpg|png|gif)' se utiliza para filtrar y extraer los enlaces de las imágenes.
  • Por último, se redirige la salida al archivo «imagenes.txt».
  1. Guarda y cierra el archivo.
  2. Dale permisos de ejecución al script para poder ejecutarlo:
$ chmod +x nombre_script.sh
  1. Ejecuta el script:
$ ./nombre_script.sh

Después de la ejecución, se creará un archivo llamado «imagenes.txt» en el mismo directorio donde se encuentra el script, y contendrá los enlaces de las imágenes encontradas en la página web especificada.