Wget es una herramienta de línea de comandos para descargar archivos y sitios web en Linux. Es muy útil para hacer copias de seguridad de páginas web o para descargar grandes archivos desde la web. Aquí hay un tutorial sobre cómo usar wget en Linux:
- Descarga e instalación de wget
Para descargar e instalar wget en Linux, puedes utilizar el administrador de paquetes apt-get. Abre una terminal y escribe lo siguiente:
sudo apt-get update
sudo apt-get install wget
- Ejemplo básico de uso
Para descargar un archivo desde una URL, simplemente ejecuta el siguiente comando en la terminal:
wget https://www.example.com/file.zip
Este comando te descargará el archivo «file.zip» desde la URL «https://www.example.com«.
- Otras opciones de wget
Wget tiene varias opciones que pueden ser útiles para descargas más complejas. Algunas de ellas son las siguientes:
- Para descargar todo el contenido de una página web, incluyendo imágenes, scripts y otros recursos, puedes usar el siguiente comando:
wget --recursive --no-parent http://www.example.com/
- Si quieres descargar solo ciertos archivos o directoríos de una página web, puedes especificar los patrones de descarga con el parámetro «-P». Por ejemplo, si quieres descargar todos los archivos que se encuentren en «/news/» de http://www.example.com/, puedes usar este comando:
wget -r -P /news/ http://www.example.com/
- Puedes controlar la velocidad de descarga usando el parámetro «-b», que especifica el número de bytes por segundo que deseas transferir. Por ejemplo, para limitar la descarga a 50 kBps, puedes usar:
wget -b 50K -O output.txt ftp://ftp.example.com/file.txt
- Limitaciones de wget
Es importante tener en cuenta algunas limitaciones de wget. En primer lugar, no es capaz de descargar algunos tipos de archivos, como archivos FTP o SCP. También puede haber restricciones en cuanto a la cantidad de datos que se pueden descargar de manera segura de algunas páginas web. Esto puede evitarse mediante la configuración de proxy o cambiando las opciones del servidor web.
En resumen, wget es una herramienta poderosa para descargar archivos y sitios web en Linux. Conoce sus opciones y limitaciones para aprovecharlo al máximo.
Otra opción: spider
Para crear un script en Bash que genere un archivo llamado «imagenes.txt» con un listado de imágenes de una página web utilizando la herramienta «wget», puedes seguir estos pasos:
- Abre un editor de texto en tu sistema, como Nano o Vim.
- Crea un nuevo archivo y comienza con la línea de declaración del intérprete de Bash:
$ #!/bin/bash
- A continuación, define la URL de la página web de la cual deseas extraer las imágenes. Puedes asignarla a una variable para mayor comodidad:
$ url="https://www.ejemplo.com"
- Utiliza el comando «wget» con la opción «–spider» para analizar la página web y obtener una lista de enlaces a los archivos. Esto evitará descargar los archivos y solo mostrará la información:
$ wget --spider -r -nd --no-parent "$url" 2>&1 | grep -E -o -e 'https?://[^"]+' | grep -E -i -e '.*\.(jpeg|jpg|png|gif)' > imagenes.txt
- La opción «–spider» le indica a «wget» que no descargue los archivos.
- Las opciones «-r» y «-nd» permiten la recursión y evitan la creación de directorios locales.
- La opción «–no-parent» evita que «wget» suba al directorio padre.
- La parte
2>&1 | grep -E -o -e 'https?://[^"]+' | grep -E -i -e '.*\.(jpeg|jpg|png|gif)'
se utiliza para filtrar y extraer los enlaces de las imágenes. - Por último, se redirige la salida al archivo «imagenes.txt».
- Guarda y cierra el archivo.
- Dale permisos de ejecución al script para poder ejecutarlo:
$ chmod +x nombre_script.sh
- Ejecuta el script:
$ ./nombre_script.sh
Después de la ejecución, se creará un archivo llamado «imagenes.txt» en el mismo directorio donde se encuentra el script, y contendrá los enlaces de las imágenes encontradas en la página web especificada.