Aspirer un site Internet avec wget
Sous Ubuntu, il existe un utilitaire très pratique qui permet notamment de récupérer des fichiers en lignes : wget.
Aspirer un site Internet
Exécutable en ligne de commande, wget permet aussi via des paramètres spécifiques d'aspirer un site Internet.
Pour aspirer une page et ses liens interne (uniquement ceux du domaine) et sans remonter dans les répertoires parents, il suffit d'exécuter la commande suivante dans la console :
wget -r -k -np http://www.example.com
Nous avons ici différents paramètres :
-r
: téléchargement récursif (wget devra suivre les liens de la page)-k
: modifie les chemins des URLs pour que le site soit consultables localement-np
: ne pas aspirer les liens du répertoire parent
Source : Ubuntu-fr
Aspirer depuis une liste d'URL
Il est possible de spécifier dans un fichier une liste d'URL que wget ira récupérer :
wget -i fichier.txt
Le fichier doit contenir la liste des URL à hauteur de une ligne.
Afin de conserver l'arborescence, on peut ajouter le paramètre -x :
wget -x -i fichier.txt
Sous Windows
Sous Windows, il est possible si vous utilisez Git Bash, d'installer une extension pour disposer de wget :
- Se rendre sur la page : https://gist.github.com/evanwill/0207876c3243bbb6863e65ec5dc3f058#wget
- Suivre les instructions pour le téléchargement et télécharger le ZIP
- Copier
wget.exe
dans le répertoiremingw64\bin
de l'installation de Git Bash : par exemple,C:\Users\\AppData\Local\Programs\Git\mingw64\bin