Vous n'êtes pas connecté - Connexion ou Créer un compte

Classée dans Questions > Questions / Réponses

Aspirer un site Internet avec wget

Administrateur
Une annonce aurait pu être ici :'(

Sous Ubuntu, il existe un utilitaire très pratique qui permet notamment de récupérer des fichiers en lignes : wget.

Aspirer un site Internet

Exécutable en ligne de commande, wget permet aussi via des paramètres spécifiques d'aspirer un site Internet.

Pour aspirer une page et ses liens interne (uniquement ceux du domaine) et sans remonter dans les répertoires parents, il suffit d'exécuter la commande suivante dans la console :

wget -r -k -np http://www.example.com

Nous avons ici différents paramètres :

  • -r : téléchargement récursif (wget devra suivre les liens de la page)
  • -k : modifie les chemins des URLs pour que le site soit consultables localement
  • -np : ne pas aspirer les liens du répertoire parent

Source : Ubuntu-fr

Aspirer depuis une liste d'URL

Il est possible de spécifier dans un fichier une liste d'URL que wget ira récupérer :

wget -i fichier.txt

Le fichier doit contenir la liste des URL à hauteur de une ligne.

Afin de conserver l'arborescence, on peut ajouter le paramètre -x :

wget -x -i fichier.txt

Sous Windows

Sous Windows, il est possible si vous utilisez Git Bash, d'installer une extension pour disposer de wget :

Il n'est plus possible de répondre à cette question car elle marquée comme résolue.