Wget, μερικά παραδείγματα για το τι μπορεί να γίνει με αυτό το εργαλείο

Σχετικά με το wget

Στο επόμενο άρθρο θα ρίξουμε μια ματιά στο Wget. Πρέπει να ειπωθεί ότι το GNU Wget είναι δωρεάν εργαλείο που επιτρέπει τη λήψη περιεχομένου από διακομιστές ιστού με απλό και γρήγορο τρόπο. Το όνομά του προέρχεται από το World Wide Web (w) και η λέξη get (στα Αγγλικά παίρνω). Αυτό το όνομα σημαίνει: λάβετε από το WWW.

Σήμερα υπάρχουν δεκάδες εφαρμογές για τη λήψη αρχείων πολύ αποτελεσματικά. Τα περισσότερα από αυτά βασίζονται σε διεπαφές ιστού και επιφάνειας εργασίας και έχουν αναπτυχθεί για όλα τα λειτουργικά συστήματα. Ωστόσο, στο Gnu / Linux (υπάρχει επίσης μια έκδοση για Windows) εκεί είναι το ισχυρός διαχειριστής λήψεων αρχείων wget. Θεωρείται το πιο ισχυρό πρόγραμμα λήψης που υπάρχει. Υποστηρίζει πρωτόκολλα όπως http, https και ftp.

Λήψη αρχείων με το wget

Λήψη αρχείου

Ο απλούστερος τρόπος χρήσης αυτού του εργαλείου είναι η λήψη υποδεικνύοντας το αρχείο Τι θέλουμε:

wget http://sitioweb.com/programa.tar.gz

Λήψη χρησιμοποιώντας διαφορετικά πρωτόκολλα

Ως καλός διαχειριστής λήψεων, είναι δυνατόν ζητήστε περισσότερες από μία λήψεις κάθε φορά. Μπορούμε ακόμη και να χρησιμοποιήσουμε διαφορετικά πρωτόκολλα με την ίδια σειρά:

wget http://sitioweb.com/programa.tar.gz ftp://otrositio.com/descargas/videos/archivo-video.mpg

Λήψη κατά επέκταση

Ένας άλλος τρόπος λήψης πολλαπλών αρχεία που χρησιμοποιούν την ίδια επέκταση, θα χρησιμοποιεί τον αστερίσκο μπαλαντέρ:

wget<code class="language-bash" data-lang="bash">-r -A.pdf</code>http://sitioweb.com/*.pdf

Αυτή η εντολή δεν λειτουργεί πάντα, καθώς ορισμένοι διακομιστές ενδέχεται να έχουν αποκλείσει την πρόσβαση σε wget.

Κατεβάστε μια λίστα αρχείων

Εάν αυτό που θέλουμε είναι να κατεβάσετε τα αρχεία που βρίσκουμε, θα πρέπει να τα αποθηκεύσουμε μόνο URL σε ένα αρχείο. Θα δημιουργήσουμε μια λίστα με την ονομασία files.txt και θα δείξουμε το όνομα της λίστας στην εντολή. Απαραίτητη τοποθετήστε μόνο ένα url ανά γραμμή μέσα στο files.txt.

Η εντολή που θα χρησιμοποιήσουμε για τη λήψη της λίστας που δημιουργήθηκε και την οποία αποθηκεύουμε σε αρχεία .txt θα είναι η ακόλουθη:

wget -i archivos.txt

Επανεκκινήστε μια λήψη

Εάν για οποιονδήποτε λόγο διακόπηκε η λήψη, θα είμαστε σε θέση συνεχίστε τη λήψη από εκεί που σταμάτησε χρησιμοποιώντας την επιλογή γ με την εντολή wget:

wget -i -c archivos.txt

Προσθέστε ένα αρχείο καταγραφής σχετικά με τη λήψη

Εάν θέλουμε να λάβουμε ένα αρχείο καταγραφής σχετικά με τη λήψη, για να ελέγξτε οποιοδήποτε συμβάν σε αυτό, θα πρέπει να προσθέσουμε το - μια επιλογή όπως φαίνεται στα ακόλουθα:

wget -o reporte.txt http://ejemplo.com/programa.tar.gz

Περιορίστε το εύρος ζώνης λήψης

Σε πολύ μεγάλες λήψεις μπορούμε περιορισμός εύρους ζώνης λήψης. Με αυτό θα αποτρέψουμε τη λήψη από το κατέβασμα όλου του εύρους ζώνης κατά τη διάρκεια της λήψης:

wget -o /reporte.log --limit-rate=50k ftp://ftp.centos.org/download/centos5-dvd.iso

Λήψη με όνομα χρήστη και κωδικό πρόσβασης

Εάν θέλουμε να πραγματοποιήσουμε λήψη από έναν ιστότοπο όπου απαιτείται όνομα χρήστη / κωδικός πρόσβασης, θα πρέπει να χρησιμοποιήσουμε μόνο αυτές τις επιλογές:

wget --http-user=admin --http-password=12345 http://ejemplo.com/archivo.mp3

Λήψη προσπαθειών

Προκαθορισμένο, Αυτό το πρόγραμμα κάνει 20 προσπάθειες για τη σύνδεση και ξεκινήστε τη λήψη, σε πολύ κορεσμένους ιστότοπους είναι πιθανό ότι ακόμη και με 20 προσπάθειες δεν επιτεύχθηκε. Με την επιλογή t αυξάνεται σε περισσότερες προσπάθειες.

wget -t 50 http://ejemplo.com/pelicula.mpg

Κατεβάστε έναν ιστότοπο με το wget

Ξεχάστε βοήθεια

Ξεχάστε βοήθεια

Το Wget δεν περιορίζεται μόνο στις λήψεις αρχείωνΘα μπορέσουμε να κατεβάσουμε μια πλήρη σελίδα. Θα πρέπει απλώς να γράψουμε κάτι σαν:

wget www.ejemplo.com

Κατεβάστε έναν ιστότοπο και τα επιπλέον στοιχεία του

Με τη επιλογή σ θα κατεβάσουμε επίσης όλα επιπλέον στοιχεία που απαιτούνται στη σελίδα όπως φύλλα στυλ, ενσωματωμένες εικόνες κ.λπ.

Εάν προσθέσουμε το επιλογή r se θα κατεβάσει αναδρομικά έως και 5 επίπεδα από τον ιστότοπο:

wget -r www.ejemplo.com -o reporte.log

Μετατροπή συνδέσμων σε ντόπιους

Από προεπιλογή, οι σύνδεσμοι εντός του ιστότοπου οδηγούν στη διεύθυνση ολόκληρου του τομέα. Εάν κατεβάσουμε τον ιστότοπο αναδρομικά και μετά τον μελετήσουμε εκτός σύνδεσης, μπορούμε να χρησιμοποιήσουμε το επιλογή μετατροπής-συνδέσμων που θα τα μετατρέψει σε τοπικοί σύνδεσμοι:

wget --convert-links -r http://www.sitio.com/

Αποκτήστε ένα πλήρες αντίγραφο του ιστότοπου

Θα έχουμε τη δυνατότητα να λάβουμε ένα πλήρες αντίγραφο ενός ιστότοπου. ο - επιλογή καθρέφτη είναι το ίδιο με τη χρήση του επιλογές -r -l inf -N το οποίο δείχνει την επανάληψη σε άπειρο επίπεδο και τη λήψη της αρχικής χρονικής σήμανσης κάθε ληφθέντος αρχείου.

wget --mirror http://www.sitio.com/

Μετατροπή επεκτάσεων

Εάν κάνετε λήψη ολόκληρου του ιστότοπου για να τον δείτε εκτός σύνδεσης, ενδέχεται να μην ανοίγουν πολλά αρχεία που έχουν ληφθεί, λόγω επεκτάσεων όπως .cgi, .asp ή .php. Τότε είναι δυνατή η ένδειξη με το –Html-επέκταση επιλογή Όλα τα αρχεία μετατρέπονται σε επέκταση .html.

wget --mirror --convert-links --html-extension http://www.ejemplo.com

Αυτές είναι απλώς γενικές οδηγίες από ό, τι μπορείτε να κάνετε με το Wget. Όποιος θέλει να συμβουλευτεί το ηλεκτρονικό εγχειρίδιο για να συμβουλευτείτε όλες τις δυνατότητες που μας προσφέρει αυτός ο υπέροχος διαχειριστής λήψης.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.

  1.   Ruben Cardenal dijo

    Όσο για το "Λήψη κατά επέκταση" έχω σταματήσει να διαβάζω. Δεν μπορείτε να κατεβάσετε όσα δεν γνωρίζετε. Εκτός αν ο ζητούμενος κατάλογος επιτρέπει την καταχώριση αρχείων και δεν διαθέτει ευρετήριο (και πρέπει να συμβαίνουν και τα δύο), αυτό που λέτε δεν μπορεί να γίνει. Τι επίπεδο.

    1.    Πληροφορική dijo

      Γεια σου Ρούμπεν, η άγνοια είναι λίγο τολμηρή.
      Αυτό που σχολιάζετε μπορεί να γίνει με μια απλή εντολή στο google:
      filetype:pdf site:ubunlog.com
      Σε αυτό το παράδειγμα δεν υπάρχει pdf σε αυτό το blog, αλλά αλλάξτε τον τομέα στο τέλος του ιστού που προτιμάτε και θα δείτε πόσο εύκολο είναι να δείτε όλα τα αρχεία ενός τύπου ιστού.
      Να εχετε μια ομορφη μερα.

      1.    Φρανκ dijo

        Αλλά το wget δεν συνδέεται με το google για να βρει τα pdf που βρίσκονται σε url. Ο κατάλογος ιστού πρέπει να είναι ανοιχτός και πρέπει να υπάρχει μια σελίδα ευρετηρίου που δημιουργείται από το mod_autoindex ή παρόμοια, όπως λέει ο Rubén Cardenal.

    2.    Τζίμι Όλανο dijo

      "Αυτή η εντολή δεν λειτουργεί πάντα, καθώς ορισμένοι διακομιστές ενδέχεται να έχουν αποκλείσει την πρόσβαση στο wget."
      Αυτή η τροπολογία που τέθηκε σε αυτό το άρθρο, επειδή δεν συμφωνώ με αυτήν (αν και τεχνικά είναι δυνατό να αποκλείσετε ορισμένους πράκτορες ιστού για αιτήματα κεφαλίδας http και να επιστρέψετε ένα μήνυμα 403 "δεν επιτρέπεται") και θα εξηγήσω γιατί:

      Όλοι οι διακομιστές ιστού Apache (και μιλάω για ένα σημαντικό ποσοστό διακομιστών) από προεπιλογή επιτρέπουν globbing (εξαιρετικό άρθρο της Wikipedia, διαβάστε: https://es.wikipedia.org/wiki/Glob_(inform%C3%A1tica) .

      Αυτό στην πράξη σημαίνει, όπως καθορίζεται από τον κ. Rubén (και έχει δίκιο), ΠΟΥ ΔΕΝ ΚΑΛΕΙ ΑΡΧΕΙΟ "index.php" ή "index.html" (ή ακόμη και απλά ονομάζεται "index") ο διακομιστής θα επιστρέψει ήσυχα μια λίστα αρχείων και καταλόγων (φυσικά σε μορφή σελίδας html με πληροφορίες ως σύνδεσμος Ιστού για κάθε αρχείο). Οι περισσότεροι διακομιστές WEB απενεργοποιούν αυτό το χαρακτηριστικό μέσω του αρχείου .htacces (αυστηρά μιλώντας Apache2) ΓΙΑ ΛΟΓΟΥΣ ΑΣΦΑΛΕΙΑΣ.

      Εδώ είναι η ευελιξία του wget (δείτε την ιστορία του, και πάλι στη Wikipedia, αυτή που γνωρίζετε περισσότερο: https://es.wikipedia.org/wiki/GNU_Wget ) να αναλύσουμε ή να αναλύσουμε τέτοιες πληροφορίες και να εξαγάγουμε μόνο τις επεκτάσεις που ζητάμε.

      Τώρα σε περίπτωση που αυτό δεν λειτουργεί, για έναν ή τον άλλο λόγο, μπορούμε να δοκιμάσουμε άλλες προηγμένες λειτουργίες του wget, παραθέτω απευθείας στα Αγγλικά:

      Θέλετε να κατεβάσετε όλα τα GIF από έναν κατάλογο σε διακομιστή HTTP. Δοκίμασέ το http://www.example.com/dir/*.gif’, αλλά αυτό δεν λειτούργησε επειδή η ανάκτηση HTTP δεν υποστηρίζει GLOBBING (έβαλα τα κεφαλαία γράμματα). Σε αυτήν την περίπτωση, χρησιμοποιήστε:

      wget -r -l1 –no -parent -A.gif http://www.example.com/dir/

      Περισσότερο ρητό, αλλά το αποτέλεσμα είναι το ίδιο. «-r -l1» σημαίνει ανάκτηση αναδρομικά (βλ. Αναδρομική λήψη), με μέγιστο βάθος 1. «–no-parent» σημαίνει ότι οι αναφορές στον γονικό κατάλογο αγνοούνται (βλ. Όρια βάσει καταλόγου) και «-A. gif »σημαίνει τη λήψη μόνο των αρχείων GIF. «- Ένα« * .gif »» θα είχε λειτουργήσει επίσης.

      ΕΑΝ ΕΙΝΑΙ ΣΕ ΤΟΝ ΤΕΛΕΥΤΑΙΟ ΤΡΟΠΟ, το wget θα δημιουργήσει έναν φάκελο για εμάς με τη ζητούμενη διεύθυνση ιστού στον προεπιλεγμένο φάκελο στον οποίο εργαζόμαστε και θα δημιουργήσει υποκαταλόγους εάν είναι απαραίτητο και εκεί θα τοποθετήσει, για παράδειγμα, τις εικόνες .gif που ζητάμε.

      --------
      Ωστόσο, εάν δεν είναι ακόμη δυνατό να ληφθούν μόνο συγκεκριμένα είδη αρχείων (* .jpg, για παράδειγμα) θα πρέπει να χρησιμοποιήσουμε την παράμετρο «–page-requisites» που κατεβάζει όλα τα εσωτερικά στοιχεία μιας σελίδας html (εικόνες, ήχοι, css, κ.λπ.) μαζί με την ίδια τη σελίδα html ("-page-requisites" μπορεί να συντομευτεί "-p") και αυτό θα ισοδυναμούσε με τη λήψη κάτι σαν "mhtml" https://tools.ietf.org/html/rfc2557

      Ελπίζω αυτές οι πληροφορίες να είναι χρήσιμες για εσάς.

      1.    Νταμιάν Αμοέδο dijo

        Ευχαριστώ για τις σημειώσεις. Salu2.

  2.   Μεταγενέστερες τράπεζες dijo

    Νομίζω ότι έχετε ένα σφάλμα, οι δύο πρώτες γραμμές έχουν την ίδια εντολή.

  3.   μικρόφωνο dijo

    Σας ευχαριστώ πολύ, πολύ καλό φροντιστήριο!