Wget, niekoľko príkladov toho, čo sa dá urobiť s týmto nástrojom

O wget

V nasledujúcom článku sa pozrieme na Wget. Je potrebné povedať, že GNU Wget je bezplatný nástroj ktorý umožňuje sťahovanie obsahu z webových serverov jednoduchým a rýchlym spôsobom. Jeho názov je odvodený od World Wide Web (w) a slovo get (v angličtine dostať). Toto meno znamená: získať z WWW.

Dnes existujú desiatky aplikácií na veľmi efektívne sťahovanie súborov. Väčšina z nich je založená na webových a desktopových rozhraniach a sú vyvinuté pre všetky operačné systémy. Avšak na Gnu / Linux (existuje aj verzia pre Windows) je tu výkonný správca sťahovania súborov wget. Je považovaný za najsilnejší sťahovač, aký existuje. Podporuje protokoly ako http, https a ftp.

Stiahnite si súbory pomocou wget

Stiahnite si súbor

Najjednoduchší spôsob použitia tohto nástroja je stiahnutie označujúci spis Čo chceme:

wget http://sitioweb.com/programa.tar.gz

Sťahujte pomocou rôznych protokolov

Ako dobrý správca sťahovania je to možné požiadať o viac ako jedno stiahnutie súčasne. Môžeme dokonca použiť rôzne protokoly v rovnakom poradí:

wget http://sitioweb.com/programa.tar.gz ftp://otrositio.com/descargas/videos/archivo-video.mpg

Stiahnutie podľa rozšírenia

Ďalším spôsobom stiahnutia viacerých súborov súbory, ktoré používajú rovnakú príponu, bude používať zástupný znak hviezdička:

wget<code class="language-bash" data-lang="bash">-r -A.pdf</code>http://sitioweb.com/*.pdf

Tento príkaz nefunguje vždy, pretože niektoré servery mohli mať zablokovaný prístup wget.

Stiahnite si zoznam súborov

Ak chceme stiahnuť súbory, ktoré nájdeme, budeme musieť iba uložiť ich URL v súbore. Vytvoríme zoznam s názvom files.txt a príkazu označíme názov zoznamu. Nevyhnutné umiestniť iba jednu adresu URL na riadok vo vnútri súborov.txt.

Príkaz, ktorý použijeme na stiahnutie vytvoreného zoznamu a ktorý uložíme do súboru files.txt, bude nasledovný:

wget -i archivos.txt

Reštartujte sťahovanie

Ak bude sťahovanie z akýchkoľvek dôvodov prerušené, budeme môcť pokračujte v sťahovaní tam, kde to skončilo pomocou možnosť c príkazom wget:

wget -i -c archivos.txt

Pridajte protokol o sťahovaní

Ak chceme získať protokol o sťahovaní, aby sme kontrolovať akýkoľvek incident na to budeme musieť pridať -o možnosť ako je zobrazené v nasledujúcom texte:

wget -o reporte.txt http://ejemplo.com/programa.tar.gz

Obmedziť šírku pásma na stiahnutie

Pri veľmi dlhom sťahovaní môžeme obmedziť šírku pásma na stiahnutie. Toto zabráni stiahnutiu, aby zaberalo celú šírku pásma po celú dobu sťahovania:

wget -o /reporte.log --limit-rate=50k ftp://ftp.centos.org/download/centos5-dvd.iso

Stiahnite si pomocou používateľského mena a hesla

Ak chceme sťahovať zo stránok, kde je vyžadované užívateľské meno / heslo, budeme musieť použiť iba tieto možnosti:

wget --http-user=admin --http-password=12345 http://ejemplo.com/archivo.mp3

Pokusy o stiahnutie

default, tento program vykoná 20 pokusov o nadviazanie spojenia a spustite sťahovanie, na veľmi nasýtených stránkach je možné, že ani pri 20 pokusoch sa to nepodarilo. Vďaka možnosť t zvyšuje na viac pokusov.

wget -t 50 http://ejemplo.com/pelicula.mpg

Stiahnite si webovú stránku s wget

Pomôž človeče

Pomôž človeče

Wget sa neobmedzuje iba na sťahovanie súborovBudeme si môcť stiahnuť celú stránku. Budeme musieť napísať niečo ako:

wget www.ejemplo.com

Stiahnite si webovú stránku a jej ďalšie prvky

S možnosť p stiahneme tiež všetky na stránke sú potrebné ďalšie prvky ako sú štýly, vložené obrázky atď.

Ak pridáme možnosť r se stiahne rekurzívne až na 5 úrovní z webu:

wget -r www.ejemplo.com -o reporte.log

Konvertujte odkazy na miestnych obyvateľov

Odkazy v rámci webu predvolene smerujú na adresu celej domény. Ak si stránku stiahneme rekurzívne a potom ju preštudujeme offline, môžeme použiť možnosť konvertovať odkazy to z nich urobí miestne odkazy:

wget --convert-links -r http://www.sitio.com/

Získajte úplnú kópiu stránky

Budeme mať možnosť získať úplnú kópiu stránky. The –Zrkadlová možnosť je to isté ako použitie súboru možnosti -r -l inf -N čo naznačuje rekurziu na nekonečnej úrovni a získanie pôvodnej časovej pečiatky každého stiahnutého súboru.

wget --mirror http://www.sitio.com/

Transformácia rozšírení

Ak stiahnete celú stránku a zobrazíte ju offline, niekoľko stiahnutých súborov sa nemusí otvoriť z dôvodu prípon ako .cgi, .asp alebo .php. Potom je možné označiť pomocou –Html možnosť rozšírenia Všetky súbory sú prevedené do prípony .html.

wget --mirror --convert-links --html-extension http://www.ejemplo.com

Toto sú iba všeobecné pokyny ako môžete urobiť s Wgetom. Kto chce, môže sa poradiť online manuál prekonzultovať všetky možnosti, ktoré nám tento úžasný správca sťahovania ponúka.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.

  1.   Ruben Cardenal dijo

    Pokiaľ ide o možnosť „Stiahnuť pomocou rozšírenia“, prestal som čítať. Nemôžete si stiahnuť, čo neviete. Pokiaľ požadovaný adresár neumožňuje výpis súborov a chýba mu index (a musia sa vyskytovať súčasne), to, čo hovoríte, nie je možné vykonať. Aká úroveň.

    1.    Anonymný počítač dijo

      Ahoj Rubén, nevedomosť je trochu odvážna.
      To, čo komentujete, je možné vykonať jednoduchým príkazom do google:
      filetype:pdf site:ubunlog. S
      V tomto príklade nie je v tomto blogu súbor pdf, ale na konci zmeňte doménu na web, ktorý uprednostňujete, a uvidíte, aké ľahké je vidieť všetky súbory jedného typu webu.
      Pekný deň.

      1.    žart dijo

        Ale wget sa nepripojí k google, aby našiel súbory PDF, ktoré sú v adrese URL. Webový adresár musí byť otvorený a musí existovať indexová stránka vygenerovaná mod_autoindex alebo podobne, ako hovorí Rubén Cardenal.

    2.    Jimmy olano dijo

      "Tento príkaz nefunguje vždy, pretože niektoré servery mohli blokovať prístup k wget."
      Tento pozmeňujúci a doplňujúci návrh, ktorý bol vložený do tohto článku, pretože s ním nesúhlasím (aj keď technicky je možné zablokovať určitých webových agentov pre žiadosti o hlavičku http a vrátiť správu 403 „nepovolené“) a vysvetlím prečo:

      Všetky webové servery Apache (a hovorím o značnom percente serverov) v predvolenom nastavení umožňujú globovanie (vynikajúci článok na Wikipédii, prečítajte si: https://es.wikipedia.org/wiki/Glob_(inform%C3%A1tica) .

      To v praxi znamená, ako uviedol pán. Rubén (a má pravdu), AK NEEXISTUJE ŽIADNY SÚBOR „index.php“ alebo „index.html“ (alebo dokonca jednoducho nazvaný „index“), server nenápadne vráti zoznam súborov a adresárov (samozrejme vo forme stránky s informáciami ako webový odkaz pre každý súbor). NAJVIAC WEBOVÝCH SERVEROV ZABEZPEČUJE TÚTO FUNKCIU SÚBOROM .htacces (prísne povedané Apache2).

      Tu je všestrannosť wgetu (pozrite si jeho príbeh, opäť na Wikipédii, ten, ktorý poznáte najviac: https://es.wikipedia.org/wiki/GNU_Wget ) na analýzu alebo „analýzu“ uvedených informácií a na extrahovanie iba tých rozšírení, ktoré požadujeme.

      Teraz, ak to z nejakého dôvodu nefunguje, môžeme vyskúšať ďalšie pokročilé funkcie wget, citujem priamo v angličtine:

      Chcete prevziať všetky súbory GIF z adresára na serveri HTTP. Vyskúšali ste to http://www.example.com/dir/*.gif’, ale to nefungovalo, pretože načítanie HTTP nepodporuje GLOBBING (vložil som veľké písmená). V takom prípade použite:

      wget -r -l1 –no-rodič -A.gif http://www.example.com/dir/

      Podrobnejšie, ale účinok je rovnaký. „-r -l1“ znamená rekurzívne načítanie (pozri rekurzívne stiahnutie) s maximálnou hĺbkou 1. „–no-parent“ znamená, že odkazy na nadradený adresár sú ignorované (pozri Limity založené na adresári) a „-A. gif znamená stiahnutie iba súborov GIF. „-A« * .gif »“ by tiež fungoval.

      Ak spustíte týmto posledným spôsobom, vytvorí nám wget priečinok s požadovanou webovou adresou v predvolenom priečinku, kde pracujeme, a v prípade potreby vytvorí podadresáre a tam umiestni napríklad obrázky .gif, ktoré žiadosť.

      --------
      AK však stále nie je možné získať iba určité druhy súborov (napríklad * .jpg), budeme musieť použiť parameter «–page-requisites», ktorý stiahne všetky interné prvky html stránky (obrázky, zvuky, css atď.) spolu so samotnou html stránkou („–page-requisites“ možno skrátiť „-p“) a to by zodpovedalo stiahnutiu niečoho ako „mhtml“ https://tools.ietf.org/html/rfc2557

      Dúfam, že tieto informácie sú pre vás užitočné.

      1.    Damian Amoedo dijo

        Ďakujem za poznámky. Salu2.

  2.   Afterbank dijo

    Myslím, že máte chybu, prvé dva riadky majú rovnaký príkaz.

  3.   mikrofón dijo

    Ďakujem veľmi pekne, veľmi dobrý návod!