Wget, nekoliko primjera onoga što se može učiniti s ovim alatom

O wget-u

U sljedećem članku ćemo pogledati Wget. Mora se reći da je GNU Wget besplatan alat koji omogućava preuzimanje sadržaja sa web servera na jednostavan i brz način. Njegovo ime potječe od World Wide Weba (w) i riječ get (na engleskom dobiti). Ovo ime znači: dobiti sa WWW-a.

Danas postoje desetine aplikacija za preuzimanje datoteka vrlo efikasno. Većina ih se zasniva na web i desktop interfejsima i razvijeni su za sve operativne sisteme. Međutim na Gnu / Linuxu (postoji i verzija za Windows) postoji moćan upravitelj preuzimanja wget datoteka. Smatra se najmoćnijim programom za preuzimanje koji postoji. Podržava protokole poput http, https i FTP.

Preuzmite datoteke pomoću wgeta

Preuzmite datoteku

Najjednostavniji način korištenja ovog alata je preuzimanje označavajući datoteku Šta želimo:

wget http://sitioweb.com/programa.tar.gz

Preuzmite pomoću različitih protokola

Kao dobar upravitelj preuzimanja, to je moguće zatražite više odjednom preuzimanja. Možemo čak koristiti različite protokole istim redoslijedom:

wget http://sitioweb.com/programa.tar.gz ftp://otrositio.com/descargas/videos/archivo-video.mpg

Preuzmi produženjem

Drugi način za preuzimanje višestrukih datoteka datoteke koje koriste istu ekstenziju, koristit će se zamjenskom zvjezdicom:

wget<code class="language-bash" data-lang="bash">-r -A.pdf</code>http://sitioweb.com/*.pdf

Ova naredba ne radi uvijek jer su neki serveri možda blokirani wget.

Preuzmite spisak datoteka

Ako ono što želimo je da preuzmemo datoteke koje pronađemo, morat ćemo ih samo spremiti URL u datoteci. Stvorit ćemo listu pod nazivom files.txt a naredbi ćemo naznačiti ime popisa. Potrebno stavite samo jedan url po redu unutar files.txt.

Naredba koju ćemo koristiti za preuzimanje kreirane liste i koju ćemo spremiti u .txt datoteke bit će sljedeća:

wget -i archivos.txt

Ponovo pokrenite preuzimanje

Ako je iz bilo kojeg razloga preuzimanje prekinuto, moći ćemo nastavite preuzimanje tamo gdje je stalo pomoću opcija c s naredbom wget:

wget -i -c archivos.txt

Dodajte zapis o preuzimanju

Ako želimo dobiti dnevnik o preuzimanju, kako bismo kontrolirati bilo koji incident na to ćemo morati dodati -o opcija kao što je prikazano u sljedećem:

wget -o reporte.txt http://ejemplo.com/programa.tar.gz

Ograničite propusnost za preuzimanje

U vrlo dugim preuzimanjima možemo ograniči propusnost za preuzimanje. Ovim ćemo spriječiti da preuzimanje zauzima svu širinu pojasa za vrijeme trajanja preuzimanja:

wget -o /reporte.log --limit-rate=50k ftp://ftp.centos.org/download/centos5-dvd.iso

Preuzmite sa korisničkim imenom i lozinkom

Ako želimo preuzeti s web lokacije na kojoj je potrebno korisničko ime / lozinka, morat ćemo koristiti samo ove opcije:

wget --http-user=admin --http-password=12345 http://ejemplo.com/archivo.mp3

Pokušaji preuzimanja

Default, ovaj program čini 20 pokušaja uspostavljanja veze i započnite preuzimanje, na vrlo zasićenim web lokacijama moguće je da čak i sa 20 pokušaja to nije postignuto. Sa opcija t povećava se na više pokušaja.

wget -t 50 http://ejemplo.com/pelicula.mpg

Preuzmite web stranicu sa wgetom

Pomozite čovjeku

Pomozite čovjeku

Wget nije ograničen samo na preuzimanje datotekaMoći ćemo preuzeti cijelu stranicu. Jednostavno ćemo morati napisati nešto poput:

wget www.ejemplo.com

Preuzmite web stranicu i njene dodatne elemente

Sa opcija str također ćemo preuzeti sve dodatni elementi potrebni na stranici kao što su tabele stilova, umetnute slike itd.

Ako dodamo opcija r se će rekurzivno preuzeti do 5 nivoa sa stranice:

wget -r www.ejemplo.com -o reporte.log

Pretvori veze u lokalne

Prema zadanim postavkama, veze na web lokaciji vode do adrese cijele domene. Ako stranicu rekurzivno preuzmemo i zatim je proučimo van mreže, možemo koristiti opcija convert-links to će ih pretvoriti u lokalne veze:

wget --convert-links -r http://www.sitio.com/

Nabavite punu kopiju stranice

Imat ćemo mogućnost dobiti kompletnu kopiju web stranice. The –Ogledala opcija je isto što i korištenje opcije -r -l inf -N što ukazuje na rekurziju na beskonačnom nivou i dobivanje originalne vremenske oznake svake preuzete datoteke.

wget --mirror http://www.sitio.com/

Transformiši ekstenzije

Ako preuzmete cijelu web lokaciju da biste je pregledali van mreže, nekoliko preuzetih datoteka možda se neće otvoriti zbog ekstenzija poput .cgi, .asp ili .php. Tada je moguće označiti sa –Html-opcija proširenja Sve datoteke se pretvaraju u .html ekstenziju.

wget --mirror --convert-links --html-extension http://www.ejemplo.com

Ovo su samo opšte smjernice nego što možete učiniti sa Wgetom. Ko želi može se obratiti online priručnik da se posavetujemo sa svim mogućnostima koje nam nudi ovaj divni upravitelj preuzimanja.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   Ruben Cardenal rekao je

    Što se tiče "Preuzimanja putem ekstenzije", prestao sam čitati. Ne možete preuzeti ono što ne znate. Ako traženi direktorij ne dozvoljava popis datoteka i nedostaje indeks (i oboje se moraju pojaviti istovremeno), ono što kažete ne može se učiniti. Kakav nivo.

    1.    Computer Anonymous rekao je

      Pozdrav Rubén, neznanje je pomalo smjelo.
      Ono što komentirate može se učiniti jednostavnom naredbom za google:
      filetype:pdf stranica:ubunlog.com
      U ovom primjeru na ovom blogu nema pdf-a, ali na kraju promijenite domenu u web koji želite i vidjet ćete kako je lako vidjeti sve datoteke vrste weba.
      Želim vam ugodan dan.

      1.    Prank rekao je

        Ali wget se ne povezuje s Googleom kako bi pronašao pdfs koji su u urlu. Web direktorij mora biti otvoren i mora postojati indeksna stranica koju generira mod_autoindex ili slično, kako kaže Rubén Cardenal.

    2.    Jimmy olano rekao je

      "Ova naredba ne radi uvijek, jer su neki serveri možda blokirali pristup wgetu."
      Ovaj amandman koji je stavljen na ovaj članak, jer se ne slažem s njim (iako je tehnički moguće blokirati određene web agente za http zaglavne zahtjeve i vratiti poruku 403 "nije dozvoljeno"), i objasnit ću zašto:

      Svi Apacheovi web serveri (a ja govorim o znatnom postotku servera) prema zadanim postavkama omogućavaju globanje (odličan članak na Wikipediji, pročitajte: https://es.wikipedia.org/wiki/Glob_(inform%C3%A1tica) .

      To u praksi znači, kako je precizirao mr. Rubén (i u pravu je), AKO NE BUDE FILE KOJI SE ZOVE "index.php" ili "index.html" (ili čak jednostavno nazvan "index"), server će tiho vratiti listu datoteka i direktorija (naravno u obliku html stranice s informacijama kao web vezom za svaku datoteku). Većina web servera onemogućava ovu funkciju kroz .htacces DATOTEKU (strogo govoreći Apache2) iz razloga sigurnosti.

      Evo svestranosti wgeta (pogledajte njegovu priču, opet na Wikipediji, onu koju najviše znate: https://es.wikipedia.org/wiki/GNU_Wget ) da analiziramo ili "raščlanimo" navedene informacije i izdvojimo samo proširenja koja tražimo.

      Sada, ako ovo iz nekog ili drugog razloga ne uspije, možemo isprobati druge napredne funkcije wgeta, citiram direktno na engleskom:

      Želite preuzeti sve GIF-ove iz direktorija na HTTP serveru. Pokušao si s wgetom http://www.example.com/dir/*.gif’, ali to nije uspjelo jer HTTP pronalaženje ne podržava GLOBBING (stavio sam velika slova). U tom slučaju koristite:

      wget -r -l1 –bez roditelja -A.gif http://www.example.com/dir/

      Opširnije, ali učinak je isti. '-r -l1' znači rekurzivno dohvaćanje (vidi Rekurzivno preuzimanje), s maksimalnom dubinom od 1. '–no-parent' znači da se reference na nadređeni direktorij zanemaruju (pogledajte Ograničenja zasnovana na direktoriju) i '-A. gif 'znači preuzimanje samo GIF datoteka. '-A «* .gif»' bi također radio.

      AKO SE IZVRŠI NA OVAJ POSLJEDNJI NAČIN, wget će za nas stvoriti mapu sa traženom web adresom u zadanoj mapi u kojoj radimo i po potrebi će napraviti poddirektorijume i tamo će smjestiti, na primjer, .gif slike koje tražimo.

      --------
      Ipak, ako još uvijek nije moguće dobiti samo određene vrste datoteka (na primjer, * .jpg), morat ćemo upotrijebiti parametar «–page-requisites» koji preuzima sve interne elemente html stranice (slike, zvukovi, css, itd.), zajedno sa samom html stranicom ("–page-rekviziti" mogu biti skraćeni "-p") i to bi bilo ekvivalentno preuzimanju nečega poput "mhtml" https://tools.ietf.org/html/rfc2557

      Nadam se da su vam ove informacije korisne.

      1.    Damian Amoedo rekao je

        Hvala na bilješkama. Salu2.

  2.   afterbanks rekao je

    Mislim da imate grešku, prva dva retka imaju istu naredbu.

  3.   mikrofon rekao je

    Puno vam hvala, jako dobar tutorial!