Wget, nokkur dæmi um hvað er hægt að gera með þessu tóli

Um wget
Í næstu grein ætlum við að skoða Wget. Það verður að segjast að GNU Wget er a ókeypis tól sem gerir kleift að hlaða niður efni af netþjónum á einfaldan og fljótlegan hátt. Nafn þess kemur frá veraldarvefnum (w) og orðið get (á ensku ). Þetta nafn þýðir: komast frá WWW.

Í dag eru tugir forrita til að hlaða niður skrám á mjög skilvirkan hátt. Flest þeirra eru byggð á tengi á vefnum og skjáborðinu og eru þróuð fyrir öll stýrikerfi. Hins vegar á Gnu / Linux (það er líka útgáfa fyrir Windows) þar er öflugur niðurhalsstjóri af wget skrám. Það er talið öflugasta niðurhalið sem til er. Styður samskiptareglur eins og http, https og FTP.

Sæktu skrár með wget

Sæktu skrá

Einfaldasta leiðin til að nota þetta tól er að hlaða niður sem gefur til kynna skrána Það sem við viljum:

wget http://sitioweb.com/programa.tar.gz

Sækja með mismunandi samskiptareglum

Sem góður niðurhalsstjóri er það mögulegt biðja um fleiri en eina niðurhal í einu. Við getum jafnvel notað mismunandi samskiptareglur í sömu röð:

wget http://sitioweb.com/programa.tar.gz ftp://otrositio.com/descargas/videos/archivo-video.mpg

Niðurhal eftir framlengingu

Önnur leið til að hlaða niður mörgum skrár sem nota sömu viðbót, það mun nota jókortastjörnuna:

wget<code class="language-bash" data-lang="bash">-r -A.pdf</code>http://sitioweb.com/*.pdf

Þessi skipun virkar ekki alltaf þar sem sumir netþjónar hafa hugsanlega lokað fyrir aðgang wget.

Sæktu skráalista

Ef það sem við viljum er að hlaða niður skrám sem við erum að finna, verðum við aðeins að vista þær Vefslóð í skrá. Við munum búa til lista sem kallast files.txt og við munum tilgreina nafn listans við skipunina. Nauðsynlegt settu aðeins eina slóð á línu inni í files.txt.

Skipunin sem við munum nota til að hlaða niður listanum sem búinn er til og sem við vistum í .txt skrár verður eftirfarandi:

wget -i archivos.txt

Endurræstu niðurhal

Ef niðurhalið var rofið af einhverjum ástæðum getum við gert það haltu áfram að hlaða niður þar sem frá var horfið nota valkostur c með skipuninni wget:

wget -i -c archivos.txt

Bættu við þig inn skrá um niðurhalið

Ef við viljum fá skrá um niðurhalið, til þess að stjórna hverju atviki á það verðum við að bæta við -o valkostur eins og það sést á eftirfarandi:

wget -o reporte.txt http://ejemplo.com/programa.tar.gz

Takmarkaðu bandbreidd niðurhals

Í mjög löngu niðurhali getum við takmarka niðurhal bandbreiddar. Með þessu munum við koma í veg fyrir að niðurhalið taki upp alla bandbreidd meðan á niðurhalinu stendur:

wget -o /reporte.log --limit-rate=50k ftp://ftp.centos.org/download/centos5-dvd.iso

Sækja með notendanafni og lykilorði

Ef við viljum hlaða niður af vefsíðu þar sem notandanafn / lykilorð er krafist verðum við aðeins að nota þessa valkosti:

wget --http-user=admin --http-password=12345 http://ejemplo.com/archivo.mp3

Niðurhal tilraunir

Sjálfgefið, þetta forrit gerir 20 tilraunir til að koma á tengingu og byrjaðu að hlaða niður, á mjög mettuðum síðum er mögulegt að jafnvel með 20 tilraunum náðist það ekki. Með valkostur t eykst til fleiri tilrauna.

wget -t 50 http://ejemplo.com/pelicula.mpg

Sæktu vefsíðu með wget

Wget hjálpaðu manni

Wget hjálpaðu manni

Wget er ekki takmarkað við niðurhal á skrámVið munum geta sótt heila síðu. Við verðum bara að skrifa eitthvað eins og:

wget www.ejemplo.com

Sæktu vefsíðu og auka þætti hennar

Með valkostur bls við munum einnig hlaða niður öllum auka þætti sem þarf á síðunni svo sem stílblöð, innbyggðar myndir o.s.frv.

Ef við bætum við valkostur r se mun hlaða niður endurkvæmanlega upp í 5 stig af síðunni:

wget -r www.ejemplo.com -o reporte.log

Umbreyta krækjum í staðbundið

Sjálfgefið er að hlekkirnir innan síðunnar vísi á heimilisfang alls lénsins. Ef við sækjum síðuna endurkvæmanlega og lærum hana síðan án nettengingar getum við notað convert-links valkostur sem mun gera þá að staðbundin tengsl:

wget --convert-links -r http://www.sitio.com/

Fáðu þér fullt eintak af síðunni

Við munum hafa möguleika á að fá heildarafrit af vefsíðu. The –Speglunarmöguleiki er það sama og að nota valkostir -r -l inf -N sem gefur til kynna endurhvarf á óendanlegu stigi og að fá upphaflegan tímamerki hverrar niðurhalaðrar skráar.

wget --mirror http://www.sitio.com/

Umbreyta viðbætur

Ef þú sækir alla síðuna til að skoða hana án nettengingar, geta nokkrar skrár sem þú hefur hlaðið niður ekki opnað vegna viðbóta eins og .cgi, .asp eða .php. Þá er hægt að gefa til kynna með –Html-viðbótarvalkostur Allar skrár eru umbreyttar í .html viðbót.

wget --mirror --convert-links --html-extension http://www.ejemplo.com

Þetta eru bara almennar leiðbeiningar en þú getur gert með Wget. Hver vill getur haft samráð við nethandbók að hafa samráð við alla möguleika sem þessi frábæra niðurhalsstjóri býður okkur upp á.


Innihald greinarinnar fylgir meginreglum okkar um siðareglur ritstjórnar. Til að tilkynna um villu smelltu hér.

7 athugasemdir, láttu þitt eftir

Skildu eftir athugasemd þína

Netfangið þitt verður ekki birt. Nauðsynlegir reitir eru merktir með *

*

*

  1. Ábyrgðarmaður gagna: Miguel Ángel Gatón
  2. Tilgangur gagnanna: Control SPAM, umsögn stjórnun.
  3. Lögmæti: Samþykki þitt
  4. Samskipti gagna: Gögnunum verður ekki miðlað til þriðja aðila nema með lagalegri skyldu.
  5. Gagnageymsla: Gagnagrunnur sem Occentus Networks (ESB) hýsir
  6. Réttindi: Hvenær sem er getur þú takmarkað, endurheimt og eytt upplýsingum þínum.

  1.   Ruben Cardenal sagði

    Varðandi „Download by extension“ þá er ég hættur að lesa. Þú getur ekki hlaðið niður því sem þú veist ekki. Það er ekki hægt að gera það sem þú segir, nema umbeðna skráin leyfi skráningu á skrám og skortir vísitölu (og bæði verða að eiga sér stað á sama tíma). Þvílík stig.

    1.    Tölvu nafnlaus sagði

      Halló Rubén, fáfræði er svolítið áræðin.
      Það sem þú skrifar um er hægt að gera með einfaldri skipun á google:
      skráargerð: pdf síða: ubunlog.com
      Í þessu dæmi er engin pdf á þessu bloggi, heldur breyttu léninu í lokin á vefinn sem þú vilt frekar og þú munt sjá hversu auðvelt það er að sjá allar skrár af gerð vefsins.
      Eigðu góðan dag.

      1.    prakkarastrik sagði

        En wget tengist ekki google til að finna pdfs sem eru í url. Vefskráin verður að vera opin og það verður að vera vísitölusíða búin til af mod_autoindex eða álíka, eins og Rubén Cardenal segir.

    2.    Jimmy Olano sagði

      "Þessi skipun virkar ekki alltaf, þar sem sumir netþjónar geta lokað fyrir aðgang að wget."
      Þessi breytingartillaga sem sett var á þessa grein, vegna þess að ég er ekki sammála henni (þó tæknilega sé hægt að loka á ákveðna vefmiðla fyrir http hausabeiðnum og skila 403 „óheimilt“ skilaboðum) og ég mun útskýra af hverju:

      Allir Apache vefþjónar (og ég er að tala um töluvert hlutfall netþjóna) leyfa sjálfgefið globbing (framúrskarandi Wikipedia grein, lesið: https://es.wikipedia.org/wiki/Glob_(inform%C3%A1tica) .

      Þetta þýðir í reynd, eins og tilgreint er af hr. Rubén (og hann hefur rétt fyrir sér), EF ÞAÐ ER EKKI SKRÁ SEM kallast „index.php“ eða „index.html“ (eða jafnvel einfaldlega kallað „index“) mun netþjónninn skila hljóðlega lista yfir skrár og möppur (auðvitað í formi af html síðu með upplýsingunum sem vefhlekkur fyrir hverja skrá). FLESTIR VEFÞJÓNARAR VEGNA ÞESSA EIGINLEIKA Í GEGN. .Htacces Skrá (strangt til tekið Apache2) AF ÖRYGGISÁSTÆÐUM.

      Hér er fjölhæfni wget (sjá sögu þess, aftur á Wikipedia, þá sem þú þekkir mest: https://es.wikipedia.org/wiki/GNU_Wget ) til að greina eða „flokka“ umræddar upplýsingar og draga aðeins þær viðbætur sem við biðjum um.

      Nú, ef þetta virkar ekki, af einni eða annarri ástæðu, getum við prófað aðrar þróaðar wget aðgerðir, ég vitna beint á ensku:

      Þú vilt hlaða niður öllum GIF úr möppu á HTTP netþjóni. Þú reyndir 'wget http://www.example.com/dir/*.gif’, en það tókst ekki vegna þess að HTTP sókn styður ekki GLOBBING (ég setti hástafi). Í því tilfelli, notaðu:

      wget -r -l1 – ekkert foreldri -A.gif http://www.example.com/dir/

      Meira orðrétt, en áhrifin eru þau sömu. '-r -l1' þýðir að sækja endurkvæmanlega (sjá endurkvæma niðurhal), með hámarksdýpt 1. '–no-parent' þýðir að tilvísanir í móðurskrá eru hunsaðar (sjá takmörk byggð á skrá) og '-A. gif 'þýðir að hlaða aðeins niður GIF skrám. '-A «* .gif»' hefði líka virkað.

      EF þú hleypur á þessari síðustu leið mun wget búa til möppu fyrir okkur með umbeðið veffang í sjálfgefnu möppunni þar sem við erum að vinna og það mun búa til undirskrár ef nauðsyn krefur og þar mun hún til dæmis setja .gif myndirnar sem við beiðni.

      --------
      ENN ef það er ennþá ekki mögulegt að fá aðeins ákveðnar tegundir af skrám (* .jpg, til dæmis) verðum við að nota breytuna «–page-Requisites» sem hleður niður öllum innri þáttum html síðu (myndir, hljóð, css, etc) ásamt html síðunni sjálfri („–síðuþarfir“ er hægt að stytta „-p“) og það jafngildir því að hlaða niður einhverju eins og „mhtml“ https://tools.ietf.org/html/rfc2557

      Ég vona að þessar upplýsingar séu gagnlegar fyrir þig.

      1.    Damian Amoedo sagði

        Takk fyrir glósurnar. Salu2.

  2.   Eftirbankar sagði

    Ég held að þú hafir villu, fyrstu tvær línurnar eru með sömu skipun.

  3.   Mike sagði

    Þakka þér kærlega, mjög góð kennsla!