Í næstu grein ætlum við að skoða Wget. Það verður að segjast að GNU Wget er a ókeypis tól sem gerir kleift að hlaða niður efni af netþjónum á einfaldan og fljótlegan hátt. Nafn þess kemur frá veraldarvefnum (w) og orðið get (á ensku fá). Þetta nafn þýðir: komast frá WWW.
Í dag eru tugir forrita til að hlaða niður skrám á mjög skilvirkan hátt. Flest þeirra eru byggð á tengi á vefnum og skjáborðinu og eru þróuð fyrir öll stýrikerfi. Hins vegar á Gnu / Linux (það er líka útgáfa fyrir Windows) þar er öflugur niðurhalsstjóri af wget skrám. Það er talið öflugasta niðurhalið sem til er. Styður samskiptareglur eins og http, https og FTP.
Index
- 1 Sæktu skrár með wget
- 1.1 Sæktu skrá
- 1.2 Sækja með mismunandi samskiptareglum
- 1.3 Niðurhal eftir framlengingu
- 1.4 Þessi skipun virkar ekki alltaf þar sem sumir netþjónar hafa hugsanlega lokað fyrir aðgang að wget.
- 1.5 Sæktu skráalista
- 1.6 Endurræstu niðurhal
- 1.7 Bættu við þig inn skrá um niðurhalið
- 1.8 Takmarkaðu bandbreidd niðurhals
- 1.9 Sækja með notendanafni og lykilorði
- 1.10 Niðurhal tilraunir
- 2 Sæktu vefsíðu með wget
Sæktu skrár með wget
Sæktu skrá
Einfaldasta leiðin til að nota þetta tól er að hlaða niður sem gefur til kynna skrána Það sem við viljum:
wget http://sitioweb.com/programa.tar.gz
Sækja með mismunandi samskiptareglum
Sem góður niðurhalsstjóri er það mögulegt biðja um fleiri en eina niðurhal í einu. Við getum jafnvel notað mismunandi samskiptareglur í sömu röð:
wget http://sitioweb.com/programa.tar.gz ftp://otrositio.com/descargas/videos/archivo-video.mpg
Niðurhal eftir framlengingu
Önnur leið til að hlaða niður mörgum skrár sem nota sömu viðbót, það mun nota jókortastjörnuna:
wget<code class="language-bash" data-lang="bash">-r -A.pdf</code>http://sitioweb.com/*.pdf
Þessi skipun virkar ekki alltaf þar sem sumir netþjónar hafa hugsanlega lokað fyrir aðgang wget.
Sæktu skráalista
Ef það sem við viljum er að hlaða niður skrám sem við erum að finna, verðum við aðeins að vista þær Vefslóð í skrá. Við munum búa til lista sem kallast files.txt og við munum tilgreina nafn listans við skipunina. Nauðsynlegt settu aðeins eina slóð á línu inni í files.txt.
Skipunin sem við munum nota til að hlaða niður listanum sem búinn er til og sem við vistum í .txt skrár verður eftirfarandi:
wget -i archivos.txt
Endurræstu niðurhal
Ef niðurhalið var rofið af einhverjum ástæðum getum við gert það haltu áfram að hlaða niður þar sem frá var horfið nota valkostur c með skipuninni wget:
wget -i -c archivos.txt
Bættu við þig inn skrá um niðurhalið
Ef við viljum fá skrá um niðurhalið, til þess að stjórna hverju atviki á það verðum við að bæta við -o valkostur eins og það sést á eftirfarandi:
wget -o reporte.txt http://ejemplo.com/programa.tar.gz
Takmarkaðu bandbreidd niðurhals
Í mjög löngu niðurhali getum við takmarka niðurhal bandbreiddar. Með þessu munum við koma í veg fyrir að niðurhalið taki upp alla bandbreidd meðan á niðurhalinu stendur:
wget -o /reporte.log --limit-rate=50k ftp://ftp.centos.org/download/centos5-dvd.iso
Sækja með notendanafni og lykilorði
Ef við viljum hlaða niður af vefsíðu þar sem notandanafn / lykilorð er krafist verðum við aðeins að nota þessa valkosti:
wget --http-user=admin --http-password=12345 http://ejemplo.com/archivo.mp3
Niðurhal tilraunir
Sjálfgefið, þetta forrit gerir 20 tilraunir til að koma á tengingu og byrjaðu að hlaða niður, á mjög mettuðum síðum er mögulegt að jafnvel með 20 tilraunum náðist það ekki. Með valkostur t eykst til fleiri tilrauna.
wget -t 50 http://ejemplo.com/pelicula.mpg
Sæktu vefsíðu með wget
Wget hjálpaðu manni
Wget er ekki takmarkað við niðurhal á skrámVið munum geta sótt heila síðu. Við verðum bara að skrifa eitthvað eins og:
wget www.ejemplo.com
Sæktu vefsíðu og auka þætti hennar
Með valkostur bls við munum einnig hlaða niður öllum auka þætti sem þarf á síðunni svo sem stílblöð, innbyggðar myndir o.s.frv.
Ef við bætum við valkostur r se mun hlaða niður endurkvæmanlega upp í 5 stig af síðunni:
wget -r www.ejemplo.com -o reporte.log
Umbreyta krækjum í staðbundið
Sjálfgefið er að hlekkirnir innan síðunnar vísi á heimilisfang alls lénsins. Ef við sækjum síðuna endurkvæmanlega og lærum hana síðan án nettengingar getum við notað convert-links valkostur sem mun gera þá að staðbundin tengsl:
wget --convert-links -r http://www.sitio.com/
Fáðu þér fullt eintak af síðunni
Við munum hafa möguleika á að fá heildarafrit af vefsíðu. The –Speglunarmöguleiki er það sama og að nota valkostir -r -l inf -N sem gefur til kynna endurhvarf á óendanlegu stigi og að fá upphaflegan tímamerki hverrar niðurhalaðrar skráar.
wget --mirror http://www.sitio.com/
Umbreyta viðbætur
Ef þú sækir alla síðuna til að skoða hana án nettengingar, geta nokkrar skrár sem þú hefur hlaðið niður ekki opnað vegna viðbóta eins og .cgi, .asp eða .php. Þá er hægt að gefa til kynna með –Html-viðbótarvalkostur Allar skrár eru umbreyttar í .html viðbót.
wget --mirror --convert-links --html-extension http://www.ejemplo.com
Þetta eru bara almennar leiðbeiningar en þú getur gert með Wget. Hver vill getur haft samráð við nethandbók að hafa samráð við alla möguleika sem þessi frábæra niðurhalsstjóri býður okkur upp á.
7 athugasemdir, láttu þitt eftir
Varðandi „Download by extension“ þá er ég hættur að lesa. Þú getur ekki hlaðið niður því sem þú veist ekki. Það er ekki hægt að gera það sem þú segir, nema umbeðna skráin leyfi skráningu á skrám og skortir vísitölu (og bæði verða að eiga sér stað á sama tíma). Þvílík stig.
Halló Rubén, fáfræði er svolítið áræðin.
Það sem þú skrifar um er hægt að gera með einfaldri skipun á google:
skráargerð: pdf síða: ubunlog.com
Í þessu dæmi er engin pdf á þessu bloggi, heldur breyttu léninu í lokin á vefinn sem þú vilt frekar og þú munt sjá hversu auðvelt það er að sjá allar skrár af gerð vefsins.
Eigðu góðan dag.
En wget tengist ekki google til að finna pdfs sem eru í url. Vefskráin verður að vera opin og það verður að vera vísitölusíða búin til af mod_autoindex eða álíka, eins og Rubén Cardenal segir.
"Þessi skipun virkar ekki alltaf, þar sem sumir netþjónar geta lokað fyrir aðgang að wget."
Þessi breytingartillaga sem sett var á þessa grein, vegna þess að ég er ekki sammála henni (þó tæknilega sé hægt að loka á ákveðna vefmiðla fyrir http hausabeiðnum og skila 403 „óheimilt“ skilaboðum) og ég mun útskýra af hverju:
Allir Apache vefþjónar (og ég er að tala um töluvert hlutfall netþjóna) leyfa sjálfgefið globbing (framúrskarandi Wikipedia grein, lesið: https://es.wikipedia.org/wiki/Glob_(inform%C3%A1tica) .
Þetta þýðir í reynd, eins og tilgreint er af hr. Rubén (og hann hefur rétt fyrir sér), EF ÞAÐ ER EKKI SKRÁ SEM kallast „index.php“ eða „index.html“ (eða jafnvel einfaldlega kallað „index“) mun netþjónninn skila hljóðlega lista yfir skrár og möppur (auðvitað í formi af html síðu með upplýsingunum sem vefhlekkur fyrir hverja skrá). FLESTIR VEFÞJÓNARAR VEGNA ÞESSA EIGINLEIKA Í GEGN. .Htacces Skrá (strangt til tekið Apache2) AF ÖRYGGISÁSTÆÐUM.
Hér er fjölhæfni wget (sjá sögu þess, aftur á Wikipedia, þá sem þú þekkir mest: https://es.wikipedia.org/wiki/GNU_Wget ) til að greina eða „flokka“ umræddar upplýsingar og draga aðeins þær viðbætur sem við biðjum um.
Nú, ef þetta virkar ekki, af einni eða annarri ástæðu, getum við prófað aðrar þróaðar wget aðgerðir, ég vitna beint á ensku:
Þú vilt hlaða niður öllum GIF úr möppu á HTTP netþjóni. Þú reyndir 'wget http://www.example.com/dir/*.gif’, en það tókst ekki vegna þess að HTTP sókn styður ekki GLOBBING (ég setti hástafi). Í því tilfelli, notaðu:
wget -r -l1 – ekkert foreldri -A.gif http://www.example.com/dir/
Meira orðrétt, en áhrifin eru þau sömu. '-r -l1' þýðir að sækja endurkvæmanlega (sjá endurkvæma niðurhal), með hámarksdýpt 1. '–no-parent' þýðir að tilvísanir í móðurskrá eru hunsaðar (sjá takmörk byggð á skrá) og '-A. gif 'þýðir að hlaða aðeins niður GIF skrám. '-A «* .gif»' hefði líka virkað.
EF þú hleypur á þessari síðustu leið mun wget búa til möppu fyrir okkur með umbeðið veffang í sjálfgefnu möppunni þar sem við erum að vinna og það mun búa til undirskrár ef nauðsyn krefur og þar mun hún til dæmis setja .gif myndirnar sem við beiðni.
--------
ENN ef það er ennþá ekki mögulegt að fá aðeins ákveðnar tegundir af skrám (* .jpg, til dæmis) verðum við að nota breytuna «–page-Requisites» sem hleður niður öllum innri þáttum html síðu (myndir, hljóð, css, etc) ásamt html síðunni sjálfri („–síðuþarfir“ er hægt að stytta „-p“) og það jafngildir því að hlaða niður einhverju eins og „mhtml“ https://tools.ietf.org/html/rfc2557
Ég vona að þessar upplýsingar séu gagnlegar fyrir þig.
Takk fyrir glósurnar. Salu2.
Ég held að þú hafir villu, fyrstu tvær línurnar eru með sömu skipun.
Þakka þér kærlega, mjög góð kennsla!