Nākamajā rakstā mēs apskatīsim Wget. Jāsaka, ka GNU Wget ir a bezmaksas rīks kas ļauj lejupielādēt saturu no tīmekļa serveriem vienkāršā un ātrā veidā. Tās nosaukums radies no globālā tīmekļa (w) un vārds get (angļu valodā saņemt). Šis nosaukums nozīmē: nokļūt no WWW.
Mūsdienās ir desmitiem lietojumprogrammu, lai failus varētu lejupielādēt ļoti efektīvi. Lielākā daļa no tām ir balstītas uz tīmekļa un darbvirsmas saskarnēm un ir izstrādātas visām operētājsistēmām. Tomēr Gnu / Linux (ir arī Windows versija) ir spēcīgs lejupielādes pārvaldnieks no wget failiem. Tas tiek uzskatīts par visspēcīgāko pastāvošo lejupielādētāju. Atbalsta tādus protokolus kā http, https un ftp.
Lejupielādējiet failus ar wget
Lejupielādējiet failu
Vienkāršākais veids, kā izmantot šo rīku, ir lejupielāde norādot failu Ko mēs vēlamies:
wget http://sitioweb.com/programa.tar.gz
Lejupielādējiet, izmantojot dažādus protokolus
Kā labs lejupielāžu pārvaldnieks tas ir iespējams pieprasīt vairāk nekā vienu lejupielādi vienlaikus. Mēs pat varam izmantot dažādus protokolus vienā un tajā pašā secībā:
wget http://sitioweb.com/programa.tar.gz ftp://otrositio.com/descargas/videos/archivo-video.mpg
Lejupielādēt pēc paplašinājuma
Vēl viens veids, kā lejupielādēt vairākus faili, kas izmanto to pašu paplašinājumu, tā izmantos aizstājējzīmi:
wget<code class="language-bash" data-lang="bash">-r -A.pdf</code>http://sitioweb.com/*.pdf
Šī komanda ne vienmēr darbojas, jo dažiem serveriem, iespējams, ir bloķēta piekļuve wget.
Lejupielādējiet failu sarakstu
Ja mēs vēlamies lejupielādēt atrastos failus, mums būs tikai jāsaglabā tie URL failā. Mēs izveidosim sarakstu ar nosaukumu files.txt un komandā norādīsim saraksta nosaukumu. Nepieciešams katrā rindiņā ievietojiet tikai vienu URL iekšā files.txt.
Komanda, kuru izmantosim izveidotā saraksta lejupielādēšanai un kuru saglabāsim failā.txt, būs šāda:
wget -i archivos.txt
Restartējiet lejupielādi
Ja kāda iemesla dēļ lejupielāde tika pārtraukta, mēs varēsim turpiniet lejupielādi no vietas, kur tā tika pārtraukta izmantojot c variants ar komandu wget:
wget -i -c archivos.txt
Pievienojiet žurnālu par lejupielādi
Ja mēs vēlamies iegūt žurnālu par lejupielādi, lai kontrolēt jebkuru incidentu uz tā mums būs jāpievieno -o variants kā tas parādīts sekojošajā:
wget -o reporte.txt http://ejemplo.com/programa.tar.gz
Ierobežojiet lejupielādes joslas platumu
Ļoti garās lejupielādēs mēs varam ierobežot lejupielādes joslas platumu. Tas neļaus lejupielādei izmantot visu joslas platumu lejupielādes laikā:
wget -o /reporte.log --limit-rate=50k ftp://ftp.centos.org/download/centos5-dvd.iso
Lejupielādējiet ar lietotājvārdu un paroli
Ja mēs vēlamies lejupielādēt no vietnes, kur nepieciešams lietotājvārds / parole, mums būs jāizmanto tikai šīs iespējas:
wget --http-user=admin --http-password=12345 http://ejemplo.com/archivo.mp3
Lejupielādes mēģinājumi
Pēc noklusējuma šī programma mēģina izveidot savienojumu 20 reizes un sāciet lejupielādi ļoti piesātinātās vietnēs, iespējams, ka pat ar 20 mēģinājumiem tas netika sasniegts. Ar opcija t palielinās līdz vairāk mēģinājumiem.
wget -t 50 http://ejemplo.com/pelicula.mpg
Lejupielādējiet vietni ar vietni wget
Wget neaprobežojas tikai ar failu lejupielādiMēs varēsim lejupielādēt pilnu lapu. Mums vienkārši būs jāraksta kaut kas līdzīgs:
wget www.ejemplo.com
Lejupielādējiet vietni un tās papildu elementus
ar opcija lpp mēs arī lejupielādēsim visus lapā nepieciešami papildu elementi piemēram, stila lapas, ievietoti attēli utt.
Ja mēs pievienojam opcija r se tiks lejupielādēta rekursīvi līdz 5 līmeņiem no vietnes:
wget -r www.ejemplo.com -o reporte.log
Konvertēt saites uz vietējo
Pēc noklusējuma saites vietnē norāda uz visa domēna adresi. Ja vietne tiek lejupielādēta rekursīvi un pēc tam tiek pētīta bezsaistē, mēs varam izmantot pārvērst-saites iespēju tas tos pārvērtīs vietējās saites:
wget --convert-links -r http://www.sitio.com/
Iegūstiet pilnu vietnes kopiju
Mums būs iespēja iegūt pilnīgu vietnes kopiju. The –Spoguļa variants ir tas pats, kas izmantot opcijas -r -l inf -N kas norāda uz rekursiju bezgalīgā līmenī un katra lejupielādētā faila sākotnējā laika zīmoga iegūšanu.
wget --mirror http://www.sitio.com/
Pārveidot paplašinājumus
Ja lejupielādējat visu vietni, lai to skatītu bezsaistē, vairāki lejupielādēti faili, iespējams, netiek atvērti tādu paplašinājumu dēļ kā .cgi, .asp vai .php. Tad ir iespējams norādīt ar –Html-pagarinājuma opcija Visi faili tiek pārveidoti par .html paplašinājumu.
wget --mirror --convert-links --html-extension http://www.ejemplo.com
Tās ir tikai vispārīgas vadlīnijas nekā jūs varat darīt ar Wget. Kas vēlas, var konsultēties ar tiešsaistes rokasgrāmata konsultēties ar visām iespējām, ko mums piedāvā šis brīnišķīgais lejupielāžu pārvaldnieks.
Kas attiecas uz "Lejupielādēt ar paplašinājumu", es esmu pārtraucis lasīt. Jūs nevarat lejupielādēt to, ko nezināt. Ja jūsu pieprasītais direktorijs neļauj iekļaut failus un trūkst indeksa (un abiem jābūt vienlaikus), jūsu teikto nevar izdarīt. Kāds līmenis.
Sveiks, Rubēn, nezināšana ir mazliet pārdroša.
To, ko jūs komentējat, var izdarīt ar vienkāršu komandu google:
faila tips:pdf vietne:ubunlog. Ar
Šajā piemērā šajā emuārā nav pdf faila, taču beigās nomainiet domēnu uz vēlamo tīmekli, un jūs redzēsiet, cik viegli ir redzēt visus viena veida tīmekļa failus.
Jauku dienu.
Bet wget nepieslēdzas google, lai atrastu URL, kas atrodas URL. Tīmekļa direktorijai jābūt atvērtai un jābūt indeksa lapai, ko ģenerējis mod_autoindex vai tamlīdzīgi, kā saka Rubēns Kardenāls.
"Šī komanda ne vienmēr darbojas, jo daži serveri, iespējams, ir bloķējuši piekļuvi wget."
Šis grozījums, kas tika ievietots šajā rakstā, jo es tam nepiekrītu (lai gan tehniski ir iespējams bloķēt noteiktus tīmekļa aģentus http galvenes pieprasījumiem un atgriezt ziņojumu 403 "nav atļauts"), un es paskaidrošu, kāpēc:
Visi Apache tīmekļa serveri (un es runāju par ievērojamu serveru procentuālo daļu) pēc noklusējuma ļauj globēt (lielisks Wikipedia raksts: https://es.wikipedia.org/wiki/Glob_(inform%C3%A1tica) .
Tas praksē nozīmē, kā norādījis kungs. Rubēns (un viņam ir taisnība), JA FILES NAV SAUKTAS par "index.php" vai "index.html" (vai pat vienkārši sauktas par "index"), serveris klusi atgriezīs failu un direktoriju sarakstu (protams, formā HTML lapas ar informāciju kā tīmekļa saiti katram failam). Lielākā daļa tīmekļa serveru DROŠĪBAS PAMATOJUMOS DARBĪBAS PĀRTRAUKT ŠO FUNKCIJU .htac failā (stingri runājot Apache2).
Lūk, wget daudzpusība (skatiet tā stāstu vēlreiz Vikipēdijā, to, kuru jūs zināt visvairāk: https://es.wikipedia.org/wiki/GNU_Wget ) analizēt vai "parsēt" minēto informāciju un iegūt tikai tos paplašinājumus, kurus mēs pieprasām.
Tagad, ja tas nedarbojas, viena vai otra iemesla dēļ mēs varam izmēģināt citas uzlabotas wget funkcijas, es citēju tieši angļu valodā:
Jūs vēlaties lejupielādēt visus GIF failus no direktorija HTTP serverī. Jūs mēģinājāt 'wget http://www.example.com/dir/*.gif’, bet tas nedarbojās, jo HTTP izguve neatbalsta GLOBBING (es ieliku lielos burtus). Tādā gadījumā izmantojiet:
wget -r -l1 –no-vecākiem -A.gif http://www.example.com/dir/
Vairāk izteiksmīgs, bet efekts ir tāds pats. '-r -l1' nozīmē rekurzīvu izgūšanu (sk. Rekursīvu lejupielādi) ar maksimālo dziļumu 1. '–no-parent' nozīmē, ka tiek ignorētas atsauces uz vecāku direktoriju (sk. Direktoriju ierobežojumi) un '-A. gif ”nozīmē lejupielādēt tikai GIF failus. Arī '-A «* .gif»' būtu darbojies.
JA JŪS PALĪDZĒT ŠO PĒDĒJO VEIDU, wget izveidos mums mapi ar pieprasīto tīmekļa adresi noklusējuma mapē, kurā mēs strādājam, un nepieciešamības gadījumā tas izveidos apakšdirektorijus un tur ievietos, piemēram, .gif attēlus, kurus mēs pieprasījumu.
--------
Tomēr, ja joprojām nav iespējams iegūt tikai noteikta veida failus (piemēram, * .jpg), mums būs jāizmanto parametrs «–lapas rekvizīti», kas lejupielādē visus HTML lapas iekšējos elementus (attēlus, skaņas, css utt.) kopā ar pašu html lapu ("–lapas rekvizītus" var saīsināt kā "-p"), un tas būtu līdzvērtīgs tam, ka lejupielādējat kaut ko līdzīgu "mhtml" https://tools.ietf.org/html/rfc2557
Es ceru, ka šī informācija jums ir noderīga.
Paldies par piezīmēm. Salu2.
Es domāju, ka jums ir kļūda, pirmajām divām rindām ir tāda pati komanda.
Liels paldies, ļoti laba apmācība!