Come copiare un intero sito Web sul tuo computer utilizzando wget

Link rapidi

  • Prima di iniziare
  • Come copiare un intero sito web localmente utilizzando Wget
  • Che ne dici di scaricare solo una pagina?
  • Download di siti Web per l'accesso offline
  • Come accedi al sito che hai scaricato?
  • Altri strumenti per scaricare contenuti Web per l'utilizzo offline

Concetti chiave

  • Puoi usare wget per scaricare interi siti web per l'accesso offline.
  • wget è uno strumento da riga di comando disponibile per Linux, Windows e MacOS.
  • Può essere utilizzato al posto di altri strumenti come cURL, HTTrack, WebCopy e SiteSucker.

Scaricare un intero sito web è utile se desideri avere la tua copia del testo, delle immagini e degli altri contenuti presenti su di esso, nel caso in cui l'autore lo elimini o il sito web venga chiuso. Tuttavia, i browser Web non includono questa funzionalità immediatamente. Ecco come scaricare un intero sito utilizzando lo strumento wget.

Prima di iniziare

Prima di iniziare, assicurati di avere spazio su disco sufficiente per salvare il sito che desideri scaricare. Alcuni siti hanno molte pagine e molti contenuti che possono essere aggiunti rapidamente, quindi tieni presente cosa scaricherai, in modo da non rimanere senza spazio di archiviazione. Se utilizzi un laptop, assicurati di essere collegato a una presa di corrente, poiché il download di potenzialmente migliaia di file potrebbe richiedere del tempo.

Se utilizzi Windows, dovrai installare il sottosistema Windows per Linux (WSL) per accedere a wget.

Inoltre, tieni presente che molti siti Web moderni sono generati dinamicamente, il che significa che elaborano i dati sui loro server per generare pagine che cambiano quando vengono aggiunti nuovi contenuti o quando aggiorni la pagina. Il download di un sito web o di una pagina ne crea un'istantanea in quel momento, quindi dovrai scaricare nuovamente il sito se desideri una copia aggiornata.

Come copiare un intero sito web localmente utilizzando Wget

Wget è uno strumento da riga di comando per scaricare dati da la rete. È installato per impostazione predefinita su Ubuntu (questo significa anche WSL) e Fedora. Se utilizzi una distribuzione basata su Arch, dovrai installarla. Se utilizzi macOS, wget è disponibile tramite MacPorts.

Se utilizzi Linux o MacOS, dovrai aprire una finestra di Terminale. Se utilizzi Windows utilizzando WSL, avvia la distribuzione Linux che desideri utilizzare.

Puoi verificare che wget sia installato eseguendo:

wget –help

Se wget è disponibile sul tuo sistema, il comando restituirà informazioni sul comando wget.

Ora sei pronto per iniziare il download. Questo è il comando per scaricare un intero sito web:

wget -mpEk https://example.com

Questo comando proverà a prendere tutto ciò che può dal sito Web all'indirizzo https://example.com, scansiona tutti i collegamenti nella prima pagina, scarica quelli collegati pagine e tutto ciò che contengono, quindi continuare attraverso le pagine collegate da quelle pagine.

Ecco il significato di ciascuno dei flag di comando (le lettere che seguono il trattino nel comando wget sopra):

  • -mabilita diverse opzioni che configurano wget per il mirroring di un sito web, incluso il controllo del timestamp e la profondità di ricorsione infinita
  • -p dice a wget di ottenere tutti i requisiti della pagina, come immagini, contenuti multimediali, fogli di stile e file JavaScript
  • -E regola le estensioni dei file scaricati in modo che corrispondano a quelle sul server
  • -k converte i collegamenti nelle pagine salvate per puntare alle tue copie locali, in modo che il tuo sito offline possa essere navigato completamente senza una connessione Internet

Saprai che il sito web è stato scaricato correttamente quando vedrai un output simile al seguente:

< strong class="an-zone-tag-bottom ad-zone-advertising-sub-tag"> $ wget -mpEk https://example.com
–2024-04-05 10: 00:00– https://example.com/
Risoluzione example.com (example.com)… 93.184.216.34
Connessione a example.com (example.com)|93.184.216.34| :443… connesso.
Richiesta HTTP inviata, in attesa di risposta… 200 OK
Lunghezza: non specificata [testo/html]
Salvataggio in: &lsquo;esempio.com/index.html&rsquo;
esempio.com/index.html [ <=> ] 1,07K –.-KB/s in 0 s
2024-04-05 10:00:01 (68,7 MB/s) – &lsquo;example.com/index.html&rsquo; salvato [1096]

Tieni presente che, sebbene si tratti di un download ricorsivo, verranno scaricati solo i collegamenti dal sito Web specificato. Le pagine su altri siti Web rimarranno online e richiederanno una connessione Internet per essere visualizzate.

Puoi vedere un elenco completo di tutti i flag di comando wget e cosa fanno nel manuale utente di wget.

Ricorda, l'operazione potrebbe richiedere del tempo e non esiste un modo reale per stimare il tempo necessario per il download di siti Web di grandi dimensioni, quindi vale la pena controllare di tanto in tanto i progressi per assicurarsi che le cose stiano bene. ancora in corso.

Che ne dici di scaricare solo una pagina?

Se desideri scaricare una singola pagina web, il tuo browser web può farlo in un processo molto più semplice: basta andare al menu File e quindi fare clic sul pulsante "Salva" (la dicitura potrebbe essere leggermente diversa a seconda del browser, su Firefox è “Salva pagina con nome…”).

Se desideri utilizzare wget per scaricare una singola pagina, esegui il comando seguente:

wget -pk https://example.com

Questo omette le opzioni che dicono a wget di scaricare ricorsivamente le pagine e di regolare estensioni e collegamenti.

Download di siti Web per l'accesso offline

Scaricare un intero sito è utile in molte situazioni, tra cui:

  • Fare il backup del tuo blog nel caso in cui il tuo host web si chiuda
  • Archiviare le pagine web per la cronologia scopi (come salvare il sito web di un membro della famiglia per il tuo progetto genealogico)
  • Salvare le pagine web e tutto ciò che contengono per leggerle mentre sei in vacanza (non ovunque c'è ancora una connessione Internet decente!)

Come accedi al sito che hai scaricato?

Un sito scaricato utilizzando wget verrà salvato come file HTML sul tuo PC. Se hai utilizzato WSL, dovrai accedere ai file WSL tramite Esplora file.

Nel nostro esempio, il file si trovava in "\wsl.localhostUbuntu-22.04homeexample" poiché abbiamo utilizzato Ubuntu 22.04 e il nostro nome utente Linux è “esempio”. Wget salverà le cartelle in qualsiasi directory attiva nel Terminale quando esegui il comando, a meno che tu non specifichi manualmente un altro percorso.

I file HTML possono essere aperti da qualsiasi browser, anche se ci sono anche altri programmi che possono farlo, se preferisci uno di questi.

Altri strumenti per scaricare contenuti Web per l'utilizzo offline

Sebbene sia uno dei modi più comuni per scaricare contenuti Web, ce ne sono altri che puoi utilizzare se hai requisiti diversi o non vuoi gestire la riga di comando.

  • cURL è un altro strumento gratuito da riga di comando che può essere utilizzato per scaricare interi siti web
  • HTTrack è uno strumento Windows che fornisce un'interfaccia grafica per scaricare interi siti, se non sei& #39;non mi sento a mio agio nell'usare la riga di comando
  • Cyotek WebCopy fornisce anche una GUI per scaricare interi siti web e include molte opzioni configurabili nonché regole per escludere il contenuto dal download
  • Scrapy e BeautifulSoup sono librerie Python che possono scaricare interi siti, ma sono destinate per sviluppatori Python
  • SiteSucker fornisce un'interfaccia grafica intuitiva per scaricare siti Web per MacOS ed è disponibile nell'App Store
  • Webscrapbook è un'estensione per Firefox o Chrome che può archiviare interi siti per visualizzarli successivamente lettura e consente inoltre di annotare e modificare le pagine
  • Offline Explorer è potente e potrebbe essere in grado di scaricare contenuti di siti Web laddove altri strumenti hanno difficoltà, ma è costoso
< /strong>

Qualunque sia il motivo per cui desideri copiare un intero sito web sul tuo computer, ora sai come fare! Se hai intenzione di leggere offline, un eReader decente è assolutamente necessario.


Posted

in

by

Tags:

Comments

Leave a Reply