Scarica una copia locale funzionante di una pagina web

Vorrei scaricare una copia locale di una pagina Web e ottenere tutti i css, immagini, javascript, ecc.

Nelle discussioni precedenti (ad es. Qui e qui , entrambe con più di due anni), vengono generalmente proposti due suggerimenti: wget -p e httrack . Tuttavia, questi suggerimenti falliscono entrambi. Apprezzerei molto l’aiuto con l’utilizzo di uno di questi strumenti per svolgere il compito; le alternative sono anche adorabili.

Opzione 1: wget -p

wget -p scarica correttamente tutti i prerequisiti della pagina web (css, images, js). Tuttavia, quando carico la copia locale in un browser Web, la pagina non è in grado di caricare i prerequisiti perché i percorsi di tali prerequisiti non sono stati modificati dalla versione sul Web.

Per esempio:

  • Nel html della pagina, dovrà essere corretto per indicare il nuovo percorso relativo di foo.css
  • Nel file css, anche l’ background-image: url(/images/bar.png) dovrà essere regolata.

C’è un modo per modificare wget -p modo che i percorsi siano corretti?

Opzione 2: httrack

httrack sembra un ottimo strumento per il mirroring di interi siti web, ma non è chiaro come utilizzarlo per creare una copia locale di una singola pagina. C’è una grande discussione nei forum httrack su questo argomento (ad esempio qui ) ma nessuno sembra avere una soluzione a prova di proiettile.

Opzione 3: un altro strumento?

Alcune persone hanno suggerito strumenti a pagamento, ma non riesco a credere che non esista una soluzione gratuita.

Grazie mille!

wget è capace di fare quello che stai chiedendo. Basta provare quanto segue:

 wget -p -k http://www.example.com/ 

-p ti mostrerà tutti gli elementi necessari per visualizzare correttamente il sito (css, immagini, ecc.). L’ -k cambierà tutti i collegamenti (per includere quelli per CSS e immagini) per consentire di visualizzare la pagina offline come appare online.

Dai documenti Wget:

 '-k' '--convert-links' After the download is complete, convert the links in the document to make them suitable for local viewing. This affects not only the visible hyperlinks, but any part of the document that links to external content, such as embedded images, links to style sheets, hyperlinks to non-html content, etc. Each link will be changed in one of the two ways: The links to files that have been downloaded by Wget will be changed to refer to the file they point to as a relative link. Example: if the downloaded file /foo/doc.html links to /bar/img.gif, also downloaded, then the link in doc.html will be modified to point to '../bar/img.gif'. This kind of transformation works reliably for arbitrary combinations of directories. The links to files that have not been downloaded by Wget will be changed to include host name and absolute path of the location they point to. Example: if the downloaded file /foo/doc.html links to /bar/img.gif (or to ../bar/img.gif), then the link in doc.html will be modified to point to http://sofit.miximages.com/download/img.gif. Because of this, local browsing works reliably: if a linked file was downloaded, the link will refer to its local name; if it was not downloaded, the link will refer to its full Internet address rather than presenting a broken link. The fact that the formsr links are converted to relative links ensures that you can move the downloaded hierarchy to another directory. Note that only at the end of the download can Wget know which links have been downloaded. Because of that, the work done by '-k' will be performsd at the end of all the downloads.