Hallo Liste! Vielleicht kann mir jemand verraten, wie ich mit wget gezielt ein und nur ein html-Dokument, das aus mehreren verlinkten Dateien besteht, herunterladen kann. Zur Zeit iest es so, dass ich entweder nur eine Datei bekomme oder gleich die ganze Seite gerippt wird. Danke und schöne Feiertage an alle. Luigi
Vielleicht wenn du folgende Optionen bentzt:
-r --recursive Turn on recursive retrieving.
-l depth --level=depth Specify recursion maximum depth level depth. The default maximum depth is 5.
$ wget -r -l 1 http://.../...html
Hast du das schon ausprobiert? Könntest du die von dir bentzte Kommandozeile posten?
Happy hacking! Patrick
Luigi di Lazzaro wrote:
Hallo Liste! Vielleicht kann mir jemand verraten, wie ich mit wget gezielt ein und nur ein html-Dokument, das aus mehreren verlinkten Dateien besteht, herunterladen kann.
Ich hab etwas damit gespielt, bin aber auch nicht gluecklich gewerden
-p soll es richten aber am Beispiel lugbz.org sieht man, dass es nur funktioniert, wenn die Bilder mit relativen Links verwendet werden und nicht mit absoluter URL. In der man-page gibt es zu der Option noch ein paar Beispiele, mehr weiss ich auch nicht.
Wenn es nicht funktioniert, dann probier mal aehnliche Tools: getwww, httrack
Viel Erfolg Karl
Am Montag, 29. Dezember 2003 18:50 schrieb Karl Lunger:
[wget...]
Ich hab etwas damit gespielt, bin aber auch nicht gluecklich gewerden
Ich habe auch die von Patrick vorgeschlagene Zeile eingesetzt: $ wget -r -l 1 http://.../...html wget -r -l 1 http:/www.tuxhausen.de/*.html bekomme eine Warnung: Joker-Zeichen werden bei HTTP nicht unterstützt. wget -r -l 1 http:/www.tuxhausen.de/ rippt er gerade mal eine Ebene, was ja richtig ist. Ich wollte aber gezielt eine Seite und die damit verlinkten bekommen. Gibt es eine Möglichkeit die Struktur, nicht den Code, einer Seite anzusehen? Vermutlich sind die verlinkten Seiten in einem Unterverzeichnis und werden deshalb nicht mitgenommen. Wenn ich aber die Rekursionstiefe erhöhe, dann bekomme ich wieder zuviel. Ich habe dann iaug gut Glück die Ausführung abgebrochen und trotzdem die interessanten Seiten bekommen (und einiges dazu...).
-p soll es richten aber am Beispiel lugbz.org sieht man, dass es nur funktioniert, wenn die Bilder mit relativen Links verwendet werden und nicht mit absoluter URL. In der man-page gibt es zu der Option noch ein paar Beispiele, mehr weiss ich auch nicht.
Werd eich näher betrachten.
Wenn es nicht funktioniert, dann probier mal aehnliche Tools: getwww, httrack
Mache ich, danke für die Tipps und einen guten Rutsch. Luigi