Wie ganze Website inkl. aller Unterseiten speichern?

dark_rider · 6 Sep. 2023

Hallo zusammen,

ich möchte eine interessante Website komplett inklusive aller Unterseiten (schätzungsweise etwa 100 Seiten) speichern.

Ist vielleicht jemandem ein gängiges Tool bekannt, das bei Eingabe der Homepage alle Links durchläuft und die komplette Website offline speichert, so dass man sie in Ruhe auch offline lesen kann?

T500_2082 · 11 Okt. 2023

Es ist discutabel illegal, Daten automatisiert herunterzuladen von einer Web, die nicht zur öffentlichen Verbreitung dort gedacht waren. Der Crawler lädt ALLES herunter. Einfach nur frei von Prädispositionen den Artikel durchlesen.

Beitrag automatisch zusammengeführt: 11 Okt. 2023

Aiphaton schrieb:
Übrigens - auch zu den Personenbezogenen Daten steht dort, dass es technisch gesehen legal ist, die Sachen runterzuladen (falls frei zugänglich). Nur keine gute Idee. Hier liegt aber der Fehler bei dem Websitebetreiber, da die Daten nicht ungesichert abgelegt werden dürfen.

Das Herunterladen schon. Das Speichern bei dir von personenbezogenen Daten ist illegal. Davon ist meine Rede von der ersten Minute an.

zwieblum · 11 Okt. 2023

Wie stellst du fest, dass es nicht zum Download gedacht war, wenn es downloadbar ist?

Aiphaton · 11 Okt. 2023

T500_2082 schrieb:
Das Herunterladen schon. Das Speichern bei dir von personenbezogenen Daten ist illegal.

Aus deiner Quelle:

Nehmen wir zum Beispiel an, ein Webhoster macht „versehentlich“ seine Benutzerdaten öffentlich zugänglich. (...)

Auch wenn es technisch gesehen legal wäre, diese Daten abzugreifen, ist es wahrscheinlich nicht die beste Idee. Nur weil Daten öffentlich sind, heißt das nicht unbedingt, dass der Webhoster dem Scrapen zugestimmt hat, selbst wenn er sie durch mangelnde Vorsicht öffentlich gemacht hat.

Andere Quelle:

Web Scraping: Funktionsweise, Schutz und Legalität

Worum es sich beim Web Scraping handelt und inwiefern es dem Web Crawling ähnelt, erfahren Sie hier.

blog.hubspot.de

Kernaussage: Ist legal, solange keine Sperren überwunden werden. Und um was anderes geht es hier nicht.

T500_2082 schrieb:
Davon ist meine Rede von der ersten Minute an.

Nein. Du hast bisher ausschließlich mit Urheberrecht argumentiert:

T500_2082 schrieb:
die ohne Zweifel auch ein Urheberrecht beinhaltet, ohne Genehmigung auf seine HD zu replizieren. Nur so mal.

T500_2082 schrieb:
Bereits schon in der bloßen Anordnung der einzelnen Seiten könnte eine Urheberrechtsleistung begründet sein,

Bei "das könnten personenbezogene Daten sein" geht es definitiv nicht ums Urheberrecht. Real sollte man - wenn man über die hier genannten Methoden plötzlich personenbezogene Daten auf der HDD hat, eher hingehen & wahlweise den Websitebetreiber informieren - oder den Datenschutzbeauftragen. Dann ist der Websitebetreiber in GROßEN Schwierigkeiten. Wenn einem die Daten auffallen, sollte man sie aber - nach der Meldung an die zuständigen Behörden/den betreiber - auch vernichten.

Hier ist sogar ein Beispiel, wo bewusst auf Personenbezogene Daten zugegriffen wurde & diese heruntergeladen wurden. Dort wurde ein Verfahren wegen Hacking etc. eingestellt - weil man Daten nicht hacken kann, die öffentlich abrufbar sind:

CDU Connect: Ermittlungsverfahren gegen Sicherheitsforscherin Lilith Wittmann eingestellt – netzpolitik.org

Die CDU hatte die Entwicklerin Lilith Wittmann, die Sicherheitslücken in der Wahlkampf-App der Partei entdeckt hatte, angezeigt. Nun stellen auch die Ermittler fest: Die Daten standen ungeschützt und offen im Netz. Sie beenden die Ermittlungen gegen Wittmann, doch der CDU steht ein...

netzpolitik.org

T500_2082 · 12 Okt. 2023

zwieblum schrieb:
Wie stellst du fest, dass es nicht zum Download gedacht war, wenn es downloadbar ist?

Warum und wozu sollte jmd das feststellen wollen?

Mornsgrans · 12 Okt. 2023

zwieblum schrieb:
Wie stellst du fest, dass es nicht zum Download gedacht war, wenn es downloadbar ist?

"Downloadbar" ist jeder Webseiten-Inhalt, nämlich in den temporären Speicher. Das war ja vor ca. 12 Jahren Inhalt von Diskussionen über die sog. Abmahnanwälte, die so versuchten, angeblich illegale Downloads z.B. von Porno-Seiten (Suche nach "abmahnung pornhub") durch streamen zu einem lukrativen Geschäft auszubauen.

Technisch kann man durch entsprechenden Code auf der Webseite im Browser z.B. den Dialog bei Rechtsklick sperren und damit ist der Wille des Seitenbetreibers erkennbar, dass dieser Inhalt nicht gezielt zum herunterladen gedacht ist. In solchen Fällen sollte man nicht versuchen, diese Sperre zu umgehen.

zwieblum · 12 Okt. 2023

Aber ohne JavaScript funktioniert das nicht, und JS abschalten ist wohl keine Straftat, oder?

Ravensberger · 12 Okt. 2023

Das Internetarchiv, das von allen möglichen Webseiten Schnappschüsse erstellt und diese veröffentlicht, dürfte die gesamte Diskussion hier müßig erscheinen lassen. Glaubt denn ernsthaft jemand, dass sich noch keine findigen Abmahn-Abzocker gefunden haben, die Internetarchiv versucht haben stillzulegen? Doch, die hat es gegeben. Ergebnis: Die Organisation macht weiter wie bisher.

Mornsgrans · 12 Okt. 2023

zwieblum schrieb:
Aber ohne JavaScript funktioniert das nicht, und JS abschalten ist wohl keine Straftat, oder?

Da auf vielen Webseiten inzwischen zahlreiche Java-Skript Schalteraktionen implementiert sind, sind diese Links eh "tot", sobald Java-Skript deaktiviert ist. Auch bleibt zu prüfen, inwieweit die oben genannten Tools solchen Links überhaupt folgen können.

Ravensberger schrieb:
Das Internetarchiv, das von allen möglichen Webseiten Schnappschüsse erstellt und diese veröffentlicht, dürfte die gesamte Diskussion hier müßig erscheinen lassen.

Weiß ich nicht. Auch hier besteht das Problem, dass Java-Schalter-Aktionen oft bei archive.org ins leere führen oder auf die ursprüngliche Webseite, die oftmals mit 404 antwortet, weil die Seite umgestaltet oder entfernt wurde. Das habe ich schon recht häufig auf archivierten Lenovo-Seiten bei der Suche nach Dokumenten erlebt. So wird nicht jede Seite archiviert.
Abgesehen davon kann man Crawler durch eine entsprechend konfigurierte robots.txt blockieren.

Aiphaton · 12 Okt. 2023

Ravensberger schrieb:
Das Internetarchiv, das von allen möglichen Webseiten Schnappschüsse erstellt und diese veröffentlicht,

Das wird durchaus regelmäßig angegriffen, Beispiel:

Wegen 100 Jahre alter Schallplatten: Musikindustrie verklagt Internet Archive – netzpolitik.org

Nach Klagen von Buchverlagen nehmen nun auch Musiklabels das Internet Archive ins Visier. Der Vorwurf: massenhafter Verstoß gegen das Urheberrecht. Die millionenschweren Forderungen könnten dem gemeinnützigen Projekt beträchtlich schaden.

netzpolitik.org

Trotz Copyright-Urteil: Viele Bücher bleiben im Internet Archive

Die Online-Bibliothek des Internet Archive verletzt Copyright. Aber vielleicht nicht so viel. Daher bleiben zahlreiche Bücher online.

www.heise.de

T500_2082 · 13 Okt. 2023

Ravensberger schrieb:
Das Internetarchiv, das von allen möglichen Webseiten Schnappschüsse erstellt und diese veröffentlicht, dürfte die gesamte Diskussion hier müßig erscheinen lassen. Glaubt denn ernsthaft jemand, dass sich noch keine findigen Abmahn-Abzocker gefunden haben, die Internetarchiv versucht haben stillzulegen? Doch, die hat es gegeben. Ergebnis: Die Organisation macht weiter wie bisher.

Es geht um ganze Websites, nicht einzelne Webseiten.

Armance · 13 Okt. 2023

Hier möchte sich jemand für den Hausgebrauch eine urherberrechtlich komplett unbedenkliche Privatkopie von einer kleinen Webpräsenz machen, vielleicht ist das auch ohne größere Textgewitter legalistischer Bedenkenträgerei machbar...

wawa · 13 Okt. 2023

Du kannst auch alle Seiten selber durchnavigieren und dann im Netzwerk Tab eine HAR Datei herunterladen, glaube das müsste auch gehen.

Wie ganze Website inkl. aller Unterseiten speichern?

dark_rider

Active member

T500_2082

Member

zwieblum

Well-known member

Aiphaton

Well-known member

Web Scraping: Funktionsweise, Schutz und Legalität

CDU Connect: Ermittlungsverfahren gegen Sicherheitsforscherin Lilith Wittmann eingestellt – netzpolitik.org

T500_2082

Member

Mornsgrans

Help-Desk

zwieblum

Well-known member

Ravensberger

Well-known member

Mornsgrans

Help-Desk

Aiphaton

Well-known member

Wegen 100 Jahre alter Schallplatten: Musikindustrie verklagt Internet Archive – netzpolitik.org

Trotz Copyright-Urteil: Viele Bücher bleiben im Internet Archive

T500_2082

Member

Armance

Member

wawa

Guest

Werbung