viele Dokumente per curl herunterladen

kolja

Active member
Themenstarter
Registriert
19 Sep. 2007
Beiträge
1.363
Hallo

Als HiWi bekommt man ja auch manchmal sehr undankbare Aufgaben.
Ich soll von einer Webseite sehr viele (so 5000) Dokumente herunterladen.
Nach etwas Suchen und Fragen, auch hier im Forum wurde mir der Tipp mit cURL gegeben.

Mein erster Versuch auf dem RaspberryPi schlug fehl,
daher hier nochmal ordentlich zusammengefasst und im richtigen Forum:

Von der URL: https://www.regelleistung.net/ext/data
sollen tägliche Datensätze (also beide Datumsfelder den selben Tag) für mindestens ein Jahr heruntergeladen werden.
Dann das Ganze noch für jeden ÜBN und jede Datenart.

Der POST Request (hier als GET Ausgabe) sieht wie folgt aus:

Code:
https://www.regelleistung.net/ext/data/?from=27.10.2015&to=27.10.2015&download=true&_download=on&tsoId=4&dataType=MRL

Mit cURL bekomme ich immer nur Fehlermeldung: couldn´t connect to host.
Bin mir aber auch nicht sicher ob die Schreibweise so richtig ist:

Code:
curl --data "from=27.10.2015&to=27.10.2015&download=true&_download=on&tsoId=4&dataType=MRL"  https://www.regelleistung.net/ext/data/

Ist hier vielleicht jemand, der sich damit auskennt und mir weiterhelfen kann?

Wenn das mit einer Zeile funktioniert und das Dokument gespeichert wird,
würde ich einfach die benötigten Zeilen mit Ecxel oder nem Editor erstellen
und dann abarbeiten lassen.

Die berechtigte Frage, warum ich dort nicht anfrage und um die Daten Bitte:
Das wurde schon gemacht.
Aber, da es sich bei der Veröffentlichung dieser Daten nicht um eine Herzensangelegenheit der Netzbetreiber,
sondern um eine gesetzliche Verpflichtung handelt,
fühlte sich wohl erst keiner zuständig und dann wurde nur noch auf die "transparente Internetseite" verwiesen.
Daher muss jetzt der HiWi ran...

Gruß Kolja
 
Mit cURL bekomme ich immer nur Fehlermeldung: couldn´t connect to host.

Code:
curl --data "from=27.10.2015&to=27.10.2015&download=true&_download=on&tsoId=4&dataType=MRL"  https://www.regelleistung.net/ext/data/

also bei mir hat es keine Fehlermeldung ausgegeben
 
und das Dokument (.cvs) wurde korrekt heruntergeladen?
Wäre ja schon mal super!

Dan liegt es wohl an meinem Pi.
 
ich hatte eine Ausgabe in der Form

Code:
27.10.2015;13:00 - 13:15;0,000;0,000;-;;-;-;-;
27.10.2015;13:15 - 13:30;0,000;0,000;-;;-;-;-;
27.10.2015;13:30 - 13:45;0,000;0,000;-;;-;-;-;
27.10.2015;13:45 - 14:00;0,000;0,000;-;;-;-;-;

auch im web, sehe ich nur nullen, ist es so richtig ?

Edit:

habe eben die Datei aus dem Web und die Datei die mit curl heruntergeladen wurde mit diff verglichen, beide Dateien sind gleich

curl --data "from=21.10.2015&to=27.10.2015&download=true&_download=on&tsoId=4&dataType=MRL" https://www.regelleistung.net/ext/data/ > test.csv
 
Zuletzt bearbeitet:
Ja, dann gab es an dem Tag einfach keine Regelleistung.

Kann es sein, dass
1.) der Checkbox Haken für den Download nicht gesetzt wurde?
2.) cURL ja noch auf Absenden klicken müsste?

Hier mal der Quelltext des Buttons:
Code:
<input type="submit" class="btn btn-default btn-xs" id="submit-button" value="anzeigen">

- - - Beitrag zusammengeführt - - -

So, jetzt läuft es!
Vielen Dank fürs Testen.
Mein pi hatte Internetprobleme
Durch dein Erfolg, habe ich tatsächlich den Fehler auf dem Pi gefunden der schon seit Tagen nervt...

- - - Beitrag zusammengeführt - - -

So, nächste Aufgabe :-)

Wenn unter dieser URL: https://www.regelleistung.net/ext/tender/
Ein Zeitraum ausgewählt wird, erscheint eine Liste mit Ausschreibungen.
Diese Ausschreibungen kann man sich auch als .csv runter laden.

Es ist sogar viel einfacher, da die Dateien einfach durchnummeriert sind :-)

bsp. des Downloadlinks: https://www.regelleistung.net/ext/tender/results/download/2170

Wenn dieser geklickt wird, läd sich das Dokument automatisch herunter.
Diese Datei hat dann einen Namen, welcher nicht die Nummer aus dem Link enthält,
sondern das Datum und den Dateityp aus dem Formular.

Wie kann man, mit cURL oder wget die Datei so herunterladen,
dass sie den originalen Namen behält?

Gruß Kolja
 
  • ok1.de
  • ok2.de
  • thinkstore24.de
  • Preiswerte-IT - Gebrauchte Lenovo Notebooks kaufen

Werbung

Zurück
Oben