Warum spidern verboten ist und es keine API gibt (IMHO)

Viele Geocacher kennen das Problem, wie komme ich möglichst schnell und möglichst effektiv an möglichst viele Informationen von Caches um meine Datenbank (z.B. GSAK, Cachewolf, etc) zu füttern? Hier fällt ganz schnell der Begriff spidern. Ein Spider selbst ist nichts anderes als ein Programm, dass gezielt Internetseiten aufruft und die darin enthaltenen Informationen speichert (Weitere Informationen auf Wikipedia Webcrawler). Im Bezug auf Geocachingseiten bedeutet das so viel wie: Cachseite aufrufen, Name speichern, Koorinate speichern, Beschreibung speichern, Hint speichern, Seite schließen.

Wenn man dies von Hand machen würde, würde man vielleicht 2-3  Seiten in der Minute schaffen und es wäre nahezu unmöglich seinen Datenbankbestand von mehrere hunderten und tausenden Caches aktuell zu halten. Der Traffic (die Zugriffe auf die Server von Groundspeak) hält sich jedoch sehr in Grenzen. Ein Spider hingegen macht dies in wenigen Sekunden und kann die eigene Datenbank in wenigen Minuten auf den aktuellen Stand bringen. Problem jedoch, statt 2-3 Zugriffe in der Minute, können es auch schon mal mehrere hundert Zugriffe in der Minute sein, die den Traffic von Groundspeak nach oben schrauben. Dies sorgt für eine höhere Auslastung der Server und kann so sogar zu Ausfällen führen (dies ist im übrigen auch eine beliebte Methode bei “Hackern” um einen Server abzuschießen, siehe DDoS). Somit ist es also selbstverständlich, dass Groundspeak das crawlen/spidern der Webseite verbietet um eine gewisse Erreichbarkeit der Server gewährleisten zu können.

Aufgrund dessen, dass spidern sehr ineffektiv ist (es wird die komplette Internsetseite aufgerufen, obwohl nur Name, Koordinate und Beschreibung benötigt werden) und zudem von Groundspeak verboten ist und bestraft wird (Sperrung des Accounts), gibt es in der Community immer wieder Rufe nach einer API Schnittstelle. Mit dieser könnte man quasi direkt in die Datenbank von Groundspeak greifen und exakt nur die Informationen holen die man braucht. Man würde so schneller und effektiver an seine Daten kommen und es würde die Server von Groundspeak entlasten, somit also eine win-win Situation.

Aber wenn beide Seiten davon profitieren, warum stellt Groundspeak dann eine solche API nicht zur Verfügung?

Ganz einfach! Während wir Geocacher den Sport Geocaching als Freizeit ansehen, ist Geocaching für Groundspeak knallhartes Business! Groundspeak betreibt seine Server und Datenbank nicht aus Nächstenliebe oder um der Geocaching-Community etwas zurück zu geben, Groundspeak ist ein wirtschaftliches Unternehmen und somit gewinnorientiert! Es ist auch ziemlich unumstritten, dass Groundspeak der Marktführer der Onlineplattformen im Geocaching ist. Und woran liegt das? Groundspeak hat die größte und am besten gepflegte Datenbank mit Geocaches (ich sage nicht, dass alle Caches perfekt gepflegt und aktuell gehalten sind, aber es sind einfach nen Ticken mehr als bei anderen Plattformen). Diese Datenbank ist das Kapital von Groundspeak, denn darauf basiert das wirtschaftliche Konzept.

Konkurrenz belebt das Geschäft, wenn man also selbst Marktführer ist (und dies auch bleiben will) versucht man also aufkeimende Konkurrenz erst gar nicht entstehen zu lassen. Durch eine API Schnittstelle zur eigenen Datenbank würde man jedoch genau dies tun, das eigene Kapital jeden anderen zur Verfügung stellen. Das, woran Groundspeak seit Jahren arbeitet und pflegt, würden sie jedem Dahergelaufenen kostenlos zur Verfügung stellen. Dieser bräuchte nur eine neue Website über diese Daten stülpen und hätte sein eigenes Geocaching-Portal mit dem er versuchen könnte Geld zu verdienen und in direkte Konkurrenz zu Groundspeak tritt.

Unter diesen Gesichtspunkten, dass das Konzept Groundspeak auf ihrer Datenbank beruht, wird es wohl niemals eine Schnittstelle dazu geben und auch das crawlen zum replizieren dieser Daten wird weiterhin verboten bleiben und hart bestraft. Ansonsten würde es etwa dem gleichkommen, dass Coca Cola sein Rezept öffentlich im Internet kund tut und sich dann wundert nicht mehr Marktführer zu sein.

(IMHO = In My Honest Opinon; Meiner bescheidenen Meinung nach)

Optimiert sieht anders aus!

Ich habe mal die Trackdaten vom GPS geladen und bei Trailino hochgeladen, um mal unsere Fahrstecke vom Samstag in Stuttgart etwas besser darzustellen. Also optimiert sieht da echt anders aus! Länge 53 km (ohne An- und Abreise von Heilbronn) in 6:50 Stunden.

Alles lesen >>