Warum spidern verboten ist und es keine API gibt (IMHO)

Viele Geocacher kennen das Problem, wie komme ich möglichst schnell und möglichst effektiv an möglichst viele Informationen von Caches um meine Datenbank (z.B. GSAK, Cachewolf, etc) zu füttern? Hier fällt ganz schnell der Begriff spidern. Ein Spider selbst ist nichts anderes als ein Programm, dass gezielt Internetseiten aufruft und die darin enthaltenen Informationen speichert (Weitere Informationen auf Wikipedia Webcrawler). Im Bezug auf Geocachingseiten bedeutet das so viel wie: Cachseite aufrufen, Name speichern, Koorinate speichern, Beschreibung speichern, Hint speichern, Seite schließen.

Wenn man dies von Hand machen würde, würde man vielleicht 2-3  Seiten in der Minute schaffen und es wäre nahezu unmöglich seinen Datenbankbestand von mehrere hunderten und tausenden Caches aktuell zu halten. Der Traffic (die Zugriffe auf die Server von Groundspeak) hält sich jedoch sehr in Grenzen. Ein Spider hingegen macht dies in wenigen Sekunden und kann die eigene Datenbank in wenigen Minuten auf den aktuellen Stand bringen. Problem jedoch, statt 2-3 Zugriffe in der Minute, können es auch schon mal mehrere hundert Zugriffe in der Minute sein, die den Traffic von Groundspeak nach oben schrauben. Dies sorgt für eine höhere Auslastung der Server und kann so sogar zu Ausfällen führen (dies ist im übrigen auch eine beliebte Methode bei “Hackern” um einen Server abzuschießen, siehe DDoS). Somit ist es also selbstverständlich, dass Groundspeak das crawlen/spidern der Webseite verbietet um eine gewisse Erreichbarkeit der Server gewährleisten zu können.

Aufgrund dessen, dass spidern sehr ineffektiv ist (es wird die komplette Internsetseite aufgerufen, obwohl nur Name, Koordinate und Beschreibung benötigt werden) und zudem von Groundspeak verboten ist und bestraft wird (Sperrung des Accounts), gibt es in der Community immer wieder Rufe nach einer API Schnittstelle. Mit dieser könnte man quasi direkt in die Datenbank von Groundspeak greifen und exakt nur die Informationen holen die man braucht. Man würde so schneller und effektiver an seine Daten kommen und es würde die Server von Groundspeak entlasten, somit also eine win-win Situation.

Aber wenn beide Seiten davon profitieren, warum stellt Groundspeak dann eine solche API nicht zur Verfügung?

Ganz einfach! Während wir Geocacher den Sport Geocaching als Freizeit ansehen, ist Geocaching für Groundspeak knallhartes Business! Groundspeak betreibt seine Server und Datenbank nicht aus Nächstenliebe oder um der Geocaching-Community etwas zurück zu geben, Groundspeak ist ein wirtschaftliches Unternehmen und somit gewinnorientiert! Es ist auch ziemlich unumstritten, dass Groundspeak der Marktführer der Onlineplattformen im Geocaching ist. Und woran liegt das? Groundspeak hat die größte und am besten gepflegte Datenbank mit Geocaches (ich sage nicht, dass alle Caches perfekt gepflegt und aktuell gehalten sind, aber es sind einfach nen Ticken mehr als bei anderen Plattformen). Diese Datenbank ist das Kapital von Groundspeak, denn darauf basiert das wirtschaftliche Konzept.

Konkurrenz belebt das Geschäft, wenn man also selbst Marktführer ist (und dies auch bleiben will) versucht man also aufkeimende Konkurrenz erst gar nicht entstehen zu lassen. Durch eine API Schnittstelle zur eigenen Datenbank würde man jedoch genau dies tun, das eigene Kapital jeden anderen zur Verfügung stellen. Das, woran Groundspeak seit Jahren arbeitet und pflegt, würden sie jedem Dahergelaufenen kostenlos zur Verfügung stellen. Dieser bräuchte nur eine neue Website über diese Daten stülpen und hätte sein eigenes Geocaching-Portal mit dem er versuchen könnte Geld zu verdienen und in direkte Konkurrenz zu Groundspeak tritt.

Unter diesen Gesichtspunkten, dass das Konzept Groundspeak auf ihrer Datenbank beruht, wird es wohl niemals eine Schnittstelle dazu geben und auch das crawlen zum replizieren dieser Daten wird weiterhin verboten bleiben und hart bestraft. Ansonsten würde es etwa dem gleichkommen, dass Coca Cola sein Rezept öffentlich im Internet kund tut und sich dann wundert nicht mehr Marktführer zu sein.

(IMHO = In My Honest Opinon; Meiner bescheidenen Meinung nach)

21 Kommentare zu “Warum spidern verboten ist und es keine API gibt (IMHO)”

  1. ... sagt:

    imho = in my humble opinion

  2. JensHN sagt:

    IMHO kann beides bedeuten.
    Siehe Wikipedia: http://de.wikipedia.org/wiki/IMHO#I

  3. ScandinavianMagic sagt:

    Wer sagt denn, dass eine API jedem zur Verfügung stehen muss und noch dazu mit unbegrenztem Zugriff? Was sind denn z.B. Argumente gegen eine API mit API-Key für PM mit einem vernünftigen Zugriffslimit? Für die iPhone-App gibts die ja schliesslich schon. Andere Firmen, die auch Geld verdienen, können das ja schliesslich auch.
    Und ich glaub nicht, dass sich irgendeine Konkurrenz, die wie auch immer kopierte Daten von gc.com verwenden würde, bei den Cachern, besonders den Ownern, sonderlich beliebt machen würde.

  4. hannes! sagt:

    groundspeak stellt sehr wohl seine daten in maschinell verarbeitbarer form zur verfügung! dies allerdings nur für zahlende mitglieder und als email attachment. das ganze nennt sich dann pocketquery. nur ist das ganze alles andere als eine elegante lösung.

    auf dem project game event hatte ich die gelegenheit mit einem freien mitarbeiter von groundspeak zu reden. als entwickler von geocaching software ist mir die mangelnde verfügbarkeit einer api natürlich ein dorn im auge. laut aussage des herrn ist sich groundspeak dieser tatsache bewusst und arbeitet an einer lösung ( http://jeepermtj.blogspot.com/2009/04/das-gc-pocket-query-projekt-infos-von.html ). diese lässt allerdings schon verdammt lange auf sich warten.

    ich sehe in hinsicht auf groundspeaks geschäftsmodell jedenfalls keinen grossen unterschied datenbankauszüge per email durch die welt zu schicken oder per api abfragbar zu machen. ausser, dass letzteres wesentlich komfortabeler wäre.

    was mich dann allerdings sauer macht ist die tatsache, dass von groundspeak geadelte anwendungen offensichtlich auf eine solche api zugreifen können (geocaching live, geocache navigator und natürlich deren eigenes zeugs). es gibt sie also, verwenden darf man sie nur nicht!

  5. JensHN sagt:

    @ScandinavianMagic: Eine “API” mit “API-Key” und begrenzten Zugriff gibt es ja. Die API heißt Pocketquery und und der Key heißt Premium-Member. Somit stellt Groundspeak ihre Daten ja im begrenzten Umfang zur Verfügung.

    Bei einer richtigen API redet man eher von großen Datenmengen und nicht von 500 Datensätzen.

  6. ScandinavianMagic sagt:

    PocketQueries sind keine API. So’n Quatsch. Eine gezippte GPX-Datei als Interface zu bezeichnen zeugt nicht gerade von Expertise auf dem Gebiet.
    Wie ‘ne API mit API-Key und limitiertem Zugriff aussieht, kann man z.B. bei Google Maps begutachten. Oder hunderten anderen Seiten und Diensten, die ich hier nicht alle aufzählen mag.

  7. ... sagt:

    Honest heißt aber nicht bescheiden. Also Humble!

  8. lovertux sagt:

    Wenn Groundspeak diese Datenbank wirklich pflegen würde, dann hätte ich ja gar nix dagegen einzuwenden. Tatsächlich aber schlägt Groundspeak Kapital aus der freiwilligen Arbeit der ganzen Community. Die Pflege übernehmen also andere, die dafür im Gegenzug kein gescheites Interface zur Verfügung gestellt bekommen. Weder für das Lesen der Daten, noch für die Pflege. Und ich meine jetzt ausdrücklich Owner UND Reviewer.

  9. lovertux sagt:

    Ach ja, wenn auch alle Funktionen da wären, die man so gerne hätte und die schon lange auf des Cachers Wunschliste stehen, dann bräuchte man auch nicht Spidern. Aber stattdessen wird lieber Entwicklungsaufwand in Whereigo und sonstige Luftnummern gesteckt, den wir dann mit unseren Beiträgen finanzieren.

  10. hschmitz sagt:

    Genau das ist das Problem mit GC.com. Sie verdienen Geld mit der Arbeit der Owner. Ich bin für meine Caches in der DB verantwortlich. Ich muss die Arbeit machen. Diese Arbeit mache ich um anderen Leuten die ausübung ihres Sports zu ermöglichen. Das GS.com daran Geld verdient ist schade aber zu ertragen. Doch die Frechheit wie mit dem Membern umgegangen wird… NaJa. Abgesehen davon hat Spidern nix mit der Menge der Daten zu tun. Es ist nur eine Technik die Daten zu erfassen. Was die API angeht da gibt es Beispiele genug wie so etwas funktioniert.

  11. -jha- sagt:

    Ich verstehe nicht, warum Groundspeak keine API-Keys verkauft.
    Google macht damit doch auch ein gutes Geschäft. Nutzung kostet dann halt.

  12. Christian sagt:

    Ich verstehe Jens voll und ganz, will diese Überlegung hier aber noch einmal etwas ausschmücken:

    Geocaching.com ist eine Seite, die vermutlich die wenigsten von uns nutzen würden, wenn sie nicht der Platz im Netz mit den meisten Caches auf der Welt wäre. Manche Caches gibts bei OpenCaching, aber 99% findet man bei Geocaching.com.

    Hätte Geocaching.com nicht dieses Monopol, wer würde es denn von uns nutzen bzw. dafür auch noch zahlen? Langsame Server, regelmäßige Serverausfälle, wenig innovative und nützliche Weiterentwicklungen, miese Optik, keine lokalisierte Sprachausgabe, ja, selbst meine Zeitzone die ich angegeben habe wird bei den Fieldnotes nicht berücksichtigt. Es wirkt ganz einfach immer noch wie ein Hobbyprojekt, obwohl es das eigentlich schon lange nicht mehr seien dürfte.

    Das weiß Groundspeak, und Groundspeak weiß das die wenigsten User mit dieser Seite zufrieden sind, ABER, so lange die User keine andere Wahl haben, da es ja alle Caches nur bei ihnen gibt, braucht sie dieser Missstand nicht zu interessieren. Es ist ihnen einfach egal, und wir versorgen sie auch weiterhin mit neuen Dosen und schaufeln uns quasi unser eigenes “Grab”. Wir leben halt mir der Seite, Hauptsache ich finde schnell alle Dosen und muss nicht auf 10 unterschiedlichen Seiten suchen.

    Mal ganz ehrlich: Wenn es heute eine alternative Seite gäbe, die exakt den selben Datenbestand an Dosen wie gc.com bietet, und die meine founds.gpx importieren könnte, die ordentlich lokalisiert ist, eine Schnittstelle für Blog-Module, Videouploads und viele nützliche Features bietet, vielleicht noch 2-3$ günstiger ist und am Ende auch noch schnelle und funktionierende Server hätte… wer wäre denn so doof und würde bei gc.com bleiben?

    Sprich: Solang gc.com seine Daten unter Verschluss hält brauchen sie sich um die Konkurrenz keine Sorgen machen. So wie es jeder Monopolist macht.

    Das schlimmste was GC.com passieren könnte wäre wenn jemand alle Listings + Logs in den Händen halten würde… dann könnten sie dicht machen.

  13. -jha- sagt:

    @Christian: Das “In den Händen halten” ist doch gar kein Problem.
    Das “auch Nutzen dürfen” ist das Problem.
    d.h. selbst wenn Du Dir mittels PQ eine komplett-Datenbank aller Caches baust oder meinetwegen mittels viele IP-Addressen alle alten Logs zusammenspidert: Sobald man mit diesem Datenbestand online ginge, hätte man sehr schnell Anwaltspost im Haus.

    Sprich: Sobald jemand Cachedaten “weiterverteilt” für einen mehr als nur minimalen Bekanntenkreis, wird’s so oder so Probleme geben.

  14. Chris Race sagt:

    Wenn ich aber MEINE Daten bzw. meine Caches in eine eigene gpx-Datei packe und sämtlichen Usern im Netz anbiete, dann sind und bleiben das immer noch MEINE Daten. Da könnte Groundspeak überhaupt gar nix dagegen tun! Und ich überlege ernsthaft, das auch zu machen. Da freut sich sicherlich der ein oder andere, der kein PM ist und trotzdem den Cache auf seinem paperless-Geocache-Gerät hat. Und wenn das alle machen würden, dann hätte Groundspeak ganz sicher ein Problem.

  15. uwe sagt:

    bedeutet das ich darf mir von GC.com ne GPX meiner caches ziehen und die auf meiner privaten Homepage für Nichtpremiums anbieten?

  16. JensHN sagt:

    Es dürfen generell keine Pocket Queries die von Groundspeak erstellt wurden öffentlich angeboten werden. Egal ob es fremde oder die eigenen Caches sind. Der Cache selbst mag einen ja gehören, aber die Rechte an den digitalen Daten hat man Groundspeak bei der Anmeldung abgetreten. Alle Daten die über die Plattformen an Groundspeak gefüttert werden gehören auch Groundspeak.

    Wenn man seine eigenen Caches zum Download anbieten will, muss man sich schon die Mühe machen eine eigene GPX Datei zu schreiben.

  17. Carsten sagt:

    Wieso regt ihr Euch alle nur über diese Kommerzbude auf und unternehmt nichts dagegen?
    Es gibt schließlich die Alternative OC.
    Wer von Euch hat sich schonmal mit der Seite beschäftigt und vorallem, wer hat seine Listings dorthin migriert?
    Die Seite ist um Längen besser. Auch ohne etwas zahlen zu müssen, kriegt man dort Funktionen, von denen man bei GC teilweise auch als Premium nur träumen kann.
    Beispiele gefällig?
    - Listing in mehren Sprachen ohne irgendwelche Doofen Fahnen in die Beschreibung einbauen zu müssen
    - problemloser Massendownload (zB über Cachewolf)
    - Zeit- und Wegangabe in der Kopfzeile
    - gezielte Suche nach bestimmten Cacheeigenschaften

    Ich hoffe nur, dass bald die neue Optik kommt, denn die alte ist echt schrecklich ;-)
    Und selbst wenn mal was noch nicht den allgemeinen Zuspruch der Cacher finden sollte, dafür kann sich ja jeder beteiligen und so seinen Beitrag leisten.
    Also auf was wartet ihr noch? Kopiert eure Caches rüber und lasst Euch nicht länger von dieser Amibude aussaugen! Es ist Eure Arbeit!

  18. evident sagt:

    Bei Geolog hat man doch auch die Möglichkeit, seine Funde aus der Seite auszulesen… das ist doch im Prinzip auch ein Spidern, oder? Ich meine, ok die haben eine feste Wartezeit zwischen den Aufrufen eingebaut, aber spidern isses doch immernoch…

    Ich hab mal irgendwo gelesen, die haben ne Erlaubnis dafür… Kann das jemand bestätigen? Falls ja, dann scheint es doch, als würde das Spidern genehmigt, wenn es Grenzen gibt und nicht zig Seiten binnen Sekunden aufgerufen werden…

    -evident-

  19. JensHN sagt:

    @Carsten: Das OC mal GC als Marktführer ablösen wird, wird es wahrscheinlich nie geben. Groundspeak ist und bleibt der first mover (http://de.wikipedia.org/wiki/First_Mover) und alle anderen die die danach kommen sind einfach im Nachteil, selbst wenn sie besser wären.

    Bestes Beisiel sind Browser: Microsofts Browser Internet Explorer war lange Zeit absoluter Müll weil Microsoft sich geweigert hatte Standards einzuhalten. Selbst jetzt nach etlichen Anti-IE Kampagnen und Sicherheitsmeldungen von der Regierung ist der IE immer noch der meist verbreitetste Browser. Dies liet ganz einfach daran, dass Microsoft mit seinem Browser der first mover war (und das vor allem zur rechten zeit).

    Ähnlich ist es bei Groundspeak. GC.com wird sich nicht vom Markt verdrängen lassen, mag die Konkurrenz noch so toll und groß sein.

  20. Carsten sagt:

    Bei den Browsern ist es genau das selbe. Irgendwann kam ein deutlich besseres Produkt und seit dem geht es bergab mit dem IE. Und das nur, weil es doch genug Menschen gibt, denen Qualität wichtiger ist, als 3 Minuten Bequemlichkeit.
    Leider ist es beim Geocaching nicht so leicht umzusteigen, da dort die große Masse mitziehen muss. Aber wenn keiner anfängt, seine Caches zu migrieren, werden wir wohl in der GCKnechtschaft versauern. Das sind pro Cache kaum mehr als 5 Minuten Arbeit.
    Mein Cache, sowie meine Logs stehen auf beiden Seiten. Ich hoffe, es werden mehr Cacher anfangen, so zu denken.
    Und wer nicht gewillt ist, soll dann bitte auch aufhören, sich über seine selbstverschuldete Unmündigkeit zu beschweren.

  21. Chris Race sagt:

    Meine Caches stehen auch auf beiden Seiten, schon immer. Aber ob das wirklich was nützt? Ich glaube es nicht. Konsequent wäre nur der Komplett-Umstieg, aber dann braucht man, je nach Region, auch überhaupt keine Caches mehr auszulegen. Ganz einfach, weil sie (fast) keiner sucht.

    @JensHN: Die Sache mit der eigenen gpx-Datei ist ja kein Hexenwerk, sooo kompliziert sind die ja auch nicht aufgebaut. Mit entsprechender Software ist das sogar noch viel einfacher. Somit ist die Sache mit Groundspeaks Eigentum auf jeden Fall kein Thema, denn die Datei samt Inhalt gehört mir! Wahrscheinlich kommt dann aber GS auf die Idee und sagt, dass ich einzig und alleine nur bei ihnen veröffentlichen darf, nirgendwo sonst (ähnlich wie bei TC). Dann allerdings müssten sie das ja jetzt schon tun, wenn man seinen Cache auch bei OC listet.

Hinterlasse eine Antwort