StudiVZ gecrawlt – Analyse der Daten online

Interessiert es neben den ganzen Meldungen über die Übernahme und dem Zahlenpoker eigentlich noch jemanden, dass das StudiVZ wohl einmal komplett ‘analysiert’ wurde?

1.074.574 Profile (davon 1.035.890 öffentlich) vom 9. Dezember 2006.

Die “StudiVZ – Inoffizielle Statistik Präsentation” ist ein Proof-of-Concept, das zeigen soll, dass es damals möglich war, das komplette offene Netzwerk zu crawlen:

zeigt, dass es damals problemlos möglich war, die Daten zu crawlen. Es ist u.U. interessant die Daten ausgewertet zu sehen, es ist aber nichts aufregendes dabei.

Innerhalb von vier Stunden wurden demach mit einem Cluster alle Profile gecrawlt und verschiedene Daten daraus erhoben:

Hier ein Beispiel für politische Einstellung der Studenten:

Oder die politischen Einstellungen nach Studiengängen:

Die Daten sollten echt sein und sind sicher ganz interessant. Sie wurden am 27.12.06 auf dem CCC-Kongress 23c3 als Lightning-Talk von Hagen Fritsch in Berlin präsentiert.

StudiVZ – Inofficial statistics presentation

StudiVZ ist eine bekannte deutsche Studentenplatform. Bis vor wenigen Wochen war es möglich die öffentlichen Nutzerprofile automatisiert und ungehindert auszulesen. Ich werde zeigen, wie das Auslesen funktionierte und einige Statistiken aus den gewonnenen Daten präsentieren. There is nothing special about this talk. This is no rant againts StudiVZ. They learned their lesson and fixed the bugs.

Das StudiVZ hat auf dem Corporate Blog in einem Nachtrag Stellung dazu genommen:

Auf dem heutigen CCC-Kongress hat Hagen Fritsch in einem interessanten Kurzvortrag dargestellt, wie es ihm noch kurz vor Einführung unserer Abwehrmechanismen gelang, eine große Zahl öffentlich sichtbarer Informationen auf unseren Mitgliederprofilen zu speichern und in Relation zueinander zu stellen.

Das StudiVZ hat mittlerweile Mechanismen eingeführt, die den Einsatz von Crawlern extrem erschweren. Dadurch ist die Diskussion auf dem BuHa-Board zu dem Thema auch etwas abgeflacht. Das Thema bleibt somit vor allem für die anderen Social Networks interessant, die solche Sicherheitsmechanismen noch cniht eingeführt haben.

Ein Blick auf diese Seite, die alle Daten aufführt, lohnt sich allemal. 🙂

3 Comments

  1. Sehr interessant. Aber ist das nicht illegal?

    Reply
  2. Ich denke nein, weil alle Seiten ja öffentlich zugänglich sind und nichts manipuliert wurde. Für eine “illegale” (was ich mal als strafrechtlich relevant interpretiere) Handlung muss ein Straftatbestand erfüllt werden, der m.E. durch reines Crawlen nicht besteht…

    Reply
  3. genau. das crawlen ist im prinzip nur ein schnelles surfen, stellt also eine normale nutzung dar. wenn du ein paar millionen seiten in ein paar stunden anschauen kannst, dann ist das nichts anderes…. 😉

    ausserdem ist die seite noch online und das studivz hat kenntniss davon. da das ganze wohl von der tu münchen aus gemacht wurde steht sogar noch ein wissenschaftlicher hintergrund.

    Reply

Submit a Comment

Your email address will not be published. Required fields are marked *