Die Geschichte von Big Data

Stand:

In den letzten zwei Jahrzehnten hat die Menschheit eine Datenexplosion erlebt. Wir produzieren und tauschen Unmengen von Daten aus. So viel wie noch nie. Big Data kann uns dabei helfen, Muster zu erkennen, die sonst verborgen bleiben.

Auf einen Blick

  • Die Menschheit produziert so viele Daten wie noch nie.
  • Moderne Technologien können diese Daten auswerten.
  • Big Data bringt Chancen, aber auch Risiken mit.
Big Data: Eine Menschenmenge in Form einer Sprechblase aus der Vogelperspektive
Off

Der Mensch als Datensammler

Der Mensch ist ein Datensammler. Wenn man den aktuellen Zahlen glauben möchte, vielleicht sogar so etwas wie ein Datenmessie. Expertinnen und Experten gehen davon aus, dass sich die Menge der weltweit produzierten Daten alle zwei Jahre verdoppelt.Prognosen sagen voraus, dass wir bis 2025 ein weltweites Datenvolumen 175 Zettabytes anhäufen.Ein Zettabyte sind 1.000 Exabyte. Ein Exabyte steht für eine Trillion (1018) Bytes oder eine Milliarde Gigabyte oder eine Million Terabyte. Also unvorstellbar viele Bytes. Wenn du 145 Zettabytes auf Blue-Ray speichern könntest, hättest du jedenfalls einen Blu-Ray-Disc-Stapel, der so groß ist, dass er 23 Mal bis zum Mond reichen würde. 

Und noch ein Vergleich: Laut einer wissenschaftlichen Einschätzung bräuchte man gerade mal 5 Exabyte, um alle Wörter zu speichern, die die Menschheit je gesprochen hat.3 

Massenweise Wissen auf Papier

Auch wenn das Thema „Datenexplosion“ ein Phänomen des 20. und 21. Jahrhunderts ist – die Tendenz zum Datensammeln hat der Mensch schon länger. Volkszählungen, botanische und zoologische Klassifikationen, Kataloge, Datenbanken – all das gab es schon lange, bevor der Computer und das Internet die Welt veränderten.

Anfänge von Big Data: Eine Wand voller aufgeschlagener Bücher
Foto: chebko/iStock

Bevor wir Informationen digital speichern konnten, war Papier ein viel verwendeter Datenspeicher. Der Bestand der legendären Bibliothek von Alexandria, zum Beispiel, wird zur Zeit von Ptolemaios (284-222 v. Chr.) auf 400.000 bis 700.000 Werke geschätzt. Die russische Staatsbibliothek in Moskau verzeichnet heute einen Bestand mit über 43 Millionen Publikationen.  

Die Geschichte von Big Data

Der Hang, Informationen zu sammeln, zu strukturieren und auszuwerten, der scheint uns also mitgegeben. Mit Beginn der 2000er Jahre nimmt das Ganze dann aber neue Dimensionen an. 

Der Begriff „Big Data“ selbst geht wohl auf den Programmierer John Mashey zurück. Er prägte ihn angeblich Mitte der 1990er Jahre beim Mittagessen in der Kantine eines großen Computerherstellers.  John Mashey ahnte schon früh, was sich später bewahrheiten würde. Er beschrieb, dass Computer bald an die Grenze ihrer Rechenleistung stoßen würden, weil die Daten, die wir produzieren, immer mehr werden. 

Das ist Big Data 

Wenn in den Medien von „Big Data“ die Rede ist, sind oft verschiedene Dinge gemeint. 

Technologie-Ebene: Zum einen kann „Big Data“ für die technischen Tools stehen, die entwickelt und genutzt werden, um die Unmengen an Daten zu verarbeiten. Dabei durchforsten zum Beispiel spezielle Algorithmen riesige Datenkomplexe, decken Muster auf und erkennen Zusammenhänge. Diesen Vorgang nennt man auch „Data Mining“ (deutsch „Datenförderung“). 

Datenebene: Meistens sprechen Menschen von „Big Data“, wenn sie die immer größer werdenden Datenansammlungen meinen, die wir als Menschheit produzieren. Der Informatiker Doug Laney formulierte Anfang der 2000er seine Definition von Big Data, die heute oft als Grundlage dient. Es handelt sich um das so genannte 3-V-Modell. Demnach hat Big Data vor allen Dingen drei Eigenschaften:

  1. Volume (Masse)
    Viele Menschen auf dieser Welt produzieren und tauschen jeden Tag große Mengen an Daten aus. Datenmengen in diesem Umfang lassen sich erst durch den Einsatz moderner Technologien wie Hadoop bewältigen.
  2. Velocity (Geschwindigkeit)
    Die Geschwindigkeit, mit der die Datenmengen verarbeitet werden, ist so schnell wie nie. Oftmals werden die Daten in Echtzeit verarbeitet und übermittelt.
  3. Variety (Vielfalt)
    Durch unterschiedliche Endgeräte und verschiedene Programme und Apps entstehen sehr viele unterschiedliche Datenformate wie Ton-, Audio, Video- oder Zahlenformate.

Chancen von Big Data

Die Unmengen an Daten, die wir in rasender Schnelle produzieren, bringen Vor- und Nachteile mit. Auf der positiven Seite erlauben sie, dass wir Zusammenhänge erkennen, die wir ohne Datenberg und passenden Algorithmus nie gesehen hätten. So können Algorithmen heute schon einen sich anbahnenden Herzinfarkt erkennen, lange bevor ein Arzt wissen kann, dass er kommt. Das ist möglich, weil der Algorithmus zuvor viele, viele Patientendaten ausgewertet hat und Muster erkennt, die dem menschlichen Auge verborgen bleiben. Mehr zum Einsatz von Algorithmen in der Medizin erfährst du im Artikel Dr. Algo – Algorithmen in der Medizin.

Risiken von Big Data

Aber schon heute ist klar: Die Daten, die wir produzieren, werden nicht nur ausgelesen, um Krankheiten zu heilen und die Welt zu retten. Große Unternehmen haben großes Interesse an den Datensätzen. Denn sie enthalten Gold. Datengold, um genau zu sein. Wenn werbetreibende Unternehmen deine Bewegungen im Internet über Jahre verfolgen, sehen, was du auf verschiedenen Webseiten treibst, alle Daten auswerten, ein umfassendes Kundenprofil anlegen und dir dann passende Werbung anzeigen, dann wird es eng für deine Privatsphäre. Und das ist kein Szenario aus der Zukunft, sondern gängige Praxis. 

Big Data: Ein Bildschirm mit Binärem Code
Foto: carloscastilla/iStock

Die Datenschutz-Grundverordnung (DSGVO) hat viel zum Positiven verändert. Das seit 2018 geltende Gesetz verlangt, dass Anbieter deine Zustimmung einholen müssen, bevor sie deine Bewegungen mit Hilfe von Cookies aufzeichnen. Außerdem kannst du deine gesammelten Daten bei jedem Unternehmen und jeder Behörde jederzeit einsehen und gegebenenfalls löschen oder korrigieren lassen.

Wo sind die ethischen Grenzen?

Einigen Experten wie Viktor Mayer-Schönberger vom Internet Institute der Universität Oxford geht die DSGVO nicht weit genug. Seine Befürchtung: Die DSGVO schützt uns eher theoretisch als praktisch, da wir im Alltag nicht die Zeit haben, um auf jeder Webseite ein informiertes Häkchen zu setzen. Daten über uns werden gesammelt und ausgewertet, das ist Fakt. Gesellschaftlich betrachtet ist die Frage, ob wir das Datensammeln erlauben möchten, also eher zweitrangig. Entscheidender ist, so Mayer-Schöneberger, die Diskussion, die fragt: Welche Vorhersagen aus den gesammelten Daten wollen wir erlauben? Und welche nicht?

Algorithmen, die die Freiheit rauben

Ein Beispiel: In den U.S.A. wird in über der Hälfte der Bundesstaaten ein Algorithmus eingesetzt, um zu entscheiden, ob eine Person auf Kaution freikommt. Der Algorithmus errechnet die Wahrscheinlichkeit, ob jemand in den kommenden Monaten in ein Kapitalverbrechen verwickelt sein wird. Und entscheidet dann, ob jemand inhaftiert bleibt oder nicht. Faktisch bedeutet das: Einer Person wird ihre Freiheit genommen, weil ein Computer berechnet, dass es möglich sein könnte, dass er oder sie ein Verbrechen begeht. Und nicht, weil ein Verbrechen geschehen ist. Dass dieses System ethisch fragwürdig und fehleranfällig ist, zeigt unter anderem der Fall eines 33-jährigen Afroamerikaners. Eine Gesichtserkennungssoftware identifizierte ihn fälschlicherweise als tatverdächtig. Ein Algorithmus verhinderte seine Freilassung auf Kaution.

Politische Diskussion notwendig

Ob Amazon, Zalando und Co. dir die passenden Bücher und Schuhe empfehlen, hat nur geringfüge Auswirkungen auf dein Leben. Anders sieht es aus, wenn ein Algorithmus berechnet, dass du eine Lebensversicherung nicht bekommst, vielleicht weil die Auswertung deiner Gesundheitsdaten nichts Gutes verspricht. 

Deshalb sind die Verbraucherzentralen überzeugt, dass die gesellschaftliche und politische Diskussion zum Thema Algorithmenkontrolle längst überfällig ist. Als Gesellschaft müssen wir entscheiden, welche Vorhersagen aus der Analyse von großen Datenmengen wünschenswert sind. Und der Gesetzgeber muss festlegen, wie die Nutzung von Algorithmen bei der Auswertung von sensiblen Daten kontrolliert werden kann. Mehr dazu erfährst du im Artikel Sensible Daten – das solltest du wissen.