Als Clive Humby im Jahr 2006 den Satz prägte: „Data is the new Oil“, konnte er nicht ahnen, wieviele Berater diese Erkenntnis für sich in Anspruch nehmen würden. Seltsam nur, dass Humby zu einer Zeit Personalisierung propagierte, als Google+ noch nicht einmal in der Planung war. Und so verwundert es auch nicht, dass die Nachplapperer des Satzes, den Kontext, in dem er fiel, nie aufschlüsselten. Angesichts der wundersamen Verkürzung der Problematik auf individualisierte Werbung, wird es Zeit für eine kleine Rundreise durchs Dorf namens Daten und ihre Atome namens Zeichen. Denn uns allen droht etwas Schlimmeres als Empfehlungsalgorithmen zum vielleicht besseren Einkaufen: Empfehlungsalgorithmen über kriminelles Verhalten (INDECT).
Wie Humby schon 2006 publizierte, sind Daten keine Einsichten. Das klingt plausibel. Daten an sich ohne Kontext sind dasselbe wie der Ölsand in den kanadischen Wäldern. Nur unter Einsatz eines enormen technischen Aufwands und unter Anhäufung von viel Müll wird daraus Öl respektive wichtige Bedeutungen. Es braucht also Raffinerien und Vorstufen dazu. Um die kümmert sich leider niemand. Sie werden in pseudomagischen Diskussionen als Algorithmen bezeichnet und damit aus dem Wirkungsbereich der Internetnutzer ausgeschlossen, weil alles eine hochmathematische Angelegenheit ist. Aber darunter gibt es noch etwas viel Grundlegenderes:
In der Zeichenlehre (Semiotik) gibt es eine Unterkategorie namens Sigmatik, die im Kern eine Referenztheorie ist. Denn die Zeichen (Symbole, ikonische Zeichen oder Indices) gelten als Übersetzung eines vorgefundenes Objekts. Die abbildende Beziehung zwischen beiden wird als Referenz bezeichnet. Wir bekommen von dem gesamten zeichentheoretischen Vorgang in vielen Diskussionen nur die Ebene der Semantik mit (semantische Suche). Die Ebene der Pragmatik untersucht jedoch die Verwendung von Zeichen. Und die Strukturebene der Syntax wird zwar genannt, jedoch meistens ganz ausgeblendet. Viele kritische Beiträge zum Thema Nutzerdaten zielen auf das Argument ab, diese Daten seien die neue Währung des nicht mehr ganz neuen öffentlichkeitsproduzierenden Kanals namens Internet.
Nun echauffieren sich Zeitgenossen darüber, dass sie Werbung auf der Grundlage personalisierter Daten bekommen. Die Basis dafür sind Metadaten, die zu den Kontaktdaten ihrer Person abgespeichert werden. Das sind Eigenschaften, wie „verheiratet“ oder „Firmengründer“. Kredit- und Rabattkarten verbinden die persönlichen Daten mit den gekauften Produkten. Das kenne wir seit Jahrzehnten. Im Internet tut man aber noch mehr als Einkaufen. Und diese Aktivitäten werden gespeichert und analysiert. Da aber die Zuordnung des Zeichens „Hotel“ zu einem Ort ungleich dem System bereits bekannten eigenen Wohnort, auf eine Reise schließen läßt, bombardiert das innovative Werbesystem den Kunden nun mit Hotelangeboten – auch und gerade wenn der Kunde dort gerade schon ein Zimmer gebucht hat.
Der Fehler liegt eben darin, dass der Ölsand nicht raffiniert wurde. Es wäre ein Leichtes für ein System eine kluge Mustererkennung vorzunehmen, wenn das Problem der Pragmatik sowie der Sigmatik schon von Informatikern gelöst wäre. Im Moment können sie Sätze erkennen und einigermaßen sinnvoll produzieren (Syntax). Sie können auch Worte und Bedeutungen mithilfe von festen Verbindungen erkennen (Semantik): „Peter“ (Vorname) „wohnt“ (besitzen einer Adresse) in „Hamburg“ (Ort). Und dann schließt das System daraus, dass Hamburg der Wohnort ist. Aber nur, wenn es vorher gefüttert wurde mit Eigenschaften zu Orten, Adressen und Menschen. Ein umfangreiches Unterfangen, dass insgesamt noch rund 2763 Jahre lang dauern dürfte, um die grundlegenden Zusammenhänge unseres komplexen Lebens zu erfassen. Bei Fachthemen wie Biologie oder Chemie klappt das mit den festen Kontexten (Ontologien und Taxonomien) ganz gut. Ironie oder gar Witze würde so ein automatisches System natürlich außer Kraft setzen. Aber: Wie gesagt, an Pragmatik und Sigmatik hat sich noch kein Informatiker getraut. Insofern können sie ruhig Computer mit weit über 4 Milliarden CPUs und sechzehn Terabyte RAM installieren. Sie wühlen noch im Schlamm und suchen den Ölsand.
Aber mit INDECT meinen die Datenspezialisten sogar eine supranationale-wissenschaftliche Basis zu haben, mit der sie weiterhin die beiden wesentlichen theoretischen Ebenen der Zeichenzuordnung ignorieren können. Denn dann haben sie Kameras, die sie mit den Einkaufs- und Surfgewohnheiten der erkannten Individuen abgleichen wollen. Das ist dann in etwa so, wie wenn man sagt, dass man den Ölsand direkt in den Ferrari kippt. Der würde das dann schon irgendwie in seinem Motor trennen können, schließlich ist er ja auf Hochleistungsbenzin ausgelegt. Man verlegt die Raffinerie kurzerhand in den Endverbraucher. Der tiefere Sinn? Sie wollen mit INDECT verstehen lernen, wie diejenigen ticken, die schlechtes Öl auf den Markt schmeißen (Kriminelle).
Wie war noch der Satz über Platons Schule: Gnothi seauton! (Erkenne Dich selbst)
Leider gibt es noch keinen Algorithmus für Selbsterkenntnis, aber mit INDECT sind sie verdammt nahe dran.
Foto: penywise
Artikel per E-Mail verschicken
Schlagwörter: analyse, Daten, INDECT
4 comments
Liegt das Problem von INDECT nicht eigentlich darin, dass unterstellt wird, dass Technologie soziale oder psychische Probleme vorbeugend abwenden könnte. Liegt das Problem nicht also darin, dass die Interessengruppen, die son Zeuch herstellen einfach vollständig sinnfreie Voraussetzungen verwenden, um ihre Forschungsaufwände zu sozialisieren bzw. überhaupt Leute einzustellen, die man sich vorher nie hätte leisten können…
Also meiner Meinung nach werden die Systeme erst einmal gefüttert mit Daten die verdächtige Aktivitäten wiederspiegeln könnten (erhöhter Puls, warme Körpertemperatur etc, hastige Bewegungen). Das ist natürlich erst einmal „unterstellt“. Wenn jemand um ein Auto herum läuft und es sich lange anschaut, dann kann das bedeuten, er findet den Wagen toll. Geht der Interessierte dann aber mit einem Draht an das Schloss, wird dieser neu eingestuft werden als ein potenzieller Dieb. Während dieser Einstufung wird dann aber bereits mit einer Gesichtserkennung die Person identifiziert und anhand ALLER möglichen Verzeichnisse, die Personendaten enthalten, auf seine Historie überprüft. Also ich denke anfangs kann INDECT Unterstellungen provozieren, aber mit der Zeit werden diese Algorithmen anhand von Wahrscheinlichkeitsattributen lernen und geringere Fehlerquoten aufweisen. Was allerdings nicht bedeutet, dass Fehler jemals ausgeschlossen sind! Stichwort Restrisiko. Ein solches Risiko ist bei Werbung vertretbar. Bei der Frage ob jemand kriminell ist oder nicht, allerdings keineswegs.
Aber weiterhin wird nur die vollendete Tat wirklich strafbar sein und nicht die Tatsache, dass ich mit erhöhtem Herzschlag um ein Auto herum gelaufen bin. Es sei denn Herr Friedrich macht selbst den Verdacht strafbar. Das kann ich mir jedoch beim besten Willen nicht vorstellen.