Nennen wir es einfach künstliche Intelligenz

KI – warum dieser Traum in naher Zukunft doch nicht Realität zu werden scheint, sondern ein höheres Maß an Kritik erfordert, darüber schreibt Gottfried Gaisbauer.

Schon lange träumt die Menschheit von Künstlicher Intelligenz (KI). Das Modewort KI wird in letzter Zeit in den verschiedensten Medien sehr häufig verwendet. Nur durch die häufige Verwendung wird aber nicht klar, was damit eigentlich gemeint ist. Deshalb sollen in diesem Text die Hintergründe der Technologie erläutert und die vielleicht angsteinflößende Terminologie etwas entzaubert werden. Als Teilgebiet der Informatik wird die KI in schwache und starke KI unterteilt. Die starke KI würde ein menschenähnliches Verhalten an den Tag legen. Man kann darunter eine Art universelle Intelligenz verstehen, die bei verschiedenen Aufgaben gute Ergebnisse erzielt, trotzdem aber auch ganz anders als das menschliche Denken funktioniert. Dorthin ist es noch weit, fällt doch alles, was wir heute kennen und sehen, in die erste Kategorie der schwachen KI, bei der es darum geht, recht eingeschränkte, spezielle Probleme lösen zu können. Wie funktioniert das? Der KI liegt immer maschinelles Lernen zugrunde. Oft fällt der Begriff ‚Deep Learning‘, was eine Form des maschinellen Lernens ist und in nicht-technischen Kreisen einfach Künstliche Intelligenz genannt wird. Es wird nicht mehr mit statischen Methoden gearbeitet (Wenn A, dann B), stattdessen werden künstliche neuronale Netze (KNN) aufgebaut, die mit einem Trainingsset[1] trainiert werden. Die künstlichen neuronalen Netzwerke erkennen Muster und Gesetzmäßigkeiten in einem Trainingsset, um dann Lösungen für ein Testset[2] bieten zu können. Um die Ergebnisse weiter zu verbessern, besteht die Möglichkeit, zwei konkurrierende KNNs aufzubauen – das nennt sich dann Generative Adversial Network (GAN). Eines davon findet Lösungen (Generator), das andere bewertet die Lösungen (Diskriminator). Durch die Ergebnisse des Diskriminators passt der Generator die Parameter zum Erstellen der Lösungen an und verbessert sich so. Als einfaches Beispiel ohne GAN wird ein KNN mit 4x128 Neuronen gebildet. Zum Trainieren bekommt dieses etwa alle Texte der Versorgerin und der Referentin. Die Software erlernt dadurch korrekte Wortkonstellationen und Buchstabenfolgen. Etwa die häufige Endung »ung«. Ist das Trainingsset gut genug, kann die Software nach dem Training, das je nach Rechner Minuten bis Tage dauern kann, Texte im Stil der Versorgerin bzw. der Referentin erstellen. Dieses grob angerissene Beispiel könnte einfache, wahrscheinlich leicht fehlerhafte Texte produzieren, aber niemals auch nur annähernd eine einfache Rechenaufgabe lösen, geschweige denn, Krankheiten diagnostizieren oder irgend etwas anderes. Es ist also noch ein sehr weiter Weg zu einer universellen Intelligenz bzw. einer starken KI. Auch von einem Bewusstsein kann man bei einer schwachen KI nicht sprechen.
Selbst das Wort Intelligenz finde ich persönlich falsch, da es sich hauptsächlich um sehr ausgeklügelte Statistik und mathematische Näherungsverfahren handelt.

Wo finden heutzutage derartige Tools Anwendung?

Mittlerweile sind die Anwendungsfälle äußerst vielfältig: Alexa, Sprach-, Gesichts-, Emotions-, Bilderkennung, Übersetzungen, ChatBots, Fahrassistenten bis zu selbstfahrenden Autos, medizinische Diagnoseverfahren, Pizza per Telefon bestellen, Deep-Fakes, bei servus.at setzen wir etwa selbstlernende Algorithmen zum Erkennen von Spams ein... Allgemein kann man sagen: Wo extrem große Datenmengen analysiert und daraus Schlüsse gezogen werden, die dann auf neue Daten angewendet werden sollen, eröffnet sich das perfekte Anwendungsgebiet für moderne KI. Ein solches System ist in diesen Gebieten nicht nur sehr hilfreich, sondern dem Menschen weit überlegen. Konkretere Anwendungen, die im kreativen Bereich angesiedelt sind, was klassischerweise als das Hoheitsgebiet der schöpferischen menschlichen Kreativität angesehen wird, aber dennoch einen hohen Grad an Expertise voraussetzt, sind ‚Musenet‘[3], das kurze Musikstücke erstellen kann, oder ‚Let-there-be-color‘[4], das Schwarz/Weiß-Bilder besser einfärben kann als jeder Experte. ‚Digital Doctor‘[5] erkennt Hautkrebs anhand eines Fotos, Netflix schlägt mit Hilfe von KI neue Serien vor und personalisiert Vorschaubilder. Die Liste könnte man nahezu endlos weiter führen, steckt die Technologie doch mittlerweile in vielerlei Software, auch wenn man sie nicht direkt erkennt.
Mit ‚GPT-2‘[6] wurde jedoch ein weiterer Meilenstein in der Entwicklung und Anwendung von textschreibender KI erreicht. Das System wurde mit etwa 30 Gigabyte an Textdaten, die von Menschen gefiltert wurden, trainiert. Die Ergebnisse sind erstaunlich gut. Die Fehler liegen meist nur noch im Sinn des Geschriebenen bzw. im ‚Modell der Welt‘, wie die Entwickler schreiben. Damit ist gemeint, dass ein Text über brennendes Wasser oder stromlose Elektronik verfasst wird, was anhand dieser Beispiele eine grundlegend falsche Syntax beschreibt, oder die Herstellung grundlegend sinnloser Sinnzusammenhänge – also alles, wo ein erfahrenes Verständnis der Welt komplett versagt. Aufgrund der extrem hohen Qualität der verfassten Texte haben sich die Entwickler dazu entschieden, nur eine sehr vereinfachte Version ohne den Trainingsdaten und ohne den Daten fürs Feintuning zu veröffentlichen. Der Grund für den Schritt sind ihre Bedenken bezüglich sehr glaubwürdiger Irreführung oder Bedenken bezüglich einer allgemein mißbräuchlichen Verwendung von Sprache und Texten. Auch geben sie eine Empfehlung an die Politik, derartige Systeme zu reglementieren, weil es zu einfach wird, »gute«, das heißt in diesem Fall manipulativ-automatisierte Texte zu schreiben, eine Fähigkeit, die zumindest früher Mal ein gewisses Maß an Grundintelligenz vorausgesetzt hat. Zum Beispiel automatisierte Meinungsmache, wie sie jetzt schon auf diversen Plattformen und Kommentarleisten betrieben wird – allerdings in Potenz, denn man darf nicht vergessen, dass sich diese Empfehlung sich nicht nur auf Schreibbots beschränkt, sondern viel größer gedacht werden muss. Denn diese Entwicklung steckt immer noch in den Kinderschuhen.

Was sind nun die Haken an der Geschichte?

KI basiert immer auf Trainingsdaten. Ist die Qualität der Trainingsdaten schlecht oder sind die Daten zu wenig, so wird das Ergebnis ebenso schlecht. Aufgrund dessen wird eine gewisse Datenmonopolisierung gefördert. Sehr datenhungrige Firmen wie Google, Amazon und wie sie alle heißen, haben eine gute Ausgangslage, um gut trainierte Systeme zu bauen. Es liegt in der Natur der Menschen (und Techniker), diese Systeme weiter verbessern zu wollen. Um eine Verbesserung zu erreichen, müssen mehr und genauere Trainingsdaten produziert werden. Große Unternehmen sind in der Position, schneller, bessere Trainingsdaten zu erstellen. Kleinere Unternehmen geraten so ins Hintertreffen. Eine gewisse Demokratisierung der Daten wäre mehr als nur wünschenswert.
Auch birgt die Technologie selbst für Experten eine gewisse Undurchsichtigkeit. Oft kann ohne tiefe Einblicke in die Trainingsdaten nur schwer gesagt werden, warum das System in einem konkreten Fall genau diese eine Entscheidung getroffen hat, bzw. warum nicht. Eher können nur Wahrscheinlichkeiten angegeben werden. Also wie: 88% von zu erkennenden Personen werden korrekt erkannt. Und eine philosphischer angehauchte Frage wäre zudem, ob das Leben in Zukunft der Ort eines Trainigsdatenplatzes sein soll.

Ein weiteres Problem sind die sogenannten Deep-Fakes. Ist man im Besitz eines halbwegs starken Rechners und der Gratissoftware ‚Fakeapp‘, ist schon nach wenigen Stunden der Deep-Fake fertig. Videomaterial zum Fälschen gibt es im Internet zuhauf. Durch Photoshop und Konsorten sind die Menschen mittlerweile gut darauf trainiert, Fotos nicht mehr gänzlich zu vertrauen. Gefälschte Videos, wie Barack Obamas Deep-Fake, in dem er seinen Nachfolger zutiefst beschimpft[7], hielten jedoch immer noch etwa 60% der Personen für echt. Als Konsument von Videos wird es wohl ab sofort wichtiger, auf semantische Fehler stärker zu achten. Würde Barack Obama wirklich seinen Nachfolger derb beschimpfen? Sind die Bewegungen der Augen korrekt? Ist persönliches Verhalten authentisch (zuckt eine Person immer mit einem Mundwinkel beim Sprechen, tut es plötzlich aber nicht mehr)?

Ausblick in die Zukunft

Aus der Sicht eines Programmierers wird es immer einfacher, KI zu nutzen. Somit dürften die Anwendungen weiterhin stark und die Qualität weiter steigen. Es geht in Richtung vernetztes Smart Home, Smart City, Smartphone, Smart-what-not mit KI-gestützter biometrischer Erkennung, teilweise sogar schon direkt auf dem Handy ohne Umwege über einen Server. Selbstfahrende Autos werden besser und besser, bis sie irgendwann völlig normal werden. Es gibt in verschiedenen Städten, auch in Wien schon Busse[8], die selbstständig zum Personentransport durch Städte fahren. Aber auch gruselige Anwendungen wird es verstärkt geben, wie das (aktuell noch oft fehlerbehaftete) automatische Erkennen von ‚auffälligen Handlungen‘ oder ‚auffälligen Personen‘ an Bahnsteigen[9] (was auch immer das sein mag), oder Apps, die angezogene Frauen nackt darstellen[10]. Selbst wenn das Internet für die Politik immer noch Neuland ist und die Vorstellungen der Politik über das Internet in den 90er Jahren feststecken, sollte hier dringend an einem Regelwerk gearbeitet werden. Datenmonopole müssen verhindert werden und ethische Regeln für die Verwendung der Technologie müssen gelten. Der Benutzer muss sich entscheiden können, was mit seinen Daten passiert und darf nicht entmündigt werden. Welche Person will schon, dass der Grundriss der Wohnung vom Saugroboter (was auch immer man davon halten mag) aufgezeichnet, durchs Internet geschickt und möglicherweise weiterverkauft wird? Weiters sehe ich noch stärkere gesellschaftspolitische Veränderungen auf uns zukommen, als das in den letzten 30 Jahren der Fall war. Viel Modernes, etwa diese Selbstbedienungskassen in den Supermärkten, ist noch nicht einmal KI-gestützt, sondern nur voranschreitende Automatisierung. Was aber tun mit all den Menschen, wenn vieles noch einfacher und noch besser von einer Maschine übernommen werden kann? Ein Grundeinkommen muss ja fast kommen. Auch des Themas der Deep-Fakes sollte sich die Politik annehmen. Etwa kann es bei der aktuellen Gesetzeslage leicht passieren, dass es mehr und mehr dieser Fakes gibt, vielleicht sogar so viele, dass man gar nichts mehr glauben kann oder sich im Fall des Falles zu einfach aus der Affäre ziehen kann. Was wäre, wenn HC Strache einfach hätte sagen können, dass das Ibiza-Video doch nur ein Fake ist?


[1] Als Trainingsset oder Trainingsdaten versteht man Daten mit den zugehörigen Lösungen. Beispielsweise Klassifizierungen nach Spezies von Fischen anhand von Länge, Breite und Gewicht des Fisches.
[2] Als Testset oder Testdaten versteht man Daten ohne den zugehörigen Lösungen. Etwa nur die Länge, Breite und Gewicht eines Fisches ohne die Spezies. Die Spezies soll das System dann erkennen.
[3] https://openai.com/blog/musenet
[4] http://iizuka.cs.tsukuba.ac.jp/projects/colorization/en
[5] https://doi.org/10.1038/nature21056
[6] https://openai.com/blog/better-language-models/
[7] Anmerkung: Das Video wurde im April 2018 veröffentlicht. Die Technologie wurde seither 1 1/2 Jahre weiterentwickelt. https://www.youtube.com/watch?v=cQ54GDm1eL0
[8] https://www.wien.gv.at/verkehr/oeffentlich/selbstfahrender-bus.html
[9] https://www.welt.de/politik/deutschland/article167290600/Gesichtserkennung-die-naechste-Stufe-der-Ueberwachung.html
[10] Auch wenn man nicht die echten Körper der Frauen sieht, wurde die App mittlerweile vom Entwicklerteam deaktiviert. https://www.deepnude.com/