Im November 2024 veröffentlichte die Open Source Initiative ihre finale Fassung der Open Source AI Definition1 und stieß damit auf wenig Gegenliebe und viel Kritik. Zur Klärung was quelloffene und freie Künstliche Intelligenz ist, hat sie jedenfalls bisher wenig beigetragen.
Die 1998 gegründete Open Source Initiative zertifiziert Software-Lizenzen auf Kompatibilität zu ihrer Open-Source-Definition. Sie ist damit praktisch Wachhund und Kontrollinstanz über den Begriff „Open-Source-Software“. Man spricht dann von einer „OSI approved License“. Die Open Source Definition selbst ist eine recyclte Version der Debian-Richtlinien für freie Software (Debian Free Software Guidelines2) die von der GNU/Linux Distribution Debian geschaffen wurden, um angesichts des Sammelsuriums verschiedenster freier Lizenzen, Freiheiten und Kriterien zu definieren, die notwendig sind, um Software in eine Distribution aufnehmen zu können.
Beide Dokumente wiederum berufen sich auf die vorhergehende „Free Software Definition“3 der Free Software Foundation, die in ihrer ersten Fassung 1986 veröffentlicht wurde. Sie definiert vier Freiheiten, die freie Software gewähren muss: Die Freiheit, das Programm auszuführen, wie man möchte und für jeden Zweck. Die Freiheit, die Funktionsweise des Programms zu untersuchen und eigenen Bedürfnissen anzupassen. Die Freiheit, das Programm weiterzuverbreiten und die Freiheit, das Programm zu verbessern und diese Verbesserungen wiederum weiterzugeben. Diese Freiheiten bedingen eine Offenheit der Quellen: „Open Source.“ Um zu verdeutlichen, dass frei hier nicht gratis meint („Frei wie in Freiheit, nicht wie in Freibier“) wird auch gerne der französische Begriff „libre“ verwendet (Libre Software).
Die Open Source Definition ist mehr oder weniger deckungsgleich mit den Debian-Richtlinien für freie Software, der Begriff Freie Software wurde jedoch durch Open Source ersetzt. Es ist die geschäftstaugliche Version, die den Idealismus und Aktionismus der freien Software durch einen coolen Marketing-Begriff ersetzt und primär auf das Argument der Softwarequalität setzt. Dabei werden Lizenzkompatibilitäten regelmentiert, um den Pool zu definieren, aus dem sich dann auch (Big und Small) Business bedienen können, nach dem Motto: „Geht’s der Wirtschaft gut, geht’s uns allen gut!“ („Good for business, good for the world“4). Für Bruce Perens, der an beiden Dokumenten zentral beteiligt war, sind „Open Source“ und Freie Software unterschiedliche Begriffe für dasselbe Phänomen, was aber bei weitem nicht überall so gesehen wird. Hier liegt auch der Grund für einen Dauer-Konflikt zwischen den Proponenten beider Lager. Um alle gemeinsam anzusprechen, spricht man in Folge auch von FLOSS (Free/Libre/Open Source Software)
Wie man sieht, ist das kein homogenes Feld und noch schwieriger wird es, will man die Offenheit von KI definieren. Zuallererst steht hier die Frage im Raum, ob sich KI-Systeme überhaupt grundsätzlich von gängigen Software- und Daten-Systemen unterscheiden. Ein System des maschinellen Lernens ist ja nicht nur ein ausführbares Programm, das durch Kompilieren eines Quellcodes entsteht. Ein KI-System besteht im Wesentlichen aus: 1) dem Modell selbst, einer Sammlung von Zahlen und Parametern (Gewichten und Verzerrungen / weights und biases) die von der Maschine erlernt werden, 2) einem Programm (und dem Quellcode), um anhand dieses Modells Vorhersagen zu treffen, 3) Programm, Quellcode und (Hyper)Parameter für das Training dieses Modells, sowie 4) Daten für Training und Evaluierung.
Sind Trainingsdaten nun Bestandteil der Quellendaten? Wenn ja, wäre nicht zwingend eine neue Definition oder Lizenz notwendig.5 Der Status der Trainingsdaten ist tatsächlich der strittigste Punkt in der Debatte und neben zahlreichen weiteren Kritikpunkten (Transparenz, Kompetenz und der Frage um Involvierung und Repräsentanz der Community) auch das Hauptproblem an der Open Source AI Definition. Sie beruft sich auf die erwähnten vier Freiheiten (Use, Study, Modify, Share) erlaubt aber die Verwendung nicht-teilbarer Daten und begnügt sich mit Beschreibungen und Herkunftsangaben unter Verwendung schwammiger Formulierungen wie: „ausreichend detaillierte Informationen über die zum Training des Systems verwendeten Daten, so dass ein Fachmann ein im Wesentlichen gleichwertiges System aufbauen kann“. Die Argumention dahinter ist nicht gänzlich unschlüssig: Daten haben eine andere (urheber)rechtliche Grundlage als Quellcode, die je nach Jurisdiktion sehr unterschiedlich sein kann. Viele Daten sind – zum Beispiel aus Privatschutzgründen – nicht teilbar. Einfachstes Beispiel: Gesundheitsdaten. Es könnte also nie ein offenes KI-System im Gesundheitswesen geben. Ein unerwähnter (aber nicht unwesentlicher) Grund, warum das Teilen der Daten bei den derzeit großen Modellen – ob frei oder unfrei – unmöglich scheint ist jedoch, dass diese aus illegalen Quellen stammen oder durch illegale Methoden gesammelt wurden.6 So ist inzwischen dokumentiert, dass sich Meta aus populären Schattenbibliotheken bediente.7 Das Insistieren auf Trainingsdaten würde, so die Argumentation, offene KI zu einem Nischenthema machen, und sich auf sehr wenige und sehr kleinen Modelle beschränken.
Selbst die Free Software Foundation erkennt an, dass es gute Gründe gibt,Trainingsdaten nicht zu veröffentlichen, stellt aber auch klar, dass es sich dann nicht um eine freie Anwendung handeln kann. Die Frage, warum sich ein System quelloffen oder frei nennen soll, dessen Quellen nicht offen sind, steht also tatsächlich ohne vernünftige Antwort im Raum. Die Free Software Foundation hat sich bisher jedoch nicht zu einer eindeutigen Definition durchgerungen und diskutiert weiterhin das Thema, wie Richard Stallman, Gründer der Freien Software Bewegung, Ende Januar 2025 im Rahmen eines Vortrags im südfranzösischen Montpellier bestätigte8.
Das Linux Foundation AI & Data Project Generative AI Commons wiederum arbeitet an einer eigenen Klassifizierung, dem „Model Openness Framework“9: Es definiert 17 Komponenten der drei Typen: Code, Daten und Dokumentation, und leitet daraus drei Klassen von Modellen ab: Open Model, Open Sciene Model und Open Tooling Model. Zum Pariser KI-Gipfel „AI Action Summit“ im Februar formierte sich auch eine Open Source Alliance und warf eine „Open Weight Definiton“10 in den Ring.
Der EU Artificial Intelligence Act zur europaweiten KI-Regulierung sieht Erleichterungen und Ausnahmen für offene Systeme vor, es findet sich jedoch keine verbindliche, formale Definition derselben: Man spricht von KI-Systemen und Modellen unter offenen und freien Lizenzen. Trainingsdaten müssen dokumentiert – auch und vor allem, von unfreien Modellen – aber nicht veröffentlicht werden.
Wie auch immer: Aktuell erfüllen nur sehr wenige der frei verfügbaren Modelle die erwähnte Open Source AI Definition. Die bekanntesten (Llama von Meta, Gemma von Google, Phi von Microsoft, Deepseek oder Mistral) zählen alle nicht dazu. Dass es aber auch mit freien Trainingsdaten geht, beweisen unter anderem das Allen Institute for AI (hinter dem der ehemalige Microsoft-Gründer Paul Allen steckt) mit OLMo11, EleutherAI mit Pythia und kleinere französische Initiativen wie Pleias12 und OpenLLM France.13 AllenAi hat mit OLMoTrace14 kürzlich auch ein Tool veröffentlicht um Abstammungen von generativen Inhalten auf Trainingsdaten zurückzuverfolgen.
Der gängigen Praxis des „Open-Washing“ wird inmitten dieser Verwirrungen also Tür und Tor geöffnet. Was „offen“ im Kontext von Künstlicher Intelligenz heißen soll, bleibt unklar. Dabei findet sich das Bekenntnis zu Offenheit in fast allen Digitalisierungs-Strategien – auch in Österreich: vom nationalen Fahrplan für die Digitale Dekade Österreichs15, der digitalen Agenda der Stadt Wien oder dem Programm Digitales Linz: "Linz setzt auf Transparenz und befeuert digitale Offenheit.16
Zweifelsfrei sind offene Quellen und freie Software zentral und wichtig für Transparenz und Vertrauen, Nachvollziehbarkeit und Reproduzierbarkeit und das Vermeiden von Vendor-Lock-ins.17 Offener Code allein ist aber noch lange kein Garant für digitale Souveränität.
Kein Software-Konzern hat je freie Software aus Nächstenliebe veröffentlicht: Von Anfang an diente FLOSS auch als Arsenal im Waffenschrank von Big Tech um unliebsame Konkurrenten zu schwächen und Vorherrschaften über technische Ökosysteme zu brechen oder für sich selbst zu erobern: Google sichert sich so zum Beispiel mit dem – auf dem Papier – freien Betriebssystem Android die Dominanz über große Teile des Mobilfunk-Marktes. Der KI-Bereich ist aktuell natürlich heiß umkämpft. So ist zum Beispiel Meta federführend in der Entwicklung von PyTorch, dem dominierenden, freien Entwickler-Framework für KI und versucht mit der Veröffentlichung frei verfügbarer Modelle wie Llama natürlich auch OpenAI und Google das Wasser abzugraben. Ohne das de-facto Hardware-Monopol von NVIDIA geht zur Zeit sowieso fast gar nichts, egal ob der Code frei ist oder nicht. Es zeichnet sich aber ab, dass die Entwicklung von offener und freier KI nicht aufzuhalten ist, wie auch immer man sie im Detail definiert.
Gerade im Bereich generativer KI stellen Modelle und notwendige Ressourcen derart hohe Einstiegshürden für Betrieb und Training dar, dass nur wenige Player in der Lage sind, Entwicklungen an diesen grundlegenden „foundation models“ überhaupt zu forcieren und/oder im Detail nachzuvollziehen.
Dass Offenheit und Freiheit von komplexen Software-Systemen alleine nicht ausreichen um Freiheit und Unabhängigkeit der Nutzer zu garantieren, zeigt sich auch an anderer Stelle – wie dem Eklat um die Blog-Software WordPress,18 19 das gerne auch als Content-Management-System für Webseiten und Online-Shops aller Art missbraucht wird. In der Kurzfassung: Matt Mullenweg, Gründer von WordPress – der in Personalunion sowohl der WordPress Foundation vorsteht, die die Entwicklung von WordPress betreibt, als auch der Firma Auttomatic, die WordPress kommerziell verwertet –, hatte beschlossen, dass WP Engine (eine Konkurrenz-Firma, die auch Hosting von WordPress-Seiten anbietet) zu wenig zur Entwicklung der Software beiträgt. Im eskalierenden Streit um Marken- und Nutzungsrechte wurden unter anderem die Auslieferung von Sicherheits-Updates für betroffene Seiten eingestellt, sowie Entwickler, die sich nicht ausreichend distanzierten, von ihren Accounts ausgesperrt. Der Fall beschäftigt nach wie vor die Gerichte. Das ganze läuft natürlich auf Kosten der Nutzer und demonstriert vor allem eines: Wenn wir als Gesellschaft zunehmend anhängig von komplexen Software-Infrastrukturen inklusive regelmäßiger Wartung und Sicherheitsupdates sind (im Falle von WordPress wird oft behauptet, dass geschätzte 40% aller Internetseiten auf diesem System laufen), wird die Frage nach der Führung und Kontrolle, sowohl in der Entwicklung, als auch im Betrieb relevant. Macht konzentriert sich auch ohne Strukturen und eine Spaltung des Projekts ist mit zunehmender Komplexität und Abhängigkeit immer schwieriger möglich.
Der Quellcode alleine reicht als demokratische Kontrollmöglichkeit für die Freiheit der Nutzer also nicht mehr aus. Lizenzen und Quelltext allein haben wenig beizutragen, wenn es um den technologischen und politischen Imperativ geht, dem die Entwicklung folgt,20 oder um zeitnahe Auslieferung von Sicherheitsupdates. Was passiert, wenn die Alternativen fehlen? Oder die Ressourcen zur Alternative? Was passiert, wenn der „don’t be evil“-Konzern21 doch böse wird oder der wohlmeinende Diktator22 nicht mehr wohlwollend ist?