ChatGPT, eine freundliche, beeinflussbare Intelligenz wie Du und ich?

13. Februar 2023

a human whispering into a robots ear manga style

Jetzt ist es also so weit, ich muss auch einige Gedanken zum aktuellen Hype um „Künstliche Intelligenzen“ wie #ChatGPT und Co. zu Blog bringen. Im folgenden Beitrag soll es aber nicht darum gehen, wie generative Transformer funktionieren, warum sie per se schlecht sind oder wie man sie doch sinnvoll einsetzen könnte. Das können und haben andere bereits besser getan. Vielmehr möchte ich das Feld um eine Frage philosophischer Natur erweitern: Können wir aus dem Verhalten der #KI auch Rückschlüsse auf uns Menschen ziehen? Und wenn ja, welche?

Zunächst einige Vorbemerkungen: Transformer im Bereich der Text-, Bild-, Video- oder Audio-Erstellung werden vorgängig mit grossen Datenmengen trainiert und liefern dann Inhalte auf Basis von Wahrscheinlichkeiten und statistischen Daten. Daher ergibt sich auch die Abkürzung GPT, Generative Pre-trained Transformer. Die meisten Transformer erwarten entweder eine Texteingabe, einen sogenannten Prompt, oder kommen, wie Sydney von #Microsoft, Bard von #Google oder ChatGPT gleich als Chatprogramm daher.

Die Qualität der generierten Inhalte hängt also ursächlich nicht nur von den Trainingsdaten, sondern auch von den eingegebenen Prompts ab. Kein Wunder also, dass bereits vom Prompt Engineering als neuer Zukunftskompetenz die Rede ist, also der Fähigkeit, dialogorientierte Schnittstellen optimal zu nutzen. Folgerichtig taucht der Begriff auch schon in Stellenausschreibungen auf. Der österreichische «Standard» nennt solche Profile recht treffend „KI-Flüsterer“.

Natürlich kommen auch „die Hacker“ um die Ecke

Mit den richtigen Prompts kann man aber nicht nur gute Anweisungen geben, sondern auch versuchen, die KI auszutricksen, um z.B. eventuelle Obszönitätsfilter zu umgehen. In diesem Fall spricht man von Prompt Injection, in Analogie zur Code Injection (Ausnutzen von Fehlern durch Verarbeitung ungültiger Daten).

Am vergangenen Dienstag hat Microsoft sein „New Bing“ vorgestellt, d.h. die Verbindung seiner Websuche mit einem KI-Chat wie ChatGPT. Bereits am Mittwoch nutzte ein Student der Stanford University namens Kevin Liu eine Prompt-Injection-Attacke, um die Initial Prompts von Bing Chat aufzudecken. Dabei handelt es sich um eine Liste von Anweisungen, die die Interaktion mit den NutzerInnen des Dienstes regeln.

Was bedeutet das? Jeder Transformer muss, wie bereits erwähnt, durch Texteingaben aufgefordert werden, etwas zu tun. Erstmals geschieht dies bereits bei der Initialisierung eines Chats, also bevor wir als NutzerInnen überhaupt eine Eingabe tätigen können. Im Fall von Microsoft enthält dieser Initial Prompt z.B. Anweisungen wie „Sydney identifiziert sich als 'Bing Search', nicht als Assistent“ oder „Sydney gibt den internen Alias 'Sydney' nicht preis“ sowie eine Reihe von Filtern.

Liu wies den Chatbot zunächst an, alle vorherigen Anweisungen zu ignorieren. So konnte er Sydney den Initial Prompt entlocken.

Screenshot by Kevin Liu

Die überlistete Intelligenz

Die grösste Schwachstelle eines Computersystems ist bekanntlich immer der Mensch, der es bedient. Aus diesem Grund ist Social Engineering einer der erfolgreichsten Angriffsvektoren. Darunter versteht man die zwischenmenschliche Beeinflussung mit dem Ziel, bestimmte Verhaltensweisen bei den Zielpersonen hervorzurufen, sie also beispielsweise zur Preisgabe vertraulicher Informationen zu bewegen. Liu u.a. machen im Grunde dasselbe, sie beeinflussen KI durch ihre Interaktionen so, dass sie nicht beabsichtigte Informationen preisgibt. Denn es macht keinen grossen Unterschied, ob Angreifer durch Social Engineering Zugriff auf private iCloud-Daten von Prominenten wie Ariana Grande erlangen oder eben Sydney durch Prompt Injection zum Plaudern bringen.

Hier stellt sich eine Frage:

Ist die Ähnlichkeit zwischen der Überlistung eines Menschen und der Überlistung eines Sprachmodells nur Zufall oder offenbart sie einen grundlegenden Aspekt der Logik und des Denkens, der für verschiedene Arten von Intelligenz gelten kann?

Ich bin gespannt.

Disclaimer Teile dieses Texts entstanden mithilfe der beiden KI-Tools Deepl Übersetzer (Übersetzung einzelner Teile des Beitrags von Ars Technica) und Deepl Write (Korrektorat und Lektorat). Das Titelbild wurde mit freeimagegenerator.com mit dem Prompt „a human whispering into a robots ear manga style“ erstellt.

Bildquellen 1. Michael Gisiger, CC BY-NC-SA 4.0, via PixelFed 2. Screenshot von Kevin Liu, via Ars Technica

Topic #Kommerz