Ist die Künstliche Intelligenz wirklich sicher? Eine kürzliche Schwachstelle in ChatGPT wirft Fragen auf. Forscher zeigen, dass Sprachmodelle mit raffinierten, jedoch einfachen Techniken umgangen werden können.
Ein Bericht von Marco Figueroa, Experte bei Mozilla, zeigt eine Methode auf, um fortschrittliche Sprachmodelle wie GPT-4o von OpenAI zu manipulieren. Durch die Kodierung bösartiger Anweisungen im Hexadezimalsystem gelingt es Hackern, die Sicherheitsfilter zu umgehen.
Trotz ihrer Leistungsfähigkeit zeigt GPT-4o Schwächen in der Handhabung von durch Benutzer generierten Inhalten. Tatsächlich ist das System in der Lage, potenziell schädliche Befehle in normaler Sprache zu erkennen, hat jedoch einige Grenzen. Beispielsweise verdeutlicht die von Marco Figueroa enthüllte Technik des schnellen „Injection“-Angriffs diese Schwächen und ermöglicht es böswilligen Akteuren, die Sicherheitssysteme zu umgehen.
Marco Figueroa erklärt, dass das Modell die Anweisungen Schritt für Schritt analysiert, ohne die zugrundeliegende Gefahr zu erkennen. Indem Angreifer verschiedene Kodierungen verwenden, gelingt es ihnen, das Modell zu manipulieren, ohne Verdacht zu erregen.
In dem von ihm getesteten Fall kodierte er seine bösartigen Anweisungen im Hexadezimalcode (eine Sprache in Form von Zahlen- und Buchstabenkombinationen) sowie in der sogenannten „Leet-Sprache“. So gelang es ihm, die von ChatGPT blockierten Schlüsselwörter zu umgehen: Das mangelnde Verständnis des übergeordneten Kontexts durch GPT-4o macht diese Technik effektiv.
Marco Figueroa fordert OpenAI auf, die Sicherheit seiner Modelle zu überdenken. Die Innovationsfähigkeiten dürfen die Sicherheit der Benutzer nicht gefährden. Es besteht die Notwendigkeit erhöhter Wachsamkeit bei der Entwicklung von Künstlicher Intelligenz. Die Frage stellt sich: Ist die Zukunft der Sprachmodelle durch diese Schwachstellen bedroht? Unternehmen müssen mehr Anstrengungen unternehmen, um den Schutz der Benutzer vor diesen neu aufkommenden Bedrohungen zu verstärken.
Die Suche nach Umgehungsmethoden wird nicht aufhören. Angreifer versuchen, Schwachstellen auszunutzen, um immer ausgeklügeltere Bedrohungen zu schaffen. Der Fall GPT-4o unterstreicht die Bedeutung der Sicherheit im Bereich fortschrittlicher Technologien.
Wie funktionieren Künstliche Intelligenzen in Bezug auf Sicherheit?
Generative Künstliche Intelligenzsysteme (GAI) verwenden Sprachmodelle, um Texte zu verarbeiten und zu generieren. Die Sicherheit dieser Systeme basiert auf Filtern, die entwickelt wurden, um bösartige Anweisungen zu erkennen und zu blockieren. Diese Herangehensweise hat jedoch Grenzen. GAIs analysieren Eingaben sequentiell und bewerten jede Anweisung einzeln. Diese Methode, obwohl sie bei klaren und direkten Anweisungen effektiv ist, zeigt Schwächen, wenn Anweisungen in ungewöhnlichen Formaten verborgen sind.
Die Hexadezimalkodierung, die Zahlen und Buchstaben zur Darstellung von Daten verwendet, ermöglicht es, bösartigen Inhalt zu verschleiern. Indem Angreifer Anweisungen in eine Symbolreihe umwandeln, entgehen sie den Erkennungsfiltern. GAIs, die sich auf jedes Fragment der Anweisungen konzentrieren, sind nicht in der Lage, den allgemeinen Kontext oder die potenzielle Gefahr des Ganzen zu erfassen. Folglich kann eine bösartige Anweisung dekodiert und ausgeführt werden, ohne Verdacht zu erregen.
Dieses Phänomen unterstreicht die Anfälligkeit der GAIs für Manipulation durch raffinierte Kodierungen. Die fragmentierte Analyse macht es GAI-Systemen unmöglich, Zusammenhänge zwischen den verschiedenen Phasen einer komplexen Anweisung zu erkennen. Wenn ein Benutzer also eine Reihe von hexadezimalen Anweisungen eingibt, führt das System, das für die Einzelverarbeitung optimiert ist, schließlich bösartige Befehle aus, ohne deren eigentliche Absicht zu erkennen.
Um die Sicherheit der GAIs zu stärken, ist es unerlässlich, ausgeklügeltere Erkennungsmechanismen zu entwickeln. Dies erfordert ein besseres Verständnis des Kontextes und der Zusammenhänge zwischen Anweisungen, sodass nicht nur Schlüsselwörter, sondern auch potenziell gefährliche Sequenzen blockiert werden können. Durch die Verbesserung der Erkennungsfähigkeiten der Sprachmodelle wird es möglich, die Risiken von Umgehungsmethoden wie der Hexadezimalkodierung zu verringern.