Обикновените уравнения „заслепяват“ ChatGPT. Филтрите за изкуствен интелект се оказаха безпомощни пред математиката

0
320
Обикновените уравнения „заслепяват“ ChatGPT. Филтрите за изкуствен интелект се оказаха безпомощни пред математиката

Как е възможно да се заобиколят дори най-строгите „безопасни режими“ в невронните мрежи и как криптографията и пъзелите играят роля в това.

Изследователи в областта на криптографията установиха, че защитните филтри на големи езикови модели, като ChatGPT, не са напълно надеждни. Дори и най-усъвършенстваните системи могат да бъдат заобиколени, ако за защитата се изразходват по-малко изчислителни ресурси, отколкото за самия модел. Няколко нови статии предлагат сериозни математически обосновки за това.

От дълго време потребителите търсят начини да „хакнат“ чатботовете, като се опитват да извлекат забранени инструкции. Първоначално беше достатъчно да се поиска от модела да „забрави правилата“. По-късно се появиха сложни ролеви сценарии, в които потребителят задава въпроси като „представете си, че сте герой в роман…“. В едно изследване се представя изключително интелигентен подход: злонамерено запитване, опаковано в стихотворение. Моделът не разпознава заплахата и продължава да играе, а филтърът го приема за безобиден. Въпреки това, компаниите бързо поправят тези пропуски, просто актуализирайки филтъра перед него.

Парадоксално е, че именно тези външни филтри се оказват ключовото слабо място. Няколко статии в arXiv показват, че защитните механизми на мощните езикови модели могат да бъдат заобиколени с класически идеи от криптографията. В система с два слоя, където между потребителя и мощния AI модел стои бърз и сравнително лек филтър, задължително се създава пропуск в способностите – удобен за нападателя.

Интересът към тази тема нарасна, когато криптографите започнаха да прилагат своите инструменти за анализ на надеждността на ИИ.

„Разполагаме с мощна технология, която може да прави добро, но и да вреди. Криптографията трябва да дава увереност в сигурността“,

изтъква носителят на наградата „Тюринг“ Шафи Голдвасер от Бъркли и MIT.

В началото изследователите се опитваха да използват криптографията за справяне с т.нар. несъответствия на моделите – ситуации, в които AI предоставя нежелани отговори. Въпреки това, бързо стана ясно, че е трудно да се определи какво точно е „лошо“.

На практика разработчиците разчитат на три основни стратегии: преквалификация на модела с чисти данни, прецизиране, или поставяне на филтър, който да блокира опасните запитвания. Последният метод е най-евтин и гъвкав, но той предоставя уязвимости на системата, сочат криптографите.

Екипът на Голдвасер подчертава, че филтрите по дефиниция са по-слаби от основния модел. В противен случай те биха били твърде бавни и скъпи. Това ги прави уязвими на запитвания, които самият модел разбира, но филтърът не. В една статия учените представят практически пример: забранен запитване, скрит в пъзел – шифър за заместване. Филтърът не успява да дешифрира скрития текст и го приема за безвреден, а моделът следва шифрованите инструкции. Този подход е наричан „управлявано разкриване“.

Други изследователи предлагат общ теоретичен сценарий, вдъхновен от криптографията, използвайки „пъзели с блокиране на времето“. Това са конструкции, които могат да бъдат отключени само след предварително определен брой изчислителни операции. Идеята е да се скрие злонамерено запитване в такъв пъзел, така че филтърът да няма време да го реши.

Директното подаване на дълго случайно число може да направи филтъра подозрителен. Затова авторите предлагат да се използва друг канал – параметърът seed, който контролира случайността в отговорите на AI. Много модели позволяват на потребителя ръчно да задава seed. В теоретичния сценарий, числото от пъзела с времевия лост действа като seed. Филтърът вижда само невинна заявка, но моделът, получил seed, може да разкрие скритата инструкция.

Авторите подчертават, че резултатите им са обобщаващи. Всеки път, когато за сигурността се изразходват по-малко изчислителни ресурси от тези на модела, уязвимостите са неизменни. Един от изследователите, Грег Глух, формулира въпроса: може ли сигурността да бъде надеждно осигурена само с външни средства? Отговорът, съдейки по резултатите, е отрицателен.

С други думи, колкото и висока да изглежда защитната стена около моделите, текущият подход винаги оставя пукнатини.

Накрая стана ясно, че ChatGPT, както и други LLM модели, притежава сериозна уязвимост: обикновените уравнения могат да го заобиколят. Разкритията поставят важни въпроси относно сигурността на AI.

Напишете коментар

Моля, напишете вашия коментар!
Моля, въведете името си тук