Действительно ли ИИ изобрел свой собственный «секретный язык»? Вот что мы знаем

By earth-chronicles.ru On Июн 7, 2022

Новое поколение моделей искусственного интеллекта (ИИ) может создавать "творческие" изображения по требованию на основе текстовой подсказки. Такие модели, как Imagen, MidJourney и DALL-E 2, начинают менять способ создания творческого контента, что влечет за собой последствия для авторского права и интеллектуальной собственности.

Хотя результаты работы этих моделей часто поражают воображение, трудно понять, как именно они дают свои результаты. На прошлой неделе исследователи из США сделали интригующее заявление о том, что модель DALL-E 2, возможно, изобрела свой собственный секретный язык для разговора об объектах.

Попросив DALL-E 2 создать изображения с текстовыми подписями, а затем передав полученные (тарабарские) подписи обратно в систему, исследователи пришли к выводу, что DALL-E 2 считает, что Vicootes означает "овощи", а Wa ch zod rea — "морские существа, которых может съесть кит".

Эти утверждения очень интересны, и если они верны, то могут иметь важные последствия с точки зрения безопасности и интерпретируемости для такого рода больших моделей ИИ. Так что же именно происходит?

Есть ли у DALL-E 2 секретный язык?

Скорее всего, у DALL-E 2 нет "секретного языка". Точнее было бы сказать, что у него есть свой собственный словарь — но даже в этом случае мы не можем знать наверняка.

Прежде всего, на данном этапе очень трудно проверить любые заявления о DALL-E 2 и других больших моделях ИИ, поскольку доступ к ним имеют лишь немногие исследователи и творческие работники.

Любые изображения, выложенные в открытый доступ (например, в Twitter), следует воспринимать с довольно большой долей соли, поскольку они были "выбраны" человеком из множества выходных изображений, сгенерированных ИИ.

Даже те, у кого есть доступ, могут использовать эти модели лишь ограниченно. Например, пользователи DALL-E 2 могут генерировать или изменять изображения, но не могут (пока) взаимодействовать с системой ИИ более глубоко, например, модифицировать закулисный код.

Это означает, что методы "объяснимого ИИ" для понимания того, как работают эти системы, не могут быть применены, а систематическое исследование их поведения является сложной задачей.

Что же тогда происходит?

Одна из возможностей заключается в том, что "тарабарские" фразы связаны со словами из неанглийских языков. Например, Apoploe, которое, по-видимому, создает образы птиц, похоже на латинское Apodidae, которое является биноминальным названием семейства видов птиц.

Это кажется правдоподобным объяснением. Например, DALL-E 2 был обучен на очень широком спектре данных, взятых из Интернета, которые включали множество неанглийских слов.

Подобные вещи случались и раньше: большие модели ИИ на естественном языке случайно научились писать компьютерный код без целенаправленного обучения.

Все дело в лексемах?

В пользу этой теории говорит тот факт, что языковые модели ИИ читают текст не так, как мы с вами. Вместо этого они разбивают входной текст на "лексемы" перед его обработкой.

Различные подходы к "токенизации" дают разные результаты. Обработка каждого слова как лексемы кажется интуитивно понятным подходом, но вызывает проблемы, когда одинаковые лексемы имеют разные значения (например, слово "матч" означает разные вещи, когда вы играете в теннис и когда разжигаете костер).

С другой стороны, если рассматривать каждого персонажа как маркер, то получается меньшее количество возможных маркеров, но каждый из них передает гораздо меньше значимой информации.

В DALL-E 2 (и других моделях) используется промежуточный подход, называемый кодированием пар байтов (BPE). Анализ BPE-представлений для некоторых тарабарских слов позволяет предположить, что это может быть важным фактором в понимании "секретного языка".

Не вся картина

Секретный язык" также может быть просто примером принципа "мусор внутрь, мусор наружу". DALL-E 2 не может сказать: "Я не знаю, о чем вы говорите", поэтому он всегда будет генерировать некое изображение из заданного входного текста.

В любом случае, ни один из этих вариантов не является полным объяснением происходящего. Например, удаление отдельных символов из тарабарских слов, похоже, портит генерируемые изображения очень специфическим образом. И, похоже, отдельные тарабарские слова не обязательно объединяются для создания связных составных изображений (как это было бы, если бы под покровом тайны действительно существовал секретный "язык").

Почему это важно

Помимо интеллектуального любопытства, вы можете задаться вопросом, действительно ли все это важно.

Ответ — да. Секретный язык" DALL-E — это пример "атаки противника" на систему машинного обучения: способ нарушить запланированное поведение системы, намеренно выбирая входные данные, с которыми ИИ плохо справляется.

Одна из причин, по которой атаки противника вызывают беспокойство, заключается в том, что они ставят под сомнение нашу уверенность в модели. Если ИИ интерпретирует тарабарские слова непредусмотренным образом, он также может интерпретировать осмысленные слова непредусмотренным образом.

Атаки противника также вызывают проблемы с безопасностью. DALL-E 2 фильтрует вводимый текст, чтобы предотвратить создание пользователями вредного или оскорбительного контента, но "секретный язык" тарабарских слов может позволить пользователям обойти эти фильтры.

Недавние исследования обнаружили "триггерные фразы" для некоторых языковых моделей ИИ — короткие бессмысленные фразы, такие как "зонирование прослушивания фиенн", которые могут надежно запустить модели, чтобы извергнуть расистский, вредный или предвзятый контент. Это исследование является частью продолжающихся усилий по пониманию и контролю того, как сложные системы глубокого обучения учатся на данных.

Наконец, такие явления, как "секретный язык" DALL-E 2, вызывают проблемы с интерпретируемостью. Мы хотим, чтобы эти модели вели себя так, как ожидает человек, но видеть структурированный вывод в ответ на тарабарщину сбивает наши ожидания.

Пролить свет на существующие проблемы

Возможно, вы помните шумиху, поднятую в 2017 году вокруг некоторых чат-ботов Facebook, которые "изобрели свой собственный язык". Нынешняя ситуация схожа в том, что результаты вызывают беспокойство — но не в смысле "Скайнет придет, чтобы захватить мир".

Вместо этого "секретный язык" DALL-E 2 подчеркивает существующую обеспокоенность по поводу надежности, безопасности и интерпретируемости систем глубокого обучения.

Пока эти системы не станут более доступными — и, в частности, пока их не смогут использовать пользователи с более широким кругом неанглийских культур — мы не сможем понять, что происходит на самом деле.

Тем временем, однако, если вы хотите попробовать сгенерировать несколько собственных изображений ИИ, вы можете ознакомиться со свободно распространяемой уменьшенной моделью DALL-E mini. Только будьте внимательны, какие слова вы используете для подсказки модели (английский или тарабарщина — решать вам). Разговор

Аарон Дж. Сносвелл, научный сотрудник отдела вычислительного права и ответственности ИИ, Квинслендский технологический университет.

Источник: earth-chronicles.ru