GPT-4 изучает логику GPT-2 в исследовании OpenAI: создатели искусственного интеллекта не знают, как он работает
В то время как языковые модели искусственного интеллекта покоряют сферу технологий, исследователи ИИ слабо представляют их работу «под капотом». OpenAI прямо признается: «Языковые модели стали более функциональными и широко распространенными, но мы не понимаем, как они работают».
Компания опубликовала исследование, в котором подробно описывается метод использования языковой модели GPT-4 для объяснений поведения нейронов более старой GPT-2. Задача – добиться интерпретируемости, объяснить, почему нейросети делают то, что делают и создать надежные средства контроля процесса. Забегая вперед, пока это не очень получается, но перспективы возрастут с появлением более совершенных моделей.
Наличие интерпретируемой модели ИИ помогло бы достичь более глобальной цели, которую называют «согласованием ИИ» – гарантии, что системы ведут себя так, как задумано и отражают в работе человеческие ценности.
Пока никому не понятно, как именно отдельные элементы нейронной сети (нейроны) взаимодействуют для получения выходных данных. Эта проблема получила название «черного ящика». Иными словами, не ясно, каким именно образом заданный вопрос превращается в ответ.
Пытаясь заглянуть внутрь «черного ящика», OpenAI использовала GPT-4 для создания и оценки естественно-языковых объяснений поведения нейронов в гораздо менее сложной модели GPT-2. Автоматизируя процесс интерпретации, OpenAI стремится преодолеть ограничения ручной проверки человеком, которая не может охватить системы с миллиардами возможных параметров. Техника OpenAI имеет цель объяснить, какие шаблоны текста вызывают активацию нейрона. Метод состоит из трех шагов:
- Объяснить активацию нейрона с помощью GPT-4
- Смоделировать активацию нейронов на основе объяснения
- Сравнить полученные модели с реальными активациями
Необходимо уточнить терминологию:
- Нейрон – минимальная единица нейронной сети, принимающая информацию, обрабатывающая ее и выдающая результат
- Цепь или схема (circuit) – группа нейронов, работающих вместе и выдающих коллективный результат
- Голова внимания (attention head) – воздействие, направляющее «внимание» языковой модели на конкретные слова или части предложения для отбора необходимой информации
GPT-4 выявляет в модели конкретные нейроны, цепи, головы внимания и создает удобочитаемое объяснение роли этих компонентов. Она также генерирует оценку объяснения, которую OpenAI называет «мерой способности языковой модели сжимать и реконструировать активации нейронов с использованием естественного языка». Исследователи надеются, что подобная количественная оценка позволит добиться измеримого устойчивого прогресса на пути к пониманию работы нейросетей.
Пока результаты не впечатляют. В исследовании OpenAI сравнивала работу GPT-4 с работой человека, выполнявшего те же действия. Оба исполнителя показали плохую в абсолютном выражении оценку объяснения, что означает крайнюю затруднительность интерпретации поведения нейронов. Одна из причин этого – полисемантичнойть нейронов: один нейрон может выдавать несколько значений или быть связанным с несколькими понятиями. Другая звучит как отрывок из научно-фантастического романа, герои которого пытаются понять логику инопланетян – процитируем статью:
«Кроме того, языковые модели могут формировать чуждые понятия, для которых у людей нет слов. Это может происходить из-за того, что они «заботятся» о разных вещах: например, о статистических конструкциях, полезных для задач прогнозирования следующей лексемы, или обнаруживают естественные абстракции, которые людям еще предстоит открыть: например, некоторое семейство аналогий в несопоставимых областях.»
Также процесс объяснения сдерживают ограничения вычислительной мощности и необходимость предоставлять объяснения в удобной краткой форме на естественном языке. Всё же исследователи OpenAI надеются на прогресс, к которому приведет совершенствование языковых моделей и рост мощностей. Компания подробно изложила свой метод исследования и выложила на GitHub код системы автоматической интерпретации, нейроны GPT-2 XL и наборы данных объяснений.
«Основы АI» — новый бесплатный курс Google и Минцифры, который научит украинцев пользоваться программами с искусственным интеллектом
Источник: Ars Technica