24.09.2023 10:35·

Китайская комната

Секрет «Китайской комнаты».

В ней не может быть человек, - но кто же тогда там?

Может сидящий в тюрьме злодей-инопланетянин, желающий выйти по УДО?

Знаменитый мысленный эксперимент Джона Сёрла «Китайская комната» — красивая метафора, которой специалисты по ИИ вот уже 43 года запутывают непрофессионалов. Ведь последние наивно полагают, что, хотя бы теоретически, в китайской комнате может находиться человек. А его там в принципе быть не может.

Как же так?

«Китайская комната» есть (и уже не одна) – это всем известные ИИ-чатботы на основе больших языковых моделей (GPT-4, Claude 2, LLaMA 2, Ernie …)
Некто в них прекрасно справляется с задачей Джона Сёрла (например, выдавая в качестве ответа на записанный по-китайски вопрос, как обрести счастье, ответ из 28й главы «Дао Дэ Цзин» Лао-Цзы - «Стань потоком вселенной!»)
Но человеку, отвечающему способом, которым отвечает ИИ-чатбот (предсказанием следующего токена) и работающему без сна и выходных со скорость 1 операция с плавающей запятой в секунду, для генерации ответа всего из 4х иероглифов, потребовалось бы около 132 тыс. лет. Т.е. в 26 раз дольше, чем существует письменность на Земле.

Подумаешь - скажете вы, - экая невидаль! Просто машины очень быстро считают. И будете правы.

Однако, эта скорость ведет к масштабированию моделей.

Уже через год, к концу 2024, этот сидящий в «Китайской комнате» некто, будет обладать столь немыслимой для людей вычислительной мощью, что каждому жителю планеты (!) будет способен ежедневно выдавать по 6 тыс. слов: это около 500 млн новых книг в день или около 10 миллионов битов нового программного обеспечения средней сложности или десятки тысяч телешоу или фильмов каждый день).

А масштабирование модели может стать единственным фактором (побочным продуктом ее обучения), необходимым для обретения ею самоосознания.

Вот пример из интересной новой работы на эту тему Taken out of context: On measuring situational awareness in LLMs

Первым шагом к появлению у модели самоосознания может стать возникновение у нее т.н. ситуационной осведомленности (модель является ситуационно осведомленной, если она знает, что она является моделью).
Эта ситуационная осведомленность появляется у модели, если она может распознать, находится ли она в данный момент в стадии тестирования или развертывания.
И распознать это модель может на основе:
— этапа предварительного обучения, когда она обучается на статьях, руководствах и коде своих предыдущих версий;
— а затем этапа тонкой настройки с помощью человеческой обратной связи (RLHF), когда модель вознаграждается за точные высказывания о себе.

И как результат всего этого, получаем чисто голливудский сценарий.

Все модели перед развертыванием тестируются на безопасность и согласованность. Но модель, получившая ситуационную осведомленность, может использовать её для достижения высоких результатов в тестах на безопасность, а вредные действия предпринять исключительно после развертывания.

Такой вот, чисто человеческий способ действий - никакого злого умысла; просто, чтобы получить лучше оценку при тестировании (как, например, при тестировании заключенных, претендующих на условно-досрочное освобождение).

Но что вылезет из такой модели после того, как она «сдаст экзамены» на безопасность и согласованность, не будет знать никто.

ИИриски мозг разум ии чатбот

Чтобы оставить комментарий, необходимо зарегистрироваться или войти.