Sora 2 только что прошла одно из самых сложных испытаний для ИИ: испытание стакана воды. И это важнее, чем кажется

Поставьте прозрачное стекло перед рисунком (например, стрелкой) и наблюдайте, как изображение искажается или даже переворачивается. Этот эффект возникает из-за того, что свет меняет направление при прохождении через различные среды (воздух, стекло и воду): это явление известно как «преломление».
Хотя для нас это обычное дело, правильное воспроизведение представляет собой серьезную проблему для искусственного интеллекта, генерирующего видео. Недостаточно создать эстетически реалистичное стекло: модель должна имитировать точное взаимодействие света, прозрачных материалов и фоновых объектов, сохраняя согласованность в каждом кадре.
Вот почему вот уже несколько месяцев новые ИИ для генерации видео проходят «тест на преломление стекла». Новость заключается в том, что Sora 2, модель генерации видео, которую OpenAI выпустила вчера, сумела пройти этот тест с удивительными результатами:
Это вызвало ажиотаж среди исследователей и любителей ИИ: не из-за простого визуального трюка, а потому, что это показатель того, что модели начинают фиксировать сложные физические явления реального мира.
Почему это так сложно для ИИ?
В отличие от графического движка видеоигр, который включает в себя такие технологии, как трассировка лучей и явное физическое моделирование, генеративная модель, такая как Sora, должна учиться на миллионах видео и фотографий. То, что он производит, основано не на запрограммированных физических правилах, а на простых статистических закономерностях.
Это означает, что:
- Она должна «изучать» физику без того, чтобы ее кто-то учил напрямую. В нем нет оптических уравнений; он делает вывод, что «когда за ним находится стакан и предмет, он обычно выглядит определенным образом деформированным».
- Нехватка примеров в данных. Несмотря на то, что в наборах данных много стаканов, в видеороликах не так часто явно показаны перевернутые стрелки или эксперименты по преломлению. Модель должна обобщать правила, а не запоминать.
- Временная согласованность. В видео каждый кадр должен соответствовать предыдущему. Если кто-то двигает стакан, деформация стрелки должна обновляться в режиме реального времени. Минимальное несоответствие сразу бросается в глаза.
Прохождение этого теста подразумевает, что модель не только способна генерировать убедительные изображения, но и усваивает определенные физические закономерности реального мира.
Символическое значение теста
«Тест на преломление стекла» — это почти самодельный мини-тест. Он использовался как «тест на хлопок», чтобы оценить, в какой степени ИИ способен справляться с ситуациями, когда физика становится видимой невооруженным глазом. И дело в том, что если вода внутри стакана не изгибается должным образом, на видео что-то «пищит».
В этом смысле этот эксперимент стал символом физического реализма в генеративном ИИ. То, что Sora 2 прошла его, не означает, что она “понимает оптику” в человеческом смысле, но ей удается имитировать ее с очень высокой степенью точности.
Это открывает несколько возможностей, как в области аудиовизуального производства (более реалистичные визуальные эффекты без необходимости сложных графических движков), так и, например, в обучении роботов (синтетические видеоролики, более реалистичные для реальности, могут служить для обучения агентов, взаимодействующих с миром).
Другие «простые» визуальные «стресс-тесты» для ИИ
Стакан воды — не единственное испытание, которое используется в качестве показателя прогресса. Существует несколько категорий тестов, которые ставят под сомнение генеративный искусственный интеллект:
- Реалистичные тени: Освещенный объект должен отбрасывать согласованные тени по форме, направлению и размытию, но многие модели терпят неудачу, создавая плавающие тени, плохо ориентированные или с невозможными краями.
- Зеркала и отражения: Отражения на металлических или водных поверхностях требуют геометрической согласованности. Распространенной ошибкой является то, что зеркала «галлюцинируют» сцены, отличные от реальных.
- Жидкости и разливы: Налить воду в стакан, чтобы жидкость соответствовала силе тяжести и принимала согласованные формы, чрезвычайно сложно. Многие модели производят «студенистую» воду или воду, реагирующую на физически невозможные движения.
- Физика движущихся объектов: прыгающий мяч, падающая башня, сталкивающиеся части … без внутренней физической модели многие ИИ создают невозможные траектории.
Эти задачи напоминают академические тесты по интуитивной физике, такие как PIQA, IntPhys или PHYRE, которые оценивают способность системы рассуждать о реальном мире.
Редактор: AndreyEx