Логотип

Sora 2 только что прошла одно из самых сложных испытаний для ИИ: испытание стакана воды. И это важнее, чем кажется

Sora 2 только что прошла одно из самых сложных испытаний для ИИ: испытание стакана воды. И это важнее, чем кажется

Поставьте прозрачное стекло перед рисунком (например, стрелкой) и наблюдайте, как изображение искажается или даже переворачивается. Этот эффект возникает из-за того, что свет меняет направление при прохождении через различные среды (воздух, стекло и воду): это явление известно как «преломление».

Хотя для нас это обычное дело, правильное воспроизведение представляет собой серьезную проблему для искусственного интеллекта, генерирующего видео. Недостаточно создать эстетически реалистичное стекло: модель должна имитировать точное взаимодействие света, прозрачных материалов и фоновых объектов, сохраняя согласованность в каждом кадре.

Вот почему вот уже несколько месяцев новые ИИ для генерации видео проходят «тест на преломление стекла». Новость заключается в том, что Sora 2, модель генерации видео, которую OpenAI выпустила вчера, сумела пройти этот тест с удивительными результатами:

Sora 2

Нажмите, чтобы посмотреть видео

 

Это вызвало ажиотаж среди исследователей и любителей ИИ: не из-за простого визуального трюка, а потому, что это показатель того, что модели начинают фиксировать сложные физические явления реального мира.

 

Почему это так сложно для ИИ?

В отличие от графического движка видеоигр, который включает в себя такие технологии, как трассировка лучей и явное физическое моделирование, генеративная модель, такая как Sora, должна учиться на миллионах видео и фотографий. То, что он производит, основано не на запрограммированных физических правилах, а на простых статистических закономерностях.

Читать  OpenAI тестирует нового ИИ-агента на основе GPT-5 — GPT-Alpha

Это означает, что:

  1. Она должна «изучать» физику без того, чтобы ее кто-то учил напрямую. В нем нет оптических уравнений; он делает вывод, что «когда за ним находится стакан и предмет, он обычно выглядит определенным образом деформированным».
  2. Нехватка примеров в данных. Несмотря на то, что в наборах данных много стаканов, в видеороликах не так часто явно показаны перевернутые стрелки или эксперименты по преломлению. Модель должна обобщать правила, а не запоминать.
  3. Временная согласованность. В видео каждый кадр должен соответствовать предыдущему. Если кто-то двигает стакан, деформация стрелки должна обновляться в режиме реального времени. Минимальное несоответствие сразу бросается в глаза.

 

Прохождение этого теста подразумевает, что модель не только способна генерировать убедительные изображения, но и усваивает определенные физические закономерности реального мира.

 

Символическое значение теста

«Тест на преломление стекла» — это почти самодельный мини-тест. Он использовался как «тест на хлопок», чтобы оценить, в какой степени ИИ способен справляться с ситуациями, когда физика становится видимой невооруженным глазом. И дело в том, что если вода внутри стакана не изгибается должным образом, на видео что-то «пищит».

В этом смысле этот эксперимент стал символом физического реализма в генеративном ИИ. То, что Sora 2 прошла его, не означает, что она “понимает оптику” в человеческом смысле, но ей удается имитировать ее с очень высокой степенью точности.

Читать  OpenAI тестирует функцию «Мыслительные усилия» для ChatGPT

Это открывает несколько возможностей, как в области аудиовизуального производства (более реалистичные визуальные эффекты без необходимости сложных графических движков), так и, например, в обучении роботов (синтетические видеоролики, более реалистичные для реальности, могут служить для обучения агентов, взаимодействующих с миром).

 

Другие «простые» визуальные «стресс-тесты» для ИИ

Стакан воды — не единственное испытание, которое используется в качестве показателя прогресса. Существует несколько категорий тестов, которые ставят под сомнение генеративный искусственный интеллект:

  1. Реалистичные тени: Освещенный объект должен отбрасывать согласованные тени по форме, направлению и размытию, но многие модели терпят неудачу, создавая плавающие тени, плохо ориентированные или с невозможными краями.
  2. Зеркала и отражения: Отражения на металлических или водных поверхностях требуют геометрической согласованности. Распространенной ошибкой является то, что зеркала «галлюцинируют» сцены, отличные от реальных.
  3. Жидкости и разливы: Налить воду в стакан, чтобы жидкость соответствовала силе тяжести и принимала согласованные формы, чрезвычайно сложно. Многие модели производят «студенистую» воду или воду, реагирующую на физически невозможные движения.
  4. Физика движущихся объектов: прыгающий мяч, падающая башня, сталкивающиеся части … без внутренней физической модели многие ИИ создают невозможные траектории.

 

Эти задачи напоминают академические тесты по интуитивной физике, такие как PIQA, IntPhys или PHYRE, которые оценивают способность системы рассуждать о реальном мире.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Редактор: AndreyEx

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Это может быть вам интересно


Загрузка...

Спасибо!

Теперь редакторы в курсе.

Прокрутить страницу до начала