Netflix представил ИИ-модель VOID для удаления объектов из видео с…

Подробности

Как работает технология удаления объектов с учётом физикиNetflix совместно с исследователями из Софийского университета создал ИИ-модель VOID (Video Object and Interaction Deletion), которая решает задачу, недоступную обычным инструментам. Вместо простого «заклеивания» удалённого объекта статичным фоном, система пересчитывает физику всей сцены после исчезновения элемента.

Пользователь загружает видео и текстом описывает, какой предмет или персонаж нужно убрать, после чего модель определяет не только сам объект, но и все зоны его влияния. VOID использует специальную четырёхканальную маску для выявления опор, смещённых предметов, теней и бликов, связанных с удаляемым объектом.

После устранения элемента система прогнозирует, как должны вести себя оставшиеся объекты с учётом законов физики, что обеспечивает реалистичность результата. Это принципиальное отличие от существующих решений, которые обычно ограничиваются простым маскированием. В тестовых примерах модель продемонстрировала впечатляющие возможности: при удалении машины из ролика с ДТП вторая машина спокойно продолжает движение по чистой дороге без осколков, дыма и следов удара.

Если убрать человека, прыгающего в бассейн, вода остаётся идеально гладкой, а мокрые следы на бортике исчезают, создавая эффект, будто прыжка никогда не было. В сравнительных опросах с участием 25 человек VOID набрала 64, 8% предпочтений, значительно обогнав Runway (18, 4%) и другие инструменты вроде ProPainter или DiffuEraser. Ключевое преимущество модели заключается именно в реалистичном изменении физики сцены, а не в простом визуальном маскировании удалённых объектов.

Технически модель построена на базе CogVideoX-Fun от Alibaba PAI и обучалась на синтетических парах видео, сгенерированных в Blender (датасет HUMOTO) и в движке Kubric от Google. Для обучения использовалось 8 GPU A100 с 80 ГБ памяти, а для запуска требуется видеокарта с минимум 40 ГБ видеопамяти. Модель уже выложена в открытый доступ на Hugging Face, хотя Netflix пока не объявлял о планах её использования в своих проектах.

Netflix представил ИИ-модель VOID для удаления объектов из видео с перестройкой физики сцены

Подробности

Теги

Комментарии