Компания ByteDance, создавшая приложение TikTok, представила новую технологию под названием OmniHuman-1. Она может создавать видео людей на основе фотографий и звуков. Эта технология гораздо лучше существующих методов, потому что она может синхронизировать движения, мимику и голоса.
OmniHuman-1 может делать видео, где человек говорит, поет или двигается, как будто он на самом деле там. Пример с видео, где Альберт Эйнштейн говорит, вызвал большой интерес. Некоторые эксперты считают это видео удивительно реалистичным и говорят, что технология приближает deepfake-видео к такому уровню, что их трудно отличить от настоящих записей.
ByteDance пока не сказала, когда OmniHuman-1 будет доступен для всех, но уже видно, что эта технология может использоваться для создания цифровых аватаров и автоматического дубляжа видео. Ученые компании опубликовали техническую статью, где описали новый метод обучения модели, который объединяет текст, звук и изображения. Этот подход помогает улучшить алгоритмы и создавать видео разных форматов — от крупных планов до полноразмерных сцен.
OmniHuman-1 может передавать выражения лица, движения губ и жесты с точностью, синхронизируя их с аудио. Например, видео с человеком, который дает лекцию, выглядит так, будто это живое выступление.
Компания ByteDance продолжает развивать генеративные модели, несмотря на ограничения со стороны США. Другие китайские компании, такие как Kuaishou Technology, Zhipu AI, Shengshu Tech и MiniMax, также работают в этой области. Это показывает, что Китай активно участвует в развитии искусственного интеллекта, несмотря на санкции.