Украденные голоса. Как ИИ меняет индустрию озвучивания

Технология синтеза голоса развивается семимильными шагами.

/4 июня 2025, 12:33

DOC.ru продолжает изучать тему внедрения ИИ в кино. Мы уже знакомили вас с режиссерским взглядом на проблему, речь шла об использовании нейросети для «оживления» исторических персонажей в фильмах. На этот раз поговорим про звук, вернее, голос. В 2019 году актриса дубляжа Алена Андронова прошла кастинг и заключила договор с одним из крупных банков. Только в студии звукозаписи она узнала, что записи ее голоса будут использовать для обучения нейросети. Представители банка заверили Алену, что образцы ее голоса будут использоваться только во внутренних проектах банка, они помогут обучить виртуального помощника и заменить колл-центр. Актриса зачитала порядка 600 страниц текста, получила оплату и забыла об этой истории, но некоторое время спустя знакомый прислал ей ссылку на рекламу сайта с видео для взрослых, озвученную ее голосом.

Алена Андронова

фрагмент ролика «Как у Алены Андроновой украли голос и стали использовать в роликах 18+» / Союз дикторов

Алена выяснила, что ее голос открыто доступен на сайте банка для любого синтеза речи и что он также продается на многих сторонних площадках. Ее голосом озвучивали коммерческую рекламу, использовали его в различных приложениях, он звучал на телевидении и на онлайн-платформах (например, в документальном фильме «Космос: Новые горизонты»). Позднее актриса узнала, что ее коллега Павел Дорофеев оказался в похожей ситуации, но в то время как ее голос применялся для рекламы контента 18+, голосом Павла озвучивались видео политического характера, в том числе критикующие действия российских властей.

История Алены легла в основу сюжета триллера «Синтетика», съемки которого стартовали в мае 2025 года. Однако то, что произошло с ней, – лишь вершина айсберга. На просторах интернета легко найти бесплатные программы, позволяющие клонировать голос, имея на руках лишь запись длительностью в пару минут. Благодаря таким программам уже были скопированы голоса Всеволода Кузнецова, Татьяны Шитовой, Ольги Плетневой и многих других известных и начинающих актеров.

Мы попробовали разобраться, как скачок технологий может изменить индустрию озвучивания и дубляжа.

Преимущества ИИ

Еще несколько лет назад технология синтеза голоса находилась в зачаточном состоянии. Автоответчики и голосовые помощники разговаривали безэмоциональными роботизированными голосами, которые нельзя было спутать с живыми человеческими. Прорыв случился после распространения нейросетей, способных самостоятельно обучаться на любых наборах аудиоданных. Ранее для создания реалистично звучащего голоса требовалось обработать несколько часов студийных записей, а если этот голос должен был передавать разные эмоции, то и диктору приходилось делать отдельные записи под каждую из этих эмоций. Теперь языковые модели научились анализировать текст, считывать его синтаксис, придавать голосу эмоциональную окраску. Например, весной 2025 года «Яндекс» представил технологию синхронного перевода, сохраняющую интонации оригинала. В теории эта технология позволяет нам смотреть иностранный фильм и слышать реплики на родном языке, озвученные голосами актеров из этого фильма, с теми эмоциями, которые режиссер хотел от них получить.

Более того, существуют программные решения, синхронизирующие движения губ актеров на видео с их речью. Они не только дают возможность избежать некоторых проблем, возникающих при дубляже (такие, как необходимость подгонять более длинные фразы на русском под хронометраж голливудского или азиатского кино), но и позволяют персонифицировать контент под конкретные регионы. Например, в одном и том же фильме в московских кинотеатрах герой может называть свое любимое блюдо шаурмой, а в петербургских – шавермой.

Синтезированный голос Вэла Килмера в фильме «Топ Ган: Мэверик»

Еще больше преимуществ можно увидеть, если вспомнить, что озвучивание требуется не только в киноиндустрии. Благодаря нейросетям персонажи видеоигр могут вслух обращаться к игроку по выбранному им имени, а также реагировать на его действия репликами, которые не были заранее прописаны в сценарии. А любители аудиокниг могут получить любой текст, прочитанный с выражением и на разные голоса. И, конечно же, использование программных средств делает озвучивание гораздо более дешевым и доступным, теперь ведь не нужно платить актерам и арендовать студию. Какой-нибудь начинающий аниматор может с помощью одной нейросети сгенерировать персонажей для своего мультфильма, а затем использовать другую, чтобы подарить им голоса.

Будет также уместно вспомнить, что в Восточной Азии с начала века существует практика создания песен с применением синтезатора речи Vocaloid от корпорации Yamaha. Маскоты отдельных программных продуктов линейки Vocaloid, изображенные в виде анимешных девушек, стали значимыми поп-культурными феноменами. Персонажи-вокалоиды выпускают музыкальные альбомы, «снимаются» в клипах и даже дают живые концерты с помощью голограмм, но они не вытеснили со сцены живых исполнителей.

Цифровая некромантия

Подобно тому, как технология DeepFake может быть использована для того, чтобы вернуть на экраны ушедших из жизни актеров, программы для клонирования голосов позволяют нам снова услышать голоса покойных знаменитостей. В интернете легко найти созданные при помощи нейросетей кавер-версии популярных песен, «исполненных» Виктором Цоем, Егором Летовым, Куртом Кобейном и другими умершими певцами. Некоторые скептики опасаются, что теперь после смерти любого популярного артиста ушлые продюсеры будут периодически публиковать «ранее неизвестные» треки, на самом деле созданные при помощи нейросетей.

Подобные технологии применяются и в мире кино. Например, в фильме «Топ Ган: Мэверик» звучит синтезированная речь Вэла Килмера, поскольку к моменту съемок актер уже утратил способность разговаривать из-за рака гортани. И если в данном случае согласие артиста было получено напрямую, то в случае использования голосов покойных актеров студии обычно обращаются к наследникам. Кроме того, продюсеры порой пытаются скрыть факт применения нейросетей и заявляют, что актер успел записать все необходимые реплики при жизни или что они использовали нарезку из аудиоматериалов прошлых лет.

Образ Юрия Никулина был воплощен в фильме «Манюня: Приключения в Москве» при помощи искусственного интеллекта

фрагмент фильма

В мае 2025 года в США прогремел громкий скандал вокруг популярной многопользовательской видеоигры Fortnite, создатели которой устроили крупную коллаборацию со вселенной «Звездных войн». В рамках коллаборации в игре появился управляемый компьютером Дарт Вейдер, который мог общаться с игроками, отвечая на их реплики. Лорд ситхов был озвучен голосом ныне покойного Джеймса Эрла Джонса, который незадолго до смерти подписал с Disney соглашение на использование цифровой копии своего голоса. Тем не менее Американская гильдия киноактеров (SAG-AFTRA), которая в ходе забастовки 2023 года добилась введения ограничения на применение искусственного интеллекта при создании медиа, высказала свое возмущение и подала в суд на компанию Epic Games, создавшую Fortnite. Поводом для иска стало то, что игровая компания не привлекла представителей гильдии к переговорам с Disney об использовании голоса Джеймса Эрла Джонса. По мнению юристов Epic Games, членство актера в SAG-AFTRA прекратилось после его смерти, так что гильдия формально не имеет отношения к этой сделке.

Реплики Дарта Вейдера в Fortnite синтезированы на основе голоса Джеймса Эрла Джонса

фрагмент игры

Юридические тонкости

Вышеописанная ситуация подводит нас к вопросу о юридическом регулировании использования чужих голосов в произведениях массовой культуры. В России профсоюзы не обладают таким весом, как в США, тем не менее в 2023 году актеры дубляжа и участники Союза дикторов России запустили петицию о защите голосов от мошенничества и синтеза, где предложили внести ряд законодательных изменений, которые помогут защитить их от нелегального копирования голосов. В настоящее время в большинстве стран мира голос не является субъектом авторского права. Понятие «синтез голоса» также законодательно не закреплено. При этом дикторы и актеры озвучивания обычно подписывают соглашение, позволяющее осуществлять «переработку» их голоса; оно необходимо, чтобы звукорежиссер имел право обработать запись, очистить ее от шумов, наложить эффекты. Границы этой «переработки» нигде четко не сформулированы.

В то же время некоторые актеры пытаются позиционировать голос как часть своего личного бренда. Например, Скарлетт Йоханссон возмутилась, что компания OpenAI озвучила реплики ChatGPT голосом, звучащим очень похоже на чат-бота Саманту из фильма «Она», которого сыграла Скарлетт. Руководство OpenAI изменило озвучку «из уважения к актрисе». Впрочем, в США подобные прецеденты существовали еще до появления нейросетей. В 70-е компания Ford в рекламе, которая транслировалась по радио, использовала артистку, подражавшую голосу популярной в то время певицы Бетт Мидлер, и суд признал это нарушением права Бетт на публичность. Аналогичным образом Алена Андронова, с которой началось наше исследование, заявила о своем голосе как о принадлежащем ей нематериальном благе и подала иск о защите чести и достоинства.

Скарлетт Йоханссон возмутилась, что компания OpenAI использовала голос, очень похожий на ее

РЕН ТВ

Юристы считают, что назрела необходимость учитывать исполнение (то есть работу, которую проделывает актер озвучивания в студии звукозаписи) и фонограмму (непосредственно запись голоса актера) как отдельные субъекты авторского права. К сожалению, в настоящее время законодатели не поспевают за развитием искусственного интеллекта, однако более 300 компаний подписали Кодекс этики в сфере искусственного интеллекта, в котором определяются общие этические принципы и стандарты поведения, а также рассматриваются лучшие практики внедрения ИИ. В число этих компаний вошли «Сбер», «Яндекс», VK, МТС, а также федеральные и региональные органы власти, включая Минэкономразвития РФ и Министерство культуры РФ.

Виктор Гуреев

фото: личный архив режиссера

Голос будущего

Как верно отметил Виктор Гуреев, режиссер фильмов НМГ ДОК, в которых используются нейросети, в интервью нашему порталу, к развитию искусственного интеллекта следует отнестись со смирением. Безусловно, продюсерам выгоднее использовать нейросети для озвучивания и дубляжа, ведь это позволяет значительно экономить бюджет, на ходу вносить изменения и пробовать разные варианты. Однако это не значит, что профессия диктора или актера озвучивания уйдет в прошлое, ведь театр не прекратил свое существование после появления кинематографа и художники не вымерли из-за повсеместного распространения фотоаппаратов. Тем не менее характер взаимодействия между заказчиками и исполнителями в индустрии озвучивания непременно изменится. Важно, чтобы этот процесс был прозрачным для обеих сторон. Актер должен получать за свой труд достойное вознаграждение и также должен иметь возможность ограничивать сферу применения своего голоса. Вряд ли убежденный веган захочет услышать, как его голос в рекламе призывает зайти в ресторан и отведать сочные бургеры из натуральной говядины.

Заглавное фото: личный архив Алены Андроновой