Вебинары, собрания, тренинги, конференции, презентации продуктов, деловые встречи или прямые трансляции — все перечисленное прочно вошло в нашу жизнь. И все прекрасно, только в рабочих звонках и стримах часто приходится иметь дело с иностранным языком. И хорошо, если это английский. А что делать, например, с японским? Субтитров в стримах (и тем более, звонках) — не бывает. Сидеть, кивать головой и делать вид, что все понял? Нет! Мы расскажем об ИИ-сервисах для онлайн-перевода видеотрансляций и звонков.
Синхронный перевод видео — не такая уж новинка. Но вот для перевода стримов разработчикам пришлось писать многие решения вообще с нуля. Ведь синхронный перевод готового видео прост для нейросети тем, что она изначально имеет доступ к полной аудиодорожке (легче опознать контекст и предварительные условия). Но синхронный перевод стримов — гораздо сложнее. Нужно как минимум четыре нейросети: первая занимается обработкой аудио и затем конвертирует его в переведенный текст (все это в realtime-режиме), вторая нейросеть — определяет пол говорящего и переводит текст на русский, третья нейросеть — расставляет знаки препинания, выделяет смысловые фрагменты, четвертая нейросеть — озвучивает переведенный текст нужным голосом.