«Нейросети могут давать настолько же точные оценки, как и человек»

Голосовые помощники стали частью обычной жизни. Они могут строить маршрут, включать музыку и фильмы, отвечать на вопросы. Качество речи голосовых ассистентов требует оценки. Для решения этой задачи студенты мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK разработали нейросети, способные оценивать синтез речи.
Никита Шевцов
«Технологии Text-to-Speech превращают текст в речь. Это те самые голоса, которые мы слышим в навигаторах или аудиокнигах. Чтобы понять, насколько хорошо работает синтез, раньше требовалась ручная проверка: люди слушали записи и выставляли оценки. Мы решили автоматизировать этот процесс. Студентам мастерской предстояло создать систему, которая заменит субъективную оценку на нейросетевую модель. Ручная разметка не только дорогая и долгая, но и требует участия множества специалистов», — говорит Никита Шевцов, руководитель проекта мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK.
Студенты мастерской ИМШ и VK использовали открытые англоязычные датасеты SOMOS, содержащие 20 100 аудиофрагментов, 200 TTS-систем, 987 асессоров и более 350 000 оценок.
На их основе были подготовлены и внедрены две метрики: MOS (Mean Opinion Score) — оценка одного аудиофайла от 1 до 5; SBS (Side-by-Side) — сравнение двух аудиофрагментов с выбором лучшего. Также были разработаны пять моделей: для MOS — MOSNet, MOSNetBert, WhisperBert; для SBS — NeuralSBS, NeuralSBSBert. Модели работают как в аудиоформате, так и в мультимодальном формате.
«Мы увидели, что нейросети могут давать настолько же точные оценки, как и человек. MOS-модели показали RMSE ≈ 0,4, что близко к человеческой погрешности 0,62. Модель NeuralSBS определяет лучшее аудио в 73% случаев — на уровне среднего субъективного слушателя. Это открывает путь к ускорению и удешевлению оценки качества TTS», — отметил Никита Шевцов.
Следующий этап — переобучение моделей на русском языке. Команда также рассматривает возможность интеграции оценочных моделей в пайплайны CI/CD, чтобы внедрить автоматическую проверку качества в производственные процессы генерации речи.
«Автоматическая оценка синтеза речи — это шаг к более надежным и масштабируемым TTS-системам. Мы собираемся сделать ее доступной для широкой разработки», — добавил Никита Шевцов.
Вам также может быть интересно:
НИУ ВШЭ представил новый инструмент для оценки потенциальных рисков для территорий
В Высшей школе экономики прошла презентация доклада по финансовым решениям для климатической адаптации в России. Учитывая, что, по оценкам, каждый градус повышения среднегодовой температуры может привести к негативному эффекту в размере до 3 трлн рублей ежегодно, меры по адаптации сейчас необходимы, считают эксперты. На презентации ученые НИУ ВШЭ представили цифровой инструмент, который позволяет построить климатический риск-профиль территорий.
НИУ ВШЭ представил рейтинг регионов России по необходимости адаптации к изменению климата
В докладе Высшей школы экономики оценены шесть ключевых климатических рисков для страны: деградация вечной мерзлоты, лесные пожары, засухи, волны тепла, экстремальные осадки и водный стресс. Рейтинг позволяет оценить риски для каждого конкретного региона и скорректировать планы адаптации.
Лингвисты впервые описали историю подготовки переводчиков русского жестового языка
Команда исследователей из России и Великобритании впервые подробно описала, как формировалась и менялась система подготовки переводчиков русского жестового языка (РЖЯ). Это масштабное исследование охватывает период с XIX века до наших дней, раскрывая как достижения, так и проблемы профессиональной среды. Результаты работы опубликованы в сборнике “The Routledge Handbook of Sign Language Translation and Interpreting”.
Вышка запустила международный проект по изучению русского языка как иностранного
В середине октября состоялось торжественное открытие Международного образовательного онлайн-клуба по русскому языку как иностранному и русской культуре Школы иностранных языков ВШЭ. Проект GLAGOL’ объединил участников из 20 стран — иностранных студентов и преподавателей 10 факультетов Вышки, а также свыше 10 российских и зарубежных вузов.
ВШЭ наметила образ городов будущего
В ближайшие десятилетия муниципалитеты изменятся и станут пространствами здоровья, идентичности и цифровых решений. Ключевые тенденции городской трансформации обозначила проректор НИУ ВШЭ Вероника Минина, выступив в рамках Международного муниципального форума БРИКС — 2025. Также в рамках форума декан факультета географии и геоинформационных технологий НИУ ВШЭ Николай Куричев представил природно-климатические проекты ученых университета.
Ошибки, которые всё объясняют: ученые обсудили будущее психолингвистики
Мировая лингвистика сегодня переживает «многоязычную революцию»: эпоха англоязычного доминирования в когнитивных науках подходит к концу, все чаще исследователи изучают многообразие языков мира. Более того, мультилингвизм из экзотики становится нормой, что кардинально меняет представления о когнитивных возможностях человека. В Вышке обсудили будущее развитие экспериментальной лингвистики.
Ученые НИУ ВШЭ создали среду для моделирования подключенного и беспилотного транспорта
Разработка группы исследователей и студентов во главе с преподавателем департамента компьютерной инженерии МИЭМ ВШЭ Виталием Степанянцем, реализуемая в Учебной лаборатории систем автоматизированного проектирования МИЭМ ВШЭ под руководством Александра Романова и Александра Американова, впервые в мире позволяет одновременно учитывать детальное моделирование восприятия окружающей среды беспилотным транспортом и распространения сигналов подключенного транспорта. На сегодняшний день среда не имеет аналогов среди программ такого рода с открытым кодом.
«Развернуть обсуждение политики в области высшего образования в доказательное русло»
29 октября в НИУ ВШЭ открылась XVI Международная конференция исследователей высшего образования (ИВО) на тему «Высшее образование: между частным и общественным благом». Для участия в конференции зарегистрировались более 600 человек из 32 регионов России и семи зарубежных стран, поступило рекордное число заявок на выступления с докладами — 242, из которых было принято 88.
Облака ближе, чем кажется: итоги форсайт-сессии iFORA
Интеллектуализация управления, синергия с ИИ и переход к микрооблакам — такими будут главные тренды цифровой экономики в ближайшее десятилетие. На форсайт-сессии в НИУ ВШЭ ведущие эксперты в сфере облачных технологий обсудили их эволюцию до 2040 года — от интеллектуализации процессов до идей о переносе хранилищ в космос, чтобы минимизировать экологический ущерб планете.
Встреча с делегацией «Синьхуа»: в Вышке обсудили вопросы современной журналистики
22 октября в НИУ ВШЭ состоялась открытая встреча с представителями китайского информационного агентства «Синьхуа» во главе с руководителем аппарата генерального директора Сунь Чжипином. Обсуждались актуальные проблемы журналистики и особенности работы информационных агентств в современном медиапространстве. Многие студенты воспользовались возможностью задать вопрос и попрактиковаться в общении на китайском языке. Визит был организован факультетом мировой экономики и мировой политики совместно с Институтом медиа НИУ ВШЭ и информационным агентством ТАСС.


