• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Нейросети могут давать настолько же точные оценки, как и человек»

«Нейросети могут давать настолько же точные оценки, как и человек»

© Высшая школа экономики

Голосовые помощники стали частью обычной жизни. Они могут строить маршрут, включать музыку и фильмы, отвечать на вопросы. Качество речи голосовых ассистентов требует оценки. Для решения этой задачи студенты мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK разработали нейросети, способные оценивать синтез речи.

Никита Шевцов

«Технологии Text-to-Speech превращают текст в речь. Это те самые голоса, которые мы слышим в навигаторах или аудиокнигах. Чтобы понять, насколько хорошо работает синтез, раньше требовалась ручная проверка: люди слушали записи и выставляли оценки. Мы решили автоматизировать этот процесс. Студентам мастерской предстояло создать систему, которая заменит субъективную оценку на нейросетевую модель. Ручная разметка не только дорогая и долгая, но и требует участия множества специалистов», — говорит Никита Шевцов, руководитель проекта мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK.

Студенты мастерской ИМШ и VK использовали открытые англоязычные датасеты SOMOS, содержащие 20 100 аудиофрагментов, 200 TTS-систем, 987 асессоров и более 350 000 оценок.

На их основе были подготовлены и внедрены две метрики: MOS (Mean Opinion Score) — оценка одного аудиофайла от 1 до 5; SBS (Side-by-Side) — сравнение двух аудиофрагментов с выбором лучшего. Также были разработаны пять моделей: для MOS — MOSNet, MOSNetBert, WhisperBert; для SBS — NeuralSBS, NeuralSBSBert. Модели работают как в аудиоформате, так и в мультимодальном формате.

«Мы увидели, что нейросети могут давать настолько же точные оценки, как и человек. MOS-модели показали RMSE ≈ 0,4, что близко к человеческой погрешности 0,62. Модель NeuralSBS определяет лучшее аудио в 73% случаев — на уровне среднего субъективного слушателя. Это открывает путь к ускорению и удешевлению оценки качества TTS», — отметил Никита Шевцов.

Следующий этап — переобучение моделей на русском языке. Команда также рассматривает возможность интеграции оценочных моделей в пайплайны CI/CD, чтобы внедрить автоматическую проверку качества в производственные процессы генерации речи.

«Автоматическая оценка синтеза речи — это шаг к более надежным и масштабируемым TTS-системам. Мы собираемся сделать ее доступной для широкой разработки», — добавил Никита Шевцов.

Вам также может быть интересно:

НИУ ВШЭ представил новый инструмент для оценки потенциальных рисков для территорий

В Высшей школе экономики прошла презентация доклада по финансовым решениям для климатической адаптации в России. Учитывая, что, по оценкам, каждый градус повышения среднегодовой температуры может привести к негативному эффекту в размере до 3 трлн рублей ежегодно, меры по адаптации сейчас необходимы, считают эксперты. На презентации ученые НИУ ВШЭ представили цифровой инструмент, который позволяет построить климатический риск-профиль территорий.

НИУ ВШЭ представил рейтинг регионов России по необходимости адаптации к изменению климата

В докладе Высшей школы экономики оценены шесть ключевых климатических рисков для страны: деградация вечной мерзлоты, лесные пожары, засухи, волны тепла, экстремальные осадки и водный стресс. Рейтинг позволяет оценить риски для каждого конкретного региона и скорректировать планы адаптации.

Лингвисты впервые описали историю подготовки переводчиков русского жестового языка

Команда исследователей из России и Великобритании впервые подробно описала, как формировалась и менялась система подготовки переводчиков русского жестового языка (РЖЯ). Это масштабное исследование охватывает период с XIX века до наших дней, раскрывая как достижения, так и проблемы профессиональной среды. Результаты работы опубликованы в сборнике “The Routledge Handbook of Sign Language Translation and Interpreting”.

Вышка запустила международный проект по изучению русского языка как иностранного

В середине октября состоялось торжественное открытие Международного образовательного онлайн-клуба по русскому языку как иностранному и русской культуре Школы иностранных языков ВШЭ. Проект GLAGOL’ объединил участников из 20 стран — иностранных студентов и преподавателей 10 факультетов Вышки, а также свыше 10 российских и зарубежных вузов.

ВШЭ наметила образ городов будущего

В ближайшие десятилетия муниципалитеты изменятся и станут пространствами здоровья, идентичности и цифровых решений. Ключевые тенденции городской трансформации обозначила проректор НИУ ВШЭ Вероника Минина, выступив в рамках Международного муниципального форума БРИКС — 2025. Также в рамках форума декан факультета географии и геоинформационных технологий НИУ ВШЭ Николай Куричев представил природно-климатические проекты ученых университета.

Ошибки, которые всё объясняют: ученые обсудили будущее психолингвистики

Мировая лингвистика сегодня переживает «многоязычную революцию»: эпоха англоязычного доминирования в когнитивных науках подходит к концу, все чаще исследователи изучают многообразие языков мира. Более того, мультилингвизм из экзотики становится нормой, что кардинально меняет представления о когнитивных возможностях человека. В Вышке обсудили будущее развитие экспериментальной лингвистики.

Ученые НИУ ВШЭ создали среду для моделирования подключенного и беспилотного транспорта

Разработка группы исследователей и студентов во главе с преподавателем департамента компьютерной инженерии МИЭМ ВШЭ Виталием Степанянцем, реализуемая в Учебной лаборатории систем автоматизированного проектирования МИЭМ ВШЭ под руководством Александра Романова и Александра Американова, впервые в мире позволяет одновременно учитывать детальное моделирование восприятия окружающей среды беспилотным транспортом и распространения сигналов подключенного транспорта. На сегодняшний день среда не имеет аналогов среди программ такого рода с открытым кодом.

«Развернуть обсуждение политики в области высшего образования в доказательное русло»

29 октября в НИУ ВШЭ открылась XVI Международная конференция исследователей высшего образования (ИВО) на тему «Высшее образование: между частным и общественным благом». Для участия в конференции зарегистрировались более 600 человек из 32 регионов России и семи зарубежных стран, поступило рекордное число заявок на выступления с докладами — 242, из которых было принято 88.

Облака ближе, чем кажется: итоги форсайт-сессии iFORA

Интеллектуализация управления, синергия с ИИ и переход к микрооблакам — такими будут главные тренды цифровой экономики в ближайшее десятилетие. На форсайт-сессии в НИУ ВШЭ ведущие эксперты в сфере облачных технологий обсудили их эволюцию до 2040 года — от интеллектуализации процессов до идей о переносе хранилищ в космос, чтобы минимизировать экологический ущерб планете.

Встреча с делегацией «Синьхуа»: в Вышке обсудили вопросы современной журналистики

22 октября в НИУ ВШЭ состоялась открытая встреча с представителями китайского информационного агентства «Синьхуа» во главе с руководителем аппарата генерального директора Сунь Чжипином. Обсуждались актуальные проблемы журналистики и особенности работы информационных агентств в современном медиапространстве. Многие студенты воспользовались возможностью задать вопрос и попрактиковаться в общении на китайском языке. Визит был организован факультетом мировой экономики и мировой политики совместно с Институтом медиа НИУ ВШЭ и информационным агентством ТАСС.