Гости: Женя Брицын, руководитель направления голосовых технологий AI-Центра Т-Банка, и Валера Болдаков, тимлид команды синтеза голоса AI-Центра Т-Банка.
О чем болтаем?
Узнаем, в чем миссия AI-Центра и знакомимся с платформой VoiceKit. Сравниваем распознавание с ушами, а синтез с голосовыми связками робота. Разбираемся, почему разные голоса имеют разную эффективность и синтезируем голоса Маши и Стаса.
Выясняем, что такое расстояние Левенштейна и как оно помогает следить за качеством распознавания. Уточняем, какие еще метрики качества есть в распознавании и синтезе и что такое вайб-кодинг – методика программирования через генеративные текстовые модели.
Таймкоды:
О чем болтаем
Команда VoiceKit в Т-Банке
Синтез и появление новых голосов
Где применяются голосовые технологии в Т-Банке
Cинтез в VoiceKit
Зачем синтезировать разные голоса
Распознавание в VoiceKit
Как используется речевая аналитика
Как отслеживается качество распознавания
Как находят ошибки в распознавании и синтезе
Сравнение синтезированного голоса с оригиналом (эталоном)
Что такое вайб-кодинг
Как работают разметчики
Эффект зловещей долины
Как работает каскад моделей
Клонировали голоса Маши и Стаса
Синтез голоса Пушкина
Будущее голосовых технологий
LLM копируют людей и их ошибки
Омографы и ударение
Общение голосовых помощников между собой
Применение в озвучке и дубляже
Блиц
Ссылки:
Центр искусственного интеллекта Т-Банка: https://ai.tbank.ru/
VoiceKit от Т-Банка: https://www.tbank.ru/software/voicekit/
T-Meetup: CV & Speech: https://meetup.tbank.ru/conference/ml-cv-speech/
Turbo ML Conf 2024: CV & Speech: https://www.youtube.com/playlist?list=PLXEnq8LHVLRq0trLwRoL-JtgO6zwrLHGE
Еще больше полезного для всех MLE: https://t.me/zheltyi_ai
Канал QA-команды Т-Банка в Телеграме: https://l.tbank.ru/yellow_qa
Больше о разработке и технологиях Т-Банка: https://l.tbank.ru/kod_zheltyi
О жизни команды и свежих ИТ-вакансиях: https://l.tbank.ru/t_crew