
В 2024 году Click искал технологическое решение для распознавания и анализа узбекской речи на всех диалектах, а также для контроля качества общения в колл-центре. Таким решением стал Chinor, с которым компания начала совместную работу над пилотным проектом по тестированию речевого модуля и аналитической речевой платформы.
Цель пилота заключалась в том, чтобы найти решение для распознавания и анализа узбекской речи на всех диалектах и внедрить систему, которая могла бы работать on-prem на мощностях Click, то есть локально на серверах компании, без размещения у внешнего провайдера. Кроме того, Click также искал решение для речевого анализа, чтобы контролировать качество общения в колл-центре в рамках работы над улучшением клиентского опыта.
Задача
Click искал ASR-систему, то есть систему автоматического распознавания речи, которая соответствовала бы требованиям по точности. На рынке было протестировано много решений. Существовали системы с заявленным WER на уровне 5−10% для узбекского языка. WER, или Word Error Rate, это основной показатель точности распознавания речи. Он показывает, сколько ошибок система допускает в тексте по сравнению с тем, что человек сказал на самом деле.
Но такие результаты обычно достигаются только в оптимальных условиях: при чёткой дикторской записи и на литературном языке, на котором в повседневной жизни почти никто не говорит. Реальные диалоги с клиентами устроены иначе. В них есть посторонние шумы, голоса других людей и большое количество диалектов. При этом устоявшаяся орфография есть в основном только у литературного узбекского языка, который заметно отличается от живой речи в разных регионах. Это дополнительно усложняет получение надёжной и объективной оценки WER.
Работа с диалектами
Аудитория Click очень разнообразна, поэтому для достижения целевых показателей WER ниже 20% команда Chinor работала с носителями всех региональных диалектов. Для каждого из них постепенно увеличивался объем обучающих данных. Это помогло модели точнее распознавать речь в реальных условиях.
Чтобы сделать расчёт WER более объективным, были созданы списки разных вариантов написания слов в зависимости от диалекта. Без таких словарей показатель WER получается не слишком точным, потому что система начинает считать ошибкой те формы слов, которые на самом деле часто используются в живой диалектной речи.
Требования к речевому модулю и тестирование
Помимо точности, одним из главных требований Click к речевому модулю была скорость обработки коротких записанных голосовых сообщений длиной до 30−60 секунд в большом объёме. Задержка при обработке каждой такой записи должна была составлять не более 0,3 секунды.
Во время тестирования стало понятно, что для Click нужна доработка модуля под конкретный сценарий, потому что ни классическое batch-решение, ни realtime-решение не подходили полностью.
Batch-решение, то есть способ обработки данных пакетами, уступало по latency. Latency — это задержка, или время ожидания между отправкой аудио и получением результата. Batch-подход изначально рассчитан на обработку больших массивов аудио, а не коротких сообщений с минимальной задержкой.
Realtime-решение, то есть обработка в реальном времени, работало быстрее, но показывало более низкую точность распознавания по сравнению с batch-подходом.
В результате было принято решение доработать batch-модуль так, чтобы объединить сильные стороны batch- и realtime-распознавания именно под задачи Click.
Во время пилота речевой модуль также был развернут в облаке Chinor. Это дало команде Click возможность быстро тестировать изменения и обновления модуля.
Требования к речевой платформе
К речевой платформе были предъявлены высокие требования по функционалу, возможностям интеграции и анализа, включая:
- on-premise решение, то есть локальное размещение внутри инфраструктуры компании;
- возможность AI-анализа узбекских диалогов on-premise, то есть без передачи данных во внешнюю среду;
- возможность замены LLM-модели и речевого модуля распознавания. LLM, или Large Language Model, это большая языковая модель, которая умеет анализировать и генерировать текст;
- развитую ролевую модель, то есть гибкое разграничение прав и уровней доступа для разных пользователей системы;
- возможность для самих пользователей системы создавать и настраивать чек-листы и проверки;
- поддержку узбекского, русского и английского языков.
Внедрение
В рамках развития решения:
- Chinor используется для распознавания речи в AI-ассистенте Cleo;
- речевая аналитика применяется в контакт-центре Click, с дальнейшими планами по автоматизации бизнес-процессов на основе собираемого датасета, а также для дообучения системы распознавания речи.
Команда Chinor:
- настраивала соответствие между автоматическими и ручными оценками;
- адаптировала отчёты и дашборды под процессы Click;
- поддержала ручную загрузку звонков с парсингом метаданных из названия файлов.
Эта гибкость дала Click возможность сразу получить не просто конечное решение, а инструмент, настраиваемый под конкретные потребности и бизнес процессы.
Платформа Chinor помогла перенести стандарты и процессы контроля качества на платформу и поддержать их, автоматизировав оценку по чеклистам Click.
Результат
Вместе с Chinor Click получил:
- высокоточную систему распознавания речи по множеству диалектов, интегрированную в AI-ассистента Cleo;
- стандартизированный автоматический контроль качества с едиными критериями;
- прозрачность оценки и объективность;
- гибкую платформу, легко адаптируемую под новые сценарии, включая интеграцию с Cleo.
Несмотря на уже достигнутую точность, Click продолжает самостоятельно обучать и дорабатывать модель, повышая качество распознавания и адаптируя её под реальные сценарии использования.
Chinor и Click продолжат совместную работу над развитием AI-решений, адаптированных под региональные языки и финансовую отрасль, чтобы сделать технологии ближе и понятнее каждому пользователю.
О компании Chinor
Chinor — технологическая компания, разработчик омниканальной платформы для анализа и автоматизации клиентских коммуникаций в регионах с высоким языковым разнообразием, включая Центральную Азию, Юго-Восточную Азию, Африку и Ближний Восток. Платформа обеспечивает унифицированную обработку голосовых и текстовых данных на любых языках и диалектах, опираясь на локальных лингвистов, экспертов и бизнес аналитиков. Решение ориентировано на достижение ключевых KPI заказчиков: сокращение операционных затрат, снижение нагрузки на контакт-центры, повышение качества обслуживания и ускорение обработки запросов.
Сайт: chinor.tech/ru
LinkedIn: linkedin.com/chinor
На правах рекламы.
НОВОСТИ В УЗБЕКИСТАНЕ