Под длительностью сеанса распознавания понимается период времени, в течение которого система выполняет распознавание речи абонента во время вызова.
Важное дополнение, перед началом описания параметров длительности!
Ниже описаны параметры таймеров, по которым происходит решение о окончании фразы (сеанса распознавания)
Помимо указанных таймеров, система распознавания (ASR) может самостоятельно вернуть признак, что клиент закончил говорить.
Она это делает при помощи обученной нейронной модели и реагирует: на интонации, языковые конструкции и прочие закономерности, которые она нашла в файлах для обучения.
Важность дополнения в том, что если ASR вернула признак конца фразы, остальные параметры таймеров будут игнорироваться. Даже если клиент закончил одну фразу и начал говорить вторую практически мгновенно и успел по всем параметрам времени продолжить свое повествование, система уже не будет его слушать.
Она получила признак окончания фразы и завершила сеанс распознования, поэтому игнорирует все указанные ниже параметры.
В системе предусмотрено 9 уровней длительности сеанса распознавания:
Согласно спецификации протокола MRCPv2 длительность сеанса распознавания речи абонента определяется следующими параметрами:
- sct (speech complete timeout) - период ожидания для завершения распознавания речи при полном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система завершает сеанс распознавания речи. Данный параметр используется, если система распознает все фрагменты речи абонента. Значение параметра задается в миллисекундах.
- sint (speech incomplete timeout) - период ожидания для завершения распознавания речи при неполном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система отклоняет неполностью распознанный речевой фрагмент и завершает сеанс распознавания речи. Данный параметр используется, если система распознает не все фрагменты речи абонента. Значение параметра задается в миллисекундах.
- nit (no input timeout) - период ожидания возобновления распознавания речи. Это период времени после начала распознавания речи, в течение которого система пытается распознать дальнейшую речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
- t - (recognition timeout) - период распознавания речи. Это период времени, в течение которого система пытается распознать речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
С учетом различных значений указанных выше параметров в системе доступны для выбора следующие уровни длительности сеанса распознавания:
Односложный ответ | Очень короткая | Короткая | Нормальная | Нормальная (5 сек.) | Нормальная (180 сек.) | Длинная | Очень длинная | Очень длинная (180 сек.) | |
---|---|---|---|---|---|---|---|---|---|
sct | 100 | 300 | 300 | 800 | 800 | 800 | 1000 | 3000 | 3000 |
sint | 100 | 300 | 400 | 960 | 960 | 960 | 1200 | 3000 | 3000 |
nit | 4000 | 3000 | 3000 | 3000 | 5000 | 5000 | 4000 | 4000 | 4000 |
t | 7000 | 5000 | 5000 | 7000 | 7000 | 180000 | 10000 | 15000 | 180000 |
Время, через которое ответит бот, не равно длительности сеанса распознавания. Это время высчитывается по следующей формуле: sct + получение ответа от ASR + время на принятие решения.
Прочие звуки после основной речи клиента (до наступления тишины) и пауза в аудиофайле бота, перед началом воспроизведения, может увеличить время ответа бота.
Пример:
Установлена длительность сеанса распознования Короткая (0.3 сек.). После завершения речи клиент произнес громкий звук, из-за чего бот начал ожидание ответа на 0.1 сек. позже. После наступления тишины и завершения сеанса распознавания потребовалось 0.1 сек. на получение полного ответа от ASR. Прежде чем продолжить, боту потребовалось еще 0.3 сек. на принятие решения. Аудиофайл ответа бота содержал в себе паузу перед началом речи продолжительностью 0.1 сек.
Таким образом общая длительность паузы составляет: 0.1 + 0.3 + 0.1 + 0.3 + 0.1 = 0.9 сек.