Под длительностью сеанса распознавания понимается период времени, в течение которого система выполняет распознавание речи абонента во время вызова.
Важное дополнение, перед началом описания параметров длительности!
Ниже указанные параметры, когда решение о окончании фразы (сеанса распознавания) происходит на основании отведенных таймеров.
Помимо указанных таймеров, система распознавания (ASR) может самостоятельно вернуть признак что клиент закончил говорить.
Она это делает при помощи обученной модели и реагирует на интонации, языковые конструкции и прочие закономерности, которая она нашла в файлах для обучения.
Важность дополнения в том, что если ASR вернула признак конца фразы, остальные параметры таймеров будут игнорироваться. Даже если клиент закончил одну фразу и начал говорить вторую практически мгновенно и успел по всем параметрам времени продолжить свое повествование, система уже не будет его слушать. Она получила признак окончания фразы и завершила сеанс распознования и поэтому игнорирует все указанные ниже параметры.
В системе предусмотрено 9 уровней длительности сеанса распознавания.
Согласно спецификации протокола MRCPv2 длительность сеанса распознавания речи абонента определяется следующими параметрами:
- sct (speech complete timeout) - период ожидания для завершения распознавания речи при полном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система завершает сеанс распознавания речи. Данный параметр используется, если система распознает все фрагменты речи абонента. Значение параметра задается в миллисекундах.
- sint (speech incomplete timeout) - период ожидания для завершения распознавания речи при неполном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система отклоняет неполностью распознанный речевой фрагмент и завершает сеанс распознавания речи. Данный параметр используется, если система распознает не все фрагменты речи абонента. Значение параметра задается в миллисекундах.
- nit (no input timeout) - период ожидания возобновления распознавания речи. Это период времени после начала распознавания речи, в течение которого система пытается распознать дальнейшую речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
- t - (recognition timeout) - период распознавания речи. Это период времени, в течение которого система пытается распознать речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
С учетом различных значений указанных выше параметров в системе доступны для выбора следующие уровни длительности сеанса распознавания:
Односложный ответ
sct = 100
sint = 100
nit = 4000
t = 7000
Очень короткая
sct = 300
sint = 300
nit = 3000
t = 5000
Короткая
sct = 300
sint = 400
nit = 3000
t = 5000
Нормальная
sct = 800
sint = 960
nit = 3000
t = 7000
Нормальная (5 сек)
sct = 800
sint = 960
nit = 5000
t = 7000
Нормальная (180 сек)
sct = 800
sint = 960
nit = 5000
t = 7000
Длинная
sct = 1000
sint = 1200
nit = 4000
t = 10000
Очень длинная
sct = 3000
sint = 3000
nit = 4000
t = 15000
Очень длинная (180 сек)
sct = 3000
sint = 3000
nit = 4000
t = 180000