Длительность сеанса распознавания

Под длительностью сеанса распознавания понимается период времени, в течение которого система выполняет распознавание речи абонента во время вызова.

Важное дополнение, перед началом описания параметров длительности!
Ниже описаны параметры таймеров, по которым происходит решение о окончании фразы (сеанса распознавания)

Помимо указанных таймеров, система распознавания (ASR) может самостоятельно вернуть признак, что клиент закончил говорить.
Она это делает при помощи обученной нейронной модели и реагирует: на интонации, языковые конструкции и прочие закономерности, которая она нашла в файлах для обучения.

Важность дополнения в том, что если ASR вернула признак конца фразы, остальные параметры таймеров будут игнорироваться. Даже если клиент закончил одну фразу и начал говорить вторую практически мгновенно и успел по всем параметрам времени продолжить свое повествование, система уже не будет его слушать.
Она получила признак окончания фразы и завершила сеанс распознования, поэтому игнорирует все указанные ниже параметры.

В системе предусмотрено 9 уровней длительности сеанса распознавания.

Согласно спецификации протокола MRCPv2 длительность сеанса распознавания речи абонента определяется следующими параметрами:

sct (speech complete timeout) - период ожидания для завершения распознавания речи при полном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система завершает сеанс распознавания речи. Данный параметр используется, если система распознает все фрагменты речи абонента. Значение параметра задается в миллисекундах.
sint (speech incomplete timeout) - период ожидания для завершения распознавания речи при неполном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система отклоняет неполностью распознанный речевой фрагмент и завершает сеанс распознавания речи. Данный параметр используется, если система распознает не все фрагменты речи абонента. Значение параметра задается в миллисекундах.
nit (no input timeout) - период ожидания возобновления распознавания речи. Это период времени после начала распознавания речи, в течение которого система пытается распознать дальнейшую речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
t - (recognition timeout) - период распознавания речи. Это период времени, в течение которого система пытается распознать речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.

С учетом различных значений указанных выше параметров в системе доступны для выбора следующие уровни длительности сеанса распознавания:

Односложный ответ

sct = 100
sint = 100
nit = 4000
t = 7000

Очень короткая

sct = 300
sint = 300
nit = 3000
t = 5000

Короткая

sct = 300
sint = 400
nit = 3000
t = 5000

Нормальная

sct = 800
sint = 960
nit = 3000
t = 7000

Нормальная (5 сек)

sct = 800
sint = 960
nit = 5000
t = 7000

Нормальная (180 сек)

sct = 800
sint = 960
nit = 5000
t = 7000

Длинная

sct = 1000
sint = 1200
nit = 4000
t = 10000

Очень длинная

sct = 3000
sint = 3000
nit = 4000
t = 15000

Очень длинная (180 сек)

sct = 3000
sint = 3000
nit = 4000
t = 180000

Быстрые ссылки

Дерево страниц