Длительность сеанса распознавания

Под длительностью сеанса распознавания понимается период времени, в течение которого система выполняет распознавание речи абонента во время вызова.

Важное дополнение, перед началом описания параметров длительности!
Ниже описаны параметры таймеров, по которым происходит решение о окончании фразы (сеанса распознавания)

Помимо указанных таймеров, система распознавания (ASR) может самостоятельно вернуть признак, что клиент закончил говорить.
Она это делает при помощи обученной нейронной модели и реагирует: на интонации, языковые конструкции и прочие закономерности, которые она нашла в файлах для обучения.

Важность дополнения в том, что если ASR вернула признак конца фразы, остальные параметры таймеров будут игнорироваться. Даже если клиент закончил одну фразу и начал говорить вторую практически мгновенно и успел по всем параметрам времени продолжить свое повествование, система уже не будет его слушать.
Она получила признак окончания фразы и завершила сеанс распознования, поэтому игнорирует все указанные ниже параметры.

В системе предусмотрено 9 уровней длительности сеанса распознавания.

Согласно спецификации протокола MRCPv2 длительность сеанса распознавания речи абонента определяется следующими параметрами:

sct (speech complete timeout) - период ожидания для завершения распознавания речи при полном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система завершает сеанс распознавания речи. Данный параметр используется, если система распознает все фрагменты речи абонента. Значение параметра задается в миллисекундах.
sint (speech incomplete timeout) - период ожидания для завершения распознавания речи при неполном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система отклоняет неполностью распознанный речевой фрагмент и завершает сеанс распознавания речи. Данный параметр используется, если система распознает не все фрагменты речи абонента. Значение параметра задается в миллисекундах.
nit (no input timeout) - период ожидания возобновления распознавания речи. Это период времени после начала распознавания речи, в течение которого система пытается распознать дальнейшую речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
t - (recognition timeout) - период распознавания речи. Это период времени, в течение которого система пытается распознать речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.

С учетом различных значений указанных выше параметров в системе доступны для выбора следующие уровни длительности сеанса распознавания:

	Односложный ответ	Очень короткая	Короткая	Нормальная	Нормальная (5 сек.)	Нормальная (180 сек.)	Длинная	Очень длинная	Очень длинная (180 сек.)
sct	100	300	300	800	800	800	1000	3000	3000
sint	100	300	400	960	960	960	1200	3000	3000
nit	4000	3000	3000	3000	5000	5000	4000	4000	4000
t	7000	5000	5000	7000	7000	7000	10000	15000	180000

Быстрые ссылки

Дерево страниц