Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Информация

Важное дополнение, перед началом описания параметров длительности!
Ниже указанные описаны параметры таймеров, когда по которым происходит решение о об окончании фразы (сеанса распознавания) происходит на основании отведенных таймеров. 

Помимо указанных таймеров, система распознавания (ASR) может самостоятельно вернуть признак, что клиент закончил говорить.
Она это делает при помощи обученной нейронной модели и реагирует: на интонации, языковые конструкции и прочие закономерности, которая которые она нашла в файлах для обучения.

Важность дополнения в том, что если ASR вернула признак конца фразы, остальные параметры таймеров будут игнорироваться. Даже если клиент закончил одну фразу и начал говорить вторую практически мгновенно и успел по всем параметрам времени продолжить свое повествование, система уже не будет его слушать.
Она получила признак окончания фразы и завершила сеанс распознования и распознавания, поэтому игнорирует все указанные ниже параметры.

В системе предусмотрено 9 уровней длительности сеанса распознавания.:

Image Modified


Согласно спецификации протокола MRCPv2 длительность сеанса распознавания речи абонента определяется следующими параметрами:

...

  • sint (speech incomplete timeout) - период ожидания для завершения распознавания речи при неполном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система отклоняет неполностью распознанный речевой фрагмент и завершает сеанс распознавания речи. Данный параметр используется, если система распознает не все фрагменты речи абонента. Значение параметра задается в миллисекундах.
  • nit (no input timeout) - период ожидания возобновления распознавания речи. Это период времени после начала распознавания речи, в течение которого система пытается распознать дальнейшую речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
  • t - (recognition timeout) - период распознавания речи. Это период времени, в течение которого система пытается распознать речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.

С учетом различных значений указанных выше параметров в системе доступны для выбора следующие уровни длительности сеанса распознавания:


Односложный
ответ

...

Очень короткаяКороткаяНормальнаяНормальная
(5 сек.)
Нормальная
(180 сек.)
ДлиннаяОчень длиннаяОчень длинная
(180 сек.)
sint1003004009609601200120030003000
nit40003000 3000 3000 5000 3000 4000 4000 4000 
t70005000500070007000 1800001000015000180000


Примечание

Время, через которое ответит бот, не равно длительности сеанса распознавания. Это время высчитывается по следующей формуле: получение ответа от ASR + время на принятие решения
Прочие звуки после основной речи клиента (до наступления тишины) и пауза в аудиофайле бота, перед началом воспроизведения, может увеличить время ответа бота.

Пример:
Установлена длительность сеанса распознавания Короткая (sint = 0.4 сек.). После наступления тишины и завершения сеанса распознавания потребовалось 0.1 сек. на получение полного ответа от ASR. Прежде чем продолжить, боту потребовалось еще 0.3 сек. на принятие решения. Аудиофайл ответа бота содержал в себе паузу перед началом речи продолжительностью 0.1 сек.
Таким образом общая длительность паузы составляет: 0.3 + 0.1 + 0.3 + 0.1 = 0.8 сек.


 

sct = 100
sint = 100
nit = 4000 
t = 7000

Очень короткая

sct = 300
sint = 300
nit = 3000 
t = 5000

Короткая

sct = 300
sint = 400
nit = 3000 
t = 5000

Нормальная

sct = 800
sint = 960
nit = 3000 
t = 7000

Нормальная (5 сек)

sct = 800
sint = 960
nit = 5000 
t = 7000

Нормальная (180 сек)

sct = 800
sint = 960
nit = 5000 
t = 7000

Длинная

sct = 1000
sint = 1200
nit = 4000 
t = 10000

Очень длинная

sct = 3000
sint = 3000
nit = 4000 
t = 15000

Очень длинная (180 сек)

sct = 3000
sint = 3000
nit = 4000 
t = 180000