Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Информация

Важное дополнение, перед началом описания параметров длительности!
Ниже описаны параметры таймеров, по которым происходит решение о об окончании фразы (сеанса распознавания) 

Помимо указанных таймеров, система распознавания (ASR) может самостоятельно вернуть признак, что клиент закончил говорить.
Она это делает при помощи обученной нейронной модели и реагирует: на интонации, языковые конструкции и прочие закономерности, которые она нашла в файлах для обучения.

Важность дополнения в том, что если ASR вернула признак конца фразы, остальные параметры таймеров будут игнорироваться. Даже если клиент закончил одну фразу и начал говорить вторую практически мгновенно и успел по всем параметрам времени продолжить свое повествование, система уже не будет его слушать.
Она получила признак окончания фразы и завершила сеанс распознованияраспознавания, поэтому игнорирует все указанные ниже параметры.

В системе предусмотрено 9 уровней длительности сеанса распознавания.:

Image Modified


Согласно спецификации протокола MRCPv2 длительность сеанса распознавания речи абонента определяется следующими параметрами:

  • sct (speech complete timeout) - период ожидания для завершения распознавания речи при полном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система завершает сеанс распознавания речи. Данный параметр используется, если система распознает все фрагменты речи абонента. Значение параметра задается в миллисекундах.
  • sint (speech incomplete timeout) - период ожидания для завершения распознавания речи при неполном распознавании. Это период времени с момента прекращения речи абонента, после окончания которого система отклоняет неполностью распознанный речевой фрагмент и завершает сеанс распознавания речи. Данный параметр используется, если система распознает не все фрагменты речи абонента. Значение параметра задается в миллисекундах.
  • nit (no input timeout) - период ожидания возобновления распознавания речи. Это период времени после начала распознавания речи, в течение которого система пытается распознать дальнейшую речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.
  • t - (recognition timeout) - период распознавания речи. Это период времени, в течение которого система пытается распознать речь абонента. Если системе не удается это сделать, то после окончания этого периода система завершает сеанс распознавания речи. Значение параметра задается в миллисекундах.

С учетом различных значений указанных выше параметров в системе доступны для выбора следующие уровни длительности сеанса распознавания:

800

Односложный
ответ
Очень короткаяКороткаяНормальнаяНормальная
(5 сек.)
Нормальная
(180 сек.)
ДлиннаяОчень длиннаяОчень длинная
(180 сек.)
sct100300300
800800100030003000sint1003004009609609601200120030003000
nit40003000 3000 3000 5000 5000 3000 4000 4000 4000 
t70005000500070007000 1800001000015000180000


Примечание

Время, через которое ответит бот, не равно длительности сеанса распознавания. Это время высчитывается по следующей формуле:sct +  получение ответа от ASR + время на принятие решения
Прочие звуки после основной речи клиента (до наступления тишины) и пауза в аудиофайле бота, перед началом воспроизведения, может увеличить время ответа бота.

Пример:
Установлена длительность сеанса распознавания Короткая (sint = 0.4 сек.). После наступления тишины и завершения сеанса распознавания потребовалось 0.1 сек. на получение полного ответа от ASR. Прежде чем продолжить, боту потребовалось еще 0.3 сек. на принятие решения. Аудиофайл ответа бота содержал в себе паузу перед началом речи продолжительностью 0.1 сек.
Таким образом общая длительность паузы составляет: 0.3 + 0.1 + 0.3 + 0.1 = 0.8 сек.