Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

  • New model trained! - Сообщение о том, что была обучена новая модель.
  • Training info: - Информация о том, как прошло обучение модели.
    • X training examples - Количество фраз, внесенных в сущности и намерения агента. Системные намерения и сущности не учитываются.
    • X intents - Количество намерений в агенте.
    • X entities - Количество сущностей в агенте.
    • X% model loss - потери модели. Чем ниже - тем лучше. При высоких значениях (близких к 10% и выше) может означать, что в данных присутствует много пересечений - например, схожие фразы могут относиться к разным намерениям - из-за этого может повышаться значение потерь модели.
    • X% model accuracy - точность модели. Чем выше - тем лучше. Определяется на основе тестовой выборки - из каждого намерения берется случайная выборка фраз, примерно 5% от количества фраз в каждом намерении (но не менее одной фразы), из-за этого рекомендуется вносить не менее 30 фраз в каждое намерение, и чем их больше, тем лучше. Далее агент прогоняет эту тестовую выборку, и, допустим, если удалось корректно распределить 90 из 100 фраз тестовой выборки в намерения - точность будет 90%.
  • Elapsed time: X s / Y min / Z h - Время потраченное на обучение агента в секундах, минутах, и часах. Время обучения зависит от количества фраз, сущностей и намерений - чем их больше, тем дольше будет идти обучение. Например, базовый агент, содержащий ~1000 фраз, обучается за одну-две минуты.

Снижение потерь модели (model loss)

При высоких значениях потерь модели стоит проверить набор фраз в разных намерениях на наличие схожих фраз. Например, если в разные намерения внесены фразы «привет, как дела?» и «привет как попасть в метро»  - будет расти значение потерь, так как эти фразы схожи.  

Если при тестах фраза попадает в два намерения с достаточно высокой точностью (60% и выше), стоит проверить набор фраз на пересекающиеся фразы.

Image Added