Ops Runbook

Alert: EnoaRuntimeModelNotLoaded

1. Zkontroluj runtime service:

  • sudo systemctl status enoa-ai-runtime.service --no-pager

2. Zkontroluj log:

  • journalctl -u enoa-ai-runtime.service -n 200 --no-pager

3. Ověř checkpoint:

  • ls -lah /opt/enoa/ai-runtime/enoa_gpt/checkpoints/

4. Ověř .env:

  • ENOAI_CHECKPOINT, ENOAI_TOKENIZER

Alert: EnoaProdCheckpointMissing

1. Ověř, zda existuje candidate:

  • enoagpt_tiny_final.pt

2. Spusť safe deploy ručně:

  • python3 /opt/enoa/ai-runtime/ai_autodeploy.py

3. Zkontroluj report:

  • /opt/enoa/ai-runtime/enoa_gpt/checkpoints/autodeploy_last.json

Alert: EnoaAutodeployReportMissing

1. Ověř timer:

  • sudo systemctl status enoa-ai-autolearn.timer --no-pager

2. Ověř poslední běh:

  • sudo systemctl status enoa-ai-autolearn.service --no-pager

3. Spusť pipeline ručně:

  • python3 /opt/enoa/ai-runtime/ai_autolearn.py

Alert: EnoaAutodeployReportStale

1. Ověř DB konektivitu.

2. Ověř web crawler sources (ENOAI_WEB_SOURCES).

3. Ověř train script logy.

4. Pokud je vše OK, spust ručně:

  • python3 /opt/enoa/ai-runtime/ai_autolearn.py

Runtime autorecovery

Watchdog:

  • enoa-ai-recovery.timer (1 min)
  • enoa-ai-recovery.service
  • deploy/scripts/recover-runtime.sh

Chování:

  • při 1-2 fail healthchecku jen loguje
  • při 3 fail po sobě restartuje enoa-ai-runtime.service