Ops Runbook
Alert: EnoaRuntimeModelNotLoaded
1. Zkontroluj runtime service:
sudo systemctl status enoa-ai-runtime.service --no-pager
2. Zkontroluj log:
journalctl -u enoa-ai-runtime.service -n 200 --no-pager
3. Ověř checkpoint:
ls -lah /opt/enoa/ai-runtime/enoa_gpt/checkpoints/
4. Ověř .env:
ENOAI_CHECKPOINT,ENOAI_TOKENIZER
Alert: EnoaProdCheckpointMissing
1. Ověř, zda existuje candidate:
enoagpt_tiny_final.pt
2. Spusť safe deploy ručně:
python3 /opt/enoa/ai-runtime/ai_autodeploy.py
3. Zkontroluj report:
/opt/enoa/ai-runtime/enoa_gpt/checkpoints/autodeploy_last.json
Alert: EnoaAutodeployReportMissing
1. Ověř timer:
sudo systemctl status enoa-ai-autolearn.timer --no-pager
2. Ověř poslední běh:
sudo systemctl status enoa-ai-autolearn.service --no-pager
3. Spusť pipeline ručně:
python3 /opt/enoa/ai-runtime/ai_autolearn.py
Alert: EnoaAutodeployReportStale
1. Ověř DB konektivitu.
2. Ověř web crawler sources (ENOAI_WEB_SOURCES).
3. Ověř train script logy.
4. Pokud je vše OK, spust ručně:
python3 /opt/enoa/ai-runtime/ai_autolearn.py
Runtime autorecovery
Watchdog:
enoa-ai-recovery.timer(1 min)enoa-ai-recovery.servicedeploy/scripts/recover-runtime.sh
Chování:
- při 1-2 fail healthchecku jen loguje
- při 3 fail po sobě restartuje
enoa-ai-runtime.service