Немного капитана очевидности из личного опыта:

  1. Алерты должны быть. Просто так на графики и дашборды никто смотреть не будет (возможно, кроме первых N дней, когда их только-только настроили).
  2. Алерты должны быть такие, чтобы требовали реагирования. Если реакция на алерт по умолчанию будет "а, это как обычно, это норма", то вскоре на них и смотреть не будут.
  3. Алертов не должно быть много и в них не должно быть шума. Если за день приходит 500 алертов, то подробно с каждым возиться, разумеется, никто не будет. На старой работе делали для этого экспоненциальные интервалы уведомлений (алерт триггерится сначала раз в 5 минут, потом раз 10, потом раз в полчаса, потом раз в час, потом 2 раза в день и т.п. — точные интервалы не помню, но суть такая) и периодический агрегированный отчет (где собраны все полуважные алерты, не требующие мгновенного реагирования).
  4. Вроде как следствие предыдущего пункта — делать разный уровень критичности алертов, но для этого надо иметь продвинутую систему оповещения. И, вероятно, на 3-4 уровень критичности смотреть уже никто не будет.
  5. Если какой-то метрики, по которой генерируется алерт, нет вообще — скорее всего, на это тоже надо делать алерт. Если "нормальный" фон — 1000 ошибок в час (:sad_pepe:), а потом их внезапно 0 — маловероятно, что все ошибки исправили сразу: скорее всего, случилось что-то поинтереснее.
  6. Продвинутые чуваки делают алерты на неработающую систему оповещения.
  7. Алерты должны быть полными и актуальными. Банально, добавился новый эндпоинт — сразу же алерт к нему надо сделать. Если в алертах не будет актуальной и достоверной инфы, то зачем на них реагировать?
  8. Как следствие, код с настройками алертов должен по быть по максимуму адекватным, а не помойкой из копипасты. Даже если это убогий TICK-скрипт для Kapacitor или поганые YAML-шаблоны Helm'а для Prometheus.
  9. Алерт должен содержать информацию о том, почему этот алерт возник — какой был порог, какой значение сейчас, ссылку на дашборд и т.п. Иначе алерты будут звучать как "что-то пошло не так, сам думай, что и почему".