Читать в телеге. Когда-то там были посты не только от меня.
Время коммита
Если у вас еще остались надежда на то, что история коммитов в git
хоть сколько-нибудь соответствует действительности, тогда мы идем к вам!
Переписать историю через force push
или изменить авторство — пройденный этап, пора поработать над временем.
GIT_AUTHOR_DATE="2022-11-17T18:00:00 +0200" GIT_COMMITTER_DATE=$GIT_AUTHOR_DATE git commit -m"weekly update"
Вуаля, на каком-нибудь GitHub никто и не заметит.
В этом, конечно, нет ничего удивительного — сервер максимум может знать время пуша (но git
это нигде не хранит) и подтвердить вашу подлинность, если коммит подписан. У джентльменов принято верить друг другу на слово.
Какие изменения принесет kubectl apply?
Если доступ к кластеру имеют несколько человек, и кто-то забыл закоммитить yaml в гит, то можно узнать кластера простым выводом в yaml
, например:
kubectl get deploy --all-namespaces -o yaml > all-deployment.yaml
Однако можно просто посмотреть на отличия манифеста, который есть в репе и того, что есть по факту на кластере:
kubectl diff -f deployment.yaml
аргументы — такие же, как у apply
. Можно еще посмотреть diff
в графическом редакторе:
KUBECTL_EXTERNAL_DIFF=meld kubectl diff -f deployment.yaml
К сожалению, diff
может провалиться из-за того, что поменялись неизменяемые поля (labels
, например). В этом случае придется получить текущее состояние, поправить поля и попробовать diff
еще раз.
Пять стадий принятия саги
- Отрицание — дергаем что надо по HTTP с ретраями.
- Гнев — переходим на асинхронные сообщения.
- Торг — Transactional Outbox решит же большую часть проблем, да?
- Депрессия — 100% надежность не достижима, все равно что-то может сломаться. Но сделаем хотя бы идемпотентно, чтобы ретраить было проще.
- Принятие — ладно, сделаем еще сагу, чтобы хотя бы следить, какие шаги сделаны в рамках процесса.
Объединение stderr и stdout в конвеере
В bash 4.0+ для перенаправления обоих потоков в конвеер вместо
somecommand 2>&1 | nextcommand
можно использовать
somecommand |& nextcommand
Может пригодится для grep
.
Идемпотентность
Одно из базовых свойств, которое стоит поддерживать при асинхронной обработке команд/событий — это идемпотентность: при повторной обработке события результат не должен меняться (разве что какие-нибудь служебные поля вроде updated_at
).
Достичь exactly-once доставки (т.е. когда гарантируется, что событие будет доставлено ровно 1 раз) в распределенных системах практически невозможно, но с помощью идемпотентной обработки и at-least-once системы (т.е. могут быть дубликаты) можно к этому очень близко подойти. В хардкорной реализации каждое сообщение имеет уникальный идентификатор, каждый клиент помнит идентификаторы обработанных сообщений и выкидывает дубликаты. Однако во многих случаях можно поступить проще и немного дополнить бизнес-логику, чтобы она учитывала возможность повторной обработки, благо многие системы поддерживают upsert или его аналог.
Чтобы не было недоразумений, это поведение стоит покрывать тестами. Наверняка в тестах есть какой-то вспомогательный метод, который проверяет поведение системы после получения какого-то события:
fun onReceiving(event: Event, assertions: () -> Unit)
Вот прямо внутрь него можно и встроить проверку идемпотентности: продублировать внутренности два раза, чтобы два раза прислать сообщение и два раза проверить результат.
Порядок ключей в словаре в питоне
В Python 3.6 была оптимизирована память, используемая dict
.
Раньше элементы хранились в массиве, каждый элемент — структура из хэша и ссылок на ключ и на значение. Поскольку используется открытая адресация, то многие ячейки были пусты и прорва памяти тратилась зря.
В новой реализации в основном массиве хранится только индекс, а хэши и указатели хранятся в отдельном списке. За счет этого размер заполненной и пустой ячейки будут одинаковыми, а список с полезной нагрузкой почти всегда плотно заполненным (при удалении там остается заглушка, чтобы список за линейное время не двигать).
Один из побочных эффектов — ключи становятся упорядочены в порядке добавления (в 3.7 это закрепили на уровне требования). С одной стороны — прикольно, но с другой, когда читаешь код, который на это полагается, то так можно и с ума начать сходить (“почему в хэш-таблице ключи отсортированы?!”). Для читаемости лучше все-таки явно OrderedDict использовать.
Неймспейсы в k8s
В документации читаем:
In Kubernetes, namespaces provides a mechanism for isolating groups of resources within a single cluster.
[...]
Namespaces are intended for use in environments with many users spread across multiple teams, or projects.
Однако эта “изоляция” очень условна, и я бы поостерегся ее использовать в мультитенантном смысле. Хотя бы потому, что, например, все сервисы имеют полное имя вида <service-name>.<namespace-name>.svc.cluster.local
и с настройками по умолчанию ничто не мешает из неймспейса user1ns
обратиться к сервису someService
в неймспейсе user2ns
просто используя someService.user2ns
в качестве хоста. Это может иметь смысл в тестовых окружениях, но на проде — страшно.
Еще можно распихать по разным неймспейсам микросервисы, но когда команды разрастутся до “доменов” (групп команд), то это разделение потеряет смысл, т.к. скорее всего у каждого домена будет свой изолированый кластер.
А вот вполне классный вариант применения — отделить в служебные неймспейсы всякие логгеры, операторы, метрики, телеметрию, CI и т.п., чтобы в основном неймспейсе остались только сами сервисы с “полезной” логикой.
Проблемы монад и алгебраические эффекты
В продолжение про проверяемые исключения в Scala — очень доступный доклад про проблемы монад и способы их решения. Первые 26 минут можно посмотреть, если хотите освежить в памяти, что такое монада, и как она проникла в ваш любимый язык, докладчик рассказывает на простейшем примере. Но кто уже знаком с этой идеей, может смело мотать на середину.
Первая и основная на мой взгляд проблема, с которой сталкиваешься при композиции нескольких Either/Result’ов — общий тип для ошибок. Кстати, это одна из проблем, на которую я мужественно забил во время своих забав с elm. Кроме этого, функции приобретают цвета, а с типами вроде Either[Either[ClientError, ServerError], Response]
легко запутаться.
Одно из решений — Monad Transformers в Haskell, которые позволяют запихать одну монаду внутрь другой. Однако это довольно трудное для восприятия решение (судите сами) и типы все равно выглядят страшно.
Альтернативное решение — алгебраические эффекты. “Алгебраические” — потому что образуют алгебру, т.е. если функция f
имеет эффект A
, а функция g
имеет эффект B
, то любая их композиция будет иметь эффект C = A + B = B + A
, причем А + 0 = A
, где 0
— отсутствие эффекта. Алгебраические эффекты аналогичны по свойствам трансформерам, но должны быть проще для восприятия. И вариант их реализации, который описывает докладчик, практически идентичен тому, что предлагал Одерски больше года назад с проверяемыми исключениями (aka Capabilities).
В конце еще интересная мысль про то, что можно обрабатывать исключения и потом иметь возможность возвращаться к проблемному месту, но реализация этого явно дорога, а что она полезного даст — непонятно.
Устройство HTTP
Занятная статья, в первой части которой автор довольно просто рассказывает основные принципы работы HTTP/1.1 (я, например, никогда не задумывался о том, как работает отправка запроса/ответа частями (chunked)), а потом плавненько переходит на куски кода на Rust и подсвечивает кучу занятных вопросов про проксирование траффика HTTP/2 (в т.ч. для защиты от плохих парней). Поразительно, сколько есть серых зон в протоколе, и как хорошо, что в повседневной разработке о них не надо думать :)
Удаление дубликатов в таблице-списке
Способов удалить дубликаты в таблице довольно много: с использованием CTE, JOIN, подзапроса, извращений вроде пересоздания таблица через DISTINCT и т.д. Возьмем для примера группировку с USING:
DELETE FROM elements t1 USING elements t2 WHERE t1.some_key = t2.some_key AND t1.created_at > t2.created_at;
Тут одна колонка (some_key
) используется для собственно определения дубликатов, а вторая (created_at
) — для сортировки их между собой.
Но что делать если в таблице всего одна колонка, как различать два элемента, чтобы удалить не все? Тут пригодятся системные колонки. В данном случае — ctid
, “физическое расположение данной версии строки в таблице”:
DELETE FROM list t1 USING list t2 WHERE t1.some_key = t2.some_key AND t1.ctid > t2.ctid;