Доклад для студентов. Очень поверхностный.

Тони Хоар, создатель быстрого алгоритма сортировки, как-то сказал: “Внутри каждой большой программы находится маленькая программа, пытающаяся вырваться наружу” (Inside every large program is a small program struggling to get out). Программирование - это не только реализация алгоритмов и “фич”. Очень много работы программиста заключается в подготовке, валидации, индексации данных и перемещении их из одного места в другое. Причем обычно это должно быть быстро и масштабируемо, а еще чтобы было без багов, можно было нетрудно поменять и легко развернуть новую версию на прод. Это может звучать немного скучно, особенно на фоне работы Дата Сайентиста, который обучает нейронки, чтобы писать сценарии для новых фильмов Бетмена или прилепить лицо Трампа на мексиканца. Однако proof-of-concept - это одно, а раскатать модель это на прод “чтобы работало” и чтобы к ней приходили качественные данные - уже инженерная задача, причем не всегда тривиальная. Сравнительно недавно появилось модное название для программистов, которые делают эту работу для Дата Сайентистов - Дата Инженеры. В чем заключается “рутина” программирования? Что делают Дата Инженеры, какие навыки им нужны и какие инструменты они используют?

Презентация

UPD: Оригинал был удален из-за удаления канала.