до 350 000 руб. до вычета налогов
Опыт работы: От 3 до 6 лет
График работы: Полный день
Занятость: Полная занятость
Компания: Газпром-медиа Развлекательное телевидение (ГПМ РТВ)
Мы разрабатываем приложение для внутренних нужд, которое позволяет собрать информацию о клиентах из различных продуктов холдинга, таких как Матч, Премьер и др, для получения единого портрета пользователя и его применения на благо бизнеса. На этот проект нам нужен ведущий дата инженер, который будет помогать команде в интеграции данных из различных внутренних и внешних источников, используя Scala – 80% времени и Python – 20% времени. Вы будете работать с Kafka, Spark, Clickhouse, Mongo и прочим open-source стеком в тесном взаимодействии с другими дата инженерами, аналитиками данных, специалистами по мат. моделированию и машинному обучению, а также ключевыми заказчиками при создании этого проекта.
Что необходимо делать: - анализ и имплементация требований к ETL / ELT пайплайнов, прототипирование идей в PoC, конструирование MVP
- имплементация и оптимизация ETL / ELT пайплайнов, распараллеливание обработки данных;
- загрузка, фильтрация, предобработка данных, саппорт ETL / ELT пайплайнов
- написание модульных тестов и ответственность за их качество
- код ревью и контроль за CI / CD пайплайнами приложений
- менторство за инженерами данных среднего уровня
- поддержание высокого уровня культуры написания и тестирования кода
- реагирование на инциденты, касающиеся ETL / ELT пайплайнов (в рабочее время, мы редко овертаймим)
Требования к опыту: - опыт разработки ПО от 5 лет на одном из языков Java / Scala (и готовность читать / править Python в небольшой части пайплайнов, вкл. интеграцию и планирование)
- опыт разработки ПО от 3 лет на позиции инженер данных / инженер машинного обучения или подобных
- опыт работы с Bash, вкл. знание git, sed, awk, find, grep
- опыт документирования, а также владение техническим английским (B1)
- понимание OOP и FP, знание основных шаблонов проектирования приложений (GRASP, GoF, PoEAA)
- понимание Data Lake и Data Vault 2.0, методологий Kimball vs. Inmon
- опыт работы с исп. RDBMS и SQL-запросов, а также explain, indexes, joins
- навыки работы с инструментами контейнеризации Docker / Vagrant / Packer
- глубокое знание Spark Data Frame, Structured Streaming, Sink (на базе Hadoop / Kubernetes / standalone), понимание особенностей распределенных пайплайнов и связанных с этим оптимизаций Catalyst
- опыт работы с RDBMS (SQL запросами, понимание ACID), парсинга документов (CSV, JSON, XML), с HTTP (Java / Scala, Wget / Curl)
- опыт работы с брокерами сообщений Kafka / RabbitMQ
- опыт работы с хранилищами HBase / Ignite / Hazelcast / Redis / Aerospike / EHCache
- опыт анализа инцидентов с качеством данных в источниках (изменение данных / схемы данных)
Будет плюсом: - опыт работы с RDBMS PostgreSQL
- опыт работы с хранилищами данных ClickHouse / Cassandra / Redshift / Vertica
- опыт работы с инструментами мониторинга и BI Sentry / Prometheus , Grafana / Redash
- контрибьюшн в opensource или наличие pet projects со ссылками на BitBucket / GitHub / GitLab или подобные
- позитивный настрой и здоровый перфекционизм, умение слушать коллег и адекватно воспринимать критику, грамотное изложение своих мыслей и умение отстаивать свою точку зрения
Условия: - Оформление по ТК РФ
- Конкурентная заработная плата
- Гибкий график, сейчас мы работаем удаленно
- ДМС (включая стоматологию) после испытательного срока,; возможность страхования членов семьи
- Дружный доброжелательный коллектив, в котором приятно работать, лояльное руководство
- Профессиональное развитие (перспективные проекты, конференции)
- Поддержка жизненно важных событий сотрудника
- Доплата до месячного заработка при временной нетрудоспособности до 15 рабочих дней в год