Senior Data Engineer / Ведущий инженер данных

до 350 000 руб. до вычета налогов
Опыт работы: От 3 до 6 лет
График работы: Полный день
Занятость: Полная занятость
Компания: Газпром-медиа Развлекательное телевидение (ГПМ РТВ)

Мы разрабатываем приложение для внутренних нужд, которое позволяет собрать информацию о клиентах из различных продуктов холдинга, таких как Матч, Премьер и др, для получения единого портрета пользователя и его применения на благо бизнеса. На этот проект нам нужен ведущий дата инженер, который будет помогать команде в интеграции данных из различных внутренних и внешних источников, используя Scala – 80% времени и Python – 20% времени. Вы будете работать с Kafka, Spark, Clickhouse, Mongo и прочим open-source стеком в тесном взаимодействии с другими дата инженерами, аналитиками данных, специалистами по мат. моделированию и машинному обучению, а также ключевыми заказчиками при создании этого проекта.

Что необходимо делать:
  • анализ и имплементация требований к ETL / ELT пайплайнов, прототипирование идей в PoC, конструирование MVP
  • имплементация и оптимизация ETL / ELT пайплайнов, распараллеливание обработки данных;
  • загрузка, фильтрация, предобработка данных, саппорт ETL / ELT пайплайнов
  • написание модульных тестов и ответственность за их качество
  • код ревью и контроль за CI / CD пайплайнами приложений
  • менторство за инженерами данных среднего уровня
  • поддержание высокого уровня культуры написания и тестирования кода
  • реагирование на инциденты, касающиеся ETL / ELT пайплайнов (в рабочее время, мы редко овертаймим)
Требования к опыту:
  • опыт разработки ПО от 5 лет на одном из языков Java / Scala (и готовность читать / править Python в небольшой части пайплайнов, вкл. интеграцию и планирование)
  • опыт разработки ПО от 3 лет на позиции инженер данных / инженер машинного обучения или подобных
  • опыт работы с Bash, вкл. знание git, sed, awk, find, grep
  • опыт документирования, а также владение техническим английским (B1)
  • понимание OOP и FP, знание основных шаблонов проектирования приложений (GRASP, GoF, PoEAA)
  • понимание Data Lake и Data Vault 2.0, методологий Kimball vs. Inmon
  • опыт работы с исп. RDBMS и SQL-запросов, а также explain, indexes, joins
  • навыки работы с инструментами контейнеризации Docker / Vagrant / Packer
  • глубокое знание Spark Data Frame, Structured Streaming, Sink (на базе Hadoop / Kubernetes / standalone), понимание особенностей распределенных пайплайнов и связанных с этим оптимизаций Catalyst
  • опыт работы с RDBMS (SQL запросами, понимание ACID), парсинга документов (CSV, JSON, XML), с HTTP (Java / Scala, Wget / Curl)
  • опыт работы с брокерами сообщений Kafka / RabbitMQ
  • опыт работы с хранилищами HBase / Ignite / Hazelcast / Redis / Aerospike / EHCache
  • опыт анализа инцидентов с качеством данных в источниках (изменение данных / схемы данных)
Будет плюсом:
  • опыт работы с RDBMS PostgreSQL
  • опыт работы с хранилищами данных ClickHouse / Cassandra / Redshift / Vertica
  • опыт работы с инструментами мониторинга и BI Sentry / Prometheus , Grafana / Redash
  • контрибьюшн в opensource или наличие pet projects со ссылками на BitBucket / GitHub / GitLab или подобные
  • позитивный настрой и здоровый перфекционизм, умение слушать коллег и адекватно воспринимать критику, грамотное изложение своих мыслей и умение отстаивать свою точку зрения
Условия:
  • Оформление по ТК РФ
  • Конкурентная заработная плата
  • Гибкий график, сейчас мы работаем удаленно
  • ДМС (включая стоматологию) после испытательного срока,; возможность страхования членов семьи
  • Дружный доброжелательный коллектив, в котором приятно работать, лояльное руководство
  • Профессиональное развитие (перспективные проекты, конференции)
  • Поддержка жизненно важных событий сотрудника
  • Доплата до месячного заработка при временной нетрудоспособности до 15 рабочих дней в год
Хочу откликнуться
<
>