Инженер данных

З/п не указана
Опыт работы: От 3 до 6 лет
График работы: Полный день
Занятость: Полная занятость
Компания: Газпром-медиа Развлекательное телевидение (ГПМ РТВ)

Мы ищем инженера данных (Python) в департамент управления данными.

Задача департамента – централизованный сбор, хранение, обработка и анализ данных из всевозможных источников холдинга, с использованием передовых open-source технологий, внедрение data-driven культуры, модернизация текущих, и создание новых продуктов на основе данных.

Направления деятельности включают в себя:

  • Создание единого хранилища данных и платформы для их исследования и применения в других проектах компании с использование технологий больших данных.
  • Разработка и внедрение решений на основе машинного обучения, компьютерного зрения, прочих разделов науки о данных и ИИ.
  • Построение профиля пользователей продуктов.
  • Реализация customer-centric стратегии и построение системы умных коммуникаций.

Нам нужен технически подкованный специалист с опытом работы с большими данными, который поможет нам:

  • построить высокопроизводительные конвейеры обработки данных;
  • достигнуть высокого качества данных, загружаемых на платформу, совместно с инженерами качества данных;
  • улучшить мониторинг полноты данных совместно с аналитиками данных;
  • ускорить анализ и исправление инцидентов, связанных с данными.
Обязанности:
  • анализ и имплементация требований к ETL / ELT пайплайнов, прототипирование идей в PoC, конструирование MVP;
  • имплементация и оптимизация ETL / ELT пайплайнов, распараллеливание обработки данных;
  • загрузка, фильтрация, предобработка данных, саппорт ETL / ELT пайплайнов;
  • написание модульных тестов и ответственность за их качество;
  • контроль за CI / CD пайплайнами приложений;
  • менторство за инженерами среднего уровня;
  • поддержание высокого уровня культуры написания и тестирования кода;
  • реагирование на инциденты, касающиеся ETL / ELT пайплайнов (в рабочее время, мы редко овертаймим).
Требования:
  • опыт разработки ПО от 2 лет на языке Python;
  • опыт разработки ПО от 3 лет на позиции инженер данных / инженер машинного обучения или подобных;
  • опыт работы с Bash, вкл. знание git, sed, awk, find, grep;
  • опыт документирования, а также владение техническим английским (B1);
  • понимание OOP и FP, знание основных шаблонов проектирования приложений (GoF);
  • опыт работы с исп. RDBMS и SQL-запросов, а также explain, indexes, joins (PostgreSQL как +)
  • навыки работы с инструментами контейнеризации Docker / Vagrant / Packer;
  • опыт работы с брокерами сообщений Kafka / RabbitMQ;
  • опыт анализа инцидентов с качеством данных в источниках (изменение данных / схемы данных)
Приветствуется:
  • опыт работы с хранилищами данных ClickHouse / Cassandra / Redshift / Vertica;
  • опыт работы с инструментами мониторинга и BI Sentry / Prometheus , Grafana / Redash;
  • контрибьюшн в opensource или наличие pet projects со ссылками на BitBucket / GitHub / GitLab;
  • позитивный настрой и здоровый перфекционизм, умение слушать коллег и адекватно воспринимать критику, грамотное изложение своих мыслей и умение отстаивать свою точку зрения
Условия:
  • Условия:
  • Knowledge sharing и профессиональный рост
  • Возможность принимать участие в конференциях и проходить обучение
  • ДМС со стоматологией после испытательного срока
  • Доплаты по больничному листу (до 15 дней в году)
  • Трудоустройство по ТК РФ
  • Возможность работать удаленно или в московском офисе на м. Маяковская, SOK Сады Пекина
Хочу откликнуться
<
>