ID | Название вакансии | Город | Компания | От | До | Валюта | Тип вакансии | Дата и время публикации вакансии | Роль |
---|---|---|---|---|---|---|---|---|---|
2301951 | Разработчик ETL (удаленный формат работы) | Москва | > UNITED | open | 2024-12-02 |
Требования
Понимание различий PostgreSQL & Greenplum. Понимание механизма работы QE/QD (query executor & query dispatcher), и как исполняется SQL-запрос в Greenplum...
Обязанности
Организацией ETL-процессов, выгрузки данных Apache Hudi таблиц из S3 в ODS-слой на Greenplum. Разработкой трансформации данных ODS...
Описание
UNITED — команда, которая уже более 5 лет специализируется на помощи организациям в их цифровой трансформации.
Наш клиент - международная ИТ-компания, которая разрабатывает решения по повышению бизнес-процессов своих клиентов.
Сейчас находимся в поиске "ETL разработчика" для работы на 2-х интересных проектах.
Чем предстоит заниматься:
- Организацией ETL-процессов, выгрузки данных Apache Hudi таблиц из S3 в ODS-слой на Greenplum;
- Разработкой трансформации данных ODS-слоя в DDS-слой;
- Имплементацией различных CDC-методов (инкрементальный JOIN с двумя наборами данных, вычисление хэша с последующим diff);
- Разработкой plpgsql-функций или аналогичной логикой на Spark для трансформации данных, на основе логике существующего Python/T-SQL кода (MSSQL);
- Разработкой ad-hoc аналитических запросов под PostgreSQL/Greenplum;
- Разработкой DataQuality-тестов на скриптовом ETL (Python, Java или Scala);
- Работой с AirFlow-операторами, разработкой DAGs;
- Мониторингом и поиском проблемных мест при эксплуатации ADB (Greenplum).
- Понимание различий PostgreSQL & Greenplum;
- Понимание механизма работы QE/QD (query executor & query dispatcher), и как исполняется SQL-запрос в Greenplum-кластере, включая планы запросов (redistribute, broadcast, gather motions);
-
Понимание механизма дистрибьюции данных на сегмент-инстансах Greenplum, и как исправлять перекосы данных (skews);
-
Понимание разницы механизмов работы Heap & AOP (append-optimzed) таблиц в Greenplum, включая понимание “ограничений” колоночного формата хранения данных;
-
Понимание различий между логическими моделями: звезды, снежинки и DataVault;
-
Опыт с технологическим стеком: Python, SQL, ETL, Spark.
- Удалённая работа либо гибрид/офис, по вашему усмотрению:)
- Отсутствие бюрократии;
- ДМС: компании важно, чтобы сотрудники развивали свои компетенции и были здоровы;
- Разнообразную корпоративную жизнь: от походов в музеи до совместных путешествий и rave-вечерин;
- Гибкое время начала рабочего дня.