ID | Название вакансии | Город | Компания | От | До | Валюта | Тип вакансии | Дата и время публикации вакансии | Роль |
---|---|---|---|---|---|---|---|---|---|
1056795 | Data Engineer / Дата Инженер / Инженер Данных | Москва | > Платформа Больших Данных | 250000 | 300000 | RUR | open | 2024-01-04 |
Требования
Необходимые навыки: ∙ Отличное знание Python/Scala (Numpy, SciPy, Pandas, scikit-learn) и библиотеки pySpark. Знание основ работы с командной строкой...
Обязанности
Разработка архитектуры решений по загрузке данных в кластер. Интеграция систем обмена данным с различными источниками. Оптимизация вычислений и работа с...
Описание
Приветствуем тебя, будущий участник нашей прогрессивной команды! Мы аккредитованная IT-компания "Платформа больших данных" – разрабатываем IT-продукты для бизнеса на основе big data. Наша компания объединила данные и компетенции крупнейших игроков рынка, ВТБ, Ростелекома и множества других партнеров. Мы создали 9 уникальных IT-продуктов для бизнеса на основе bid data по различным направлениям: финансовые сервисы, геоаналитика и рекламные направления.
Сейчас мы находимся в поисках Дата-инженера на IT-продукт: рекламный программатик (формирование аудиторных сегментов на основе интересов пользователей интернет-трафика).
Стек технологий: Python, Hadoop, Spark, Hive, SQL.
Наши преимущества:
- Работа в одной из высокотехнологичных аккредитованных российских IT-компаний
- Участник Сколково
- Работу с отличной командой настоящих профессионалов (в компании более 100 человек)
- Полис ДМС со стоматологией
- Гибкое начало дня
- Можно работать полностью удаленно в РФ либо гибридно (по вашему усмотрению)
- Официальное оформление с 1-ого рабочего дня
- Баланс жизни и работы, отличная команда
- Мероприятия для поддержания хорошего настроения (корпоративы, презентации новых IT-продуктов, сюрпризы)
- Современное оборудование для работы
Необходимые навыки:
∙ Отличное знание Python/Scala (Numpy, SciPy, Pandas, scikit-learn) и библиотеки pySpark
· Знание основ работы с командной строкой и базовых утилит Linux;
∙ Опыт работы c Spark, Hadoop, Hive
∙ Отличное знание SQL
∙ Понимание и интерес к области больших данных;
∙ Понимание и интерес к data science решениям и ML;
∙ Опыт работы с NiFi и Ariflow
∙ Опыт работы BI-инструментами (умение быстро спроектировать витрины статистики и поддержание их стабильной работы);
Будет плюсом:
∙ Создание моделей машинного обучения
∙ Знание http/https, dns и предметной области работы операторов (кликстрим, система сбора логов)
∙ Знаете как работает ClickHouse и понимаете его преимущества
∙ Опыт работы с Kafka
∙ Строили CI/CD в gitlab или в других системах
∙ Опыт работы с noSQL базами данных
Твоими задачами станут:
∙Разработка архитектуры решений по загрузке данных в кластер.
· Интеграция систем обмена данным с различными источниками.
· Оптимизация вычислений и работа с узкими местами платформы
· Реализация витрин данных на Spark
· Разработка и оптимизация ETL пайплайнов
· Перенос моделей машинного обучения в прод
· Refactoring, code review
· Сбор информации по источникам данных и их структуре;
· Написание запросов pyspark;
· Анализ логов Интернет-трафика, clickstream, телесмотрения и телефонии;
· Построение профилей, аудиторий и сегментов и контроль корректной поставки этих данных в рекламный инструментарий;
·Создание аналитических отчётов и инструментов их автоматизированного построения;
Будем рады видеть тебя в нашей дружной команде профессионалов!