Quantcast
Channel: SQL.ru: OLAP и DWH
Viewing all articles
Browse latest Browse all 1167

Apache Airflow для ETL

$
0
0
Привет!
Предлагаю тут обмениваться опытом, идеями, бест-практикс по использованию Apache Airflow. Задавать вопросы опять же...
Ссылка на документацию.
Ссылка на github проекта.

Почему я его использую:
- Бесплатный, при этом очень активно развивается.
- Из коробки доступен достаточно удобный веб-интерфейс.
- Вся логика построения ETL пайплайнов строится кодом на Python (мне всегда проще было понять код, чем разбираться в гуях).
- Нравится идея шаблонизации основных задач в hook/operator/sensor.

При этом есть и минусы:
- Сырой!
- Зачастую его поведение непонятно.
- Работает на Python, что очень усложняет контроль ресурсов сервера (вынужден использовать докер-контейнеры с лимитами по cpu/memory).


Хочу спросить у коллег, кто также использует этот продукт:
- Как вы реализуете процесс версионирования/патчинга ETL-процедур (dags)?
- Как вы дорабатываете хуки-операторы под себя, используете механизм плагинов?

Viewing all articles
Browse latest Browse all 1167

Trending Articles