Кто-нибудь встречал толковое описание (можно на англ.) подходов к моделированию ХД на Hadoop (в Data Lake, HDFS, S3, GCS, кому что ближе). Только структурированные данные. Т.е. загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области тоже в файлы. Что-то аналогичное Data Vault/Dim Modeling/Anchor в случае реляционных ХД.
↧