Quantcast
Channel: SQL.ru: OLAP и DWH
Viewing all articles
Browse latest Browse all 1167

КУЧА разных данных

$
0
0
простите за заголовок, не знаю, как еще это компактно описать.
Суть: от дистрибьюторов приходят данные продаж в совершенно разных форматах. По этим данным затем необходимо построить ОЛАП-куб.
Например, привычные нам факты:
Client Product Date Amount Summa
Иванов Помидоры 2019.01.02 100 50
Петров Огурцы 2019.02.03 200 30
Сидоров Капуста 2019.03.04 150 80


у дистрибьюторов могут выглядеть так:
Client Product 2019.01.01 2019.01.02 2019.01.03 ... 2019.02.01 2019.02.02 2019.02.03 ... 2019.03.04
Amount Иванов Помидоры 100
Summa Иванов Помидоры 50
Amount Петров Огурцы 200
Summa Петров Огурцы 30
Amount Сидоров Капуста 150
Summa Сидоров Капуста 80


И это еще далеко не самый трешовый вариант.
К тому же наименования полей могут быть в совершенно свободном стиле. Состав и их порядок, естественно, тоже.
Размер таблиц - сотни мегабайт текстовых данных (сотни тысяч строк, десятки полей)

Подскажите, придумало ли человечество машинную обработку таких данных? Чтобы на выходе получить нормально заполненную т.фактов для анализа.
Или необходимо сначала руками приводить все в человеческий вид?

Краем уха слышал про DataMining. Но это кажется не то.

Viewing all articles
Browse latest Browse all 1167

Trending Articles