простите за заголовок, не знаю, как еще это компактно описать.
Суть: от дистрибьюторов приходят данные продаж в совершенно разных форматах. По этим данным затем необходимо построить ОЛАП-куб.
Например, привычные нам факты:
у дистрибьюторов могут выглядеть так:
И это еще далеко не самый трешовый вариант.
К тому же наименования полей могут быть в совершенно свободном стиле. Состав и их порядок, естественно, тоже.
Размер таблиц - сотни мегабайт текстовых данных (сотни тысяч строк, десятки полей)
Подскажите, придумало ли человечество машинную обработку таких данных? Чтобы на выходе получить нормально заполненную т.фактов для анализа.
Или необходимо сначала руками приводить все в человеческий вид?
Краем уха слышал про DataMining. Но это кажется не то.
Суть: от дистрибьюторов приходят данные продаж в совершенно разных форматах. По этим данным затем необходимо построить ОЛАП-куб.
Например, привычные нам факты:
|
у дистрибьюторов могут выглядеть так:
|
И это еще далеко не самый трешовый вариант.
К тому же наименования полей могут быть в совершенно свободном стиле. Состав и их порядок, естественно, тоже.
Размер таблиц - сотни мегабайт текстовых данных (сотни тысяч строк, десятки полей)
Подскажите, придумало ли человечество машинную обработку таких данных? Чтобы на выходе получить нормально заполненную т.фактов для анализа.
Или необходимо сначала руками приводить все в человеческий вид?
Краем уха слышал про DataMining. Но это кажется не то.