[recovery mode] 7 шагов успешного создания хранилища данных(DWH)

Проектирование и построение хранилища данных (data warehouse) – задача масштабная и длительная. Необходимо учесть много факторов и нюансов, рассчитать бюджет и только на последнем этапе создавать DWH.Рассмотрим создание хранилища данных поэтапно, расск…

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК.Напомню, что в первой части статьи были описаны соглашения об именовании топиков, п…

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:• как загружать данные из On-premi…

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информаци…

Как и почему мы внедрили Greenplum в КХД

Привет, Хабр! Меня зовут Максим Солопин, в Росбанке я работаю архитектором корпоративного хранилища данных. В этом посте я расскажу о том, как мы переезжали из data lake, куда ежедневно сваливались все сырые данные, в удобную систему на основе Greenplu…

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от време…

Построение DWH на основе Greenplum

DBA в Southbridge Иван Чувашов подготовил статью о построении DWH на основе Greenplum. Слово Ивану.  Привет, Хабр! Я администратор баз данных с 15-летним опытом. Сегодня хочу рассказать про Data Warehouse на основе Greenplum — как они устроены, ка…

Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

Итак, Вы работаете с Большими Данными:Обработка этих данных требует значительного времени (и затрат 💰).Исторические данные не меняются (или не должны меняться) — как правило, это свершившиеся факты.Если Вам удается не делать повторную обработку историч…

[Перевод] Что такое MLOps? Операции машинного обучения на пальцах

В этой статье я расскажу вам об операциях машинного обучения (MLOps) — области, которую можно охарактеризовать как DevOps для машинного обучения. Читать далее…

Как сделать инициирующую загрузку в NiFi

Давайте поговорим про Apache NiFi. Этот ETL-инструмент все чаще используют при загрузке данных в хранилище, правда, не всегда по назначению. Об одном из таких сценариев я рассказывал на конференции SmartData. Видео можно посмотреть на Ютубе, но я все р…