Связь GreenPlum и PostgreSQL

GreenPlum — популярное решение для масштабных аналитических систем и в небольших стартапах, и в крупных корпорациях. Оно предлагает понятный пользователям синтаксис ANSI SQL, хорошо ложится на облачный ландшафт, позволяет обучать и применять модели маш…

[Перевод] Интерпретация summary из statsmodels для линейной регрессии

Узнал я о линейной регрессии после того, как встретил деревья, нейронные сети. Когда мы с другом повторно изобретали велосипед, обучая с нуля word2vec и использовали логистическую регрессию с векторами из обученной модели для задачи NER – я активно кри…

«Как и почему я пошёл в магистратуру МФТИ и Норникеля, чтобы прокачаться в AI»

Всем привет! Меня зовут Ильдар. Я учусь в совместной магистратуре МФТИ и Норникеля «AI Transformation в промышленности». Ещё я работаю инженером по машинному обучению в стартапе, занимающемся разработкой контроллеров в AR/VR. В этой статье я хочу по…

Бутстреп и А/Б тестирование

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки.  Читать далее…

Сам себе data scientist или зачем нужен анализ данных менеджеру по продажам

Всем привет! Меня зовут Михаил Тимофеев, я работаю специалистом в отделе телемаркетинга в Ростелекоме. Когда начинал работать менеджером по продажам, меня постоянно мучали вопросы: почему клиент отказался, где моя зона роста, что делать, чтоб…

Примитивы Desbordante: Функциональные зависимости и их применение в эксплорации и очистке данных

Функциональные зависимости – концепция, которой уже много десятков лет, её преподают практически в каждом курсе баз данных. Их классическое применение – нормализация схемы данных. В последние годы у концепции появилось множество иных приложений в конте…

«Да я тебя по кошельку эфира вычислю!» или OSINT методики при работе с Ethereum

Ethereum (ETH) он же Эфириум (a.k.a. Эфир) — вторая по популярности криптовалюта в мире, а также платформа для создания децентрализованных онлайн-сервисов на базе блокчейна, работающего на основе умных контрактов (смарт-контрактов). Концепция второй кр…

[Перевод] Как работать с датами в pandas

Библиотека Pandas — это весьма эффективный инструмент для обработки данных, представляющих собой временные ряды. На самом деле, эта библиотека была создана Уэсом МакКинни для работы с финансовыми данными, которые состоят, главным образом, из временных …

Десять предупреждений для желающих познакомиться поближе с Julia

Julia – мой любимый язык программирования и основной рабочий инструмент для проведения научных исследований и подготовки научной графики. Я восхищаюсь её простотой, изящностью и производительностью. Именно благодаря Julia я вошёл во вкус и начал по…

Работа над неразмеченными данными с QGIS и opentripmap на практике

В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.ЗадачаПо исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабир…