Сводные таблицы в Pandas — швейцарский нож для аналитиков

Сводные таблицы хорошо известны всем аналитикам по Excel. Это прекрасный инструмент, который помогает быстро получить различную информацию по массиву данных. Рассмотрим реализацию и тонкости сводных таблиц в Pandas. Читать далее…

Машинное обучение с помощью Streamlit с использованием набора данных от Титаника

В этой статье я рассказываю об использовании машинного обучения в Streamlit и о том, как оно может помочь бизнес-пользователям лучше понять, как работает наука о данных. Мы собираемся посмотреть, сможем ли мы использовать модель на практике, чтобы поль…

Пример ML проекта с Pipelines+Optuna+GBDT

Началось всё с того, что я открыл для себя Kaggle. В частности, я принимаю участие в публичном соревновании Spaceship Titanic. Это более «молодая» версия классического Титаника. Код, продемонстированный в этой статье, позволил мне занять не самое после…

Лучший формат данных, для хранения pandas.DataFrame

Привет, Хабр!Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.На сегодняшний день существует огромное количество форматов для хранения …

Решение бизнес-задачи с помощью многофакторного кластерного анализа и здравого смысла

Привет, Хабр!Меня зовут Сергей Исупов, я Data Scientist и являюсь участником профессионального сообщества NTA. В рамках данной публикации я постарался не только поделиться своим практическим опытом решения аналитической задачи, но и уделить внима…

[Перевод] Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Автор оригинальной статьи: Kevin KhoПовышение производительности разработчиков и снижение затрат на проекты Big Data Читать далее

Polars: библиотека для работы с данными, написанная на RUST

Настоящий хреновый программист всегда находится на гребне волны новых технологий. Зачем ему это? Чтобы при случае можно было повыделоваться багажом своих знаний, и заработать немного очков уважения в окружении своих менее осведомлённых коллег. Stay tox…

Pyspark. Анализ больших данных, когда Pandas не достаточно

Pandas — одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когд…

Текст-майнинг с пандами, облаками и яблоками

Привет, Хабр! Меня зовут Пётр Мананников я Data Scientist и являюсь участником профессионального сообщества NTA. Представьте ситуацию: вас назначили спикером на мероприятии, и вы даже знаете, о чем хотите рассказать аудитории. Но будет ли пуб…