Прогнозирование продаж Python. Как находить и сглаживать выбросы с помощью фильтра Хэмплея

Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и …

Мне нужна твоя поддержка: как запустить чат-бот на восьми языках быстро, без разметки и смс

У нас было несколько сотен тысяч чатов в месяц, восемь языков разных групп, миллионы строк неразмеченных данных, тысячи тематик чатов из разных областей нашей экосистемы и команда из 7 человек. Не то, чтобы всё это было категорически необходимо, но есл…

VK Cup: место встречи чемпионов

Привет, Хабр! Я к вам с хорошими новостями: 28 ноября стартовала регистрация на чемпионат VK Cup! В этом году он посвящён только разработке (но не расстраивайтесь — дизайнерский трек мы перенесли в программу чемпионата VK Design Cup).Классическое олимп…

Автоматический подбор параметров для Spark-приложений на примере spark.executor.memory

Привет! Я – Валерия Дымбицкая, технический руководитель команды дата-инженеров в OneFactor. Это вторая часть статьи о том, как автоматически подбирать параметры для Spark-приложений на примере spark.executor.memory.В первой части мы разбирали, как чита…

[Перевод] Начало работы с языковой моделью Galactica

Galactica — это большая языковая модель с открытым исходным кодом от Meta AI. Модель справляется с множеством научных задач, используя единую модель, выполняет логические рассуждения, создает конспекты лекций, прогнозирует цитаты и имеет ещё массу друг…

3. Теория информации и ML. Прогноз

Понятие Mututal Information (MI) связано с задачей прогноза. Собственно, задачу прогноза можно рассматривать как задачу извлечения информации о сигнале из факторов. Какая-то часть информации о сигнале содержится в факторах. И если вы нап…

Summary для резюме Data Scientist

Что будет в этой статье:1. Пример успешного завершенного Summary для Data Scientist который при обновлении под Ваш опыт, можно использовать как шаблон для резюме (такой шаблон уже использовался моими клиентами и друзьями в стартапах в России, Европе и …

Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь

Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и …