Обработка и анализ текстов на Python и Spark NLP

В наше время без анализа и обработки текстов, не обходится ни один проект, и так уже сложилось что Python обладает широким спектром библиотек и фреймворков для задач NLP. Задачи могут быть как тривиальные: анализ тональности(sentiment) текста, на…

Как и зачем разворачивать приложение на Apache Spark в Kubernetes

Для частого запуска Spark-приложений, особенно в промышленной эксплуатации, необходимо максимально упростить процесс запуска задач, а также уметь гибко настраивать их конфигурации. В этом может помочь Kubernetes: он позволяет решать задачи изоляции раб…

Big Data Tools 1.0

На днях вышло очередное обновление плагина Big Data Tools. Почти полтора года мы выпускали только Early Access Preview, и сейчас мы рады представить вам самую первую версию, рассчитанную на широкую аудиторию.Big Data Tools — это плагин, позволяющий п…

The Information: В Facebook примерно пятая часть всех сотрудников сейчас занята проектами VR и AR

В 2020 году Facebook объединила свои VR и AR подразделения Oculus и Spark в единую группу под названием Facebook Reality Labs (FRL). На сегодняшний день во внутренних командах Reality Labs суммарно работает около 10 000 сотрудников — это примерно 20% в…

PySpark. Решаем задачу на поиск сессий

Добрый день уважаемые читатели! Несколько дней назад перечитывая книгу Энтони Молинаро “SQL. Сборник рецептов”, в одной из глав я наткнулся на тему, которая была посвящена определению начала и конца диапазона последовательных значений. Бегло ознакомивш…

[Перевод] Почему ваши приложения Spark работают медленно или выходят из строя

Вторая часть нашей серии «Почему ваши приложения Spark медленно работают или выходят из строя» следует за первой частью об управлении памятью и посвящена вопросам, возникающим при искажении данных и очистки памяти в Spark. Как и многие другие проблемы,…

[Перевод] Что такое фильтр Блума?

Всем привет! В этой статье я постараюсь описать, что такое фильтр Блума, рассказать о его назначении и показать сценарии, в которых его можно использовать. Я также реализую фильтр Блума на Python с нуля в целях облегчения понимания его внутреннего устр…

Spark schemaEvolution на практике

Уважаемые читатели, доброго дня!

В данной статье ведущий консультант бизнес-направления Big Data Solutions компании «Неофлекс», подробно описывает варианты построения витрин переменной структуры с использованием Apache Spark.

В рамках проекта по …