Способ представления числовых ключей для обратного поискового индекса

Числа — совершенно особенная категория текстовых объектов. Они могут быть представлены разными способами: от зачастую многословного и не всегда согласованного между собой ряда убывающих числительных до записи арабскими или римскими цифрами, с разбивкой…

Новый запуск курса Natural Language Processing

Уже в среду мы делаем новый запуск курса по обработке естественного языка от ODS и Huawei. Ссылка на курс вот. В этом запуске дополнительно расскажу про то, как устроены Github Copilot и OpenAI Codex, ну и в целом про NLP4Code. Читать далее…

Обработка естественного языка (NLP) методами машинного обучения в Python

В данной статье хателось бы рассказать о том, как можно применить различные методы машинного обучения (ML) для обработки текста, чтобы можно было произвести его бинарную классифицию. Рассмотрим задачу обработки естественного языка (NLP — Natural L…

Что такое тезаурус и как определить семантическое сходство слов

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений. Читать далее…

NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ритейла

Статья про другой взгляд на рекомендательные системы — определение самого неподходящего товара для покупателей.Статья про то как определять спрос на новый товар, и как выявлять характеристики товара, из-за которых ритейл и интернет площадки теряют прод…

Автоматическое реферирование текстов. Обзор работ

Я думаю, многим знакома ситуация, когда в сжатые сроки необходимо ознакомиться с большим объёмом текстов – статей, обзоров, сюжетов, отзывов и так далее. Читать их все от начала и до конца слишком напряжно, не правда ли? И здесь на помощь приходят рефе…

[Перевод] Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 1)

В июне 2021 года вышла статья “A Survey of Transformers” — обзор различных нововведений, сделанных с применением архитектуры “трансформер” после ее появления в материале “Attention is all you need”.Этот материал особенно актуален сейчас. Приведенные по…

Сага о SEO, часть 1: серверный рендеринг

Наверняка хотя бы раз в жизни вы или ваши знакомые в поисках приятного досуга на вечер обращались к Яндексу или Гуглу с запросами вроде “кино онлайн бесплатно” или “смотреть сериалы 2021”. Если так, не стоит стесняться, вы такой не один, с подобными за…

Как с помощью BERT организовать поиск похожих текстов

Что нужно, чтобы с помощью BERT организовать поиск похожих текстов, а также как можно решить задачу многоклассовой классификации нестандартным способом. Читать далее…

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделение документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the a…