Ничего не понятно, но очень интересно: как начать карьеру в Data Science без профильного образования

Считается, что Data Science — это очень сложное направление, в котором обязательно нужны математические знания и техническое образование. Это верно только отчасти: внутри Data Science есть сайентисты, аналитики и инженеры. У них разные задачи…

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Недавно Сбер в статье Всё, что нам нужно — это генерация предложил интересный подход для отсеивания некачественных текстов (технического мусора и шаблонного спама). Но разве коэффициент сжатия zlib на качественных текстах не имеет нелинейной зависимост…

Обработка и анализ текстов на Python и Spark NLP

В наше время без анализа и обработки текстов, не обходится ни один проект, и так уже сложилось что Python обладает широким спектром библиотек и фреймворков для задач NLP. Задачи могут быть как тривиальные: анализ тональности(sentiment) текста, на…

DeepPavlov стал частью Google Summer of Code в 2021 году

В этом году открытая платформа для обработки естественного языка DeepPavlov, разрабатываемая лабораторией нейронных систем и глубокого обучения МФТИ,  впервые стала частью ежегодной программы для молодых разработчиков Google Summer of Code.Google …

LIT – Инспектор для вашего NLP. Обзор, установка, тест

Инспектор и даже где-то «толкователь», LIT или Language Interpretability Tool — мощная платформа с открытым исходным кодом для визуализации и интерпретации NLP-моделей. Платформа была представлена на EMNLP 2020 специалистами Google Research в ноябре 2…

NLP: ВЫДЕЛЯЕМ ФАКТЫ ИЗ ТЕКСТОВ С ПОМОЩЬЮ ТОМИТА-ПАРСЕРА

NLP — natural language processingБольшая часть данных в мире не структурирована – это просто тексты на русском или на любом другом языке. Извлеченные факты из таких текстов могут представлять особый интерес для бизнеса, поэтому подобные задачи возникаю…

Как сделать трансформер чат-бот на Trax?

Экспериментировать с библиотекой Trax и архитектурой трансформер оказалось крайне увлекательно. Предыдущая статья была про саммаризатор. В этой хочу рассказать о том как я учил трансформер общаться на русском языке.Сравнительно простого чат-бота можно …

[Перевод] Как новая нейронная сеть Facebook решает дифференциальные уравнения

Два исследователя Facebook из Парижа создали для FB новую нейронную сеть, способную решать сложные математические уравнения, даже те, которые имеют дело с интегральным исчислением. Их работа описана в статье от 2 декабря, опубликованной в архиве arXiv …

[Перевод] Использование алгоритмов обработки текстов на естественных языках для создания качественного резюме

Рекрутеры используют всё более сложное ПО и инструменты для анализа и сопоставления присылаемых резюме с размещёнными вакансиями и описанием должностных обязанностей в них. Если в вашем резюме будет представлена только общая информация или если ваши от…

[Перевод] Трансферное обучение с Т5

За последние несколько лет трансферное обучение дало толчок новой волне state-of-the-art результатов в обработке естественного языка (NLP). Эффективность трансферного обучения заключается в предварительном обучении модели на большом доступном неразмече…