Группируем текстовые записи с помощью Python и CountVectorizer

Общедоступные реестры клинических исследований, такие как clinicaltrial.gov, печально известны низкой структурированностью данных. Попытка построить сводный отчет, например, о количестве исследований, проводимых ведущими фармкомпаниями, натыкается на д…

Мне нужна твоя поддержка: как запустить чат-бот на восьми языках быстро, без разметки и смс

У нас было несколько сотен тысяч чатов в месяц, восемь языков разных групп, миллионы строк неразмеченных данных, тысячи тематик чатов из разных областей нашей экосистемы и команда из 7 человек. Не то, чтобы всё это было категорически необходимо, но есл…

[Перевод] Начало работы с языковой моделью Galactica

Galactica — это большая языковая модель с открытым исходным кодом от Meta AI. Модель справляется с множеством научных задач, используя единую модель, выполняет логические рассуждения, создает конспекты лекций, прогнозирует цитаты и имеет ещё массу друг…

Может ли робот понять твои эмоции? Тенденции в области распознавания эмоций и психологических состояний человека

Эмоции являются неотъемлемым атрибутом в жизни каждого человека и отражают его психологическое состояние. На протяжении истории человечество использовало различные способы выражения эмоциональных состояний, включая вербальное и невербальное контактиров…

Умные субтитры

Сегодня я вам расскажу о своем методе для изучения иностранных языков.С чего начать изучение нового языка? Чаще всего люди на раннем этапе используют стандартный лексико-грамматический метод с доминированием письменного языка, который показал себя медл…

Как определять пользовательские намерения, о которых мы узнали 5 минут назад

Привет! Меня зовут Даниил Цимерман, я R&D-инженер в NLP-отделе Тинькофф. Недавно я выступил на конференции DUMP и рассказал, как мы решали задачу определения интентов пользователей в чате в условиях быстро меняющихся запросов. Доклад можно посмотре…

Зоопарк ML-моделей или лучший справочник на Хабре

Привет, Хабр! Меня зовут Ирина, я работаю ML инженером в Brand Analytics. Моя работа тесно связана с NLP, ведь мы ежедневно получаем огромное количество текстовых данных со всего интернета. Сегодня я хочу поговорить о теме, которая беспокоила меня еще …

Понимают ли нейронные модели грамматику человеческого языка?

В лингвистике принято считать, что основным свойством языковой способности человека является возможность определять, насколько грамматически корректно предложение. Подобные суждения говорящих о правильности языкового высказывания получили название «оце…

[Перевод] Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

Представляю в блоге ЛАНИТ вторую часть моего пересказа статьи “A Survey of Transformers”, в которой приведены основные модификации архитектуры стандартного трансформера, придуманные за два года после ее появления. В первой части мы кратко вспомнили, из…

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.Для маркетплейса ма…