Разметка словообразовательной структуры (морфемного состава)

В Основном корпусе НКРЯ доступен поиск по словообразовательной структуре (морфемному составу) слова.

В сервисе «Портрет слова» (в Основном и Обучающем корпусах) для каждого слова визуализируется морфемный состав: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания.

Разборы даются только для лексем в их словарной форме: за-щищ-а-ть-ся (не отдельных словоформ вроде защищающимися).

Словарная и автоматическая разметка

В основе разметки словообразовательной структуры в Основном корпусе лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на май 2023 года даны разборы для 75 тыс. лексем (310 тысяч неуникальных морфем). Разметка морфем в Обучающем корпусе опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем. Для каждого слова указан список морфем, их тип (приставка, корень, интерфикс, суффикс, окончание или постфикс) и линейная позиция в слове.

Информация о морфемном составе слова в сервисе «‎Портрет слова» в Основном корпусе дополнена автоматически построенной разметкой морфемной структуры лемм, отсутствующих в словаре морфемного анализа, в том числе и довольно частотных. Например, слово эстетика отсутствует в словаре морфемного анализа, так что его членение (эстет-ик-а) предсказано алгоритмом. Автоматические разборы сгенерированы алгоритмом на базе модели RuRoberta-large, дообученной для задачи морфемной сегментации. При разработке модели использована архитектура, разработанная сотрудниками НКРЯ. Доля полностью верных разборов превосходит 93.5%. Автоматические разборы снабжены специальным признаком «‎сгенерировано НейроКРЯ». В Обучающем корпусе для слов, не входящих в словник словаря А. Н. Тихонова, в текущей версии морфемный состав не определяется. Однако в дальнейшем планируется разметить морфемную структуру всех знаменательных слов на основе нейросетевого алгоритма.

При морфемном членении некоторых слов возможны ошибки. Об ошибках просим сообщать пользователей при помощи кнопки «‎Оценить». Обратите внимание, что членение слов на морфемы в Основном корпусе может отличаться от привычного вам, в частности, принятого в школьных программах (см. «Принципы разметки»).

Принципы разметки

Словарь морфемного анализа Основного корпуса НКРЯ составлялся на основании идеологии «Словаря морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой (М., 1986). Принципы этой идеологии — значительная (хотя и не максимальная) дробность выделения морфем и соотносимость с другими лексемами аналогичного строения. Поэтому морфемное деление в разметке корпуса не совпадает с принятым, например, в школе. В исконных словах могут выделяться морфемы, даже если слово без них употребляется маргинально (у-лыб-а-ть-ся, ср. у-смех-а-ть-ся). или если мотивированность этимологии слова для современного носителя неочевидна (на-сек-ом-ое, вос-точ-н-ый). В иностранных словах заимствованные основы членятся (например, ре-волюц-и-я, квит-анци-я), если усматривается семантическое и структурное соответствие между ними и лексемами похожего строения (ср. э-волюц-и-я, рас-квит-а-ть-ся). Разбираются в том числе и служебные части речи, а также имена собственные и производные от них.

В Обучающем корпусе морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе. При этом используется более жесткий подход к определению того, какие смысловые связи являются прозрачными в современном языке, и, как правило, выделяется меньшее число морфем, чем в Основном корпусе: например, указанные выше слова анализируются как улыб-а-ть-ся, насеком-ое, восточ-н-ый, революци-я, квитанци-я. В портрете слова, представленном в Обучающем корпусе, дается морфемное строение только слов, относящихся к знаменательным частям речи, — нарицательным существительным, прилагательным, глаголам и наречиям. Разметка морфем в Обучающем корпусе, как уже сказано выше, опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем.

Поиск

Поиск по морфемам поддерживается в Основном и Обучающем корпусах и задается в поле «Словообразование» лексико-грамматического поиска. По умолчанию этот параметр в форме запроса не выводится (его можно вывести, нажав на «добавить условие»).

При поиске по морфемам в НКРЯ следует задавать один или несколько из следующих параметров: буквенный состав морфемы, тип морфемы, линейную позицию. Если задать морфему бав, тип «корень» и позицию 3, то найдутся слова вдобавок или позабавить.

При поиске можно также выбрать параметр «‎с учетом чередования», добавляющий к морфеме ее алломорфы. Например, при поиске корня -ук- без этого параметра найдется только слово наука, а с этим параметром — еще и учить, ученый и т. д.

Разработчики

Разработчиками изначальной концепции словаря морфемного анализа Основного корпуса были Е. А. Гришина, И. Б. Иткин, О. Н. Ляшевская и М. Г. Тагабилева, в дальнейшем словарь морфемного анализа дорабатывался О. Н. Ляшевской, Е. В. Кашкиным и Д. В. Сичинавой. Алгоритм нейросетевого анализа несловарных слов разработан Д. А. Морозовым и Т. А. Гариповым в сотрудничестве с А. В. Глазковой.

Мы благодарим М. М. Литвинову за ценные замечания и советы при подготовке морфемного анализа Обучающего корпуса.

Литература

Е. Гришина, И. Иткин, О. Ляшевская, М. Тагабилева. О задачах и методах словообразовательной разметки в корпусе текстов // Полярный вестник (Тромсё), 2009, № 12, с. 5–25

Morozov D., Garipov T., Lyashevskaya O., Savchuk S., Iomdin B., & Glazkova A. (2024). Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts? Journal of Language and Education, 10(4), 71-84. https://doi.org/10.17323/jle.2024.22237

Dmitry Morozov, Lizaveta Astapenka, Anna Glazkova, Timur Garipov, and Olga Lyashevskaya. 2025. BERT-like Models for Slavic Morpheme Segmentation. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 6795–6815, Vienna, Austria. Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.acl-long.337

Обновлено 02.03.2026