Разметка словообразовательной структуры (морфемного состава)
В Основном корпусе НКРЯ доступен поиск по словообразовательной структуре (морфемному составу) слова.
В сервисе «Портрет слова» (в Основном и Обучающем корпусах) для каждого слова визуализируется морфемный состав: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания.
Разборы даются только для лексем в их словарной форме: за-щищ-а-ть-ся (не отдельных словоформ вроде защищающимися).
Словарная и автоматическая разметка
В основе разметки словообразовательной структуры в Основном корпусе лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на май 2023 года даны разборы для 75 тыс. лексем (310 тысяч неуникальных морфем). Разметка морфем в Обучающем корпусе опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем. Для каждого слова указан список морфем, их тип (приставка, корень, интерфикс, суффикс, окончание или постфикс) и линейная позиция в слове.
Информация о морфемном составе слова в сервисе «Портрет слова» в Основном корпусе дополнена автоматически построенной разметкой морфемной структуры лемм, отсутствующих в словаре морфемного анализа, в том числе и довольно частотных. Например, слово эстетика отсутствует в словаре морфемного анализа, так что его членение (эстет-ик-а) предсказано алгоритмом. Автоматические разборы сгенерированы алгоритмом на базе модели RuRoberta-large, дообученной для задачи морфемной сегментации. При разработке модели использована архитектура, разработанная сотрудниками НКРЯ. Доля полностью верных разборов превосходит 93.5%. Автоматические разборы снабжены специальным признаком «сгенерировано НейроКРЯ». В Обучающем корпусе для слов, не входящих в словник словаря А. Н. Тихонова, в текущей версии морфемный состав не определяется. Однако в дальнейшем планируется разметить морфемную структуру всех знаменательных слов на основе нейросетевого алгоритма.
При морфемном членении некоторых слов возможны ошибки. Об ошибках просим сообщать пользователей при помощи кнопки «Оценить». Обратите внимание, что членение слов на морфемы в Основном корпусе может отличаться от привычного вам, в частности, принятого в школьных программах (см. «Принципы разметки»).
Принципы разметки
Словарь морфемного анализа Основного корпуса НКРЯ составлялся на основании идеологии «Словаря морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой (М., 1986). Принципы этой идеологии — значительная (хотя и не максимальная) дробность выделения морфем и соотносимость с другими лексемами аналогичного строения. Поэтому морфемное деление в разметке корпуса не совпадает с принятым, например, в школе. В исконных словах могут выделяться морфемы, даже если слово без них употребляется маргинально (у-лыб-а-ть-ся, ср. у-смех-а-ть-ся). или если мотивированность этимологии слова для современного носителя неочевидна (на-сек-ом-ое, вос-точ-н-ый). В иностранных словах заимствованные основы членятся (например, ре-волюц-и-я, квит-анци-я), если усматривается семантическое и структурное соответствие между ними и лексемами похожего строения (ср. э-волюц-и-я, рас-квит-а-ть-ся). Разбираются в том числе и служебные части речи, а также имена собственные и производные от них.
В Обучающем корпусе морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе. При этом используется более жесткий подход к определению того, какие смысловые связи являются прозрачными в современном языке, и, как правило, выделяется меньшее число морфем, чем в Основном корпусе: например, указанные выше слова анализируются как улыб-а-ть-ся, насеком-ое, восточ-н-ый, революци-я, квитанци-я. В портрете слова, представленном в Обучающем корпусе, дается морфемное строение только слов, относящихся к знаменательным частям речи, — нарицательным существительным, прилагательным, глаголам и наречиям. Разметка морфем в Обучающем корпусе, как уже сказано выше, опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем.
Поиск
Поиск по морфемам поддерживается в Основном и Обучающем корпусах и задается в поле «Словообразование» лексико-грамматического поиска. По умолчанию этот параметр в форме запроса не выводится (его можно вывести, нажав на «добавить условие»).
При поиске по морфемам в НКРЯ следует задавать один или несколько из следующих параметров: буквенный состав морфемы, тип морфемы, линейную позицию. Если задать морфему бав, тип «корень» и позицию 3, то найдутся слова вдобавок или позабавить.
При поиске можно также выбрать параметр «с учетом чередования», добавляющий к морфеме ее алломорфы. Например, при поиске корня -ук- без этого параметра найдется только слово наука, а с этим параметром — еще и учить, ученый и т. д.
Разработчики
Разработчиками изначальной концепции словаря морфемного анализа Основного корпуса были Е. А. Гришина, И. Б. Иткин, О. Н. Ляшевская и М. Г. Тагабилева, в дальнейшем словарь морфемного анализа дорабатывался О. Н. Ляшевской, Е. В. Кашкиным и Д. В. Сичинавой. Алгоритм нейросетевого анализа несловарных слов разработан Д. А. Морозовым и Т. А. Гариповым в сотрудничестве с А. В. Глазковой.
Мы благодарим М. М. Литвинову за ценные замечания и советы при подготовке морфемного анализа Обучающего корпуса.
Литература
Е. Гришина, И. Иткин, О. Ляшевская, М. Тагабилева. О задачах и методах словообразовательной разметки в корпусе текстов // Полярный вестник (Тромсё), 2009, № 12, с. 5–25
Morozov D., Garipov T., Lyashevskaya O., Savchuk S., Iomdin B., & Glazkova A. (2024). Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts? Journal of Language and Education, 10(4), 71-84. https://doi.org/10.17323/jle.2024.22237
Dmitry Morozov, Lizaveta Astapenka, Anna Glazkova, Timur Garipov, and Olga Lyashevskaya. 2025. BERT-like Models for Slavic Morpheme Segmentation. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 6795–6815, Vienna, Austria. Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.acl-long.337