Разметка словообразовательной структуры (морфемного состава)

В Основном корпусе НКРЯ доступен поиск по словообразовательной структуре (морфемному составу) слова. В сервисе «Портрет слова» для каждого слова визуализируется морфемный состав: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания.

Разборы даются только для лексем в их словарной форме: за-щищ-а-ть-ся (не отдельных словоформ вроде защищающимися).

Словарная и автоматическая разметка

В основе разметки словообразовательной структуры лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на май 2023 года даны разборы для 75 тыс. лексем (310 тысяч неуникальных морфем). Для каждого слова указан список морфем, их тип (приставка, корень, интерфикс, суффикс или постфикс) и линейная позиция в слове.

Информация о морфемном составе слова в сервисе «‎Портрет слова» дополнена автоматически построенной разметкой морфемной структуры лемм, отсутствующих в словаре морфемного анализа, в том числе и довольно частотных. Например, слово гарантировать отсутствует в словаре морфемного анализа, так что его членение (гарант-ирова-ть) предсказано алгоритмом.

Автоматические разборы сгенерированы нейросетевым алгоритмом, ядром которого является свёрточная нейросеть, архитектура которой предложена А. А. Сорокиным. Такие разборы снабжены специальным признаком «‎сгенерировано НейроКРЯ».

При морфемном членении некоторых слов возможны ошибки. Об ошибках просим сообщать пользователей при помощи кнопки «‎Оценить». Обратите внимание, что членение слов на морфемы в корпусе может отличаться от привычного вам, в частности, принятого в школьных программах (см. «Принципы разметки»).

В разметке Основного корпуса нейросетевой механизм пока не используется, кроме того, в ней задействована более ранняя версия словаря морфемного анализа.

Принципы разметки

Словарь морфемного анализа НКРЯ составлялся на основании идеологии «Словаря морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой (М., 1986).  Принципы этой идеологии – значительная (хотя и не максимальная) дробность выделения морфем и соотносимость с другими лексемами аналогичного строения. Поэтому морфемное деление в разметке корпуса не совпадает с принятым, например, в школе. Например, в иностранных словах заимствованные основы членятся (например, ре-волюц-ия, интер-нет), если усматривается актуальное семантическое соответствие между ними и лексемами похожего строения (ср. э-волюц-ия, интра-нет).

Поиск

Поиск по морфемам задается в поле «Словообразование» лексико-грамматического поиска. По умолчанию этот параметр в форме запроса не выводится (его можно вывести, нажав на «добавить условие»).

При поиске по морфемам в НКРЯ следует задавать один или несколько из следующих параметров: буквенный состав морфемы, тип морфемы, линейную позицию. Если задать морфему бав, тип «корень» и позицию 3, то найдутся слова вдобавок или позабавить.

При поиске можно также выбрать параметр «‎с учетом чередования», добавляющий к морфеме ее алломорфы. Например, при поиске корня -ук- без этого параметра найдется только слово наука, а с этим параметром — еще и учить, ученый и т. д.

Разработчики

Разработчиками изначальной концепции словаря морфемного анализа были Е. А. Гришина, И. Б. Иткин, О. Н. Ляшевская и М. Г. Тагабилева, в дальнейшем словарь морфемного анализа дорабатывался О. Н. Ляшевской, Е. В. Кашкиным и Д. В. Сичинавой. Алгоритм нейросетевого анализа несловарных слов разработан Д. А. Морозовым и Т. А. Гариповым на основе архитектуры, предложенной А. А. Сорокиным.

Литература

Е. Гришина, И. Иткин, О. Ляшевская, М. Тагабилева. О задачах и методах словообразовательной разметки в корпусе текстов // Полярный вестник (Тромсё), 2009, № 12, с. 5–25

Sorokin, A., Kravtsova, A. Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language. In: Ustalov, D., Filchenkov, A., Pivovarova, L., Žižka, J. (eds) Artificial Intelligence and Natural Language. AINL 2018. Communications in Computer and Information Science, vol 930. Springer, Cham. https://doi.org/10.1007/978-3-030-01204-5_1

Обновлено