Словарная и автоматическая разметка
В основе разметки словообразовательной структуры лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на май 2023 года даны разборы для 75 тыс. лексем (310 тысяч неуникальных морфем). Для каждого слова указан список морфем, их тип (приставка, корень, интерфикс, суффикс или постфикс) и линейная позиция в слове.
Информация о морфемном составе слова в сервисе «Портрет слова» дополнена автоматически построенной разметкой морфемной структуры лемм, отсутствующих в словаре морфемного анализа, в том числе и довольно частотных. Например, слово гарантировать отсутствует в словаре морфемного анализа, так что его членение (гарант-ирова-ть) предсказано алгоритмом.
Автоматические разборы сгенерированы нейросетевым алгоритмом, ядром которого является свёрточная нейросеть, архитектура которой предложена А. А. Сорокиным. Такие разборы снабжены специальным признаком «сгенерировано НейроКРЯ».
При морфемном членении некоторых слов возможны ошибки. Об ошибках просим сообщать пользователей при помощи кнопки «Оценить». Обратите внимание, что членение слов на морфемы в корпусе может отличаться от привычного вам, в частности, принятого в школьных программах (см. «Принципы разметки»).
В разметке Основного корпуса нейросетевой механизм пока не используется, кроме того, в ней задействована более ранняя версия словаря морфемного анализа.