Для генерации морфемных разборов слов, отсутствующих в словарях, в НКРЯ используется модель с архитектурой на основе модели RuRoberta-large, дообученной для задачи морфемной сегментации. Мы подготовили две таких модели, различающиеся обучающей выборкой :
- для Основного корпуса используется модель, обученная на морфемном словаре Morphodict-K, разработанном специально для Корпуса на основании идеологии «Словаря морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой (М., 1986);
- для Обучающего корпуса обучена, но не интегрирована модель на словаре Morphodict-T, опирающемся на «Морфемно-орфографический словарь» А. Н. Тихонова (2002).
Эти словари различаются парадигмой деления слова на морфемы. Подробнее про принципы словообразовательной разметки, встречающейся в Корпусе, можно прочитать тут. Качество получившихся моделей мы оценили при помощи кросс-валидации (N=5) по пяти метрикам из работы А. Сорокина и А. Кравцовой.
Модель, использующаяся в НКРЯ сегодня, пришла на смену ансамблю свёрточных нейронных сетей, предложенному в работе А. Сорокина и А. Кравцовой. Упомянутый ансамбль обладает рядом преимуществ, например, его можно обучить и использовать без использования видеокарты. Однако при работе с незнакомыми корнями его качество заметно падает. Лучшего качества как при работе с незнакомыми корнями, так и в среднем нам удалось добиться при помощи дообучения модели RuRoBERTа. Актуальные версии моделей, дообученных/обученных для морфемного анализа, и код для их запуска можно скачать ниже.
|
|
CNN-T |
CNN-K |
Morphberta-T |
Morphberta-K |
|
Precision
|
97.79
|
98.58
|
98.69
|
99.04
|
|
Recall
|
98.38
|
98.74
|
98.84
|
99.17
|
|
F1
|
98.09
|
98.66
|
98.76
|
99.10
|
|
Accuracy
|
96.61
|
97.40
|
97.78
|
98.19
|
|
WordAccuracy
|
88.49
|
90.82
|
92.47
|
93.54
|
Для запуска моделей CNN-T и CNN-K потребуется скачать библиотеку. Установить необходимые ресурсы и запустить алгоритм можно при помощи скрипта mpe_morphemes.sh, лежащего в архиве с моделью. Скрипт запуска для моделей Morphberta-T и Morphberta-K, а также requirements.txt находятся в скачиваемом архиве с моделью.
Ансамбль свёрточных нейронных сетей, обученный на Morphodict-K: