Принципы разметки
Словарь морфемного анализа Основного корпуса НКРЯ составлялся на основании идеологии «Словаря морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой (М., 1986). Принципы этой идеологии — значительная (хотя и не максимальная) дробность выделения морфем и соотносимость с другими лексемами аналогичного строения. Поэтому морфемное деление в разметке корпуса не совпадает с принятым, например, в школе. В исконных словах могут выделяться морфемы, даже если слово без них употребляется маргинально (у-лыб-а-ть-ся, ср. у-смех-а-ть-ся). или если мотивированность этимологии слова для современного носителя неочевидна (на-сек-ом-ое, вос-точ-н-ый). В иностранных словах заимствованные основы членятся (например, ре-волюц-и-я, квит-анци-я), если усматривается семантическое и структурное соответствие между ними и лексемами похожего строения (ср. э-волюц-и-я, рас-квит-а-ть-ся). Разбираются в том числе и служебные части речи, а также имена собственные и производные от них.
В Обучающем корпусе морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе. При этом используется более жесткий подход к определению того, какие смысловые связи являются прозрачными в современном языке, и, как правило, выделяется меньшее число морфем, чем в Основном корпусе: например, указанные выше слова анализируются как улыб-а-ть-ся, насеком-ое, восточ-н-ый, революци-я, квитанци-я. В портрете слова, представленном в Обучающем корпусе, дается морфемное строение только слов, относящихся к знаменательным частям речи, — нарицательным существительным, прилагательным, глаголам и наречиям. Разметка морфем в Обучающем корпусе, как уже сказано выше, опирается на «Морфемно-орфографический словарь» А. Н. Тихонова (2002), содержащий около 100 тыс лексем.