Морфологическая разметка
Морфологический стандарт Национального корпуса русского языка

Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).

Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.

Нижеприведенное описание относится ко всем подкорпусам НКРЯ, содержащим текст на современном русском литературном языке, кроме синтаксического корпуса СинТагРус, использующего собственный стандарт морфологической разметки.

Структура морфологической информации

Морфологическая информация, приписываемая произвольному слову в тексте, состоит из четырех «полей», или групп помет:

  1.  Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
  2.  Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
  3.  Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
  4.  Информация о нестандартности грамматической формы, орфографических искажениях и т. п.

Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном окне при щелчке на словоформе курсором мыши.

В основу метаязыка грамматических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе латинского алфавита. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «грамматические признаки»).

Ниже приводим инвентарь всех используемых в корпусе грамматических помет. Для пояснения в скобках даются примеры.

Части речи
Sсуществительное (яблоня, лошадь, корпус, вечность)
Aприлагательное (коричневый, таинственный, морской)
NUMчислительное (четыре, десять, много)
ANUMчислительное-прилагательное (один, седьмой, восьмидесятый)
Vглагол (пользоваться, обрабатывать)
ADVнаречие (сгоряча, очень)
PRAEDICпредикатив (жаль, хорошо, пора)
PARENTHвводное слово (кстати, по-моему)
SPROместоимение-существительное (она, что)
APROместоимение-прилагательное (который, твой)
ADVPROместоименное наречие (где, вот)
PRAEDICPROместоимение-предикатив (некого, нечего)
PRпредлог (под, напротив)
CONJсоюз (и, чтобы)
PARTчастица (бы, же, пусть)
INTJмеждометие (увы, батюшки)
Значения грамматических категорий
Род
mмужской род (работник, стол)
fженский род (работница, табуретка)
m-f«общий род» (задира, пьяница)
nсредний род (животное, озеро)
Одушевленность
animодушевленность (человек, ангел, утопленник)
inanнеодушевленность (рука, облако, культура)
Число
sgединственное число (яблоко, гордость)
plмножественное число (яблоки, ножницы, детишки)
Падеж
nomименительный падеж (голова, сын, степь, сани, который)
genродительный падеж (головы, сына, степи, саней, которого)
datдательный падеж (голове, сыну, степи, саням, которому)
dat2дистрибутивный дательный ([по] многу, нескольку, стольку)
accвинительный падеж (голову, сына, степь, сани, который/которого)
insтворительный падеж (головой, сыном, степью, санями, которым)
locпредложный падеж ([о] голове, сыне, степи, санях, котором)
gen2второй родительный падеж (чашка чаю)
acc2второй винительный падеж (постричься в монахи; по два человека)
loc2второй предложный падеж (в лесу, на оси́)
vocзвательная форма (Господи, Серёж, ребят)
adnumсчётная форма (два часа́, три шара́)
Краткая/полная форма
brevкраткая форма (высок, нежна, прочны, рад)
plenполная форма (высокий, нежная, прочные, морской)
Степень сравнения
compсравнительная степень (глубже)
comp2форма «по+сравнительная степень» (поглубже)
suprпревосходная степень (глубочайший)
Вид
pfсовершенный вид (пошёл, встречу)
ipfнесовершенный вид (ходил, встречаю)
Переходность
intrнепереходность (ходить, вариться)
tranпереходность (вести, варить)
Залог
actдействительный залог (разрушил, разрушивший)
passстрадательный залог (только у причастий: разрушаемый, разрушенный)
medмедиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.)
Форма (репрезентация) глагола
infинфинитив (украшать)
partcpпричастие (украшенный)
gerдеепричастие (украшая)
Наклонение
indicизъявительное наклонение (украшаю, украшал, украшу)
imperповелительное наклонение (украшай)
imper2форма повелительного наклонения 1 л. мн. ч. на -те (идемте)
Время
praetпрошедшее время (украшали, украшавший, украсив)
praesнастоящее время (украшаем, украшающий, украшая)
futбудущее время (украсим)
Лицо
1pпервое лицо (украшаю)
2pвторое лицо (украшаешь)
3pтретье лицо (украшает)
Прочие признаки
persnличное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли)
patrnотчество (Иванович, Павловна)
famnфамилия (Николаев, Волконская, Гумбольдт)
zoonкличка животного (Шарик, Дочка)
0несклоняемое (шоссе, Седых)

Часть указанных помет (а именно, второй винительный падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма по+сравнительная степень, общий род, зооним) присутствуют только в корпусе со снятой грамматической омонимией.

Множественные разборы
В большинстве русских текстов в составе НКРЯ морфологическая омонимия не снята (то есть при одной и той же словоформе указываются все возможные разборы). В меньшей части Основного корпуса НКРЯ (около 6 млн словоупотреблений) морфологическая омонимия снята вручную.

Тем не менее и в отдельных случаях в морфологической разметке допускается указание у одной и той же словоформы нескольких разборов даже в текстах со снятой омонимией, а именно:

  • Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).

  • Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — исходная форма СПАЗМ/СПАЗМА и т. п.)
Информация о нестандартности и особенностях записи

В корпусе со снятой грамматической омонимией предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы. Отсутствие таких особенностей обозначается пометой normal.

  • anom («Аномальная форма») — различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)

  • distort («Искаженная форма») — орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).

  • ciph («Цифровая запись») — запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).

  • INIT («Инициал») — запись вида «заглавная буква с точкой» (М., Р.). В поле «Лексема» инициал не раскрывается; грамматические признаки не указываются.

  • abbr («Сокращение») — сокращенная запись (тов., гг., ч.). В поле «Лексема» сокращение (кроме инициалов) раскрывается, указывается грамматическая форма, соответствующая контексту. Специально отметим, что акронимы вроде ООН, вуз и усеченные слова вроде зав, зам, записываемые без точки и не раскрываемые при чтении, не получают пометы abbr и трактуются как обычные слова (склоняемые или несклоняемые).

Кроме того, в корпусе с неснятой грамматической омонимией используется особая помета (bastard) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.

Корпусный словарь неоднословных лексических единиц

В морфологической разметке Корпуса свой разбор имеет каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса входит также словарь неоднословных лексических единиц (оборотов) — таких, как предложный оборот во имя, наречный оборот без запинки, вводный оборот таким образом и т. п. Они сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.

Перейти на страницу словаря неоднословных единиц.

Обновлено