Морфологический стандарт Национального корпуса русского языка
Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).
Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.
Нижеприведенное описание относится ко всем подкорпусам НКРЯ, содержащим текст на современном русском литературном (ориентированном на стандарт) языке, кроме Синтаксического корпуса СинТагРус, использующего собственный стандарт морфологической разметки. В конце этой страницы стандарт Синтаксического корпуса описан отдельно. Определенные отклонения от базового стандарта имеются в Обучающем корпусе, разметка которого приближена к нормам морфологического анализа, принятого в средней школе.
Исторические корпуса, а также Панхронический и Диалектный корпус используют стандарты морфологической разметки, в своей основе близкие принятому в корпусах современного литературного языка, однако эти стандарты включают дополнительные специфические пометы и по-иному трактуют ряд общих с базовым стандартом помет.
Структура морфологической информации
Морфологическая информация, приписываемая произвольной словоформе в тексте, содержательно делится на четыре типа информации:
- Лексема (лемма), которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
- Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
- Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
- Информация о нестандартности грамматической формы, орфографических искажениях и т. п.
Большая часть этой информации дается в поле поискового запроса «Грамматические признаки». Словарная запись из типа (1) дается в поле поискового запроса «Лемма», часть информации типа (4) — в поле «Доп. признаки».
Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном всплывающем окне при щелчке на словоформе курсором мыши.
В основу метаязыка грамматических помет положена система сокращенных помет («тегов») на основе латинского алфавита. Их можно вводить в соответствующее поле формы поиска с клавиатуры. В то же время предусмотрена возможность использования при поиске названий грамматических признаков на русском языке в форме «грамматические признаки». Кроме того, русские обозначения выводятся при щелчке по слову во всплывающем анализе слова в поисковой выдаче (если задан русский язык интерфейса).
Ниже приводим базовый инвентарь грамматических помет, используемых в корпусах текстов на современном русском литературном языке. Для пояснения в скобках даются примеры.
S | существительное (яблоня, лошадь, корпус, вечность) |
---|---|
A | прилагательное (коричневый, таинственный, морской) |
NUM | числительное (четыре, десять, много) |
ANUM | числительное-прилагательное (один, седьмой, восьмидесятый) |
V | глагол (пользоваться, обрабатывать) |
ADV | наречие (сгоряча, очень) |
PRAEDIC | предикатив (жаль, хорошо, пора) |
PARENTH | вводное слово (кстати, по-моему) |
SPRO | местоимение-существительное (она, что) |
APRO | местоимение-прилагательное (который, твой) |
ADVPRO | местоименное наречие (где, вот) |
PRAEDICPRO | местоимение-предикатив (некого, нечего) |
PR | предлог (под, напротив) |
CONJ | союз (и, чтобы) |
PART | частица (бы, же, пусть) |
INTJ | междометие (увы, батюшки) |
INIT | запись в виде инициалов (Р., NN) |
NONLEX | не разбираемые последовательности символов (hello, №, %) |
Значения грамматических категорий
m | мужской род (работник, стол) |
---|---|
f | женский род (работница, табуретка) |
m-f | «общий род» (задира, пьяница) |
n | средний род (животное, озеро) |
anim | одушевленность (человек, ангел, утопленник) |
---|---|
inan | неодушевленность (рука, облако, культура) |
sg | единственное число (яблоко, гордость) |
---|---|
pl | множественное число (яблоки, ножницы, детишки) |
nom | именительный падеж (голова, сын, степь, сани, который) |
---|---|
gen | родительный падеж (головы, сына, степи, саней, которого) |
dat | дательный падеж (голове, сыну, степи, саням, которому) |
acc | винительный падеж (голову, сына, степь, сани, который/которого) |
ins | творительный падеж (головой, сыном, степью, санями, которым) |
loc | предложный падеж ([о] голове, сыне, степи, санях, котором) |
gen2 | второй родительный падеж (чашка чаю) |
acc2 | второй винительный падеж (постричься в монахи; по два человека) |
loc2 | второй предложный падеж (в лесу, на оси́) |
voc | звательная форма (Господи, Серёж, ребят) |
adnum | счётная форма (два часа́, три шара́) |
brev | краткая форма (высок, нежна, прочны, рад) |
---|---|
plen | полная форма (высокий, нежная, прочные, морской) |
comp | сравнительная степень (глубже) |
---|---|
comp2 | форма «по+сравнительная степень» (поглубже) |
supr | превосходная степень (глубочайший) |
pf | совершенный вид (пошёл, встречу) |
---|---|
ipf | несовершенный вид (ходил, встречаю) |
intr | непереходность (ходить, вариться) |
---|---|
tran | переходность (вести, варить) |
act | действительный залог (разрушил, разрушивший) |
---|---|
pass | страдательный залог (только у причастий: разрушаемый, разрушенный) |
med | медиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.) |
inf | инфинитив (украшать) |
---|---|
partcp | причастие (украшенный) |
ger | деепричастие (украшая) |
indic | изъявительное наклонение (украшаю, украшал, украшу) |
---|---|
imper | повелительное наклонение (украшай) |
imper2 | форма повелительного наклонения 1 л. мн. ч. на -те (идемте) |
praet | прошедшее время (украшали, украшавший, украсив) |
---|---|
praes | настоящее время (украшаем, украшающий, украшая) |
fut | будущее время (украсим) |
1p | первое лицо (украшаю) |
---|---|
2p | второе лицо (украшаешь) |
3p | третье лицо (украшает) |
persn | личное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли) |
---|---|
patrn | отчество (Иванович, Павловна) |
famn | фамилия (Николаев, Волконская, Гумбольдт) |
zoon | кличка животного (Шарик, Дочка) |
0 | несклоняемое (шоссе, Седых) |
Часть указанных помет (а именно, инициал, второй винительный падеж, счётная форма, зооним) присутствуют только в корпусах со снятой грамматической омонимией. Помета «общий род» присутствует только в текстах со снятой вручную омонимией из Основного корпуса (в свою очередь, в них отсутствует помета «превосходная степень»).
Множественные разборы
Часть корпусов текстов на современном литературном языке (прежде всего Основной) содержит тексты со снятой, вручную или автоматически, грамматической и лексической омонимией. В других таких корпусах (например, Устный, Поэтический, русские тексты Параллельного) морфологическая омонимия не снята, то есть при одной и той же словоформе указываются все возможные разборы. Доступна такая опция поиска и при работе с корпусами, где омонимия по умолчанию снята.
Тем не менее в отдельных случаях допускается обусловленное реальной неоднозначностью указание у одной и той же словоформы нескольких разборов даже в текстах Основного корпуса со снятой вручную омонимией, а именно:
Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).
- Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — исходная форма СПАЗМ/СПАЗМА и т. п.)
Информация о нестандартности и особенностях записи
Предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы.
anom («Аномальная форма») — различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)
distort («Искаженная форма») — орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).
ciph («Цифровая запись») — запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).
abbr («Сокращение») — сокращенная запись (тов., гг., ч.). Эту помету получают также инициалы (см. ниже)
Кроме того, в поле «Доп. признаки» используется особая помета bastard для несловарной формы, не входящей в словарь автоматического анализатора MyStem. Словарные формы обозначены в том же поле пометой norm.
Корпусный словарь неоднословных лексических единиц
В морфологической разметке Корпуса свой разбор имеет каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса входит также словарь неоднословных лексических единиц (оборотов) — таких, как предложный оборот во имя, наречный оборот без запинки, вводный оборот таким образом и т. п. Они сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.