Морфологическая разметка

Морфологический стандарт Национального корпуса русского языка

Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).

Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.

Нижеприведенное описание относится ко всем подкорпусам НКРЯ, содержащим текст на современном русском литературном (ориентированном на стандарт) языке, кроме Синтаксического корпуса СинТагРус, использующего собственный стандарт морфологической разметки.  В конце этой страницы стандарт Синтаксического корпуса описан отдельно. Определенные отклонения от базового стандарта имеются в Обучающем корпусе, разметка которого приближена к нормам морфологического анализа, принятого в средней школе.

Исторические корпуса, а также Панхронический и Диалектный корпус используют стандарты морфологической разметки, в своей основе близкие принятому в корпусах современного литературного языка, однако эти стандарты включают дополнительные специфические пометы и по-иному трактуют ряд общих с базовым стандартом помет.

 

Структура морфологической информации

Морфологическая информация, приписываемая произвольной словоформе в тексте, содержательно делится на четыре типа информации:

  1. Лексема (лемма), которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
  2. Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
  3. Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
  4. Информация о нестандартности грамматической формы, орфографических искажениях и т. п.

Большая часть этой информации дается в поле поискового запроса «Грамматические признаки». Словарная запись из типа (1) дается в поле поискового запроса «Лемма», часть информации типа (4)  — в поле «Доп. признаки».

Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном всплывающем окне при щелчке на словоформе курсором мыши.

В основу метаязыка грамматических помет положена система сокращенных помет («тегов») на основе латинского алфавита. Их можно вводить в соответствующее поле формы поиска с клавиатуры. В то же время предусмотрена возможность использования при поиске названий грамматических признаков на русском языке в форме «грамматические признаки». Кроме того, русские обозначения выводятся при щелчке по слову во всплывающем анализе слова в поисковой выдаче (если задан русский язык интерфейса).

Ниже приводим базовый инвентарь грамматических помет, используемых в корпусах текстов на современном русском литературном языке. Для пояснения в скобках даются примеры.

Части речи
Sсуществительное (яблоня, лошадь, корпус, вечность)
Aприлагательное (коричневый, таинственный, морской)
NUMчислительное (четыре, десять, много)
ANUMчислительное-прилагательное (один, седьмой, восьмидесятый)
Vглагол (пользоваться, обрабатывать)
ADVнаречие (сгоряча, очень)
PRAEDICпредикатив (жаль, хорошо, пора)
PARENTHвводное слово (кстати, по-моему)
SPROместоимение-существительное (она, что)
APROместоимение-прилагательное (который, твой)
ADVPROместоименное наречие (где, вот)
PRAEDICPROместоимение-предикатив (некого, нечего)
PRпредлог (под, напротив)
CONJсоюз (и, чтобы)
PARTчастица (бы, же, пусть)
INTJмеждометие (увы, батюшки)
INITзапись в виде инициалов (Р., NN)
NONLEXне разбираемые последовательности символов (hello, №, %)

 

Значения грамматических категорий

Род
mмужской род (работник, стол)
fженский род (работница, табуретка)
m-f«общий род» (задира, пьяница)
nсредний род (животное, озеро)
Одушевленность
animодушевленность (человек, ангел, утопленник)
inanнеодушевленность (рука, облако, культура)
Число
sgединственное число (яблоко, гордость)
plмножественное число (яблоки, ножницы, детишки)
Падеж
nomименительный падеж (голова, сын, степь, сани, который)
genродительный падеж (головы, сына, степи, саней, которого)
datдательный падеж (голове, сыну, степи, саням, которому)
accвинительный падеж (голову, сына, степь, сани, который/которого)
insтворительный падеж (головой, сыном, степью, санями, которым)
locпредложный падеж ([о] голове, сыне, степи, санях, котором)
gen2второй родительный падеж (чашка чаю)
acc2второй винительный падеж (постричься в монахи; по два человека)
loc2второй предложный падеж (в лесу, на оси́)
vocзвательная форма (Господи, Серёж, ребят)
adnumсчётная форма (два часа́, три шара́)
Краткая/полная форма
brevкраткая форма (высок, нежна, прочны, рад)
plenполная форма (высокий, нежная, прочные, морской)
Степень сравнения
compсравнительная степень (глубже)
comp2форма «по+сравнительная степень» (поглубже)
suprпревосходная степень (глубочайший)
Вид
pfсовершенный вид (пошёл, встречу)
ipfнесовершенный вид (ходил, встречаю)
Переходность
intrнепереходность (ходить, вариться)
tranпереходность (вести, варить)
Залог
actдействительный залог (разрушил, разрушивший)
passстрадательный залог (только у причастий: разрушаемый, разрушенный)
medмедиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.)
Форма (репрезентация) глагола
infинфинитив (украшать)
partcpпричастие (украшенный)
gerдеепричастие (украшая)
Наклонение
indicизъявительное наклонение (украшаю, украшал, украшу)
imperповелительное наклонение (украшай)
imper2форма повелительного наклонения 1 л. мн. ч. на -те (идемте)
Время
praetпрошедшее время (украшали, украшавший, украсив)
praesнастоящее время (украшаем, украшающий, украшая)
futбудущее время (украсим)
Лицо
1pпервое лицо (украшаю)
2pвторое лицо (украшаешь)
3pтретье лицо (украшает)
Прочие признаки
persnличное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли)
patrnотчество (Иванович, Павловна)
famnфамилия (Николаев, Волконская, Гумбольдт)
zoonкличка животного (Шарик, Дочка)
0несклоняемое (шоссе, Седых)

Часть указанных помет (а именно, инициал, второй винительный падеж, счётная форма, зооним) присутствуют только в корпусах со снятой грамматической омонимией. Помета «общий род» присутствует только в текстах со снятой вручную омонимией из Основного корпуса (в свою очередь, в них отсутствует помета «превосходная степень»).

 

Множественные разборы

Часть корпусов текстов на современном литературном языке (прежде всего Основной) содержит тексты со снятой, вручную или автоматически, грамматической и лексической омонимией. В других таких корпусах (например, Устный, Поэтический, русские тексты Параллельного) морфологическая омонимия не снята, то есть при одной и той же словоформе указываются все возможные разборы. Доступна такая опция поиска и при работе с корпусами, где омонимия по умолчанию снята.

Тем не менее в отдельных случаях допускается обусловленное реальной неоднозначностью указание у одной и той же словоформы нескольких разборов даже в текстах Основного корпуса со снятой вручную омонимией, а именно:

  • Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).

  • Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — исходная форма СПАЗМ/СПАЗМА и т. п.)

 

Информация о нестандартности и особенностях записи

Предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы. 

  • anom («Аномальная форма») — различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)

  • distort («Искаженная форма») — орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).

  • ciph («Цифровая запись») — запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).

  • abbr («Сокращение») — сокращенная запись (тов., гг., ч.). Эту помету получают также инициалы (см. ниже)

Кроме того, в поле «Доп. признаки» используется особая помета bastard для несловарной формы, не входящей в словарь автоматического анализатора MyStem.  Словарные формы обозначены в том же поле пометой norm.

 

Корпусный словарь неоднословных лексических единиц

В морфологической разметке Корпуса свой разбор имеет каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса входит также словарь неоднословных лексических единиц (оборотов) — таких, как предложный оборот во имя, наречный оборот без запинки, вводный оборот таким образом и т. п. Они сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.

Перейти на страницу словаря неоднословных единиц.

Морфологическая разметка в Синтаксическом корпусе

Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписаны часть речи и морфологические характеристики, т.е. значения соответствующих морфологических категорий. 

В настоящее время список морфологических характеристик и категорий несколько отличается от набора категорий и характеристик, используемого в основном морфологическом стандарте НКРЯ. В частности, по техническим причинам морфологические характеристики в Синтаксическом корпусе, в отличие от морфологического стандарта НКРЯ, записываются кириллицей.

Так, структура словоформы "читавшуюся" имеет следующий вид:

читавшуюся → ЧИТАТЬ, V, прич, несов, прош, страд, ед, жен, вин.

V здесь обозначает глагол, прич – причастие, несов – несовершенный вид, прош – прошедшее время, страд – страдательный залог, жен – женский род, ед – единственное число, вин – винительный падеж.

Ниже приводится полный список частей речи, русских морфологических категорий и характеристик, а также принятых для них условных обозначений. 

Часть речи
Vглагол: работать, нравиться
Sсуществительное: завод, я
Aприлагательное: новый, мой, второй
ADVнаречие: плохо, отчасти
NUMчислительное: пять, 2
PRпредлог: в, между, вопреки
CONJсоюз: и, что, как
PARTчастица: бы, ли, только
INTJмеждометие: ого, увы, эх
COMкомпозит: вице, квази, экс, ультра и другие элементы, употребляющиеся в составе сложных слов
NIDслово, представляющее собой иноязычное вкрапление в русский текст или несловесную формулу: Берлинер Цайтунг, Berliner Zeitung, Щ243
 

Местоимения не рассматриваются как особая часть речи, поскольку по морфологическим (способы словоизменения) и синтаксическим свойствам они примыкают к существительным (я, кто, который), прилагательным (мой, какой) или наречиям (там, куда).

Слова типа первый, сотый и т.д., традиционно определяемые как порядковые числительные, в корпусе считаются прилагательными.

Одушевленность
ододушевленное слово
неоднеодушевленное слово

Категория одушевленности характеризует существительные, прилагательные, числительные, а также причастия. Для существительных одушевленность, будучи классифицирующей грамматической категорией, указывается всегда, для прилагательных, числительных и причастий — только в случае винительного падежа, когда они имеют разные окончания в зависимости от того, к какому существительному относятся. Эта разница релевантна для прилагательных и причастий мужского рода единственного числа: Вижу красивый [муж, ед, вин, неод] дом — Вижу красивого [муж, ед, вин, од] мальчика, и для прилагательных и причастий множественного числа: Вижу летящие [мн, вин, неод] самолеты — Вижу летящих [мн, вин, од] журавлей.

Род
мужмужской род
женженский род
средсредний род
Число
едединственное число
мнмножественное число
Падеж
имименительный падеж
родродительный падеж
партпартитивный (второй родительный) падеж: дайте чаю, кофейку, сахарку
датдательный падеж
винвинительный падеж
твортворительный падеж
прпредложный падеж
местнместный (второй предложный) падеж: (в) лесу, (на) снегу
звзвательный падеж: Боже, отче, Вань, мам

Партитивный, местный и звательный падежи указываются только для существительных, у которых эти формы графически отличаются, соответственно, от форм родительного, предложного и именительного падежей. Для других частей речи партитивный, местный и звательный падежи не постулируются. Ср.: горячего [род] чаю [парт], в глубоком [пр] снегу [местн], Боже [зв] мой [им].

Степень сравнения
сравсравнительная степень прилагательных и наречий
превпревосходная степень прилагательных

Положительная степень сравнения в явном виде не указывается: она характеризуется отсутствием характеристик срав и прев. Степень сравнения указывается только тогда, когда она образуется синтетически (лучше, сильнее, короче; лучший, наилучший, сильнейший, кратчайший). Аналитические степени сравнения (более сильный, самый сильный) характеризуют словосочетания, а не отдельные словоформы.

Краткость
кркраткая форма прилагательного или причастия: короток, рассмотрен

Полная форма прилагательного или причастия не указывается в явном виде и характеризуется отсутствием характеристики кр.

Репрезентация
инфинфинитив
причпричастие
деепрдеепричастие

Личная форма глагола (четвертое значение категории репрезентации) не указывается в явном виде и характеризуется отсутствием характеристик инфприч и деепр.

Наклонение
изъявизъявительное наклонение
повповелительное наклонение

Сослагательное наклонение в русском языке (поехал бы) выражается только аналитически и характеризует словосочетания, а не отдельные словоформы.

Вид
несовнесовершенный вид
совсовершенный вид

Заметим, что в Синтаксическом корпусе категория вида считается словоизменительной: глаголы приходить-прийти или читать-прочитать относятся к единым парадигмам.

Время
непрошнепрошедшее (настоящее-будущее) время: читаю, прочитаю
прошпрошедшее время: читал, прочитал, был
настнастоящее время: есть, суть

Настоящее время приписывается только глаголу быть в личной форме.

Лицо
1-лпервое лицо
2-лвторое лицо
3-лтретье лицо

Характеристики лица приписываются только глаголам. Личным местоименным существительным, для которых категория лица не является словоизменительной, эти характеристики не приписываются.

Залог
страдстрадательный залог: читается, читаемый, читанный, читавшийся

Действительный залог не указывается в явном виде и характеризуется отсутствием пометы страд. Никакие другие залоги (взаимный, медиальный, возвратный) в морфологическом представлении Синтаксического корпуса не отмечаются.

Дополнительные характеристики
слформа, используемая в словосложении: водо, турецко, физико, дву, гос

Словоформы с характеристикой сл могут входить в состав парадигм существительных (вода – водо, нефть – нефте), прилагательных (турецкий – турецко, физический – физико, государственный - гос) или числительных (два – дву). Обычно они выступают в составе сложных слов: водоснабжение, турецко-русский, физико-технический, господдержка, однако иногда встречаются и отдельно, в основном в составе однородных конструкций (водо- и теплоснабжение, турецко- и персидско-русские словари). Необходимо отличать словоформы существительных, прилагательных, числительных, имеющие характеристику сл, от композитов, т.е. слов, принадлежащих части речи COM: в отличие от первых, парадигмы композитов состоят из единственной словоформы, и их леммы совпадают с этой словоформой. Композиты также используются в словосложении (анти, контр, противо, про, квази, вице, теле, авиа, видео и пр.) и также могут выступать как в составе сложных слов (антитеррористический), так и отдельно (авиа- и железнодорожные перевозки).

смягсмягченная сравнительная степень прилагательных и наречий с приставкой по: поумнее, пораньше

Таким формам, наряду с характеристикой смяг, приписана и характеристика срав.

Следует добавить, что в морфологической разметке Синтаксического корпуса действуют  строгие ограничения на комбинации граммем. В частности, не допускается дублирование граммем в одном морфологическом разборе и не может быть двух граммем, относящихся к одной грамматической категории.

Обновлено