Морфологический стандарт Национального корпуса русского языка
Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; 4-е изд., М., 2003).
Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.
Структура морфологической информации
Морфологическая информация, приписываемая произвольному слову в тексте, состоит из четырех «полей», или групп помет:
-
Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
-
Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
-
Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
-
Информация о нестандартности грамматической формы, орфографических искажениях и т. п.
Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном окне при щелчке на словоформе курсором мыши.
В основу метаязыка грамматических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе латинского алфавита. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «грамматические признаки»).
Ниже приводим инвентарь всех используемых в корпусе грамматических помет. Для пояснения в скобках даются примеры.
Части речи
S существительное (яблоня, лошадь, корпус, вечность)
A прилагательное (коричневый, таинственный, морской)
NUM числительное (четыре, десять, много)
ANUM числительное-прилагательное (один, седьмой, восьмидесятый)
V глагол (пользоваться, обрабатывать)
ADV наречие (сгоряча, очень)
PRAEDIC предикатив (жаль, хорошо, пора)
PARENTH вводное слово (кстати, по-моему)
SPRO местоимение-существительное (она, что)
APRO местоимение-прилагательное (который, твой)
ADVPRO местоименное наречие (где, вот)
PRAEDICPRO местоимение-предикатив (некого, нечего)
PR предлог (под, напротив)
CONJ союз (и, чтобы)
PART частица (бы, же, пусть)
INTJ междометие (увы, батюшки)
Значения грамматических категорий
Род:
m мужской род (работник, стол)
f женский род (работница, табуретка)
m-f «общий род» (задира, пьяница)
n средний род (животное, озеро)
Одушевленность:
anim одушевленность (человек, ангел, утопленник)
inan неодушевленность (рука, облако, культура)
Число:
sg единственное число (яблоко, гордость)
pl множественное число (яблоки, ножницы, детишки)
Падеж:
nom именительный падеж (голова, сын, степь, сани, который)
gen родительный падеж (головы, сына, степи, саней, которого)
dat дательный падеж (голове, сыну, степи, саням, которому)
dat2 дистрибутивный дательный ([по] многу, нескольку, стольку)
acc винительный падеж (голову, сына, степь, сани, который/которого)
ins творительный падеж (головой, сыном, степью, санями, которым)
loc предложный падеж ([о] голове, сыне, степи, санях, котором)
gen2 второй родительный падеж (чашка чаю)
acc2 второй винительный падеж (постричься в монахи; по два человека)
loc2 второй предложный падеж (в лесу, на оси́)
voc звательная форма (Господи, Серёж, ребят)
adnum счётная форма (два часа́, три шара́)
Краткая/полная форма:
brev краткая форма (высок, нежна, прочны, рад)
plen полная форма (высокий, нежная, прочные, морской)
Степень сравнения:
comp сравнительная степень (глубже)
comp2 форма «по+сравнительная степень» (поглубже)
supr превосходная степень (глубочайший)
Вид:
pf совершенный вид (пошёл, встречу)
ipf несовершенный вид (ходил, встречаю)
Переходность:
intr непереходность (ходить, вариться)
tran переходность (вести, варить)
Залог:
act действительный залог (разрушил, разрушивший)
pass страдательный залог (только у причастий: разрушаемый, разрушенный)
med медиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.)
Форма (репрезентация) глагола:
inf инфинитив (украшать)
partcp причастие (украшенный)
ger деепричастие (украшая)
Наклонение:
indic изъявительное наклонение (украшаю, украшал, украшу)
imper повелительное наклонение (украшай)
imper2 форма повелительного наклонения 1 л. мн. ч. на -те (идемте)
Время:
praet прошедшее время (украшали, украшавший, украсив)
praes настоящее время (украшаем, украшающий, украшая)
fut будущее время (украсим)
Лицо:
1p первое лицо (украшаю)
2p второе лицо (украшаешь)
3p третье лицо (украшает)
Прочие признаки:
persn личное имя (Иван, Дарья, Леопольд, Эстер, Гомер, Маугли)
patrn отчество (Иванович, Павловна)
famn фамилия (Николаев, Волконская, Гумбольдт)
zoon кличка животного (Шарик, Дочка)
0 несклоняемое (шоссе, Седых)
Часть указанных помет (а именно, второй винительный падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма по+сравнительная степень, общий род, зооним) присутствуют только в корпусе со снятой грамматической омонимией.
Множественные разборы
В отдельных случаях в морфологической разметке допускается указание у одной и той же словоформы нескольких разборов, а именно:
-
Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как лексема-прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).
-
Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца gen/acc; манекену anim/inan; спазмами исходная форма СПАЗМ/СПАЗМА и т. п.)
Информация о нестандартности и особенностях записи
В корпусе со снятой грамматической омонимией предусмотрен ряд помет, указывающих на нестандартность и/или особенности записи входящей в Корпус словоформы. Отстутствие таких особенностей обозначается пометой normal.
anom («Аномальная форма») различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни при нормативном три дня, ляжь при нормативном ляг)
distort («Искаженная форма») орфографическое и/или фонетическое искажение слова, часто передающее различные особенности произношения (дэвушка, това’ищи, про-хо-ди, низнаю).
ciph («Цифровая запись») запись числительного, числительного-прилагательного или прилагательного (полностью или частично) при помощи цифр (73, LXXIII, 73-й, 22-летний). Для этих словоформ в поле «Лексема» также употребляется цифровая запись; число и падеж указываются только в тех случаях, когда выписано окончание (типа 14-му).
INIT («Инициал») запись вида «заглавная буква с точкой» (М., Р.). В поле «Лексема» инициал не раскрывается; грамматические признаки не указываются.
abbr («Сокращение») сокращенная запись (тов., гг., ч.). В поле «Лексема» сокращение (кроме инициалов) раскрывается, указывается грамматическая форма, соответствующая контексту. Специально отметим, что акронимы вроде ООН, вуз и усеченные слова вроде зав, зам, записываемые без точки и не раскрываемые при чтении, не получают пометы abbr и трактуются как обычные слова (склоняемые или несклоняемые).
Кроме того, в корпусе с неснятой грамматической омонимией используется особая помета (bastard) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.
Корпусной словарь неоднословных лексических единиц
В морфологической разметке Корпуса свой разбор имеет каждое орфографическое слово (отделяемое пробелом). Однако в состав Корпуса входит также словарь неоднословных лексических единиц (оборотов) — таких, как предложный оборот во имя, наречный оборот без запинки, вводный оборот таким образом и .т. .п. Они сгруппированы по синтаксическим (частеречным) функциям. В словаре указана частотность каждой лексической единицы, а также имеется возможность перейти к контекстам Корпуса с данным оборотом.
Перейти на страницу словаря неоднословных единиц.
|