Корпус
  • 1304 текста
  • 109 886 предложений
  • 1 568 027 слов
омонимия снята, синтаксически размечен
Корпус: Синтаксический
Синтаксический корпус

Данный фрагмент Национального корпуса русского языка, известный также под названием СинТагРус (Syntactically Tagged Russian Text corpus), разработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН им. А.А.Харкевича.

Синтаксический корпус состоит из текстов двух основных типов:

  • научно-популярные, общественно-политические и информационные статьи из журналов и интернет-изданий (с 1980 г. по настоящее время);
  • русская художественная проза второй половины XX в. —начала XXI века

Разметка корпуса производится в полуавтоматическом режиме. Сначала каждый текст обрабатывается морфологическим и синтаксическим анализаторами многоцелевого лингвистического процессора ЭТАП, разработанного Лабораторией компьютерной лингвистики, в результате чего для каждого предложения строится его морфологическая и синтаксическая структура. Затем полученный результат проверяется лингвистами-экспертами и при необходимости корректируется ими.

Синтаксический корпус содержит тексты, снабженные полной морфосинтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура в виде дерева зависимостей. В узлах этой структуры стоят слова предложения, а дуги помечены именами синтаксических отношений.

В отличие от большинства фрагментов Национального корпуса русского языка, снабженных морфологической разметкой, Синтаксический корпус состоит из структур с полностью снятой морфологической и синтаксической омонимией. Это означает, что каждому слову текста сопоставляется единственная морфологическая структура, а каждому предложению ставится в соответствие единственная синтаксическая структура.

Помимо морфосинтаксической разметки, Синтаксический корпус содержит несколько дополнительных типов разметки.

Морфологическая разметка

Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписаны часть речи и морфологические характеристики, т.е. значения соответствующих морфологических категорий. 

В настоящее время список морфологических характеристик и категорий несколько отличается от набора категорий и характеристик, используемого в основном морфологическом стандарте НКРЯ. В частности, по техническим причинам морфологические характеристики в Синтаксическом корпусе, в отличие от морфологического стандарта НКРЯ, записываются кириллицей.

Так, структура словоформы "читавшуюся" имеет следующий вид:

читавшуюся → ЧИТАТЬ, V, прич, несов, прош, страд, ед, жен, вин.

V здесь обозначает глагол, прич – причастие, несов – несовершенный вид, прош – прошедшее время, страд – страдательный залог, жен – женский род, ед – единственное число, вин – винительный падеж.

Ниже приводится полный список частей речи, русских морфологических категорий и характеристик, а также принятых для них условных обозначений.

О морфологической разметке в других корпусах НКРЯ см. соответствующее описание.

Часть речи
V глагол: работать, нравиться
S существительное: завод, я
A прилагательное: новый, мой, второй
ADV наречие: плохо, отчасти
NUM числительное: пять, 2
PR предлог: в, между, вопреки
CONJ союз: и, что, как
PART частица: бы, ли, только
INTJ междометие: ого, увы, эх
COM композит: вице, квази, экс, ультра и другие элементы, употребляющиеся в составе сложных слов
NID слово, представляющее собой иноязычное вкрапление в русский текст или несловесную формулу: Берлинер Цайтунг, Berliner Zeitung, Щ243
 

Местоимения не рассматриваются как особая часть речи, поскольку по морфологическим (способы словоизменения) и синтаксическим свойствам они примыкают к существительным (я, кто, который), прилагательным (мой, какой) или наречиям (там, куда).

Слова типа первый, сотый и т.д., традиционно определяемые как порядковые числительные, в корпусе считаются прилагательными.

 

Одушевленность
од одушевленное слово
неод неодушевленное слово

Категория одушевленности характеризует существительные, прилагательные, числительные, а также причастия. Для существительных одушевленность, будучи классифицирующей грамматической категорией, указывается всегда, для прилагательных, числительных и причастий — только в случае винительного падежа, когда они имеют разные окончания в зависимости от того, к какому существительному относятся. Эта разница релевантна для прилагательных и причастий мужского рода единственного числа: Вижу красивый [муж, ед, вин, неод] дом — Вижу красивого [муж, ед, вин, од] мальчика, и для прилагательных и причастий множественного числа: Вижу летящие [мн, вин, неод] самолеты — Вижу летящих [мн, вин, од] журавлей.

 

Род
муж мужской род
жен женский род
сред средний род

 

Число
ед единственное число
мн множественное число

 

Падеж
им именительный падеж
род родительный падеж
парт партитивный (второй родительный) падеж: дайте чаю, кофейку, сахарку
дат дательный падеж
вин винительный падеж
твор творительный падеж
пр предложный падеж
местн местный (второй предложный) падеж: (в) лесу, (на) снегу
зв звательный падеж: Боже, отче, Вань, мам

Партитивный, местный и звательный падежи указываются только для существительных, у которых эти формы графически отличаются, соответственно, от форм родительного, предложного и именительного падежей. Для других частей речи партитивный, местный и звательный падежи не постулируются. Ср.: горячего [род] чаю [парт], в глубоком [пр] снегу [местн], Боже [зв] мой [им].

 

Степень сравнения
срав сравнительная степень прилагательных и наречий
прев превосходная степень прилагательных

Положительная степень сравнения в явном виде не указывается: она характеризуется отсутствием характеристик срав и прев. Степень сравнения указывается только тогда, когда она образуется синтетически (лучше, сильнее, короче; лучший, наилучший, сильнейший, кратчайший). Аналитические степени сравнения (более сильный, самый сильный) характеризуют словосочетания, а не отдельные словоформы.

 

Краткость
кр краткая форма прилагательного или причастия: короток, рассмотрен

Полная форма прилагательного или причастия не указывается в явном виде и характеризуется отсутствием характеристики кр.

 

Репрезентация
инф инфинитив
прич причастие
деепр деепричастие

Личная форма глагола (четвертое значение категории репрезентации) не указывается в явном виде и характеризуется отсутствием характеристик инфприч и деепр.

 

Наклонение
изъяв изъявительное наклонение
пов повелительное наклонение

Сослагательное наклонение в русском языке (поехал бы) выражается только аналитически и характеризует словосочетания, а не отдельные словоформы.

 

Вид
несов несовершенный вид
сов совершенный вид

Заметим, что в Синтаксическом корпусе категория вида считается словоизменительной: глаголы приходить-прийти или читать-прочитать относятся к единым парадигмам.

 

Время
непрош непрошедшее (настоящее-будущее) время: читаю, прочитаю
прош прошедшее время: читал, прочитал, был
наст настоящее время: есть, суть

Настоящее время приписывается только глаголу быть в личной форме.

 

Лицо
1-л первое лицо
2-л второе лицо
3-л третье лицо

Характеристики лица приписываются только глаголам. Личным местоименным существительным, для которых категория лица не является словоизменительной, эти характеристики не приписываются.

 

Залог
страд страдательный залог: читается, читаемый, читанный, читавшийся

Действительный залог не указывается в явном виде и характеризуется отсутствием пометы страд. Никакие другие залоги (взаимный, медиальный, возвратный) в морфологическом представлении Синтаксического корпуса не отмечаются.

 

Дополнительные характеристики
сл форма, используемая в словосложении: водо, турецко, физико, дву, гос

Словоформы с характеристикой сл могут входить в состав парадигм существительных (вода – водо, нефть – нефте), прилагательных (турецкий – турецко, физический – физико, государственный - гос) или числительных (два – дву). Обычно они выступают в составе сложных слов: водоснабжение, турецко-русский, физико-технический, господдержка, однако иногда встречаются и отдельно, в основном в составе однородных конструкций (водо- и теплоснабжение, турецко- и персидско-русские словари). Необходимо отличать словоформы существительных, прилагательных, числительных, имеющие характеристику сл, от композитов, т.е. слов, принадлежащих части речи COM: в отличие от первых, парадигмы композитов состоят из единственной словоформы, и их леммы совпадают с этой словоформой. Композиты также используются в словосложении (анти, контр, противо, про, квази, вице, теле, авиа, видео и пр.) и также могут выступать как в составе сложных слов (антитеррористический), так и отдельно (авиа- и железнодорожные перевозки).

смяг смягченная сравнительная степень прилагательных и наречий с приставкой по: поумнее, пораньше

Таким формам, наряду с характеристикой смяг, приписана и характеристика срав.

Следует добавить, что в морфологической разметке Синтаксического корпуса действуют  строгие ограничения на комбинации граммем. В частности, не допускается дублирование граммем в одном морфологическом разборе и не может быть двух граммем, относящихся к одной грамматической категории.

Синтаксическая разметка

Представление о синтаксической структуре предложения, реализованное в СинТагРусе, восходит к лингвистической модели «Смысл ⇔ Текст» И. А. Мельчука и А. К. Жолковского. Полный перечень используемых синтаксических отношений, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН.

Каждое синтаксическое отношение соответствует определенному классу синтаксических конструкций. Особенностью синтаксической модели, на основе которой строятся структуры в данном корпусе, является то, что в ней различается много типов конструкций и, соответственно, используется большое число отношений (68).

Основанием для различения синтаксических отношений являются различия в синтаксических средствах, скоррелированные с различием в значении. В качестве синтаксических средств учитываются части речи, морфологические характеристики, порядок слов, интонация, знаки препинания, а также синтаксические признаки и те семантические признаки (дескрипторы) слов, которые влияют на их синтаксическое поведение.

Подробнее ознакомиться с синтаксической разметкой в СинТагРусе можно по ссылке.

О синтаксической разметке в других корпусах НКРЯ см. соответствующее описание.

Лексико-семантическая разметка

Лексико-семантическая разметка для каждого многозначного слова, входящего в состав корпуса, указывает конкретное лексическое значение этого слова, зафиксированное в словаре многоцелевого лингвистического процессора ЭТАП. При просмотре результатов поиска толкование этого лексического значения приводится в карточке слова.

Эллиптическая разметка

Эллиптическая разметка для простых типов эллипсиса восстанавливает опущенные слова предложения и помещает их в синтаксическую структуру этого предложения. При выводе результатов поиска опущенные слова появляются в соответствующей позиции предложения, содержащего эллипсис, и приводятся в словарной форме. Например, предложение из романа «Мастер и Маргарита» М. А. Булгакова «Яду мне, яду» будет выглядеть так:

«Яду [давать] мне, яду!»

Общее представление об эллиптической разметке в Синтаксическом корпусе приведено в подразделе «Представление синтаксического эллипсиса» описания синтаксической разметки.

Лексико-функциональная разметка

Корпус содержит данные о реализованных в текстах лексических функциях. Аппарат лексических функций также предложен авторами лингвистической модели «Смысл ⇔ Текст». В Синтаксическом корпусе представлены лексические функции – коллокаты, которые описывают идиоматичные и полуидиоматичные сочетания, компоненты которых связаны определенными семантическими отношениями. В Синтаксическом корпусе представлено более 100 лексических функций, которым в настоящее время соответствует более 20 тысяч словосочетаний. Общее представление о лексических функциях, отраженных в Синтаксическом корпусе, и краткое описание каждой такой функции находится в разделе «Лексико-функциональная разметка».

Микросинтаксическая разметка

Микросинтаксическая разметка фиксирует неоднословные идиоматические и полуидиоматические выражения, выступающие как семантические и/или синтаксические единства и имеющие разную природу. Примером таких единиц являются выражения типа все равно, потому что, в соответствии с, как раз, что толку, разве что и др. В корпусе СинТагРус насчитывается свыше 3200 разных микросинтаксических единиц, а число вхождений этих единиц превышает 47000. Общее представление о микросинтаксической разметке в Синтаксическом корпусе приведено в разделе «Микросинтаксическая разметка».

Кореферентная разметка

Кореферентная разметка фиксирует анафорические или кореферентные связи между словами текста. Общее представление об этом типе разметки в Синтаксическом корпусе приведено в разделе «Кореферентная разметка».

В настоящее время кореферентная разметка хотя и доступна для поиска, но саму разметку можно обнаружить только в пределах одного предложения.

Темпоральная разметка

Темпоральная разметка фиксирует в предложении слова и словосочетания с временной семантикой, такие, как одновременно, вечером23 маяв полночьс детства, и отражает их вклад в формирование смысла предложения. Общее представление о темпоральной разметке в Синтаксическом корпусе приведено в разделе «Темпоральная разметка».

В настоящее время темпоральная разметка хотя и доступна для поиска, но саму разметку можно обнаружить только в пределах одного предложения.

Публикации

Ознакомиться со списком научных публикаций о Синтаксическом корпусе можно по ссылке: https://ruscorpora.ru/s/b4wqk. Чтобы найти другие типы публикаций о корпусе, используйте фильтры в разделе «‎Публикации»‎.

Публикации, касающиеся отдельных типов разметки, приводятся в разделах, посвященных описанию этих типов.

Обновлено 15.08.2024