Портрет корпуса

Корпус

1304 текста
109 886 предложений
1 568 027 слов

синтаксически размечен, омонимия снята

Корпус: Синтаксический

Синтаксический корпус

Данный фрагмент Национального корпуса русского языка, известный также под названием СинТагРус (Syntactically Tagged Russian Text corpus), разработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН им. А.А.Харкевича.

Синтаксический корпус состоит из текстов двух основных типов:

научно-популярные, общественно-политические и информационные статьи из журналов и интернет-изданий (с 1980 г. по настоящее время);
русская художественная проза второй половины XX в. — начала XXI века.

Разметка корпуса производится в полуавтоматическом режиме. Сначала каждый текст обрабатывается морфологическим и синтаксическим анализаторами многоцелевого лингвистического процессора ЭТАП, разработанного Лабораторией компьютерной лингвистики, в результате чего для каждого предложения строится его морфологическая и синтаксическая структура. Затем полученный результат проверяется лингвистами-экспертами и при необходимости корректируется ими.

Синтаксический корпус содержит тексты, снабженные полной морфосинтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура в виде дерева зависимостей. В узлах этой структуры стоят слова предложения, а дуги помечены именами синтаксических отношений.

Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И. А. Мельчука и А. К. Жолковского, однако целый ряд конкретных лингвистических решений, принятых в процессе создания Синтаксического корпуса, принадлежит Лаборатории, разработавшей этот корпус.

Разметка

Перечень морфологических характеристик, используемых в Синтаксическом корпусе, несколько отличается от основного морфологического стандарта НКРЯ и приводится в заключительной части раздела о морфологической разметке НКРЯ.

Перечень синтаксических отношений, используемых в корпусе, снабжен краткими комментариями и приводится в разделе «Синтаксическая разметка».

В отличие от большинства фрагментов Национального корпуса русского языка, снабженных морфологической разметкой, Синтаксический корпус состоит из структур с полностью снятой вручную морфологической и синтаксической омонимией. Это означает, что каждому слову текста сопоставляется единственная морфологическая структура, а каждому предложению ставится в соответствие единственная синтаксическая структура.

Помимо морфосинтаксической разметки, Синтаксический корпус содержит еще несколько дополнительных типов разметки.

Главный из них – это так называемая лексико-функциональная разметка: корпус содержит данные о реализованных в текстах лексических функциях. Аппарат лексических функций также предложен авторами лингвистической модели «Смысл-Текст». В Синтаксическом корпусе представлены лексические функции – коллокаты, которые описывают идиоматичные и полуидиоматичные сочетания, компоненты которых связаны определенными семантическими отношениями. В Синтаксическом корпусе представлено более 100 лексических функций, которым в настоящее время соответствует более 20 тысяч словосочетаний. Общее представление о лексических функциях, отраженных в Синтаксическом корпусе, и краткое описание каждой такой функции находится в разделе «Лексико-функциональная разметка».

Кроме того, в варианте корпуса СинТагРус, не полностью включенном в состав НКРЯ и находящемся в распоряжении Лаборатории компьютерной лингвистики ИППИ РАН им. А.А.Харкевича, представлено еще несколько типов разметки.

Лексико-семантическая разметка для каждого многозначного слова, входящего в состав корпуса, указывает конкретное лексическое значение этого слова, зафиксированное в словаре многоцелевого лингвистического процессора ЭТАП.

Эллиптическая разметка для простых типов эллипсиса восстанавливает опущенные слова предложения и помещает их в синтаксическую структуру этого предложения. Восстановленные при разрешении эллипсиса слова присутствуют во включенном в состав НКРЯ Синтаксическом корпусе. Чтобы их найти, нужно в меню «Дополнительные признаки» в группе «Особые случаи» выбрать признак «эллипсис». Если этот признак не выбран, слово, подходящее к условиям запроса, может быть как восстановленным эллипсисом, так и обычным словом. По умолчанию поиск работает именно так: в тексте восстановленные элидированные слова заключаются в квадратные скобки.

Анафорическая и кореферентная разметка фиксирует связи между словами текста (на ограниченных фрагментах текста длиной не более трех предложений), между которыми есть анафорические или кореферентные связи.

Микросинтаксическая разметка фиксирует неоднословные идиоматические и полуидиоматические выражения, выступающие как семантические и/или синтаксические единства и имеющие разную природу. Примером таких единиц являются выражения типа все равно, потому что, в соответствии с, как раз, что толку, разве что и др. В корпусе СинТагРус насчитывается свыше 3000 разных микросинтаксических единиц, а число их вхождений превышает 40000.

Темпоральная разметка охватывает лексические средства выражения времени. К ним относятся наречия (завтра, одновременно) и союзы (пока), именные и предложные группы (прошлым летом, в пятницу), а также прилагательные (январский, трехдневный). Все они служат для передачи информации о расположении событий во времени. Поэтому разметка не только фиксирует сами темпоральные выражения, но и показывает, к каким событиям они относятся и какой смысл выражают: просто локализуют событие в времени, указывают его продолжительность или какую-либо границу и т. д. Формат разметки экспериментальный, ею снабжен очень небольшой фрагмент корпуса.

Публикации

Ознакомиться со списком научных публикаций о Синтаксическом корпусе можно по ссылке: https://ruscorpora.ru/s/b4wqk. Чтобы найти другие типы публикаций о корпусе, используйте фильтры в разделе «‎Публикации»‎.

Публикации, касающиеся отдельных типов разметки, приводятся в разделах, посвященных описанию этих типов.

Обновлено 26.11.2024