Синтаксический корпус

Данный фрагмент Национального корпуса русского языка, известный под названием СинТагРус (Syntactically Tagged Russian corpus), содержит тексты, снабженные морфосинтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура.

Синтаксическая структура предложения, используемая в корпусе СинТагРус, представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а дуги помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И. А. Мельчука и А. К. Жолковского. Полный перечень используемых синтаксических отношений, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен СинТагРус.

В отличие от морфологически размеченных фрагментов Национального корпуса русского языка, СинТагРус состоит из структур с полностью снятой морфологической и синтаксической омонимией.

Подробнее см.:

Е. С. Иншакова и др. СинТагРус сегодня // Труды Института русского языка им. В. В. Виноградова. М., 2019. Вып.21. с.14–40.

Обновлено