Данный фрагмент Национального корпуса русского языка, известный также под названием СинТагРус (Syntactically Tagged Russian Text corpus), разработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН им. А.А.Харкевича.
Синтаксический корпус состоит из текстов двух основных типов:
- научно-популярные, общественно-политические и информационные статьи из журналов и интернет-изданий (с 1980 г. по настоящее время);
- русская художественная проза второй половины XX в. —начала XXI века
Разметка корпуса производится в полуавтоматическом режиме. Сначала каждый текст обрабатывается морфологическим и синтаксическим анализаторами многоцелевого лингвистического процессора ЭТАП, разработанного Лабораторией компьютерной лингвистики, в результате чего для каждого предложения строится его морфологическая и синтаксическая структура. Затем полученный результат проверяется лингвистами-экспертами и при необходимости корректируется ими.
Синтаксический корпус содержит тексты, снабженные полной морфосинтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура в виде дерева зависимостей. В узлах этой структуры стоят слова предложения, а дуги помечены именами синтаксических отношений.
В отличие от большинства фрагментов Национального корпуса русского языка, снабженных морфологической разметкой, Синтаксический корпус состоит из структур с полностью снятой морфологической и синтаксической омонимией. Это означает, что каждому слову текста сопоставляется единственная морфологическая структура, а каждому предложению ставится в соответствие единственная синтаксическая структура.
Помимо морфосинтаксической разметки, Синтаксический корпус содержит несколько дополнительных типов разметки.