Перечень морфологических характеристик, используемых в Синтаксическом корпусе, несколько отличается от основного морфологического стандарта НКРЯ и приводится в заключительной части раздела о морфологической разметке НКРЯ.
Перечень синтаксических отношений, используемых в корпусе, снабжен краткими комментариями и приводится в разделе «Синтаксическая разметка».
В отличие от большинства фрагментов Национального корпуса русского языка, снабженных морфологической разметкой, Синтаксический корпус состоит из структур с полностью снятой вручную морфологической и синтаксической омонимией. Это означает, что каждому слову текста сопоставляется единственная морфологическая структура, а каждому предложению ставится в соответствие единственная синтаксическая структура.
Помимо морфосинтаксической разметки, Синтаксический корпус содержит еще несколько дополнительных типов разметки.
Главный из них – это так называемая лексико-функциональная разметка: корпус содержит данные о реализованных в текстах лексических функциях. Аппарат лексических функций также предложен авторами лингвистической модели «Смысл-Текст». В Синтаксическом корпусе представлены лексические функции – коллокаты, которые описывают идиоматичные и полуидиоматичные сочетания, компоненты которых связаны определенными семантическими отношениями. В Синтаксическом корпусе представлено более 100 лексических функций, которым в настоящее время соответствует более 20 тысяч словосочетаний. Общее представление о лексических функциях, отраженных в Синтаксическом корпусе, и краткое описание каждой такой функции находится в разделе «Лексико-функциональная разметка».
Кроме того, в варианте корпуса СинТагРус, не полностью включенном в состав НКРЯ и находящемся в распоряжении Лаборатории компьютерной лингвистики ИППИ РАН им. А.А.Харкевича, представлено еще несколько типов разметки.
Лексико-семантическая разметка для каждого многозначного слова, входящего в состав корпуса, указывает конкретное лексическое значение этого слова, зафиксированное в словаре многоцелевого лингвистического процессора ЭТАП.
Эллиптическая разметка для простых типов эллипсиса восстанавливает опущенные слова предложения и помещает их в синтаксическую структуру этого предложения. Восстановленные при разрешении эллипсиса слова присутствуют во включенном в состав НКРЯ Синтаксическом корпусе. Чтобы их найти, нужно в меню «Дополнительные признаки» в группе «Особые случаи» выбрать признак «эллипсис». Если этот признак не выбран, слово, подходящее к условиям запроса, может быть как восстановленным эллипсисом, так и обычным словом. По умолчанию поиск работает именно так: в тексте восстановленные элидированные слова заключаются в квадратные скобки.
Анафорическая и кореферентная разметка фиксирует связи между словами текста (на ограниченных фрагментах текста длиной не более трех предложений), между которыми есть анафорические или кореферентные связи.
Микросинтаксическая разметка фиксирует неоднословные идиоматические и полуидиоматические выражения, выступающие как семантические и/или синтаксические единства и имеющие разную природу. Примером таких единиц являются выражения типа все равно, потому что, в соответствии с, как раз, что толку, разве что и др. В корпусе СинТагРус насчитывается свыше 3000 разных микросинтаксических единиц, а число их вхождений превышает 40000.
Темпоральная разметка охватывает лексические средства выражения времени. К ним относятся наречия (завтра, одновременно) и союзы (пока), именные и предложные группы (прошлым летом, в пятницу), а также прилагательные (январский, трехдневный). Все они служат для передачи информации о расположении событий во времени. Поэтому разметка не только фиксирует сами темпоральные выражения, но и показывает, к каким событиям они относятся и какой смысл выражают: просто локализуют событие в времени, указывают его продолжительность или какую-либо границу и т. д. Формат разметки экспериментальный, ею снабжен очень небольшой фрагмент корпуса.