Все тексты, входящие в основной корпус, содержат метаразметку (метатекстовую информацию), морфологическую, словообразовательную, синтаксическую и семантическую разметку.
Метаразметка основного корпуса включает сведения о названии текста, дате его создания, имени, годе рождения и поле автора (если это известно), месте и дате публикации, источнике, по которому дается текст, его сфере функционирования, жанре и типе текста, хронотопе художественных произведений и мемуаров, специфике аудитории (массовость, возраст), орфографии, типу морфологической разметки (автоматическая или сделанная вручную). Возможно отобрать подкорпус по всем этим параметрам.
Морфологическая разметка для русского языка осуществляется с помощью специальных программ автоматического морфологического анализа и лемматизации. Большинство текстов размечены параллельно двумя программами, MyStem и Rubic, специально адаптированными для обработки текстов разных сфер, жанров и времени создания.
Русскоязычная модель MyStem основана на электронном грамматическом словаре и умеет строить гипотезы для несловарных слов. Ряд словоформ (в том числе устаревших форм словоизменения, просторечных вариантов и т. п.), часто встречающихся в текстах корпуса, но не предусмотренных этим анализатором, получает индивидуальный разбор, заданный списком или построенный по правилам. Каждой словоформе приписываются все предусмотренные словарем или правилами разборы, независимо от контекста — поиск по разметке MyStem доступен в режиме «Все разборы».
Нейросетевая модель Rubic обучена на представительном наборе текстов, размеченных вручную, и предлагает для словоформы один, наиболее вероятный в данном контексте, набор грамматических признаков (режим поиска «Предпочтительные разборы»). Rubic также автоматически строит правила преобразования словоформы в лемму, а затем из нескольких наиболее вероятных в данном контексте гипотез отбирается та, которая входит составленный экспертами словарь. Если такого совпадения нет, то словоформе приписывается наиболее вероятная с точки зрения модели лемма. Дополнительными правилами исправляются ошибочные разборы для сочетания леммы и части речи, встретившиеся в корпусе более 40 раз. Это, в частности, позволяет дать корректные разборы для частотных архаичных, просторечных и орфографически искаженных форм.
Тексты в старой орфографии автоматически анализируются обеими системами, леммы для них даются в новой орфографии.
В небольшой части основного корпуса (объемом 6 млн словоупотреблений) произведена разметка текстов вручную. С помощью систем автоматического морфологического анализа DiaLing/AOT и MyStem каждой словоформе были приписаны возможные разборы, независимо от контекста, а затем эксперты провели снятие омонимии (выбрали нужный разбор с учетом контекста) и дополнительно скорректировали результаты.
Нейросетевая модель Rubic осуществляет также синтаксическую разметку основного корпуса, предсказывая один синтаксический разбор для всего предложения. Анализатор строит для предложения дерево зависимостей, в котором каждое слово связано дугой со своим синтаксическим «хозяином», за исключением вершины дерева — главного слова предложения (обычно это глагол-сказуемое). Дуги имеют метку синтаксического отношения между главным и зависимым словом. На основе этого дерева дополнительные правила определяют в предложении синтаксические составляющие — клаузы (например, главное и придаточные предложения) и группы (например, именную группу). В настоящий момент в корпусе доступен поиск по синтаксической роли слова как зависимого и основным типам составляющих, в дальнейшем планируется подключить полный поиск по дереву зависимостей.
Словоформы основного корпуса размечены — на базе словаря и дополняющего его нейросетевого механизма НейроКРЯ — с точки зрения морфемного состава лексемы (так называемая словообразовательная разметка). Возможен поиск по морфемам и их отдельным типам (корням, приставкам, суффиксам, окончаниям), в том числе с учетом чередований.
Словоформы текстов, входящие в основной корпус, получают автоматическую семантическую разметку, основанную на наборе дискретных семантических характеристик, приписываемых в словаре.