Орфография. Большинство текстов дается церковнославянским шрифтом и в достаточно сложной орфографии, приближенной к принятой в печатных церковнославянских книгах и использующей большое число омофоничных букв (надстрочные буквы даются в строке). Для удобства пользователя доступен поиск по словоформам в упрощенной орфографии, использующей только современную русскую кириллицу плюс букву ѣ, без диакритических знаков, а также в модернизированной орфографии, без ѣ и конечного ъ. Упрощенная орфография используется при поиске по умолчанию.
Часть текстов, а именно так называемые Зеленые минеи, изданные в 2000-е годы, даются, в соответствии с изданием, гражданским шрифтом и в модернизированной орфографии, ориентированной на современную русскую (с раскрытыми сокращениями, с большими буквами в именах собственных, с современной русской пунктуацией, с ударениями лишь на части слов и без прочих надстрочных знаков). Возможен отбор подкорпуса текстов церковной и гражданской печати.
Морфологическая разметка. Поиск организован так же, как в Основном корпусе НКРЯ: по словарной форме (лемме) и грамматическим характеристикам. Во всём корпусе лемма дается с учетом традиционных орфографических конвенций, но с раскрытием сокращений, унифицированным знаком ударения (акутом) и без знаков придыхания. Для удобства пользователя доступен поиск по леммам в упрощенной орфографии (именно она принята во всплывающем списке-словаре лемм и используется в поиске по умолчанию) и в модернизированном написании.
Часть грамматической разметки создавалась автоматическими методами. Грамматическая омонимия в Церковнославянском корпусе не снималась, однако в традиционной церковнославянской орфографии значительная часть омонимов разведена на письме (например, словоформы единственного и множественного числа), и эта информация использовалась при автоматической разметке.
Дополнительные инструменты. В Церковнославянском корпусе, объемном и лексически богатом, доступен сервис «Похожие слова», дающий наглядное представление о семантических полях славянской лексики.
В корпусе доступен режим «Частотность», позволяющий анализировать сочетаемость лексем и грамматических показателей, а также другие инструменты, существующие в больших корпусах: «Статистика», n-граммы, частотный словарь, сравнения словарей корпуса и подкорпуса. Обратите внимание, что грамматическая омонимия пока снята лишь в ограниченной степени.
Метаразметка текстов корпуса организована по жанрам, с одной стороны, и по типу нормы с точки зрения временного периода — с другой.
Специфика метатекстовой разметки Церковнославянского корпуса определяется тем, что тексты, входящие в состав богослужебных книг, имеют синтетический характер. Для большинства из них принципиально невозможно указать ни жанр, ни дату создания или перевода. Действительно, в состав богослужебных последований входят поэтические тексты (каноны, стихиры), адресованные совершителю богослужения инструкции, нередки и чтения из Священного Писания. Поскольку метатекстовая разметка характеризует богослужебное последование целиком, а не каждый законченный фрагмент, в ней не может указываться тип текста даже с точностью до того, проза это или поэзия.
Поэтому в качестве характеристики типов текстов используются весьма общие ярлыки: (1) «Писание» (это Библия, Служебное евангелие и подборки паримий в богослужебных книгах, если они выделены в отдельную рубрику); (2) «святоотеческий»; (3) «служба» (это все богослужебные чины и службы, а также подборки богослужебных текстов (богородичны, кондаки и т.д.) в составе разных сборников); (4) «типикон»; (5) «акафист»; (6) «научный» (один текст: «Ифика Иерополитика»), (7) «житие»; (8) «слово» (два последних жанра представлены в основном Четьями-Минеями Димитрия Ростовского).
Доступен отбор текстов по типу языковой нормы, связанной с периодом создания. Функционируют следующие ярлыки: (1) «архаичный тип» (например, «Добротолюбие»); (2) «гибридный тип» (например, «Алфавит Духовный»); (3) «стандартный тип» (это все тексты основных богослужебных книг за исключением текстов XX века); (4) «XX век» (это службы и акафисты, написанные в XX веке).
Часть текстов, в основном поздних, размечена с точки зрения авторства и/или датировки. Для большинства текстов в метаинформацию входит год издания.
Для поздних служб и акафистов введена также особая группа метатекстовых признаков, связанных с хронологией включения текста в круг богослужебных текстов и с ключевыми участниками этого процесса.