Состав корпуса
Старорусский (или «средне(велико)русский», Middle Russian) корпус НКРЯ включает тексты, написанные в северо-восточной Руси, а затем в Московском государстве с XV по XVII в. (в отдельных случаях также более ранние и более поздние), в том числе летописи и сказания, деловые документы, бытовую переписку, памятники религиозной литературы, драматические и стихотворные тексты и др. В частности, в корпус включались соответствующие тома таких изданий, как «Библиотека литературы Древней Руси», «Полное собрание русских летописей», «Русская историческая библиотека», «Архив феодального землевладения», «Акты писцового дела», «Акты Московского государства», «Акты социально-экономической истории», «Русский дипломатарий», отдельные издания сборников писем и актов.
Корпус отражает орфографию изданий (в том числе литературоведческих, исторических, юридических), в значительной части случаев упрощавших правописание оригинала.
Этот период характеризуется переходным состоянием языка, совмещающего в себе разные грамматические и лексические слои. Многие тексты отражают черты языка предшествующего древнерусского периода (XI—XIV вв.), а также лексические или грамматические элементы церковнославянского языка. Период характеризуется диалектным разнообразием текстов и неустойчивостью орфографической нормы.
Тексты корпуса снабжены пословной грамматической разметкой и лемматизацией, ориентированной на нормы Словаря русского языка XI—XVII веков. Разметка выполнена при помощи нейросетевых механизмов на базе вручную размеченного стандарта, а потом подвергнута дополнительной ручной коррекции.
Метатекстовая информация учитывает информацию о публикации, о типе языка, о жанре текста, времени создания и изготовления списка.