Исторический корпус

Исторические корпуса:

Древнерусский корпус

Корпус берестяных грамот

Старорусский корпус

Церковнославянский корпус

 

Древнерусский корпус

Состав корпуса.  Древнерусский корпус включает оригинальные древнерусские произведения, выполненные на Руси переводы с греческого и памятники южнославянского происхождения, переписанные на Руси.

Из оригинальных произведений в подкорпус входят:

все летописи, созданные в древнерусский период: Повесть временных лет, Киевская, Галицкая, Волынская летописи (все по Ипатьевскому списку; готовится также текст по Лаврентьевскому списку), Новгородская I летопись (по Синодальному списку) и Суздальская летопись (по Лаврентьевскому списку).

памятники древнерусской агиографии: Несторово «Житие Феодосия Печерского», «Сказание о Борисе и Глебе» (с описанием их посмертных чудес) по Успенскому сборнику, жития Авраамия Смоленского и Леонтия Ростовского;

памятник древнерусского права «Русская правда» (по Кормчей 1282 года)

произведения, посвященные каноническому праву: «Ответы митрополита Георгия», «Вопрошание Кириково», «Правила о черноризцах», «Предсловие покаянию»

паломнические произведения: «Хожения» игумена Даниила и епископа Антония (Добрыни Ядрейковича)

памятники учительной литературы: Поучения Ильи-Иоанна, Поучения Серапиона Владимирского, псевдоэпиграфические «Поучения св. Евсевия», «Слово псевдо-Иоанна Златоуста о лживых учителех»

антикатолический трактат «Стязание с латиною», приписываемый митрополиту Георгию (XI в.), но относящийся к более позднему времени

произведения Владимира Мономаха («Поучение» и «Молитва»); «Слово о полку Игореве» и «Слово Даниила Заточеника»; математический и календарный трактат Кирика Новгородца «Учение о числах»; сочинения Кирилла Туровского: «Сказание о черноризском чине», «Притча о душе и теле», «Повесть о беспечном царе и мудром советнике»

коллекция связанных с Новгородом пергаменных и бумажных деловых грамот XI-XV веков, в значительной мере затрагивающая уже старорусский период; эти тексты заново сверены с оригиналами при подготовке нового издания «Грамот Великого Новгорода и Пскова». 

Из переведенных в Древней Руси текстов в подкорпусе доступны:

«Студийский устав», описывающий правила монашеского общежития и переведенный в XI веке с греческого

византийский агиографический памятник «Житие Андрея Юродивого»

«История Иудейской войны» Иосифа Флавия (повествование о завоевании Иудеи римлянами в 60-70-е гг. н. э.)

«Пчела» (сборник фрагментов из Св. Писания, сочинений отцов Церкви и античных философов)

«Александрия» (исторический роман об Александре Македонском)

сирийская или греческая «Повесть об Акире Премудром» (оригинал неизвестен)

антииудейский трактат «Речи к жидовину», представляющий собой сильно сокращенный перевод с греческого

цикл из восьми «Чудес Николы», шесть из которых переведены на Руси или представляют собой переработку перевода, а два возникли у южных славян

Из древнеболгарских переводов  в подкорпусе представлен Изборник 1076 г. Основу этого сборника образуют переводы с греческого: подборка отрывков из библейской книги Премудрости Иисуса сына Сирахова, отрывки из произведений различных византийских писателей, от Иоанна Златоуста, Василия Великого, Афанасия Александрийского до константинопольского патриарха Фотия (IX в.). Для некоторых текстов — «Слова о чтении книг», «Слова некоего отца к сыну», «Стословца» – не обнаружены аналоги в греческо-византийской литературе; они, по-видимому, являются оригинальными сочинениями неизвестных древнеболгарских авторов.

Тексты снабжены пословной морфологической разметкой со снятой омонимией. Разметка сделана вручную на базе автоматически пополняющегося словаря при помощи рабочего места Morphy (разработчик Т. А. Архангельский). Леммы имеют древнерусскую форму, т. е. отражают состояние до падения и прояснения редуцированных  (сълати, дьнь).

В пословной разметке указан также адрес словоформы в конкретной рукописи (страница/колонка и строка), а для переводных памятников — соответствующие славянской словоформе греческие леммы и словоформы (или их сочетания).

Для разграничения омонимов рекомендуется при поиске конкретной леммы указывать её частеречную характеристику, а у существительных также род. Если омонимы имеют одинаковые грамматические характеристики (например, лукъ ‘оружие’, лукъ ‘лука седла’ и лукъ ‘растение’), то в словаре, который всплывает при наборе леммы, помимо недифференцированной леммы лукъ, появляются еще три леммы лукъ, при которых указаны их значения. Соответственно, можно осуществлять поиск по каждому омониму отдельно. Однако в «История Иудейской войны» по техническим причинам омонимы не разграничены, и для этого памятника существует только возможность поиска по недифференцированной лемме. При поиске по недифференцированной лемме пользователю придется внимательно просматривать все найденные контексты и разграничивать омонимы самостоятельно. Помочь в этом может информация, появляющаяся во всплывающем окне: для памятников, в которых употребляется по меньшей мере два омонима с одинаковыми грамматическими характеристиками, во всплывающем окне при нажатии курсором на каждую словоформу указывается её значение. Если же в памятнике встречается только один из существующих омонимов — наиболее распространенный (например, лукъ ‘оружие’), его значение может не указываться.

Тексты снабжены метатекстовой разметкой с указанием жанра, переводного или оригинального характера памятника, даты создания оригинала и списка, краткой аннотации текста и источника, по которому текст приводится в корпусе.

Работу над корпусом вела группа ИРЯ РАН под руководством А. А. Пичхадзе. Над разметкой корпуса работали также Г. С. Баранкова, И. И. Макеева, Е. А. Мишина, М. С. Мушинская, П. В. Петрухин, А. В. Птенцова, Д. В. Сичинава, В. К. Скрипка, А. А. Фитискина, И. С. Юрьева и другие.

Подробнее см.:


Е. А. Мишина, А. А. Пичхадзе. Древнерусский подкорпус Национального корпуса русского языка // Труды Института русского языка им. В. В. Виноградова. 2015. № 6. C. 99–115.

Корпус берестяных грамот

Состав корпуса.  В корпус входят тексты берестяных грамот с восточнославянской территории, а также двух свинцовых грамот, найденных в Великом Новгороде.

Корпус представляет собой максимально полный и актуальный свод лингвистической информации о тексте всех известных науке берестяных грамот, доступной на момент последней регулярной публикации статьи о находках берестяных грамот в журнале «Вопросы языкознания». Корпус полностью синхронизирован с базой данных «Древнерусские берестяные грамоты», планируется ежегодное обновление и пополнение обоих этих ресурсов.

Корпус снабжен пословной морфологической разметкой, основанной на указателе к книге А. А. Зализняка «Древненовгородский диалект» (издание 2004 г.), который был программно обращен на словоформы в текстах грамот, вошедших в эту книгу. Далее результаты автоматической разметки был скорректированы и пополнены, а не вошедшие в книгу А. А. Зализняка тексты, в том числе найденные после 2003 года грамоты, были размечены по этому образцу вручную.

Хронологический диапазон корпуса берестяных грамот — XI—XV века, иными словами, он пересекается и с периодом древнерусского языка (XI—XIV века), и со старорусским (XV век, к которому относится меньшинство грамот). Это обстоятельство вместе с отдельным стандартом морфологической разметки продиктовали оформление берестяных грамот в отдельный исторический корпус. Леммы, вслед за указателями А. А. Зализняка, отражают падение и прояснение редуцированных (слати, день). 

В метаразметке корпуса указана, помимо условной даты написания грамоты, также жанр и тип текста, сохранность грамоты, город находки, стратиграфическая дата, археологический раскоп и том издания «Новгородские грамоты на бересте». По этим параметрам можно отобрать подкорпус. При помощи гиперссылки метаразметка каждой грамоты связана с её страницей в базе данных «Древнерусские берестяные грамоты».

С 2021 г. корпус берестяных грамот стал параллельным: к текстам, доступным в переводах А. А. Зализняка и продолжающих их переводах А. А. Гиппиуса, добавлены русские переводы, а кроме того, сделаны доступными английские переводы Р. Ковалева и Й. Схакена, охватывающие в совокупности 337 грамот (57 из них существует в двух английских версиях). Разметка и поиск по корпусу устроены аналогично поиску в корпусе параллельных текстов. Параллелизация корпуса берестяных грамот позволяет найти древнерусские соответствия английских и русских лексем и конструкций (и наоборот), а также вести поиск древнерусской лексики по семантическим полям.

Программная реализация автоматической разметки текстов из книги «Древненовгородский диалект» принадлежит Т. А. Архангельскому.  Ручная разметка корпуса велась в рабочем месте «Морфи» (автор Т. А. Архангельский) Е. А. Мишиной, затем также Д. В. Сичинавой. Синхронизацию корпуса с базой данных и развитие корпуса как параллельного реализовали А. Н. Дышкант и Д. В. Сичинава.

Подробнее см.:

D. Sitchinava, A. Dyshkant. Integration of the Old East Slavic Epigraphical Databases, Corpora and Indices // Scripta & E-Scripta. 2021. No 21. P. 95–108

Д. В. Сичинава. Корпус берестяных грамот как параллельный // Труды Института русского языка РАН, 2022. № 2 (32). С. 92—106.

Старорусский корпус

Состав корпуса.  Старорусский (или «средне(велико)русский», Middle Russian) корпус НКРЯ включает тексты, написанные в Московском государстве с XV по XVII в. (в отдельных случаях также более ранние и более поздние), в том числе летописи и сказания, деловые документы, бытовую переписку, памятники религиозной литературы, драматические и стихотворные тексты и др. В частности, в корпус включались соответствующие тома таких изданий, как «Библиотека литературы Древней Руси», «Полное собрание русских летописей», «Русская историческая библиотека», «Архив феодального землевладения», «Акты писцового дела», «Акты Московского государства», «Акты социально-экономической истории», «Русский дипломатарий», отдельные издания сборников писем и актов.

Корпус отражает орфографию изданий (в том числе литературоведческих, исторических, юридических), в значительной части случаев упрощавших правописание оригинала. 

Этот период характеризуется переходным состоянием языка, совмещающего в себе разные грамматические и лексические слои. Многие тексты отражают черты языка предшествующего периода (XI—XIV вв.), а также лексические или грамматические элементы церковнославянского языка. Период характеризуется диалектным разнообразием текстов и неустойчивостью орфографической нормы.

Тексты корпуса снабжены пословной грамматической разметкой и лемматизацией, ориентированной на нормы Словаря русского языка XI—XVII веков. Разметка выполнена при помощи нейросетевых механизмов на базе вручную размеченного стандарта, а потом подвергнута дополнительной ручной коррекции.

Метатекстовая информация учитывает информацию о публикации, о типе языка, о жанре текста, времени создания и изготовления списка.

Работу над корпусом вела группа НИУ ВШЭ под руководством О. Н. Ляшевской (морфологическая разметка), А. А. Дудин (подготовка текстов, метаразметка), Я. А. Пенькова, А. Г. Исраелян, В. И. Легких и другие.

Подробнее см.:

Д. В. Сичинава. Старорусские/среднерусские тексты в НКРЯ: от экстенсивной коллекции к корпусу // Rašytinis palikimas ir skaitmeninė technologijos: VI tarptautinė mokslinė konferencija, Vilnius, 2016 m. rugpjūčio 22–28 d. [El’Manuscript–2016. Written Heritage and Digital Technologies: VI International Scientific Conference, Vilnius, 2016. August 22–28], Vilnius: Lietuvos mokslo taryba. pp. 208—210.
Т. С. Гаврилова, Т. А. Шалганова, О. Н. Ляшевская. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв // Вестник ПСТГУ. Серия III: Филология. 2016. Вып. 2 (47). С. 7—25.

Церковнославянский корпус

Специфика корпуса. Вошедшие в церковнославянский корпус тексты, большая часть которых используется в современном богослужении Русской и некоторых славянских православных церквей, с равным успехом могут рассматриваться и как принадлежащие истории, и как относящиеся к современной языковой практике. Основанием для объединения с такими корпусами, как древнерусский, старорусский и берестяных грамот, может служить то, что речь идет о языке определенного корпуса текстов, большая часть которого была окончательно сформирована не позже, чем к середине XVIII века.

Состав корпуса.  В корпус включены лишь церковнославянские тексты, относящиеся к периоду книгопечатания: 

Ядро корпуса — это книги, используемые в общественном и частном богослужении: Служебник, Требник, Минеи, Триоди, Октоих, Ирмологий и т. д. Сюда же относится Типикон.

Священное Писание. В современной богослужебной практике сосуществуют две редакции Священного Писания (служебная и четья), имеющие заметное количество лексических разночтений.

Акафисты. По степени русификации и неопределенности языковой нормы акафисты превосходят все другие виды церковнославянской книжности.  Среди церковнославянских текстов, написанных в XIX–XXI веке, акафисты явно преобладают.

Источники канонического права. К этой рубрике можно отнести два текста: так называемую Никоновскую редакцию Кормчей книги и Книгу правил.

Святоотеческая литература и агиография. Из текстов такого рода в Корпусе имеется Добротолюбие.

Основным источником текстов для корпуса явилась «Библиотека святоотеческой литературы».

Морфологическая разметка. Поиск организован так же, как в основном корпусе НКРЯ: по словарной форме (лемме) и грамматическим характеристикам. Часть грамматической разметки создавалась автоматическими методами. Грамматическая омонимия в Церковнославянском корпусе не снималась.

Метаразметка текстов корпуса организована по жанрам, с одной стороны, и по типу нормы с точки зрения временного периода — с другой.

Специфика метатекстовой разметки церковнославянского корпуса определяется тем, что тексты, входящие в состав богослужебных книг, имеют синтетический характер. Для большинства из них принципиально невозможно указать ни жанр, ни дату создания или перевода. Действительно, в состав богослужебных последований входят поэтические тексты (каноны, стихиры), адресованные совершителю богослужения инструкции, нередки и чтения из Священного Писания. Поскольку метатекстовая разметка характеризует богослужебное последование целиком, а не каждый законченный фрагмент, в ней не может указываться тип текста даже с точностью до того, проза это или поэзия.

Поэтому в качестве характеристики типов текстов используются весьма общие ярлыки: (1) «Писание» (это Библия, Служебное евангелие и подборки паримий в богослужебных книгах, если они выделены в отдельную рубрику); (2) «святоотеческий»; (3) «служба» (это все богослужебные чины и службы, а также подборки богослужебных текстов (богородичны, кондаки и т.д.) в составе разных сборников); (4) «типикон»; (5) «акафист»; (6) «право» (один текст: «Книга правил»); (7) «научный» (один текст: «Ифика Иерополитика»). 

Доступен отбор текстов по типу языковой нормы, связанной с периодом создания. Функционируют следующие ярлыки: (1) «архаичный тип» (например, «Добротолюбие»); (2) «гибридный тип» (например, «Алфавит Духовный»); (3) «стандартный тип» (это все тексты основных богослужебных книг за исключением текстов XX века); (4) «XX век» (это службы и акафисты, написанные в XX веке).

Работу над корпусом вели А. Е. Поляков (основной разработчик), А. Г. Кравецкий, Е. Р. Добрушина и другие.

Подробнее см.:

Е. Р. Добрушина, А. Г. Кравецкий, А. Е. Поляков. Корпус и частотный грамматический корпусный словарь церковнославянского языка в составе Национального корпуса русского языка // Труды Института русского языка им. В.В. Виноградова. 2015. №6. C. 116—141.

Поддержка проекта

Исторический корпус развивался при поддержке грантов:

 

РГНФ, проект № 17-04-12064 «Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов» (рук. А. А. Пичхадзе)

РНФ, проект № 19-18-00352 «Некнижная письменность Древней Руси XI—XV вв. (берестяные грамоты и эпиграфика): новые источники и методы исследования» (рук. А. А. Гиппиус)

Обновлено