Корпус
  • 141 035 текстов
  • 384 096 728 слов
исторический, омонимия снята
Корпус: Панхронический
Панхронический корпус

Устройство корпуса

Панхронический корпус представляет собой объединение текстов четырех исторических корпусов — Древнерусского, корпуса «Восточнославянская эпиграфика», Старорусского и Корпуса берестяных грамот — и Основного корпуса, самые ранние тексты которого относятся к рубежу XVII и XVIII веков. Количественно в нем преобладают тексты более чем 300-миллионного Основного корпуса, однако 70% хронологического диапазона приходится на исторические корпуса.

В Панхроническом корпусе можно строить релевантные для нескольких веков истории русского языка запросы типа «предлог по с предложным падежом», «история существительного забава», «сочетаемость глаголов движения с абстрактным субъектом», «имена собственные на -славъ» на всем этом массиве текстов, не вводя каждый раз пять запросов в интерфейс всех корпусов поочередно.

Необходимость создания Панхронического корпуса диктуется, прежде всего, различными принципами подачи лемм, орфографии и грамматики в разных исторических и современном корпусах, из-за которых функция полностью автоматического переноса запроса из корпуса в корпус может работать лишь в очень ограниченной степени. Кроме того, целый ряд текстов включен в тот или иной из указанных корпусов без соблюдения четких хронологических границ. Произвольные по самой своей природе даты «1400 год» как рубеж между древнерусским и старорусским периодом и «1700 год» как рубеж между Старорусским, с одной стороны, и Основным и Поэтическим корпусами, с другой, на практике могут соблюдаться лишь с большой долей условности. К Корпусу берестяных грамот и корпусу «Восточнославянская эпиграфика», которые заканчиваются во второй половине XV в., разделение на древнерусский и более поздний периоды неприменимо. Датировка ряда текстов определена нечетко и может эти границы пересекать.

Панхронический корпус не отменяет существующих отдельных исторических и Основного корпусов. Они сохраняются в полном объёме с характерной для них грамматической, метатекстовой и иной разметкой, а также в соответствующих орфографических режимах. Они регулярно пополняются и актуализируются, а Панхронический корпус синхронизируется с учетом этих пополнений.

В панхроническом поиске лемма может быть размечена в нормализованном раннедревнерусском (сълати), позднедревнерусском/старорусском (слати) и в современном русском облике (слать). В текстах из исторических корпусов для всех лексем указаны и все более поздние, хотя бы существующие только теоретически, словарные формы. Например, в Корпусе берестяных грамот у слова продажьникъ размечены поздние леммы продажникъи продажник, а у глагола крити ‘купить’ новая условная форма крить, хотя это слово исчезло еще в средневековье. Более ранние формы размечены только в тех случаях, если такие слова реально встретились в более древнем историческом корпусе: например, слово президент, засвидетельствованное в текстах XVII в., имеет более раннюю лемму c конечным ъ, а, скажем, слово компьютер — нет. С пополнением исторических корпусов число лемм, получающих в разметке более ранние варианты, будет расти. 

Cоответствия между леммами учитывают части речи (например, у современного глагола, но не существительного, напасть указана древняя форма напасти).

Набор грамматических признаков в Панхроническом корпусе отличается от разметки отдельных корпусов. Как правило, из него исключены признаки, размеченные лишь в некоторых корпусах (например, управление предлогов, вид, счетная форма) или их трактовка унифицирована.

В текстах, входящих в панхронический корпус, снята грамматическая омонимия. Только в Древнерусском корпусе, Корпусе берестяных грамот, корпусе «Восточнославянская эпиграфика» и шестимиллионном подкорпусе современных текстов в составе Основного корпуса это сделано вручную. В Старорусском корпусе и большинстве текстов Основного корпуса приписывание лемм и грамматических характеристик сделано автоматически при помощи нейросетевых механизмов, и в этой разметке есть некоторое количество ошибок.

Семантические признаки размечены в исторических текстах в соответствии с семантическими классами соответствующих слов (этимологических когнатов) в современном русском языке. Поскольку лексическая семантика подвержена историческим изменениям, а ряд слов вообще утрачен современным языком и в современном семантическом словаре отсутствует, в семантической разметке исторических текстов могут быть неточности и неполнота, и к ней надо относиться с осторожностью. Тем не менее полученное при таком подходе высокое покрытие исторических текстов семантической разметкой и стабильность семантических классов большинства лексем искупает неизбежные недостатки такой разметки.

В дальнейшем планируется включить в Панхронический корпус также корпус поэтических текстов, начинающийся с 1700 г.

Поиск

В панхроническом поиске лемму можно указывать в нормализованном раннедревнерусском (сълати), позднедревнерусском/старорусском (слати) или в современном русском облике (слать). При записи исторических лемм используются только буквы современного алфавита плюс ѣ. Поиск по ним осуществляется равноправно. Для кириллических цифр в исторических корпусах (например, ·е҃·) в панхроническом поиске используются леммы в виде арабских цифр (например, 5).

В Панхроническом корпусе при поиске по словоформам находятся словоформы в текстах и их последовательности, например, сам еси. Словоформы можно вводить в их оригинальном написании. Но для того, чтобы найти больше примеров разных периодов, вводите словоформы в модернизированной записи, без использования исторических букв, конечного Ъ, а также титл и скобок. По запросу сам еси находятся написания самъ ѥсиса(м҃) есисамъ ес[и]. Для обозначения произвольного слова или его части можно использовать звездочку (*), для того, чтобы исключить какое-то слово в определенной позиции, перед ним ставится знак минуса (-). Например, -в городе находит форму городе или городѣ не после слова в или въ.

В Панхроническом корпусе можно сортировать результаты по двум параметрам: дате создания оригинала и дате изготовления списка либо публикации издания. Сортировка по дате списка важна для тех языковых черт (орфографии, фонетики, некоторых элементов морфологии), которые могли привноситься переписчиками и не принадлежать эпохе создания текста.

В Панхроническом корпусе можно задавать подкорпус, помимо даты, также по жанровой категории текста. Предусмотрены следующие категории: бытовые тексты и письма, литературные тексты, официально-деловые тексты, учебные и научные тексты, церковные тексты, разное. Они основываются на жанровой метаразметке корпусов-компонентов. Учитывая изменяющуюся социокультурную ситуацию на протяжении тысячи лет, отнесение текста к одной из этих обобщенных категорий.может быть условным. Один и тот же текст может быть отнесен к нескольким категориям.

На материале панхронического поиска могут быть построены нормализованные частотные графики (количество вхождений на миллион) на всем хронологическом диапазоне запроса. Если в выдаче есть примеры, датированные временем старше XII века, по умолчанию график строится только с 1100 года: объем текстов XI в. может быть недостаточен для статистически показательных данных.

Создание корпуса

Над панхроническим корпусом работали:

И. И. Виноградова, С. А. Гладилин, Д. А. Морозов, В. Г. Сизов (программная архитектура корпуса, реализация поиска)
О. Н. Ляшевская (нейросетевая модель снятия омонимии с посткорректированием в основном и старорусском корпусах)
Д. В. Сичинава (общая концепция корпуса; алгоритмизация, ручная вычитка и доразметка соответствия ранне- и позднедревнерусских лемм и грамматических признаков, орфографий исторических корпусов; тестирование и доработка концепции и разметки)
Т. А. Архангельский (построение соответствий между позднедревнерусскими и современными русскими леммами)
А. Н. Дышкант (алгоритмизация и построение таблиц соответствия лемм для каждого корпуса)

Обновлено 22.07.2024