Устройство корпуса
Панхронический корпус представляет собой объединение текстов четырех исторических корпусов — Древнерусского, корпуса «Восточнославянская эпиграфика», Старорусского и Корпуса берестяных грамот — и Основного корпуса, самые ранние тексты которого относятся к рубежу XVII и XVIII веков. Количественно в нем преобладают тексты более чем 300-миллионного Основного корпуса, однако 70% хронологического диапазона приходится на исторические корпуса.
В Панхроническом корпусе можно строить релевантные для нескольких веков истории русского языка запросы типа «предлог по с предложным падежом», «история существительного забава», «сочетаемость глаголов движения с абстрактным субъектом», «имена собственные на -славъ» на всем этом массиве текстов, не вводя каждый раз пять запросов в интерфейс всех корпусов поочередно.
Необходимость создания Панхронического корпуса диктуется, прежде всего, различными принципами подачи лемм, орфографии и грамматики в разных исторических и современном корпусах, из-за которых функция полностью автоматического переноса запроса из корпуса в корпус может работать лишь в очень ограниченной степени. Кроме того, целый ряд текстов включен в тот или иной из указанных корпусов без соблюдения четких хронологических границ. Произвольные по самой своей природе даты «1400 год» как рубеж между древнерусским и старорусским периодом и «1700 год» как рубеж между Старорусским, с одной стороны, и Основным и Поэтическим корпусами, с другой, на практике могут соблюдаться лишь с большой долей условности. К Корпусу берестяных грамот и корпусу «Восточнославянская эпиграфика», которые заканчиваются во второй половине XV в., разделение на древнерусский и более поздний периоды неприменимо. Датировка ряда текстов определена нечетко и может эти границы пересекать.
Панхронический корпус не отменяет существующих отдельных исторических и Основного корпусов. Они сохраняются в полном объёме с характерной для них грамматической, метатекстовой и иной разметкой, а также в соответствующих орфографических режимах. Они регулярно пополняются и актуализируются, а Панхронический корпус синхронизируется с учетом этих пополнений.
В панхроническом поиске лемма может быть размечена в нормализованном раннедревнерусском (сълати), позднедревнерусском/старорусском (слати) и в современном русском облике (слать). В текстах из исторических корпусов для всех лексем указаны и все более поздние, хотя бы существующие только теоретически, словарные формы. Например, в Корпусе берестяных грамот у слова продажьникъ размечены поздние леммы продажникъи продажник, а у глагола крити ‘купить’ новая условная форма крить, хотя это слово исчезло еще в средневековье. Более ранние формы размечены только в тех случаях, если такие слова реально встретились в более древнем историческом корпусе: например, слово президент, засвидетельствованное в текстах XVII в., имеет более раннюю лемму c конечным ъ, а, скажем, слово компьютер — нет. С пополнением исторических корпусов число лемм, получающих в разметке более ранние варианты, будет расти.
Cоответствия между леммами учитывают части речи (например, у современного глагола, но не существительного, напасть указана древняя форма напасти).
Набор грамматических признаков в Панхроническом корпусе отличается от разметки отдельных корпусов. Как правило, из него исключены признаки, размеченные лишь в некоторых корпусах (например, управление предлогов, вид, счетная форма) или их трактовка унифицирована.
В текстах, входящих в панхронический корпус, снята грамматическая омонимия. Только в Древнерусском корпусе, Корпусе берестяных грамот, корпусе «Восточнославянская эпиграфика» и шестимиллионном подкорпусе современных текстов в составе Основного корпуса это сделано вручную. В Старорусском корпусе и большинстве текстов Основного корпуса приписывание лемм и грамматических характеристик сделано автоматически при помощи нейросетевых механизмов, и в этой разметке есть некоторое количество ошибок.
Семантические признаки размечены в исторических текстах в соответствии с семантическими классами соответствующих слов (этимологических когнатов) в современном русском языке. Поскольку лексическая семантика подвержена историческим изменениям, а ряд слов вообще утрачен современным языком и в современном семантическом словаре отсутствует, в семантической разметке исторических текстов могут быть неточности и неполнота, и к ней надо относиться с осторожностью. Тем не менее полученное при таком подходе высокое покрытие исторических текстов семантической разметкой и стабильность семантических классов большинства лексем искупает неизбежные недостатки такой разметки.
В дальнейшем планируется включить в Панхронический корпус также корпус поэтических текстов, начинающийся с 1700 г.