Состав и структура Корпуса

Национальный корпус русского языка (НКРЯ, Корпус) — это собрание независимых корпусов, каждый из которых предназначен для решения определенных лингвистических задач. Каждая из этих коллекций текстов является большой по объёму и представительной, что делает их ценным материалом для количественных и качественных исследований. Специфика лингвистических задач определяет состав корпуса и разметку, которая в нем используется. Так, например, поэтический корпус служит основой для стиховедческих исследований, поэтому в нем есть особая разметка, связанная с ключевыми для стиховедения понятиями — метром и ритмом. Акцентологический корпус посвящен истории русского ударения, играющего ключевую роль в его разметке. Аннотация устного корпуса также отражает ударения и иную специфику звучающей речи. В мультимедийном корпусе текст сопровождается синхронизированной видео- или аудиозаписью, а в нескольких кинофильмах размечены и жесты.  В синтаксическом корпусе предложениям сопоставлена специальная сложная разметка синтаксической структуры.  Обучающий корпус включает в себя жанровую и морфологическую разметку, адаптированную к российской школьной программе.

Помимо текстов на современном русском языке, ориентированном на литературный стандарт, НКРЯ стремится представить русский язык в его историческом и географическом многообразии. Так, целый ряд корпусов — исторические; отдельными коллекциями текстов представлен древнерусский язык (общий предок также украинского и белорусского языков, это XI—XIV века), старорусский (это язык XV—XVII веков) и церковнославянский язык в его русской версии. Отдельный исторический корпус объединяет такой своеобразный исторический источник, как берестяные грамоты XI—XV веков. Но и основной корпус письменных текстов включает в себя тексты XVIII века, написанные еще до Карамзина и Пушкина. Язык столь раннего периода далеко не всегда понятен современному читателю (да и у классиков есть немало непривычного). Готовится к запуску общий поиск по историческим и современному корпусу, который позволит проследить историю слова или грамматической конструкции на протяжении нескольких веков.

Диалектный корпус включает в себя устные тексты, записанные у носителей традиционных русских диалектов по всей России, в фонетической записи и с сохранением всех особенностей лексики и грамматики. Корпус региональной прессы содержит тексты на нормированном литературном языке, очень незначительно отличающиеся по языку от изданий, выходящих в Москве или Петербурге, тем не менее и в них проникает местная лексика и реалии.

Большинство корпусов, входящих в НКРЯ, одноязычные, то есть в них входят только тексты на одном языке. Исключением является параллельный корпус, где оригинальные русские тексты сопровождаются переводом на другой язык или иноязычные произведения переведены на русский. НКРЯ включает несколько десятков русско-иноязычных языковых пар и многоязычный корпус, где один и тот же текст переведен на несколько языков. Один из исторических корпусов — корпус берестяных грамот — тоже параллельный: древнерусский текст дается с переводами на современный русский и английский языки. Наконец, имеется и мультимедийный параллельный корпус, где представлены или англоязычные фильмы в русском переводе, или постановки одного и того же текста на английском и русском языках.

 

Обновлено