Основной корпус
Специфика корпуса

Основной корпус — корпус русских письменных прозаических текстов, созданных после 1700 года. Он отражает русский язык Нового времени, отсчёт истории которого начинается именно с петровской эпохи.

Тексты, включаемые в Основной корпус, как правило, ориентированы на языковой стандарт (литературный язык) своей эпохи, хотя не должны рассматриваться как образцовые или «правильные» с этой точки зрения. Этот корпус стремится к представительности (репрезентативности) с точки зрения письменного русского языка каждой эпохи и включает в себя в определенных пропорциях различные жанры (художественные, научные тексты, публицистику, религиозные тексты, технические тексты, частную переписку). 

Корпус можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). Формально граница между этими массивами нигде не проведена, и по умолчанию поиск по ним ведётся одновременно. Задать этот либо любой другой хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.

 

    Современные письменные тексты

    Репрезентативный корпус современных текстов с морфологической разметкой составляет ядро основного корпуса. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

    • современная художественная проза разных жанров и направлений
    • современная драматургия
    • мемуарно-биографическая литература
    • журнальная публицистика и литературная критика
    • газетная публицистика и новости
    • научные, научно-популярные и учебные тексты
    • религиозные и  религиозно-философские тексты
    • производственно-технические тексты
    • официально-деловые и юридические тексты
    • бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

    Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.

    Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей).

    Современные переводные тексты в Основной корпус не включаются; после выравнивания с оригиналами они входят в параллельный корпус.

    Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.

    Основной корпус — это большой представительный корпус русских письменных текстов различных жанров с XVIII века до нашего времени.

    Тексты XVIII—середины XX вв. в Корпусе

    Тексты XVIII—середины XX вв. в Корпусе представляют также различные жанры прозы (художественная литература, включая прозаическую драматургию, научные тексты, публицистика, частная переписка, документы), однако по причине меньшей доступности электронных версий и современных переизданий процент художественной литературы для этого периода пока еще гораздо выше, чем для второй половины XX в.

    Для этого периода (до конца XIX в.) допускается включение в основной корпус переводных текстов, роль которых в развитии русского литературного языка была очень велика.  В основной корпус, а не в поэтический, вводятся прозаические фрагменты текстов, основная часть которых написана в стихах (например, у Пушкина прозаические сцены «Бориса Годунова»).

    Тексты, написанные и/или опубликованные изначально в старой орфографии (до 1918 г. и авторами первой волны послереволюционной эмиграции), чаще даются в послереформенной орфографии по более поздним переизданиям. Однако растет число текстов, включаемых в корпус по оригинальным изданиям в соответствии с их орфографией. Объём коллекции текстов в дореформенной орфографии на 2022 г. составляет 12,7 млн словоупотреблений; эту коллекцию можно выбрать в качестве подкорпуса и искать, например, словоформы, правописание которых в реальном узусе было вариативным (копѣйка или копейка). Если старый текст даётся по современному научному переизданию, то те особенности оригинальной орфографии, которые сохраняются в этом издании, сохранены и в Корпусе. 

    Разметка

    Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки.

    Морфологическая разметка для русского языка осуществляется с помощью специальных программ автоматического морфологического анализа. Для большинства текстов это адаптированная для корпуса система MyStem. Ряд частотных словоформ (в том числе архаичных, просторечных и т. п.), встречающихся в текстах, но не предусмотренных этим анализатором, получает индивидуальный разбор, заданный списком. Для ряда устаревших морфологических вариантов анализатор дополнен автоматическими правилами. Тексты в старой орфографии также автоматически анализируются (но леммы даются в новой орфографии).

    В небольшой части основного корпуса (объемом 6 млн словоупотреблений; в дальнейшем эта цифра будет увеличена) произведено ручное снятие омонимии и дополнительная коррекция результатов работы программы автоматического морфологического анализа DiaLing. Эта часть образует так называемый корпус со снятой омонимией, который может служить удобным полигоном для тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для исследований современной русской морфологии, требующих повышенной точности поиска. Примеры из этого подкорпуса снабжаются в выдаче пометой  [омонимия снята]

    Метаразметка основного корпуса включает сведения о названии текста, дате его создания, имени, годе рождения и поле автора (если это известно), месте и дате публикации, источнике, по которому дается текст, его сфере функционирования, жанре и типе текста, хронотопе художественных произведений и мемуаров, специфике аудитории (массовость, возраст), орфографии, снятой или неснятой омонимии. Возможно отобрать подкорпус по всем этим параметрам.

    Все словоформы текстов, входящие в основной корпус, также получают автоматическую семантическую разметку, основанную на наборе дискретных семантических характеристик, приписываемых в словаре.

    Подробнее см.

    Савчук С. О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 52—70.

    Дич Н. Л. О текстах XIX века в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 89—93.

    Оскольская С. А. Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 46—51.

    Савчук С. О. Корпус текстов первой половины XX века: текущее состояние и перспективы// Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 27—45.

    Создание корпуса

    Создание основного корпуса письменных и устных текстов. В этой работе выделяется ряд подзадач:

    1. Создание представительного корпуса письменных текстов XVIII века. В начале 2000-х годов эта задача решалась группой КГУ под руководством В. Д. Соловьёва и группой ИРЯ под руководством С. О. Савчук при поддержке программы Президиума РАН «Историко-культурное наследие и духовные ценности России» (руководитель проекта Д. В. Сичинава). В дальнейшем эта задача продолжает развиваться группой ИРЯ РАН (руководитель С. О. Савчук) и группой ИЛИ РАН (руководитель М. Д. Воейкова).
    2. Создание представительного корпуса письменных текстов XIX — первой половины XX века.В 2000-е годы эта задача решалась группой ИЛИ РАН под руководством М. Д. Воейковой и Н. Н. Казанского при поддержке грантов РФФИ № 03-04-00226а (руководитель проекта Л. А. Вербицкая), № 06-04-03817в (руководитель проекта Е. В. Рахилина), программы ОИФН РАН (проект «Пополнение текстовых ресурсов корпуса (тексты первой половины ХХ в.)», руководитель С. О. Савчук). С 2015 г. в корпус включены тексты в дореформенной орфографии, представляющие собой электронные версии оригинальных изданий XVIII — начала XX вв. С 2010-х годов работа над этой задачей также продолжается группой ИРЯ РАН во главе с С. О. Савчук. 
    3. Создание представительного корпуса современных письменных текстов (середины XX — начала XXI века). Эта задача в 2000-е годы решалась группой ИРЯ РАН (с участием сотрудников ряда других институтов) под руководством А. М. Молдована и В. А. Плунгяна при поддержке проектов ОИФН РАН «Формирование и метатекстовая разметка корпуса текстов второй половины XX и XXI вв.» (руководитель В. А. Плунгян), «Подготовка окончательного варианта корпуса современного русского языка: коррекция баланса и редактирование» (руководитель Е. В. Рахилина), проектов Федерального агентства по образованию «Электронный корпус русского языка: научно-исследовательский и обучающий Интернет-ресурс», «Информационное наполнение банка данных о русском языке, его истории и современном состоянии» (руководитель А. М. Молдован). В дальнейшем корпус пополняется группой ИРЯ РАН во главе с С. О. Савчук.
    4. Разработка принципов морфологической и словообразовательно-семантической разметки для сбалансированного корпуса письменных текстов, разработка программного обеспечения и разметка корпусов. Эта задача решалась в 2000-е годы группой ИРЯ РАН при поддержке ОИФН РАН (проекты «Создание программного обеспечения для Национального корпуса текстов русского языка», руководители А. Я. Шайкевич и С. А. Шаров, «Программное обеспечение Национального корпуса русского языка XIX-XXI вв.», руководители они же, «Лексико-семантическая и таксономическая разметка подмассива сбалансированного корпуса», «Морфосемантическая разметка и снятие морфологической и лексической омонимии в Национальном корпусе русского языка», «Модель управления глагола и текст: теоретические и прикладные аспекты», — руководитель всех трёх Е. В. Падучева, «Процессы словообразования в текстовой динамике», руководитель О. Н. Ляшевская, «Конструкции и динамика текста», руководитель Е. В. Рахилина).

       

      Общие принципы морфологической разметки текста были разработаны в 2002-2004 гг. В. А. Плунгяном при участии Г. И. Кустовой, А. Е. Полякова и Д. В. Сичинавы.

      Программное обеспечение для морфологической разметки Корпуса разработано Д. В. Панкратовым, А. Е. Поляковым и В. А. Титовым и в дальнейшем развивалось Т. А. Архангельским и А. И. Зобниным на базе программ автоматического морфологического анализа русских письменных текстов Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов морфологического анализа для этих программ занимались Л. Л. Иомдин и В. З. Санников (Mystem) и Н. Н. Леонтьева (Dialing). В создании и усовершенствовании программного обеспечения Национального корпуса в целом (системы поиска, метатекстовой разметки, семантической разметки и др.) принимали участие на различных этапах работы А. А. Аброскин, Т. А. Архангельский, Н. В. Григорьев, С. В. Давыдов, А. И. Зобнин, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов, О. М. Урюпина и С. Ю. Шустрова.

      В работах по морфологической разметке со снятием омонимии в 2000-е годы принимал участие большой коллектив специалистов, а также студентов и аспирантов лингвистических вузов Москвы. Наиболее значительный объем работ был выполнен О. Л. Бирюк, Д. С. Ганенковым, Е. А. Гришиной, О. В. Драгой, Г. И. Кустовой, Ю. А. Ландером, О. Н. Ляшевской, Т. А. Майсаком, Е. А. Пшехоцкой, Ю. Д. Семьяновой, Д. В. Сичинавой и С. В. Уляхиной.

      В экспертизе результатов морфологической и акцентной разметки участвовали П. М. Аркадьев, А. В. Венцов, Д. С. Ганенков, Е. А. Гришина, Г. И. Кустова, О. Н. Ляшевская, Н. В. Перцов.

      В разработке и внедрении в Корпус словообразовательно-семантической разметки (вторая половина 2000-х годов) участвовали Е. Ю. Калинина, Г. И. Кустова, О. Н. Ляшевская, Е. В. Падучева, В. А. Плунгян, Е. В. Рахилина, С. Ю. Толдова, Е. Б. Чекменёва и О. Ю. Шеманаева (Подлесская). Программные средства для семантической разметки разработаны А. Е. Поляковым и А. И. Зобниным.

    5. Разработка принципов метатекстовой разметки и отбора текстов. Общие принципы метатекстовой разметки и отбора текстов были разработаны в начале 2000-х годов С. О. Савчук и С. А. Шаровым, при участии Е. А. Гришиной, В. А. Плунгяна и Е. Г. Соколовой; программное обеспечение для метатекстовой разметки и поиска составлено С. А. Шаровым и А. Е. Поляковым. Координация работ по метатекстовой разметке текстов Национального корпуса осуществляется С. О. Савчук и Д. В. Сичинавой; значительный объем работ в этой области (включая предварительный отбор и вычитку текстов) был выполнен, помимо названных лиц, также А. В. Беляевой, И. А. Волковым, А. И. Дворкиной, М. А. Кожевниковой, Н. А. Коротковой, Е. А. Красильчиковой, Е. Н. Ловлей, В. С. Мальцевой, А. А. Маховой, Е. Н. Морозовой, С. В. Пискуновой, Т. И. Резниковой, М. М. Ровинской, М. И. Русановой, К. И. Самоходской, Н. В. Сердобольской, Т. А. Фокиной, А. В. Файнвейц и А. В. Шипуновой. В обработке и метаразметке текстов XVIII—XIX века участвовали группы под руководством Н. Л. Дич, С. А. Оскольской и В. А. Круглова (ИЛИ РАН). В подготовке метаописаний текстов второй половины ХХ века составителям Корпуса также оказали помощь М. А. Журинская и Г. Л. Юзефович.

    Разработчики Корпуса приносят благодарность О. В. Аронсону, А. Л. Доброхотову, Л. А. Гоготишвили, В. М. Молчанову, С. С. Неретиной, Е. В. Петровской, В. А. Подороге, И. М. Чубарову, М. Б. Ямпольскому за предоставленные материалы, составившие коллекцию современных философских текстов; группе студентов и аспирантов под руководством Е. В. Маркасовой за подготовленную коллекцию редких периодических изданий 1919—1920-х годов; студентам Нижегородского филиала ВШЭ под руководством В. Г. Сибирцевой за подготовку коллекции текстов электронной коммуникации.

    Разработчики Корпуса приносят благодарность следующим издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии находящихся в их распоряжении текстов:

    Обновлено