Корпус
  • 131 488 текстов
  • 374 449 975 слов
синтаксически размечен, омонимия снята
Основной корпус

Специфика корпуса

Основной корпус — корпус русских письменных прозаических текстов, созданных после 1700 года. Он отражает русский язык Нового времени, отсчёт истории которого начинается именно с петровской эпохи.

Тексты, включаемые в Основной корпус, как правило, ориентированы на языковой стандарт (литературный язык) своей эпохи, хотя не должны рассматриваться как образцовые или «правильные» с этой точки зрения. Этот корпус стремится к представительности (репрезентативности) с точки зрения письменного русского языка каждой эпохи и включает в себя в определенных пропорциях различные жанры (художественные, научные тексты, публицистику, религиозные тексты, технические тексты, частную переписку). 

Корпус можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). Формально граница между этими массивами нигде не проведена, и по умолчанию поиск по ним ведётся одновременно. Задать этот либо любой другой хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.

Современные письменные тексты

Репрезентативный корпус современных текстов с морфологической разметкой составляет ядро основного корпуса. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

  • современная художественная проза разных жанров и направлений
  • современная драматургия
  • мемуарно-биографическая литература
  • журнальная публицистика и литературная критика
  • газетная публицистика и новости
  • научные, научно-популярные и учебные тексты
  • религиозные и  религиозно-философские тексты
  • производственно-технические тексты
  • официально-деловые и юридические тексты
  • бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей).

Современные переводные тексты в Основной корпус не включаются; после выравнивания с оригиналами они входят в параллельный корпус.

Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.

Основной корпус — это большой представительный корпус русских письменных текстов различных жанров с XVIII века до нашего времени.

Тексты XVIII—середины XX вв. в Корпусе

Тексты XVIII—середины XX вв. в Корпусе представляют также различные жанры прозы (художественная литература, включая прозаическую драматургию, научные тексты, публицистика, частная переписка, документы), однако по причине меньшей доступности электронных версий и современных переизданий процент художественной литературы для этого периода пока еще гораздо выше, чем для второй половины XX в.

Для этого периода (до конца XIX в.) допускается включение в основной корпус переводных текстов, роль которых в развитии русского литературного языка была очень велика.  В основной корпус, а не в поэтический, вводятся прозаические фрагменты текстов, основная часть которых написана в стихах (например, у Пушкина прозаические сцены «Бориса Годунова»).

Тексты, написанные и/или опубликованные изначально в старой орфографии (до 1918 г. и авторами первой волны послереволюционной эмиграции), чаще даются в послереформенной орфографии по более поздним переизданиям. Однако растет число текстов, включаемых в корпус по оригинальным изданиям в соответствии с их орфографией. Объём коллекции текстов в дореформенной орфографии на 2022 г. составляет 12,7 млн словоупотреблений; эту коллекцию можно выбрать в качестве подкорпуса и искать, например, словоформы, правописание которых в реальном узусе было вариативным (копѣйка или копейка). Если старый текст даётся по современному научному переизданию, то те особенности оригинальной орфографии, которые сохраняются в этом издании, сохранены и в Корпусе. 

Разметка

Все тексты, входящие в основной корпус, содержат метаразметку (метатекстовую информацию), морфологическую, словообразовательную, синтаксическую и семантическую разметку.

Метаразметка основного корпуса включает сведения о названии текста, дате его создания, имени, годе рождения и поле автора (если это известно), месте и дате публикации, источнике, по которому дается текст, его сфере функционирования, жанре и типе текста, хронотопе художественных произведений и мемуаров, специфике аудитории (массовость, возраст), орфографии, типу морфологической разметки (автоматическая или сделанная вручную). Возможно отобрать подкорпус по всем этим параметрам.

Морфологическая разметка для русского языка осуществляется с помощью специальных программ автоматического морфологического анализа и лемматизации. Большинство текстов размечены параллельно двумя программами, MyStem и Rubic, специально адаптированными для обработки текстов разных сфер, жанров и времени создания. 

Русскоязычная модель MyStem основана на электронном грамматическом словаре и умеет строить гипотезы для несловарных слов. Ряд словоформ (в том числе устаревших форм словоизменения, просторечных вариантов и т. п.), часто встречающихся в текстах корпуса, но не предусмотренных этим анализатором, получает индивидуальный разбор, заданный списком или построенный по правилам. Каждой словоформе приписываются все предусмотренные словарем или правилами разборы, независимо от контекста — поиск по разметке MyStem доступен в режиме «Все разборы». 

Нейросетевая модель Rubic обучена на представительном наборе текстов, размеченных вручную, и предлагает для словоформы один, наиболее вероятный в данном контексте, набор грамматических признаков (режим  поиска «Предпочтительные разборы»). Rubic также автоматически строит правила преобразования словоформы в лемму, а затем из нескольких наиболее вероятных в данном контексте гипотез отбирается та, которая входит составленный экспертами словарь. Если такого совпадения нет, то словоформе приписывается наиболее вероятная с точки зрения модели лемма. Дополнительными правилами исправляются ошибочные разборы для сочетания леммы и части речи, встретившиеся в корпусе более 40 раз. Это, в частности, позволяет дать корректные разборы для частотных архаичных, просторечных и орфографически искаженных форм. 

Тексты в старой орфографии автоматически анализируются обеими системами, леммы для них даются в новой орфографии.

В небольшой части основного корпуса (объемом 6 млн словоупотреблений) произведена разметка текстов вручную. С помощью систем автоматического морфологического анализа DiaLing/AOT и  MyStem каждой словоформе были приписаны возможные разборы, независимо от контекста, а затем эксперты провели снятие омонимии (выбрали нужный разбор с учетом контекста) и дополнительно скорректировали результаты. 

Нейросетевая модель Rubic осуществляет также синтаксическую разметку основного корпуса, предсказывая один синтаксический разбор для всего предложения. Анализатор строит для предложения дерево зависимостей, в котором каждое слово связано дугой со своим синтаксическим «хозяином», за исключением вершины дерева — главного слова предложения (обычно это глагол-сказуемое). Дуги имеют метку синтаксического отношения между главным и зависимым словом. На основе этого дерева дополнительные правила определяют в предложении синтаксические составляющие — клаузы (например, главное и придаточные предложения) и группы (например, именную группу). В настоящий момент в корпусе доступен поиск по синтаксической роли слова как зависимого и основным типам составляющих, в дальнейшем планируется подключить полный поиск по дереву зависимостей. 

Словоформы основного корпуса размечены — на базе словаря и дополняющего его нейросетевого механизма НейроКРЯ — с точки зрения морфемного состава лексемы (так называемая словообразовательная разметка). Возможен поиск по морфемам и их отдельным типам (корням, приставкам, суффиксам, окончаниям), в том числе с учетом чередований.

Словоформы текстов, входящие в основной корпус, получают автоматическую семантическую разметку, основанную на наборе дискретных семантических характеристик, приписываемых в словаре.

Публикации

Ознакомьтесь со списком научных публикаций об Основном корпусе по ссылке: https://ruscorpora.ru/s/eXw0o. Чтобы найти другие типы публикаций о корпусе, используйте фильтры в разделе «‎Публикации»‎.

Создание корпуса

В работе по созданию основного корпуса письменных и устных текстов выделяется ряд подзадач:

  1. Создание представительного корпуса письменных текстов XVIII века. В начале 2000-х годов эта задача решалась группой КГУ под руководством В. Д. Соловьёва и группой ИРЯ под руководством С. О. Савчук при поддержке программы Президиума РАН «Историко-культурное наследие и духовные ценности России» (руководитель проекта Д. В. Сичинава). В дальнейшем эта задача продолжает развиваться группой ИРЯ РАН (руководитель С. О. Савчук) и группой ИЛИ РАН (руководитель М. Д. Воейкова).
  2. Создание представительного корпуса письменных текстов XIX — первой половины XX века. В 2000-е годы эта задача решалась группой ИЛИ РАН под руководством М. Д. Воейковой и Н. Н. Казанского при поддержке грантов РФФИ № 03-04-00226а (руководитель проекта Л. А. Вербицкая), № 06-04-03817в (руководитель проекта Е. В. Рахилина), программы ОИФН РАН (проект «Пополнение текстовых ресурсов корпуса (тексты первой половины ХХ в.)», руководитель С. О. Савчук). С 2015 г. в корпус включены тексты в дореформенной орфографии, представляющие собой электронные версии оригинальных изданий XVIII — начала XX вв. С 2010-х годов работа над этой задачей также продолжается группой ИРЯ РАН во главе с С. О. Савчук. 
  3. Создание представительного корпуса современных письменных текстов (середины XX — начала XXI века). Эта задача в 2000-е годы решалась группой ИРЯ РАН (с участием сотрудников ряда других институтов) под руководством А. М. Молдована и В. А. Плунгяна при поддержке проектов ОИФН РАН «Формирование и метатекстовая разметка корпуса текстов второй половины XX и XXI вв.» (руководитель В. А. Плунгян), «Подготовка окончательного варианта корпуса современного русского языка: коррекция баланса и редактирование» (руководитель Е. В. Рахилина), проектов Федерального агентства по образованию «Электронный корпус русского языка: научно-исследовательский и обучающий Интернет-ресурс», «Информационное наполнение банка данных о русском языке, его истории и современном состоянии» (руководитель А. М. Молдован). В дальнейшем корпус пополняется группой ИРЯ РАН во главе с С. О. Савчук.
  4. Разработка принципов морфологической и словообразовательно-семантической разметки для сбалансированного корпуса письменных текстов, разработка программного обеспечения и разметка корпусов. Эта задача решалась в 2000-е годы группой ИРЯ РАН при поддержке ОИФН РАН (проекты «Создание программного обеспечения для Национального корпуса текстов русского языка», руководители А. Я. Шайкевич и С. А. Шаров, «Программное обеспечение Национального корпуса русского языка XIX-XXI вв.», руководители они же, «Лексико-семантическая и таксономическая разметка подмассива сбалансированного корпуса», «Морфосемантическая разметка и снятие морфологической и лексической омонимии в Национальном корпусе русского языка», «Модель управления глагола и текст: теоретические и прикладные аспекты», — руководитель всех трёх Е. В. Падучева, «Процессы словообразования в текстовой динамике», руководитель О. Н. Ляшевская, «Конструкции и динамика текста», руководитель Е. В. Рахилина).

    Общие принципы морфологической разметки текста были разработаны в 2002-2004 гг. В. А. Плунгяном при участии Г. И. Кустовой, А. Е. Полякова и Д. В. Сичинавы.

    Программное обеспечение для морфологической разметки Корпуса, использовавшееся в 2000-е годы, разработано Д. В. Панкратовым, А. Е. Поляковым и В. А. Титовым и в дальнейшем развивалось Т. А. Архангельским и А. И. Зобниным на базе программ автоматического морфологического анализа русских письменных текстов Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов морфологического анализа для этих программ занимались Л. Л. Иомдин и В. З. Санников (Mystem) и Н. Н. Леонтьева (Dialing). В создании и усовершенствовании программного обеспечения Национального корпуса в целом (системы поиска, метатекстовой разметки, семантической разметки и др.) в 2000-е годы принимали участие на различных этапах работы А. А. Аброскин, Т. А. Архангельский, Н. В. Григорьев, С. В. Давыдов, А. И. Зобнин, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов, О. М. Урюпина и С. Ю. Шустрова.

    В работах по морфологической разметке со снятием омонимии в 2000-е годы принимал участие большой коллектив специалистов, а также студентов и аспирантов лингвистических вузов Москвы. Наиболее значительный объем работ был выполнен О. Л. Бирюк, Д. С. Ганенковым, Е. А. Гришиной, О. В. Драгой, Г. И. Кустовой, Ю. А. Ландером, О. Н. Ляшевской, Т. А. Майсаком, Е. А. Пшехотской, Ю. Д. Семьяновой, Д. В. Сичинавой и С. В. Уляхиной.

    В экспертизе результатов морфологической и акцентной разметки в 2000-е годы участвовали П. М. Аркадьев, А. В. Венцов, Д. С. Ганенков, Е. А. Гришина, Г. И. Кустова, О. Н. Ляшевская, Н. В. Перцов.

    В разработке и внедрении в Корпус семантической разметки (вторая половина 2000-х годов) участвовали Е. Ю. Калинина, Г. И. Кустова, О. Н. Ляшевская, Е. В. Падучева, В. А. Плунгян, Е. В. Рахилина, С. Ю. Толдова, Е. Б. Чекменёва и О. Ю. Шеманаева (Подлесская). Программные средства для семантической разметки разработаны А. Е. Поляковым и А. И. Зобниным. Концепция словообразовательной разметки была разработана в 2009 году Е. А. Гришиной, И. Б. Иткиным, О. Н. Ляшевской, М. Г. Тагабилевой

    В 2010-2020-х годах словообразовательная и семантическая разметка дорабатывались О. Н. Ляшевской, Е. В. Кашкиным, Ю. Н. Кузнецовой. Нейросетевой механизм для словообразовательной разметки разработан Д. А. Морозовым и Т. А. Гариповым на основе архитектуры, предложенной А. А. Сорокиным.

  5. Разработка принципов метатекстовой разметки и отбора текстов. Общие принципы метатекстовой разметки и отбора текстов были разработаны в начале 2000-х годов С. О. Савчук и С. А. Шаровым, при участии Е. А. Гришиной, В. А. Плунгяна и Е. Г. Соколовой; программное обеспечение для метатекстовой разметки и поиска составлено С. А. Шаровым и А. Е. Поляковым. Координация работ по метатекстовой разметке текстов Национального корпуса осуществляется С. О. Савчук и Д. В. Сичинавой; значительный объем работ в этой области (включая предварительный отбор и вычитку текстов) был выполнен, помимо названных лиц, также А. В. Беляевой, И. А. Волковым, А. И. Дворкиной, М. А. Кожевниковой, Н. А. Коротковой, Е. А. Красильчиковой, Е. Н. Ловлей, В. С. Мальцевой, А. А. Маховой, Е. Н. Морозовой, С. В. Пискуновой, Т. И. Резниковой, М. М. Ровинской, М. И. Русановой, К. И. Самоходской, Н. В. Сердобольской, Т. А. Фокиной, А. В. Файнвейц и А. В. Шипуновой. В обработке и метаразметке текстов XVIII—XIX века участвовали группы под руководством Н. Л. Дич, С. А. Оскольской и В. А. Круглова (ИЛИ РАН). В подготовке метаописаний текстов второй половины ХХ века составителям Корпуса также оказали помощь М. А. Журинская и Г. Л. Юзефович.

Разработчики Корпуса приносят благодарность О. В. Аронсону, А. Л. Доброхотову, Л. А. Гоготишвили, В. М. Молчанову, С. С. Неретиной, Е. В. Петровской, В. А. Подороге, И. М. Чубарову, М. Б. Ямпольскому за предоставленные материалы, составившие коллекцию современных философских текстов; группе студентов и аспирантов под руководством Е. В. Маркасовой за подготовленную коллекцию редких периодических изданий 1919—1920-х годов; студентам Нижегородского филиала ВШЭ под руководством В. Г. Сибирцевой за подготовку коллекции текстов электронной коммуникации.

Разработчики Корпуса приносят благодарность следующим издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии находящихся в их распоряжении текстов:

Обновлено 22.07.2024