Корпус
  • 27 289 текстов
  • 18 556 005 слов
исторический, омонимия снята, синтаксически размечен

Корпус включает художественные, публицистические и эпистолярные произведения из собраний сочинений русских классических писателей. 

На данный момент в корпусе представлены русскоязычные произведения

  • А. Н. Радищева
  • И. А. Крылова
  • В. А. Жуковского
  • А. С. Пушкина
  • Е. А. Баратынского
  • М. Ю. Лермонтова
  • Н. В. Гоголя
  • И. С. Тургенева
  • М. Е. Салтыкова-Щедрина
  • Л. Н. Толстого
  • Н. С. Лескова
  • А. П. Чехова

Предпочтение отдавалось оцифрованным полным собраниям сочинений, размещенным в электронных библиотеках rvb.ru и feb-web.ru. Изданные в советское время наиболее представительные собрания сочинений Жуковского, Гоголя и Лескова не являются полными, в том числе и из идеологических соображений. Тексты Л. Н. Толстого и А. П. Чехова конвертированы из коллекций соответствующих цифровых проектов. В корпус не были включены редакторские переводы текстов на иностранных языках. Включаются также тексты, написанные в основном на иностранном языке, но содержащие нетривиальные русские слова и словосочетания или черновые версии на русском языке.

По умолчанию тексты в поисковой выдаче отсортированы от более ранних к более поздним. Доступна также сортировка по имени автора (а внутри текстов одного автора — по жанру и названию). В корпусе можно построить диахронический график частотности, а также сравнивать на графике несколько запросов.

Сейчас корпус находится в бета-версии, планируется его пополнение новыми авторами и произведениями. Приблизительный объем текстов — 18 млн словоупотреблений.

Цели корпуса

Произведения русских классических писателей имеют особый статус для истории русского литературного языка. Если считать, что литературный язык — такой, который «обработан мастерами», тексты этих мастеров и составляют ядро корпуса русского литературного языка. С таким корпусом можно сверяться как с нормативным, а не узусным источником, из него можно извлекать авторитетные примеры для академических грамматик, словарей и учебных пособий.

Включить все эти тексты в состав основного корпуса было бы спорным решением, так как нарушило бы жанровую и авторскую сбалансированность. Одно только наследие Льва Толстого составляет около 7 млн словоупотреблений, то есть несколько менее 2 % основного корпуса. Это большое число. Добавление полного собрания сочинений Толстого создало бы серьезный перекос в сторону одного автора. Кроме того, заметная доля текстов в собраниях русских классиков — это художественные произведения, которые в НКРЯ всегда стремились ограничить 40 % от общего объема. Наконец, создатели основного корпуса избегают включать в него черновики и редакционные варианты произведений, которые зачастую содержат интересный языковой материал.

Таким образом, цель корпуса в том, чтобы, не связывая себя ограничениями основного корпуса, максимально широко представить в НКРЯ наследие русской классики, постепенно превратив его в корпус русского литературного языка XIX и начала XX века.

Поскольку задача корпуса в том, чтобы собрать вместе в наиболее полном виде произведения (не только художественные) классических русских писателей, разметка текстов аскетична и включает только минимальный набор параметров, используемых во всех корпусах НКРЯ: самые общие метаданные, морфологическую и семантическую аннотацию. Стиховедческая разметка в поэтических текстах отсутствует, но ее можно найти в специализированном корпусе.

Еще одним полезным побочным свойством корпуса является возможность осуществлять поиск по текстам отдельных авторов, которые представлены полнее, чем в основном. Можно задавать запросы и при поиске по отдельным произведениям. Это позволяет находить идиостилистические особенности писателей, уточнять их предпочтения в сфере лексики и конструкций.

Так, специфичное для Тургенева слово «полузавядший» встречается и в одной из редакций повести Толстого «Юность», а специфичный для Лескова оборот «она немедленно же» действительно характерен именно для его индивидуального стиля.

 

Создание корпуса

Над корпусом работали:

Б. В. Орехов (общая концепция корпуса; сбор текстов, программная обработка)

М. И. Сатина (доразметка метаданных)

Д. В. Сичинава (ручная вычитка, программная обработка, доразметка метаданных)

П. В. Дяченко (реализация поиска)

А. Е. Поляков (подготовка текстов Н. В. Гоголя)

 

Публикации

Ознакомьтесь со списком научных публикаций о корпусе «Русская классика» по ссылке: https://ruscorpora.ru/s/enXPp. В разделе «‎Публикации»‎ используйте фильтры, чтобы найти другие типы публикаций о корпусе.

 

Обновлено 22.07.2024