О Корпусе

Национальный корпус русского языка охватывает период от первых восточнославянских памятников (XI век) до первых десятилетий XXI века. Он представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, диалектном. В корпус включаются, в частности, произведения художественной литературы (проза, драматургия, поэзия, звучащая речь кино), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы или тем более образцовых с точки зрения литературной нормы текстов. Основная масса вошедших в него текстов представляет речевые жанры во всем их многообразии: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления и частная устная речь, переписка (в том числе в Интернете), дневники (в том числе блоги), частные документы, любительская поэзия и т. п.

Подробнее см. раздел «Состав и структура Корпуса»

Участники проекта

В проекте участвуют специалисты Института русского языка им. В. В. Виноградова РАН [ИРЯ РАН], Национального исследовательского института «Высшая школа экономики» [ВШЭ], Института проблем передачи информации РАН [ИППИ РАН], Института лингвистических исследований РАН [ИЛИ РАН] в Санкт-Петербурге, Воронежского государственного университета. Программную и организационную поддержку проекту с его основания оказывает компания Яндекс. На протяжении истории Корпуса в проекте участвовали сотрудники многих других организаций, независимые исследователи, студенты и аспиранты, волонтёры.

Подробная информация о сотрудниках проекта, на разных этапах принимавших участие в работе над Корпусом, размещена на странице «Участники».

Подробнее о раннем этапе истории создания Корпуса см. статью Д. В. Сичинавы «Национальный корпус русского языка: очерк предыстории» в сборнике «Национальный корпус русского языка: 2003-2005. Результаты и перспективы» (Москва, 2005).

Программное обеспечение

Платформа Национального корпуса русского языка включает в себя инструменты подготовки и индексации текстов и поиска по корпусам.

Кураторы корпусов регулярно готовят данные для пополнения корпусов с помощью программного обеспечения для метатекстовой и грамматической разметки текстов, включающего в себя большой набор специализированных инструментов для каждого из корпусов. Подробнее о принципах и инструментах разметки в корпусах см. в разделе «Состав и структура».

При каждом пополнении корпуса подготовленные лингвистами тексты проходят автоматизированную индексацию с применением MyStem (разработка компании Яндекс) для русского языка с учетом частотных орфографических и грамматических нестандартных вариантов, а также специальных версий системы MyStem для других языков в составе параллельного корпуса и семантического словаря для русского языка.

Ряд корпусов дополнительно обрабатываются с помощью РуБик, который позволяет снять грамматическую омонимию (выявить предпочтительный грамматический разбор) и получить синтаксический разбор предложений.

Для выявления похожих слов, морфемных разборов, разметки ключевых слов и жанров используются языковые модели семейства НейроКРЯ.

Для онлайн-поиска по Корпусу используются поисковые системы Elastic Search и Яндекс Поиск, а также дополнительные плагины к ним, позволяющие осуществлять лингвистический поиск.

В создании и усовершенствовании Платформы принимали на различных этапах работы архитекторы и разработчики из организаций-участников проекта.

Гранты

В 2020—2023 годах Корпус развивался благодаря поддержке гранта Министерства науки и высшего образования № 075-15-2020-793 «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования».

В 2015—2021 годах НКРЯ получил поддержку научных фондов РФФИ, РГНФ, РНФ и программ Президиума РАН и ОИФН РАН. Ниже перечислены гранты, охватывающие корпус в целом или несколько крупных подкорпусов. Гранты, на которые развивались отдельные подкорпуса, перечислены в разделе «Состав и структура» в разделах о соответствующих подкорпусах.

РГНФ № 15-04-12018 «Развитие специализированных модулей НКРЯ» (рук. Е. В. Рахилина)
РФФИ, проект № 17-29-09154 «Динамика языковой системы: корпусное исследование синхронной вариативности и диахронических изменений в текстах разных типов».
РФФИ № 19-07-00842 «Разработка корпуса русских текстов, снабженного морфосинтаксической, лексико-функциональной, анафорической и темпоральной разметкой» (рук. И. М. Богуславский)
Программа фундаментальных исследований Секции литературы и языка ОИФН РАН «Язык и информационные технологии» (2015—2017)
Комплексная программа фундаментальных исследований Секции литературы и языка ОИФН РАН «Евразийское наследие и его современные смыслы» (2015—2017).
Программа фундаментальных исследований Президиума РАН «Памятники материальной и духовной культуры в современной информационной среде» (2018)

В 2011—2014 гг. создание и развитие корпуса поддерживалось Программой Президиума РАН «Корпусная лингвистика» № 36-П.

Ранее, в 2003—2010 гг., проект создания Национального корпуса получал поддержку:

Отделения историко-филологических наук Российской академии наук в рамках программ «Филология и информатика» (2003—2006), «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006—2009), «Генезис и взаимодействие социальных, культурных и языковых общностей», «Текст во взаимодействии с социокультурной средой: уровни историко-литературной и лингвистической интерпретации»; Президиума РАН «Историко-культурное наследие и духовные ценности России» (2009—2012)
Российского гуманитарного научного фонда (гранты РГНФ №№ 03-04-00226а, 06-04-03817в, 06-04-03818в, 08-04-12127в, 09-04-12159в, 15-04-12018в);
Российского фонда фундаментальных исследований (гранты РФФИ №№ 06-06-80133а, 08-06-00371-а, 15-06-04334а).
федеральной целевой программы «Русский язык» Федерального агентства по образованию (госконтракты №№ 1028, 890, 608 от 14.12.2006, 219 от 18.06.2007, 66 от 11.04.2008).

Обновлено 23.07.2024