О Корпусе

Национальный корпус русского языка охватывает период от первых восточнославянских памятников (XI век) до первых десятилетий XXI века. Он представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, диалектном. В корпус включаются, в частности, произведения художественной литературы (проза, драматургия, поэзия, звучащая речь кино), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы или тем более образцовых с точки зрения литературной нормы текстов. Основная масса вошедших в него текстов представляет речевые жанры во всем их многообразии: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления и частная устная речь, переписка (в том числе в Интернете), дневники (в том числе блоги), частные документы, любительская поэзия и т. п. 

Подробнее см. раздел «Состав и структура Корпуса»

Участники проекта

В проекте участвуют специалисты Института русского языка им. В. В. Виноградова РАН [ИРЯ РАН], Национального исследовательского института «Высшая школа экономики» [ВШЭ], Института проблем передачи информации РАН [ИППИ РАН], Института лингвистических исследований РАН [ИЛИ РАН] в  Санкт-Петербурге, Воронежского государственного университета. Программную и организационную поддержку проекту с его основания оказывает компания «Яндекс». На протяжении истории Корпуса в проекте участвовали сотрудники многих других организаций, независимые исследователи, студенты и аспиранты, волонтёры.

Подробная информация о сотрудниках проекта, на разных этапах принимавших участие в работе над Корпусом, размещена на странице «Участники».

Подробнее о раннем этапе истории создания Корпуса см. статью Д. В. Сичинавы «Национальный корпус русского языка: очерк предыстории» в сборнике «Национальный корпус русского языка: 2003-2005. Результаты и перспективы» (Москва, 2005).

Программное обеспечение

Платформа Национального корпуса русского языка включает в себя инструменты подготовки и индексации текстов и поиска по корпусам.

Кураторы корпусов регулярно готовят данные для пополнения корпусов с помощью программного обеспечения для метатекстовой и грамматической разметки текстов, включающего в себя большой набор специализированных инструментов для каждого из корпусов. Подробнее о принципах и инструментах разметки в корпусах см. в разделе «Состав и структура».

При каждом пополнении корпуса подготовленные лингвистами тексты проходят автоматизированную индексацию с применением MyStem (разработка компании «Яндекс») для русского языка с учетом частотных орфографических и грамматических нестандартных вариантов, а также специальных версий системы MyStem для других языков в составе параллельного корпуса и семантического словаря для русского языка.

Ряд корпусов дополнительно обрабатываются с помощью РуБик, который позволяет снять грамматическую омонимию (выявить предпочтительный грамматический разбор) и получить синтаксический разбор предложений.

Для выявления похожих слов, морфемных разборов, разметки ключевых слов и жанров используются языковые модели семейства НейроКРЯ.

Для онлайн-поиска по Корпусу используются поисковые системы Elastic Search и Яндекс Поиск, а также дополнительные плагины к ним, позволяющие осуществлять лингвистический поиск.

В создании и усовершенствовании Платформы принимали на различных этапах работы архитекторы и разработчики из организаций-участников проекта.

Гранты

В 2020—2023 годах Корпус развивался благодаря поддержке гранта Министерства науки и высшего образования  № 075-15-2020-793 «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования».

В 2015—2021 годах НКРЯ получил поддержку научных фондов РФФИ, РГНФ, РНФ и программ Президиума РАН и ОИФН РАН. Ниже перечислены гранты, охватывающие корпус в целом или несколько крупных подкорпусов. Гранты, на которые развивались отдельные подкорпуса, перечислены в разделе «Состав и структура» в разделах о соответствующих подкорпусах.

  • РГНФ № 15-04-12018 «Развитие специализированных модулей НКРЯ» (рук. Е. В. Рахилина)    
  • РФФИ, проект № 17-29-09154 «Динамика языковой системы: корпусное исследование синхронной вариативности и диахронических изменений в текстах разных типов».
  • РФФИ № 19-07-00842 «Разработка корпуса русских текстов, снабженного морфосинтаксической, лексико-функциональной, анафорической и темпоральной разметкой» (рук. И. М. Богуславский)
  • Программа фундаментальных исследований Секции литературы и языка ОИФН РАН «Язык и информационные технологии» (2015—2017)
  • Комплексная программа фундаментальных исследований Секции литературы и языка ОИФН РАН «Евразийское наследие и его современные смыслы» (2015—2017).
  • Программа фундаментальных исследований Президиума РАН «Памятники материальной и духовной культуры в современной информационной среде» (2018)

В 2011—2014 гг. создание и развитие корпуса поддерживалось Программой Президиума РАН «Корпусная лингвистика» № 36-П.

Ранее, в 2003—2010 гг., проект создания Национального корпуса получал поддержку:

 

Обновлено