Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 1,5 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Существенно улучшена функциональность основного корпуса: в нем появилась лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Теперь в основном корпусе разведены морфологические омонимы, а также появилась возможность задавать поиск по таким синтаксическим параметрам, как типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многим другим. Новая разметка сделала доступными в основном корпусе все новейшие функции, появившиеся ранее в корпусе региональных СМИ: Поиск коллокаций, Частотный словарь, Частотность выдачи.
Кроме того, в основном и газетных корпусах появилась возможность задавать поиск лемм и словоформ с использованием регулярных выражений (β-версия), а также статистика корпуса и подкорпуса в виде таблицы с объемом в текстах и словах, географической карты (только для корпуса региональных СМИ) и диаграммы значений метаатрибутов, что дает пользователям возможность сравнивать заданный подкорпус с корпусом, в том числе визуально.
Существенно обновлен интерфейс церковнославянского корпуса, корпус подключен к обзору возможностей.
Мультимедийный корпус пополнен до 5,7 млн словоупотреблений.
Параллельный корпус пополнен до 168 млн словоупотреблений. В нем появились новые языковые пары: сербско-русская и словенско-русская (по 2 млн словоупотреблений каждая), а также небольшие пилотные корейско-русская и хинди-русская языковые пары с транслитерацией и словарной поддержкой. Последние две пары впервые в истории параллельного корпуса включают выровненные поэтические тексты. Пополнены новыми текстами также чешско-русская и испанско-русская языковые пары.
Существенно обновлен интерфейс старорусского корпуса, корпус подключен к обзору возможностей.
В региональном корпусе появился новый вид выдачи — Частотность, с помощью которого можно проанализировать статистическое распределение результатов поиска по леммам, словоформам и набору грамматических признаков. Частотность рассчитывается на основе разборов с автоматически снятой омонимией по случайной подвыборке размером 1 млн результатов поиска. Пользователи могут управлять уровнем доверительной вероятности для сравнения доверительных интервалов частотности.
Диалектный корпус пополнен до 604 тыс. словоупотреблений.
Синтаксический корпус пополнен на 30 тыс. словоупотреблений.
В частотных словарях корпуса и подкорпуса теперь выводится 500 лемм вместо 100.
НКРЯ подвел итоги 2022-го года в Корпусе. Изменений в этом году много – объем Корпуса вырос в полтора раза и достиг 1,5 млрд словоупотреблений, в составе НКРЯ появилось два новых корпуса – Панхронический и «От 2 до 15», корпус берестяных грамот стал параллельным, в региональном корпусе появились автоматически снятая омонимия и новый функционал, связанный с сочетаемостью и частотностью. Закрыта старая версия Корпуса. Кроме того, НКРЯ переходит на новый интерфейс. Подробнее все изменения показаны на рисунке.
Каждый корпус в составе НКРЯ получил свой собственный Портрет. Функционал «Портрет корпуса» задуман как инструмент, позволяющий пользователю НКРЯ проанализировать особенности корпуса и оценить, подходит ли корпус для решения его исследовательских или учебных задач. В портрет корпуса на данном этапе входит:
* описание корпуса
* частотный словарь (только в корпусе Региональных СМИ)
Все корпуса НКРЯ размечены тегами, позволяющими классифицировать корпуса по историческому периоду, типам текстов, наличию специфической разметки и т.д.
При наличии пользовательского подкорпуса пользователи также получают доступ к «Портрету подкорпуса». С помощью этого инструмента, нажав на (i) в шапке подкорпуса, можно увидеть список отобранных текстов, а также сравнить статистические характеристики подкорпуса и корпуса. Например, можно сравнить частотные словари регионального корпуса и отобранного в нем подкорпуса.
В 2023 году в портретах корпуса и подкорпуса появится больше статистических данных.