Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Национальный корпус русского языка — это мощный инструмент для анализа и исследования языка. В нем собраны миллионы текстов, которые позволяют пользователям Корпуса лучше понять язык во всех его многообразных проявлениях. Один из важнейших аспектов работы с корпусом — анализ статистических данных.
Сводная статистика НКРЯ доступна с главной страницы сайта. В этом разделе содержится информация об объеме входящих в НКРЯ корпусов в текстах, предложениях и словоупотреблениях, а также таблицы с распределением текстов Основного корпуса по видам и другим метапризнакам.
Кликнув на название корпуса в таблице, вы можете перейти к статистике в Портрете выбранного корпуса. Перейти к статистике корпуса также можно из формы поиска по корпусу, кликнув на значок (i). Сейчас статистика корпуса доступна для Основного, Обучающего, Газетных корпусов, некоторых исторических корпусов, а также корпусов «Русская классика» и «От 2 до 15».
В корпусах с расширенной статистикой также доступно сравнение пользовательского подкорпуса с целым корпусом. Для просмотра сравнительных данных нажмите на значок (i) в шапке подкорпуса.
Параллельный корпус пополнен на 3 млн слов. Половина этого объема приходится на англоязычные нехудожественные (научно-популярные и публицистические) тексты. Кроме того, пополнены, в основном художественными произведениями, испанская и немецкая языковые пары.
В трех языковых парах, включающих записи устных текстов — вепсской, карельской и хакасской — доступен отбор подкорпуса по диалекту.
Для пользователей, которые только знакомятся с Корпусом, на главной странице доступен функционал «Обзор возможностей».
В октябре мы усовершенствовали его работу, добавив новые виджеты и сделав существующие виджеты более информативными. Теперь «Обзор возможностей» общий для всех корпусов НКРЯ.
Появился новый текстовый виджет, с помощью которого пользователь познакомится с основными терминами, используемыми в интерфейсе НКРЯ, узнает как приступить к поиску, какие бывают виды поиска и где можно подробнее о них прочитать.
Лексико-грамматический поиск, поиск точных форм и коллокаций теперь выдают результаты только из Основного корпуса.
В виджете «Случайное стихотворение» теперь видно не только само произведение, но и его название, автор и дата создания.
Названия корпусов в заголовках виджетов стали кликабельными – по ссылке пользователь перейдет в «Портрет корпуса», где сможет ознакомиться с его структурой и составом, узнать больше о создателях корпуса и прочитать публикации о нем.
В октябре были пополнены коллекции устной речи в Акцентологическом и Устном корпусах. Добавлены записи текстов устной профессиональной речи, монологов-воспоминаний, повседневной диалогической речи, записанной в разных регионах — Воронежской, Московской, Томской областях, Республике Бурятии, Марий Эл. За участие в сборе и подготовке текстов благодарим студентов и сотрудников Воронежского государственного университета, студентов МГУ им М.В. Ломоносова, Г.В. Коротких (АНО «Межэтническая ассоциация «Ильсат» («Душа»), г. Томск), Е.В. Кашкина (Группа по изучению контактного взаимодействия русского языка с языками коренных народов России, ИРЯ РАН).
Объем Устного корпуса теперь составляет 14,8 млн словоупотреблений, общий объем Акцентологического корпуса, вместе с наивной поэзией, — 135,5 млн словоупотреблений.
В обоих корпусах появилась возможность отбирать тексты по количеству словоформ. В форме отбора подкорпуса Устного корпуса регионы теперь сгруппированы по странам для удобства поиска.