Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Рады сообщить о важном обновлении формы поиска на сайте Национального корпуса русского языка! Теперь пользователи могут добавлять слова перед Словом 1, что значительно упрощает составление и редактирование сложных запросов.
Ранее добавлять слова можно было только справа от Слова 1 и последующих слов. Например, если вы искали конструкцию вида «прилагательное + местоимение + дорога», задав синтаксические отношения между этими словами, но затем решили искать вариант «союз + прилагательное + местоимение + дорога», вам пришлось бы пересобирать запрос с нуля. Теперь всё проще: достаточно нажать кнопку «+» слева от Слова 1 и указать любой признак, например «союз».
Обратите внимание: принцип расчета расстояния между словами остался неизменным. Расстояние всегда задаётся слева направо: от нового Слова 1 до исходного Слова 1, а затем — к последующим словам.
В Параллельном корпусе НКРЯ появились новые функции, которые сделают работу с ним более удобной.
В японском языке в форме поиска на двух языках появилось поисковое поле «Семантика». Японский стал первым иностранным языком в НКРЯ, в котором размечена семантика.
В карельском, вепсском, чувашском, хакасском корпусах расширены возможности настройки подкорпуса. Пользователи смогут отбирать тексты по жанру и типу (для всех перечисленных языков), а также по теме текста (в чувашском корпусе). Для всех параллельных корпусов доступна возможность отбирать подкорпус по количеству словоформ, что полезно при анализе текстов разного объёма.
Результаты поиска теперь можно сортировать с помощью шести новых типов сортировки: по дате создания текста на русском или иностранном языке от старых текстов к новым и наоборот, при условии, что оригиналы и переводы рассматриваются вместе или отдельно. Новые сортировки помогут быстрее находить нужную информацию и лучше структурировать данные.
В Поэтический корпус добавлены тексты четырех поэтов — Вадима Шефнера, Роберта Рождественского, Льва Лосева и Марии Степановой. Объем пополнения — 200 тысяч слов, 2 тысячи текстов, 44 тысячи стихотворных строк. А всего в корпусе строк почти 3 миллиона.
В корпусе появилась возможность искать слово в начале и конце строки. Так, можно определить, что характерные поэтизмы ужель или вотще чаще встречаются в начале строчки, чем в какой-то другой позиции стиха.
Основной корпус НКРЯ пополнен на 15 млн слов, представляющих несколько тематических коллекций: это пьесы разных эпох, официально-деловые тексты, научные журналы, естественнонаучные справочники XVIII в., массовая литература — например, как дореволюционные, так и постсоветские любовные романы, — и многое другое.
Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических отношений. Для разметки была использована обновленная версия нейросетевой модели РуБик, что позволило существенно улучшить лемматизацию слов. На тестовом наборе данных процент ошибочных лемм в корпусе снизился с 4,24% до 1,39%. Пожалуйста, сообщайте нам о встречающихся ошибках в автоматической разметке слов. Чтобы сделать это, выделите слово и во всплывающем окне нажмите «Сообщить об ошибке».
Рядом с некоторыми примерами в Корпусе появились поля синего цвета с указанием имени субъекта прямой речи (персонажа пьес или говорящего в устном тексте). Если кликнуть по этому полю, доступна разметка пола, возраста, года рождения, профессии и/или амплуа персонажа или, соответственно, говорящего.
Приведены в соответствие морфемная разметка при поиске по словообразовательным признакам и в Портрете слова. Для слов, отсутствующих в Словаре морфемного анализа НКРЯ, морфемные разборы сгенерированы при помощи нейросетевой модели. Расширен словарь и улучшена его согласованность. Слова, разборы для которых сгенерированы нейросетью, теперь тоже участвуют в поиске по словообразовательной структуре, а морфемный разбор слова доступен и в карточке слова.