Новости

03.12.2024

Рады сообщить о важном обновлении формы поиска на сайте Национального корпуса русского языка! Теперь пользователи могут добавлять слова перед Словом 1, что значительно упрощает составление и редактирование сложных запросов.

Ранее добавлять слова можно было только справа от Слова 1 и последующих слов. Например, если вы искали конструкцию вида «прилагательное + местоимение + дорога», задав синтаксические отношения между этими словами, но затем решили искать вариант «союз + прилагательное + местоимение + дорога», вам пришлось бы пересобирать запрос с нуля. Теперь всё проще: достаточно нажать кнопку «+» слева от Слова 1 и указать любой признак, например «союз».

Обратите внимание: принцип расчета расстояния между словами остался неизменным. Расстояние всегда задаётся слева направо: от нового Слова 1 до исходного Слова 1, а затем — к последующим словам.

03.12.2024

В Параллельном корпусе НКРЯ появились новые функции, которые сделают работу с ним более удобной.

В японском языке в форме поиска на двух языках появилось поисковое поле «‎Семантика»‎. Японский стал первым иностранным языком в НКРЯ, в котором размечена семантика.

В карельском, вепсском, чувашском, хакасском корпусах расширены возможности настройки подкорпуса. Пользователи смогут отбирать тексты по жанру и типу (для всех перечисленных языков), а также по теме текста (в чувашском корпусе). Для всех параллельных корпусов доступна возможность отбирать подкорпус по количеству словоформ, что полезно при анализе текстов разного объёма.

Результаты поиска теперь можно сортировать с помощью шести новых типов сортировки: по дате создания текста на русском или иностранном языке от старых текстов к новым и наоборот, при условии, что оригиналы и переводы рассматриваются вместе или отдельно. Новые сортировки помогут быстрее находить нужную информацию и лучше структурировать данные.

03.12.2024

В Поэтический корпус добавлены тексты четырех поэтов — Вадима Шефнера, Роберта Рождественского, Льва Лосева и Марии Степановой. Объем пополнения — 200 тысяч слов, 2 тысячи текстов, 44 тысячи стихотворных строк. А всего в корпусе строк почти 3 миллиона.

В корпусе появилась возможность искать слово в начале и конце строки. Так, можно определить, что характерные поэтизмы ужель или вотще чаще встречаются в начале строчки, чем в какой-то другой позиции стиха.

03.12.2024

Основной корпус НКРЯ пополнен на 15 млн слов, представляющих несколько тематических коллекций: это пьесы разных эпох, официально-деловые тексты, научные журналы, естественнонаучные справочники XVIII в., массовая литература — например, как дореволюционные, так и постсоветские любовные романы, — и многое другое.

Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических отношений. Для разметки была использована обновленная версия нейросетевой модели РуБик, что позволило существенно улучшить лемматизацию слов. На тестовом наборе данных процент ошибочных лемм в корпусе снизился с 4,24% до 1,39%. Пожалуйста, сообщайте нам о встречающихся ошибках в автоматической разметке слов. Чтобы сделать это, выделите слово и во всплывающем окне нажмите «Сообщить об ошибке». 

Рядом с  некоторыми примерами в Корпусе появились поля синего цвета с указанием имени субъекта прямой речи (персонажа пьес или говорящего в устном тексте). Если кликнуть по этому полю, доступна разметка пола, возраста, года рождения, профессии и/или амплуа персонажа или, соответственно, говорящего.

Приведены в соответствие морфемная разметка при поиске по словообразовательным признакам и в Портрете слова. Для слов, отсутствующих в Словаре морфемного анализа НКРЯ, морфемные разборы сгенерированы при помощи нейросетевой модели. Расширен словарь и улучшена его согласованность. Слова, разборы для которых сгенерированы нейросетью, теперь тоже участвуют в поиске по словообразовательной структуре, а морфемный разбор слова доступен и в карточке слова.