Новости НКРЯ
Панхронический корпус теперь учитывает недавние пополнения входящих в него корпусов — Древнерусского и Корпуса берестяных грамот. В него входят и все надписи из нового корпуса «Восточнославянская эпиграфика». Улучшена лемматизация старорусских текстов в составе Панхронического корпуса (около 3000 новых лексем). Исправлены и дополнены новыми данными таблица соответствия лемм и грамматических признаков разных эпох. Теперь эти соответствия учитывают части речи (например, у современного глагола, но не существительного, напасть указана древняя форма напасти). Кроме того, в составе Панхронического корпуса можно задавать подкорпус по жанровой категории текста – литературный текст, церковный, бытовой, деловой или учебный (у одного текста может быть несколько категорий). Это важно для изучения эволюции лексики и грамматических параметров, которые сильно зависят от жанра.
Региональный корпус пополнен до 35,5 млн словоупотреблений. В него включены тексты 5 новых газет и большая коллекция СМИ Воронежской области, подготовленная сотрудниками Воронежского государственного университета. В текстах пополнения снята грамматическая омонимия и внесена синтаксическая разметка. Ключевые слова к текстам сгенерированы с помощью языковой модели НейроКРЯ.
В Поэтическом корпусе теперь более ста тысяч текстов – стихотворений, поэм и их фрагментов; объем корпуса вырос на полмиллиона слов и приблизился к 14 млн. В корпус добавлены произведения десяти поэтов. Это три тома стихотворных сочинений Самуила Маршака (включая переводы), собрания стихов Булата Окуджавы, Инны Лиснянской, Юрия Кублановского, Тимура Кибирова и других.