Новости НКРЯ

В корпусе региональных СМИ появилась возможность искать коллокации. Для поиска применяется статистический подход, то есть коллокациями считаются такие сочетания слов, которые встречаются совместно чаще, чем случайно. Для подсчета используются меры Dice, Loglikelihood, t-score, MI3 и агрегированная мера (геометрическое среднее мер t-score и MI3.

Подробнее о новой функциональности см. здесь.

Параллельный корпус пополнен до 168,8 млн словоупотреблений. Новыми текстами расширены английская, немецкая, французская, испанская и чешская языковые пары.

Церковнославянский корпус пополнен до 5,3 млн словоупотреблений. В него частично вошли «Зеленые минеи» издания 2002 года в гражданской печати. Церковнославянский корпус получил более подробную метатекстовую разметку: все тексты размечены по дате издания, произведения Нового времени снабжены датировками и указаниями на авторство, а новые (с XVIII в.) литургические тексты — еще и сведениями об их разработке и утверждении.

Старорусский корпус пополнен до 8,8 млн словоупотреблений. Новые тексты — это том «Библиотеки литературы древней Руси», посвященный XVII веку (прозаические повести и песни), ранние тексты из «Писем и бумаг Петра Великого», посольская книга XVI в. по связям с Крымским ханством. Исправлена и дополнена морфологическая разметка ранее включенных в корпус текстов.

Показать все