Новости НКРЯ
Объем параллельных корпусов достиг 210 миллионов словоупотреблений. Появились четыре новых параллельных корпуса языков России: чувашский (24 млн слов), карельский (1,2 млн), вепсский (340 тысяч) и язык русских цыган (170 тысяч). Двуязычные пары подготовлены в сотрудничестве с разработчиками отдельных масштабных корпусных проектов для этих языков. В части языковых пар доступна расширенная метаразметка, включающая информацию об источнике, жанре, типе и тематике текста. Был также расширен объем существующих параллельных корпусов: английского (на 5 млн), испанского (на 700 тыс.) и чешского (на 15 тыс.).
Корпус «Социальные сети» пополнен на 3,5 млн словоупотреблений. В него включена коллекция текстов, подготовленная сотрудниками Воронежского государственного университета. В нее вошли материалы, собранные в Архангельской, Астраханской, Курской, Ростовской, Рязанской, Тамбовской областях и охватывающие период 2005—2023 годов, – записи известных блогеров, обсуждения в локальных сетях, в местных группах на популярных платформах VK, Telegram, LiveJournal, Дзен и др.