Новости НКРЯ

Основной корпус пополнен до 375 млн словоупотреблений. В него вошли, в частности, тексты дневников и воспоминаний XIX—XXI вв. из проекта «Прожито», художественная литература, журналистика и переписка XIX — начала XX в. (как в старой, так и в новой орфографии), включая массовую литературу, проза XX — начала XXI в., коллекция современных путеводителей, собрание современных научных текстов разных жанров (тезисы, программы, учебные пособия, задачи, конспекты), коллекция производственно-технических инструкций и пособий.

В древнерусском корпусе появилась возможность сортировки текстов по метатекстовым признакам (дата создания, дата изготовления списка, жанр).

Обновлен дизайн сайта НКРЯ. Главная страница и страницы с информацией о корпусе теперь отображаются в новом интерфейсе. Существенно переработаны и дополнены тексты о проекте, обновлена информация о структуре и составе корпусов в составе НКРЯ и другие статьи. Появился новый раздел «Вопросы и ответы», который позволяет узнать об основных особенностях корпуса.

Частично также обновлена английская версия сайта. Новый сайт адаптирован под мобильные устройства.

Страницы поиска и выдачи пока остаются в старом интерфейсе. Постепенно все страницы корпуса перейдут на новый интерфейс. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

Древнерусский корпус пополнен до 655 тыс. словоупотреблений. В него вошли произведения разных жанров XI-XIV веков, в том числе такие знаменитые, как «Сказание о Борисе и Глебе», «Поучение Владимира Мономаха» и «Слово о полку Игореве», а также другие агиографические, учительные и канонические тексты. Кроме того, древнерусский корпус пополнен коллекцией новгородских пергаменных и бумажных деловых документов. В корпусе доступна расширенная метаразметка, в том числе с указанием даты создания оригинала и списка.

Корпус берестяных грамот стал параллельным: теперь в выдаче можно видеть как оригинальные древнерусские тексты, так и переводы берестяных документов на русский и английский языки.

Поэтический корпус пополнен до 13 млн словоупотреблений. Обновлен список авторов входящих в корпус текстов. Среди прочего в пополнение вошли стихи А. Вертинского и Г. Сапгира.

Параллельный корпус пополнен до 163 млн словоупотреблений. В нем появились новые пилотные португальско-русская и румынско-русская языковые пары. Значительно пополнена финско-русская пара, охватывающая переводы художественной прозы, публицистику, а также корпус межгосударственных договоров (благодарим М. Н. Михайлова за предоставленные тексты). Расширен также состав английских и немецких текстов в русских переводах.

Стал доступен поиск по месту записи текста в устном корпусе.

В древнерусском корпусе стал возможен поиск по полю «Толкование». В старорусском корпусе появилась подсказка формы в поле «Лексема».

Объём газетного корпуса вырос почти вдвое и достиг 765 миллионов словоупотреблений. Временной охват корпуса теперь начинается с 1983 г. (газета «Аргументы и факты») и доходит до 2021 г.
В поиске доступна обновлённая версия старорусского корпуса. Впервые в разметку добавлены леммы для большинства словоформ, тем самым корпус получил полноценную морфологическую разметку (полуавтоматическую, на базе нейросетевых алгоритмов). Леммы основаны на позднедревнерусском стандарте, принятом в Словаре русского языка XI—XVII веков. Кроме того, корпус пополнен текстами из Архива стольника Безобразова — важного источника по истории русского делового и разговорного языка XVII в. Объём всего корпуса — 8,5 млн словоупотреблений.
В устном и газетном корпусах в меню дополнительных признаков появился поиск слов в составе неоднословных лексических сочетаний.

Параллельный корпус пополнен до 147 млн словоупотреблений. В поиске доступен обновленный китайско-русский корпус с новой частеречной разметкой и усовершенствованным алгоритмом словоделения. Добавлены тексты разных жанров (художественные, религиозные, новости, деловые письма, политические речи), в том числе представляющие разные варианты китайского литературного языка. Существенно пополнены также чешско-русская, шведско-русская и эстонско-русская языковые пары.
Газетный корпус пополнен до 394,5 млн словоупотреблений. В нем стал доступен поиск по версиям. В пополненный корпус включены издания «Ведомости», «Парламентская газета», «Аргументы и факты», а также тексты новостных интернет-изданий «NEWSru.com», «ВЕСТИ.RU» за 2010-2020 годы. Добавлены номера за 2020-2021 гг. тех изданий, которые представлены в корпусе, в том числе «Известия» за 2015-2020 гг.
Региональный корпус пополнен до 24,5 млн словоупотреблений. В него включены тексты 6 новых газет, как городских, так и районных. В региональном корпусе стала доступна сортировка результатов выдачи по правому/левому контексту.
В газетном региональном и параллельном корпусах стал возможен поиск по дополнительным семантическим признакам. Появились графики распределения вхождений по годам в региональном, старорусском, обучающем, диалектном и устном корпусах.
Обновлена статистика на сайте, а также страница статистики на английском языке.

Появилась возможность поиска по версиям и по дополнительным семантическим признакам в устном и мультимедийном корпусах. Поиск по дополнительным семантическим признакам появился также в обоих мультимедийных параллельных корпусах.
В мультимедийном корпусе стал доступен поиск и отбор подкорпуса по жестам и речевым действиям.
В обучающем корпусе стал доступен поиск по дополнительным грамматическим признакам – склонению и спряжению.

В параллельном корпусе появилась предварительная версия поиска по двум языкам одновременно. Теперь можно задавать условия поиска в предложении на русском языке и одновременно условия поиска в соответствующем ему иноязычном предложении (например, можно найти все выровненные пары из русских предложений со словом «‎чай» и английских со словом «‎tea»). Эта функция доступна по ссылке со страниц поиска в двуязычных языковых парах. Пожалуйста, присылайте свои замечания к её работе.
В основном корпусе стал доступен поиск по словообразовательной структуре слова и морфемам (так, можно найти слова с суффиксом «‎ств» или корнем «‎бав»).
Корпус берестяных грамот пополнен до 23 тыс. слов и включает все тексты берестяных грамот, известные к концу 2020 г. Корпус синхронизирован с базой данных gramoty.ru и учитывает предложенные за последние годы (начиная с 2004 г.) поправки к интерпретации найденных ранее грамот.
Поэтический корпус пополнен до 12,9 млн словоформ (в основном стихотворениями авторов 1960-1980-х годов). В нем стал доступен поиск по версиям и поиск по дополнительным семантическим признакам.
Диалектный корпус пополнен до 485 тыс. слов. Новые тексты представляют говоры Архангельской, Вологодской, Кировской, Томской и Тюменской областей и различные жанры диалектной речи, в том числе прозаический и поэтический фольклор. Ряд записей выполнен специально для Корпуса.

В параллельном корпусе появилась возможность задать подкорпус в зависимости от страны языка или варианта литературной нормы (например, отобрать оригиналы или переводы на американском английском или латиноамериканском испанском).
В акцентологическом и поэтическом корпусах добавлена функция поиска слов в составе неоднословных лексических сочетаний: например, можно искать слово что в составе сложных союзов разве чточто касается и др. Эта функция доступна в поле «дополнительные признаки» лексико-грамматического поиска.
В поэтическом корпусе доступно задание подкорпуса по карте.
В основном корпусе доступен поиск по версиям, а также отображение дополнительных семантических признаков в информации о слове и поиск по ним.

Дорогие родители и учителя!
Приглашаем детей 7–15 лет принять участие в олимпиаде "Что может корпус". Олимпиаду проводит Лаборатория чтения совместно со Школой лингвистики НИУ ВШЭ. Она состоится на сайте Верные слова vsrussian.com. Задания будут доступны с 1 декабря 2021 г. по 15 января 2022 г. Регистрироваться на сайте можно уже сейчас. Перед началом олимпиады советуем детям потренироваться работать в НКРЯ с помощью обучающих интерактивных заданий vsrussian.com/courses.

Общий объем корпуса превысил 1 миллиард словоформ!
Параллельный корпус пополнен до 142 млн словоформ. Существенно расширены языковые пары со шведским, латышским, испанским, чешским и эстонским языками, пополнены также итальянско-русский и французско-русский корпус.
Синтаксический корпус пополнен до 1,35 млн словоформ. Как и в основном корпусе, в описании текста теперь показываются автор и источник, а структура предложений отображается также в версии с ударениями.
Русский Мультипарк пополнен до 229 тыс. словоформ. Добавлены новая постановка пьесы А.П. Чехова "Вишневый сад" и две постановки пьесы "Дядя Ваня".
В диалектном корпусе и корпусе берестяных грамот доступен показ всего текста из списка отобранных текстов. В меню дополнительных признаков в основном корпусе доступен поиск по оборотам.