Новости НКРЯ

В наших больших корпусах появились новые типы разметки с использованием нейросетевых методов — это лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Сегодня поиск по такой разметке открыт в Газетном корпусе региональных СМИ, на следующем этапе он станет доступен для основного и газетного корпусов. 
На всем объёме регионального корпуса автоматически разведены морфологические омонимы: например, существительное печь теперь размечено иначе, чем глагол печь, а дательный падеж — чем предложный. Можно искать такие синтаксические параметры, как разные типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многое другое. Синтаксическая разметка в региональном корпусе устроена иначе, чем в отдельном синтаксическом корпусе, и сильнее ориентирована на синтаксис составляющих.
Просим вас активно пользоваться новыми возможностями поиска и сообщать нам о всех замеченных ошибках.

В синтаксическом корпусе существенно пополнена информация о текстах: теперь пользователю показываются пол автора, сфера функционирования, тема и тип текста, издание и дата разметки. Для предложений с неоднословными оборотами (например, потому что или по меньшей мере) показывается два варианта структуры предложения: с пословным разбором и с разбором, где оборот представлен как одно слово. Объем корпуса вырос до 1,5 млн словоупотреблений.

Пополнен Параллельный корпус. В чешско-русскую часть включены материалы современных чешских СМИ, а также художественная проза и публицистика XIX—XXI веков. Во французско-русскую часть включены художественные и научные тексты. Объем параллельного корпуса вырос до 166 млн словоформ.

Начиная с августа поиск по всем корпусам Национального корпуса русского языка доступен только в новой версии. Старая версия корпуса закрыта.

Улучшена работа русского и англо-русского мультиязычных корпусов, в них исправлен ряд мелких ошибок.

Увеличен размер выдачи в Excel в основном и газетных корпусах: теперь при большом количестве результатов поиска можно скачать 5000 результатов в таблицу Excel из любого режима выдачи.

В мультимедийном корпусе доступен поиск жестов по основному органу vs. по активному органу. Исправлен ряд мелких ошибок мультимедийного корпуса.

Основной корпус пополнен до 375 млн словоупотреблений. В него вошли, в частности, тексты дневников и воспоминаний XIX—XXI вв. из проекта «Прожито», художественная литература, журналистика и переписка XIX — начала XX в. (как в старой, так и в новой орфографии), включая массовую литературу, проза XX — начала XXI в., коллекция современных путеводителей, собрание современных научных текстов разных жанров (тезисы, программы, учебные пособия, задачи, конспекты), коллекция производственно-технических инструкций и пособий.

В древнерусском корпусе появилась возможность сортировки текстов по метатекстовым признакам (дата создания, дата изготовления списка, жанр).

Обновлен дизайн сайта НКРЯ. Главная страница и страницы с информацией о корпусе теперь отображаются в новом интерфейсе. Существенно переработаны и дополнены тексты о проекте, обновлена информация о структуре и составе корпусов в составе НКРЯ и другие статьи. Появился новый раздел «Вопросы и ответы», который позволяет узнать об основных особенностях корпуса.

Частично также обновлена английская версия сайта. Новый сайт адаптирован под мобильные устройства.

Страницы поиска и выдачи пока остаются в старом интерфейсе. Постепенно все страницы корпуса перейдут на новый интерфейс. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

Древнерусский корпус пополнен до 655 тыс. словоупотреблений. В него вошли произведения разных жанров XI-XIV веков, в том числе такие знаменитые, как «Сказание о Борисе и Глебе», «Поучение Владимира Мономаха» и «Слово о полку Игореве», а также другие агиографические, учительные и канонические тексты. Кроме того, древнерусский корпус пополнен коллекцией новгородских пергаменных и бумажных деловых документов. В корпусе доступна расширенная метаразметка, в том числе с указанием даты создания оригинала и списка.

Корпус берестяных грамот стал параллельным: теперь в выдаче можно видеть как оригинальные древнерусские тексты, так и переводы берестяных документов на русский и английский языки.

Поэтический корпус пополнен до 13 млн словоупотреблений. Обновлен список авторов входящих в корпус текстов. Среди прочего в пополнение вошли стихи А. Вертинского и Г. Сапгира.

Параллельный корпус пополнен до 163 млн словоупотреблений. В нем появились новые пилотные португальско-русская и румынско-русская языковые пары. Значительно пополнена финско-русская пара, охватывающая переводы художественной прозы, публицистику, а также корпус межгосударственных договоров (благодарим М. Н. Михайлова за предоставленные тексты). Расширен также состав английских и немецких текстов в русских переводах.

Стал доступен поиск по месту записи текста в устном корпусе.

В древнерусском корпусе стал возможен поиск по полю «Толкование». В старорусском корпусе появилась подсказка формы в поле «Лексема».

Объём газетного корпуса вырос почти вдвое и достиг 765 миллионов словоупотреблений. Временной охват корпуса теперь начинается с 1983 г. (газета «Аргументы и факты») и доходит до 2021 г.
В поиске доступна обновлённая версия старорусского корпуса. Впервые в разметку добавлены леммы для большинства словоформ, тем самым корпус получил полноценную морфологическую разметку (полуавтоматическую, на базе нейросетевых алгоритмов). Леммы основаны на позднедревнерусском стандарте, принятом в Словаре русского языка XI—XVII веков. Кроме того, корпус пополнен текстами из Архива стольника Безобразова — важного источника по истории русского делового и разговорного языка XVII в. Объём всего корпуса — 8,5 млн словоупотреблений.
В устном и газетном корпусах в меню дополнительных признаков появился поиск слов в составе неоднословных лексических сочетаний.

Параллельный корпус пополнен до 147 млн словоупотреблений. В поиске доступен обновленный китайско-русский корпус с новой частеречной разметкой и усовершенствованным алгоритмом словоделения. Добавлены тексты разных жанров (художественные, религиозные, новости, деловые письма, политические речи), в том числе представляющие разные варианты китайского литературного языка. Существенно пополнены также чешско-русская, шведско-русская и эстонско-русская языковые пары.
Газетный корпус пополнен до 394,5 млн словоупотреблений. В нем стал доступен поиск по версиям. В пополненный корпус включены издания «Ведомости», «Парламентская газета», «Аргументы и факты», а также тексты новостных интернет-изданий «NEWSru.com», «ВЕСТИ.RU» за 2010-2020 годы. Добавлены номера за 2020-2021 гг. тех изданий, которые представлены в корпусе, в том числе «Известия» за 2015-2020 гг.
Региональный корпус пополнен до 24,5 млн словоупотреблений. В него включены тексты 6 новых газет, как городских, так и районных. В региональном корпусе стала доступна сортировка результатов выдачи по правому/левому контексту.
В газетном региональном и параллельном корпусах стал возможен поиск по дополнительным семантическим признакам. Появились графики распределения вхождений по годам в региональном, старорусском, обучающем, диалектном и устном корпусах.
Обновлена статистика на сайте, а также страница статистики на английском языке.

Появилась возможность поиска по версиям и по дополнительным семантическим признакам в устном и мультимедийном корпусах. Поиск по дополнительным семантическим признакам появился также в обоих мультимедийных параллельных корпусах.
В мультимедийном корпусе стал доступен поиск и отбор подкорпуса по жестам и речевым действиям.
В обучающем корпусе стал доступен поиск по дополнительным грамматическим признакам – склонению и спряжению.