Новости НКРЯ

Акцентологический корпус пополнен до 133,8 млн словоупотреблений.
Устный корпус пополнен до 13,9 млн словоупотреблений.

В наших больших корпусах появились новые типы разметки с использованием нейросетевых методов — это лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Сегодня поиск по такой разметке открыт в Газетном корпусе региональных СМИ, на следующем этапе он станет доступен для основного и газетного корпусов. 
На всем объёме регионального корпуса автоматически разведены морфологические омонимы: например, существительное печь теперь размечено иначе, чем глагол печь, а дательный падеж — чем предложный. Можно искать такие синтаксические параметры, как разные типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многое другое. Синтаксическая разметка в региональном корпусе устроена иначе, чем в отдельном синтаксическом корпусе, и сильнее ориентирована на синтаксис составляющих.
Просим вас активно пользоваться новыми возможностями поиска и сообщать нам о всех замеченных ошибках.

В синтаксическом корпусе существенно пополнена информация о текстах: теперь пользователю показываются пол автора, сфера функционирования, тема и тип текста, издание и дата разметки. Для предложений с неоднословными оборотами (например, потому что или по меньшей мере) показывается два варианта структуры предложения: с пословным разбором и с разбором, где оборот представлен как одно слово. Объем корпуса вырос до 1,5 млн словоупотреблений.

Существенно обновлен интерфейс поиска по основному корпусу. Мы постарались сделать поиск более современным и учесть пожелания, связанные с удобством работы.

Для тех пользователей, которые только знакомятся с новым интерфейсом или с корпусом, на главной странице появился новый функционал «Обзор возможностей». Задав слово или словосочетание, вы увидите, какие виды результатов поиска можно получить в НКРЯ, узнаете о возможных ошибках при задании запроса и сможете перейти к поиску по корпусу. 

В интерфейсе основного корпуса произошли следующие изменения:

В форме лексико-грамматического поиска по основному корпусу блоки с условиями на слово теперь расположены не сверху вниз, а слева направо. Это позволяет самостоятельно добавить нужное количество слов и для каждого из них задать только те условия, которые необходимы для исследования. В наборе условий, доступных в основном корпусе, теперь появилось отдельное поле «Словоформа».

В верхней части всплывающего окна при выборе значений атрибутов появляется формула поиска, объединяющая выбранные значения. Во всплывающих окнах для выбора атрибутов текстов списки значений теперь учитывают изменения в разметке текстов: тексты с новым атрибутом сразу можно найти, а атрибуты, тексты с которыми отсутствуют в корпусе, не отображаются в списке.

Подкорпус теперь можно задать как до, так и после задания запроса, а вместо всплывающих окон с большим количеством значений для художественных и нехудожественных текстов сделан компактный выбор из списков.

Как параметры запроса, так и параметры подкорпуса запоминаются, их можно отредактировать в любой момент. 

На странице с результатами поиска отображаются все параметры запроса и параметры подкорпуса (если он задан). Все настройки и выбор способа сортировки теперь сосредоточены в верхней части страницы и сохраняются в браузере пользователя. 

Этот список изменений далеко не полон, подробнее об изменениях можно почитать в руководстве пользователя.

Существенно изменилось также внутреннее устройство системы. Основной корпус переведен на корпусную платформу нового поколения, разработанную в рамках гранта МОН № 075-15-2020-793. Корпусная платформа, конфигурация корпусов и пользовательский интерфейс теперь представляют собой отдельные, но системно связанные посредством API части НКРЯ. 

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу.
Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

Пополнен Параллельный корпус. В чешско-русскую часть включены материалы современных чешских СМИ, а также художественная проза и публицистика XIX—XXI веков. Во французско-русскую часть включены художественные и научные тексты. Объем параллельного корпуса вырос до 166 млн словоформ.

Начиная с августа поиск по всем корпусам Национального корпуса русского языка доступен только в новой версии. Старая версия корпуса закрыта.

Улучшена работа русского и англо-русского мультиязычных корпусов, в них исправлен ряд мелких ошибок.

Увеличен размер выдачи в Excel в основном и газетных корпусах: теперь при большом количестве результатов поиска можно скачать 5000 результатов в таблицу Excel из любого режима выдачи.

В мультимедийном корпусе доступен поиск жестов по основному органу vs. по активному органу. Исправлен ряд мелких ошибок мультимедийного корпуса.

Основной корпус пополнен до 375 млн словоупотреблений. В него вошли, в частности, тексты дневников и воспоминаний XIX—XXI вв. из проекта «Прожито», художественная литература, журналистика и переписка XIX — начала XX в. (как в старой, так и в новой орфографии), включая массовую литературу, проза XX — начала XXI в., коллекция современных путеводителей, собрание современных научных текстов разных жанров (тезисы, программы, учебные пособия, задачи, конспекты), коллекция производственно-технических инструкций и пособий.

В древнерусском корпусе появилась возможность сортировки текстов по метатекстовым признакам (дата создания, дата изготовления списка, жанр).

Обновлен дизайн сайта НКРЯ. Главная страница и страницы с информацией о корпусе теперь отображаются в новом интерфейсе. Существенно переработаны и дополнены тексты о проекте, обновлена информация о структуре и составе корпусов в составе НКРЯ и другие статьи. Появился новый раздел «Вопросы и ответы», который позволяет узнать об основных особенностях корпуса.

Частично также обновлена английская версия сайта. Новый сайт адаптирован под мобильные устройства.

Страницы поиска и выдачи пока остаются в старом интерфейсе. Постепенно все страницы корпуса перейдут на новый интерфейс. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

Древнерусский корпус пополнен до 655 тыс. словоупотреблений. В него вошли произведения разных жанров XI-XIV веков, в том числе такие знаменитые, как «Сказание о Борисе и Глебе», «Поучение Владимира Мономаха» и «Слово о полку Игореве», а также другие агиографические, учительные и канонические тексты. Кроме того, древнерусский корпус пополнен коллекцией новгородских пергаменных и бумажных деловых документов. В корпусе доступна расширенная метаразметка, в том числе с указанием даты создания оригинала и списка.

Корпус берестяных грамот стал параллельным: теперь в выдаче можно видеть как оригинальные древнерусские тексты, так и переводы берестяных документов на русский и английский языки.

Поэтический корпус пополнен до 13 млн словоупотреблений. Обновлен список авторов входящих в корпус текстов. Среди прочего в пополнение вошли стихи А. Вертинского и Г. Сапгира.

Параллельный корпус пополнен до 163 млн словоупотреблений. В нем появились новые пилотные португальско-русская и румынско-русская языковые пары. Значительно пополнена финско-русская пара, охватывающая переводы художественной прозы, публицистику, а также корпус межгосударственных договоров (благодарим М. Н. Михайлова за предоставленные тексты). Расширен также состав английских и немецких текстов в русских переводах.

Стал доступен поиск по месту записи текста в устном корпусе.

В древнерусском корпусе стал возможен поиск по полю «Толкование». В старорусском корпусе появилась подсказка формы в поле «Лексема».

Объём газетного корпуса вырос почти вдвое и достиг 765 миллионов словоупотреблений. Временной охват корпуса теперь начинается с 1983 г. (газета «Аргументы и факты») и доходит до 2021 г.
В поиске доступна обновлённая версия старорусского корпуса. Впервые в разметку добавлены леммы для большинства словоформ, тем самым корпус получил полноценную морфологическую разметку (полуавтоматическую, на базе нейросетевых алгоритмов). Леммы основаны на позднедревнерусском стандарте, принятом в Словаре русского языка XI—XVII веков. Кроме того, корпус пополнен текстами из Архива стольника Безобразова — важного источника по истории русского делового и разговорного языка XVII в. Объём всего корпуса — 8,5 млн словоупотреблений.
В устном и газетном корпусах в меню дополнительных признаков появился поиск слов в составе неоднословных лексических сочетаний.