Новости НКРЯ

В корпусе региональных СМИ появилась возможность искать коллокации. Для поиска применяется статистический подход, то есть коллокациями считаются такие сочетания слов, которые встречаются совместно чаще, чем случайно. Для подсчета используются меры Dice, Loglikelihood, t-score, MI3 и агрегированная мера (геометрическое среднее мер t-score и MI3.

Подробнее о новой функциональности см. здесь.

Параллельный корпус пополнен до 168,8 млн словоупотреблений. Новыми текстами расширены английская, немецкая, французская, испанская и чешская языковые пары.

Церковнославянский корпус пополнен до 5,3 млн словоупотреблений. В него частично вошли «Зеленые минеи» издания 2002 года в гражданской печати. Церковнославянский корпус получил более подробную метатекстовую разметку: все тексты размечены по дате издания, произведения Нового времени снабжены датировками и указаниями на авторство, а новые (с XVIII в.) литургические тексты — еще и сведениями об их разработке и утверждении.

Старорусский корпус пополнен до 8,8 млн словоупотреблений. Новые тексты — это том «Библиотеки литературы древней Руси», посвященный XVII веку (прозаические повести и песни), ранние тексты из «Писем и бумаг Петра Великого», посольская книга XVI в. по связям с Крымским ханством. Исправлена и дополнена морфологическая разметка ранее включенных в корпус текстов.

Обновлен интерфейс поиска по газетному и региональному корпусам. Мы включили газетные корпуса в Обзор возможностей, переработано и дополнено их описание на русском и английском языках.

В новом интерфейсе сайта ruscorpora.ru произошли следующие изменения:

На главной странице, нажав на ссылку «все корпуса», теперь можно открыть полный список, состоящий из 38 корпусов (включая все двуязычные пары параллельного корпуса, все исторические корпуса и др.). Перейти на форму поиска по любому корпусу можно, кликнув на его название.
На странице «Статистика» также приведен полный список корпусов с данными о количестве текстов, предложений и словоупотреблений.

Усовершенствованы формы поиска и отбора подкорпуса для всех корпусов, переведенных на новый интерфейс. Форма лексико-грамматического поиска развернута по умолчанию, при желании пользователь может раскрыть строку запроса поиска точных форм. Поле ввода леммы отображается первым в списке полей. При отборе подкорпуса предоставлена возможность выбрать диапазон дат обновления версий корпуса.

С помощью меню на кнопке «Искать» пользователь теперь может выбрать предпочтительный для себя вид выдачи (конкорданс, KWIC, графики, n-граммы). Выбор пользователя автоматически запоминается в браузере и показывается при следующих посещениях.

Во всплывающем окне при клике на слово в тестовом режиме отображаются «Похожие слова», т.е. слова, которые близко связаны с данным словом по смыслу и употребляются в схожих контекстах. Коэффициент близости слов, приведенный в скобках, подсчитывается с помощью моделей дистрибутивной семантики, построенных на материале основного корпуса НКРЯ и предоставленных проектом RusVectōrēs. Подробнее об этом эксперименте см. здесь

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

Акцентологический корпус пополнен до 133,8 млн словоупотреблений.
Устный корпус пополнен до 13,9 млн словоупотреблений.

В наших больших корпусах появились новые типы разметки с использованием нейросетевых методов — это лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Сегодня поиск по такой разметке открыт в Газетном корпусе региональных СМИ, на следующем этапе он станет доступен для основного и газетного корпусов. 
На всем объёме регионального корпуса автоматически разведены морфологические омонимы: например, существительное печь теперь размечено иначе, чем глагол печь, а дательный падеж — чем предложный. Можно искать такие синтаксические параметры, как разные типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многое другое. Синтаксическая разметка в региональном корпусе устроена иначе, чем в отдельном синтаксическом корпусе, и сильнее ориентирована на синтаксис составляющих.
Просим вас активно пользоваться новыми возможностями поиска и сообщать нам о всех замеченных ошибках.

В синтаксическом корпусе существенно пополнена информация о текстах: теперь пользователю показываются пол автора, сфера функционирования, тема и тип текста, издание и дата разметки. Для предложений с неоднословными оборотами (например, потому что или по меньшей мере) показывается два варианта структуры предложения: с пословным разбором и с разбором, где оборот представлен как одно слово. Объем корпуса вырос до 1,5 млн словоупотреблений.

Существенно обновлен интерфейс поиска по основному корпусу. Мы постарались сделать поиск более современным и учесть пожелания, связанные с удобством работы.

Для тех пользователей, которые только знакомятся с новым интерфейсом или с корпусом, на главной странице появился новый функционал «Обзор возможностей». Задав слово или словосочетание, вы увидите, какие виды результатов поиска можно получить в НКРЯ, узнаете о возможных ошибках при задании запроса и сможете перейти к поиску по корпусу. 

В интерфейсе основного корпуса произошли следующие изменения:

В форме лексико-грамматического поиска по основному корпусу блоки с условиями на слово теперь расположены не сверху вниз, а слева направо. Это позволяет самостоятельно добавить нужное количество слов и для каждого из них задать только те условия, которые необходимы для исследования. В наборе условий, доступных в основном корпусе, теперь появилось отдельное поле «Словоформа».

В верхней части всплывающего окна при выборе значений атрибутов появляется формула поиска, объединяющая выбранные значения. Во всплывающих окнах для выбора атрибутов текстов списки значений теперь учитывают изменения в разметке текстов: тексты с новым атрибутом сразу можно найти, а атрибуты, тексты с которыми отсутствуют в корпусе, не отображаются в списке.

Подкорпус теперь можно задать как до, так и после задания запроса, а вместо всплывающих окон с большим количеством значений для художественных и нехудожественных текстов сделан компактный выбор из списков.

Как параметры запроса, так и параметры подкорпуса запоминаются, их можно отредактировать в любой момент. 

На странице с результатами поиска отображаются все параметры запроса и параметры подкорпуса (если он задан). Все настройки и выбор способа сортировки теперь сосредоточены в верхней части страницы и сохраняются в браузере пользователя. 

Этот список изменений далеко не полон, подробнее об изменениях можно почитать в руководстве пользователя.

Существенно изменилось также внутреннее устройство системы. Основной корпус переведен на корпусную платформу нового поколения, разработанную в рамках гранта МОН № 075-15-2020-793. Корпусная платформа, конфигурация корпусов и пользовательский интерфейс теперь представляют собой отдельные, но системно связанные посредством API части НКРЯ. 

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу.
Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

Пополнен Параллельный корпус. В чешско-русскую часть включены материалы современных чешских СМИ, а также художественная проза и публицистика XIX—XXI веков. Во французско-русскую часть включены художественные и научные тексты. Объем параллельного корпуса вырос до 166 млн словоформ.

Начиная с августа поиск по всем корпусам Национального корпуса русского языка доступен только в новой версии. Старая версия корпуса закрыта.

Улучшена работа русского и англо-русского мультиязычных корпусов, в них исправлен ряд мелких ошибок.

Увеличен размер выдачи в Excel в основном и газетных корпусах: теперь при большом количестве результатов поиска можно скачать 5000 результатов в таблицу Excel из любого режима выдачи.

В мультимедийном корпусе доступен поиск жестов по основному органу vs. по активному органу. Исправлен ряд мелких ошибок мультимедийного корпуса.

Основной корпус пополнен до 375 млн словоупотреблений. В него вошли, в частности, тексты дневников и воспоминаний XIX—XXI вв. из проекта «Прожито», художественная литература, журналистика и переписка XIX — начала XX в. (как в старой, так и в новой орфографии), включая массовую литературу, проза XX — начала XXI в., коллекция современных путеводителей, собрание современных научных текстов разных жанров (тезисы, программы, учебные пособия, задачи, конспекты), коллекция производственно-технических инструкций и пособий.

В древнерусском корпусе появилась возможность сортировки текстов по метатекстовым признакам (дата создания, дата изготовления списка, жанр).

Обновлен дизайн сайта НКРЯ. Главная страница и страницы с информацией о корпусе теперь отображаются в новом интерфейсе. Существенно переработаны и дополнены тексты о проекте, обновлена информация о структуре и составе корпусов в составе НКРЯ и другие статьи. Появился новый раздел «Вопросы и ответы», который позволяет узнать об основных особенностях корпуса.

Частично также обновлена английская версия сайта. Новый сайт адаптирован под мобильные устройства.

Страницы поиска и выдачи пока остаются в старом интерфейсе. Постепенно все страницы корпуса перейдут на новый интерфейс. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.