Новости

14.11.2022

В корпусе региональных СМИ появилась возможность искать коллокации. Для поиска применяется статистический подход, то есть коллокациями считаются такие сочетания слов, которые встречаются совместно чаще, чем случайно. Для подсчета используются меры Dice, Loglikelihood, t-score, MI3 и агрегированная мера (геометрическое среднее мер t-score и MI3.

Подробнее о новой функциональности см. здесь.

Параллельный корпус пополнен до 168,8 млн словоупотреблений. Новыми текстами расширены английская, немецкая, французская, испанская и чешская языковые пары.

Церковнославянский корпус пополнен до 5,3 млн словоупотреблений. В него частично вошли «Зеленые минеи» издания 2002 года в гражданской печати. Церковнославянский корпус получил более подробную метатекстовую разметку: все тексты размечены по дате издания, произведения Нового времени снабжены датировками и указаниями на авторство, а новые (с XVIII в.) литургические тексты — еще и сведениями об их разработке и утверждении.

Старорусский корпус пополнен до 8,8 млн словоупотреблений. Новые тексты — это том «Библиотеки литературы древней Руси», посвященный XVII веку (прозаические повести и песни), ранние тексты из «Писем и бумаг Петра Великого», посольская книга XVI в. по связям с Крымским ханством. Исправлена и дополнена морфологическая разметка ранее включенных в корпус текстов.

28.10.2022

Обновлен интерфейс поиска по газетному и региональному корпусам. Мы включили газетные корпуса в Обзор возможностей, переработано и дополнено их описание на русском и английском языках.

В новом интерфейсе сайта ruscorpora.ru произошли следующие изменения:

На главной странице, нажав на ссылку «все корпуса», теперь можно открыть полный список, состоящий из 38 корпусов (включая все двуязычные пары параллельного корпуса, все исторические корпуса и др.). Перейти на форму поиска по любому корпусу можно, кликнув на его название.
На странице «Статистика» также приведен полный список корпусов с данными о количестве текстов, предложений и словоупотреблений.

Усовершенствованы формы поиска и отбора подкорпуса для всех корпусов, переведенных на новый интерфейс. Форма лексико-грамматического поиска развернута по умолчанию, при желании пользователь может раскрыть строку запроса поиска точных форм. Поле ввода леммы отображается первым в списке полей. При отборе подкорпуса предоставлена возможность выбрать диапазон дат обновления версий корпуса.

С помощью меню на кнопке «Искать» пользователь теперь может выбрать предпочтительный для себя вид выдачи (конкорданс, KWIC, графики, n-граммы). Выбор пользователя автоматически запоминается в браузере и показывается при следующих посещениях.

Во всплывающем окне при клике на слово в тестовом режиме отображаются «Похожие слова», т.е. слова, которые близко связаны с данным словом по смыслу и употребляются в схожих контекстах. Коэффициент близости слов, приведенный в скобках, подсчитывается с помощью моделей дистрибутивной семантики, построенных на материале основного корпуса НКРЯ и предоставленных проектом RusVectōrēs. Подробнее об этом эксперименте см. здесь

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

05.10.2022

Акцентологический корпус пополнен до 133,8 млн словоупотреблений.
Устный корпус пополнен до 13,9 млн словоупотреблений.

16.09.2022

Существенно обновлен интерфейс поиска по основному корпусу. Мы постарались сделать поиск более современным и учесть пожелания, связанные с удобством работы.

Для тех пользователей, которые только знакомятся с новым интерфейсом или с корпусом, на главной странице появился новый функционал «Обзор возможностей». Задав слово или словосочетание, вы увидите, какие виды результатов поиска можно получить в НКРЯ, узнаете о возможных ошибках при задании запроса и сможете перейти к поиску по корпусу. 

В интерфейсе основного корпуса произошли следующие изменения:

В форме лексико-грамматического поиска по основному корпусу блоки с условиями на слово теперь расположены не сверху вниз, а слева направо. Это позволяет самостоятельно добавить нужное количество слов и для каждого из них задать только те условия, которые необходимы для исследования. В наборе условий, доступных в основном корпусе, теперь появилось отдельное поле «Словоформа».

В верхней части всплывающего окна при выборе значений атрибутов появляется формула поиска, объединяющая выбранные значения. Во всплывающих окнах для выбора атрибутов текстов списки значений теперь учитывают изменения в разметке текстов: тексты с новым атрибутом сразу можно найти, а атрибуты, тексты с которыми отсутствуют в корпусе, не отображаются в списке.

Подкорпус теперь можно задать как до, так и после задания запроса, а вместо всплывающих окон с большим количеством значений для художественных и нехудожественных текстов сделан компактный выбор из списков.

Как параметры запроса, так и параметры подкорпуса запоминаются, их можно отредактировать в любой момент. 

На странице с результатами поиска отображаются все параметры запроса и параметры подкорпуса (если он задан). Все настройки и выбор способа сортировки теперь сосредоточены в верхней части страницы и сохраняются в браузере пользователя. 

Этот список изменений далеко не полон, подробнее об изменениях можно почитать в руководстве пользователя.

Существенно изменилось также внутреннее устройство системы. Основной корпус переведен на корпусную платформу нового поколения, разработанную в рамках гранта МОН № 075-15-2020-793. Корпусная платформа, конфигурация корпусов и пользовательский интерфейс теперь представляют собой отдельные, но системно связанные посредством API части НКРЯ. 

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу.
Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.