Новости НКРЯ

Каждый корпус в составе НКРЯ получил свой собственный Портрет. Функционал «Портрет корпуса» задуман как инструмент, позволяющий пользователю НКРЯ проанализировать особенности корпуса и оценить, подходит ли корпус для решения его исследовательских или учебных задач. В портрет корпуса на данном этапе входит:

* описание корпуса

частотный словарь (только в корпусе Региональных СМИ)

Все корпуса НКРЯ размечены тегами, позволяющими классифицировать корпуса по историческому периоду, типам текстов, наличию специфической разметки и т.д. 

При наличии пользовательского подкорпуса пользователи также получают доступ к «Портрету подкорпуса». С помощью этого инструмента, нажав на (i) в шапке подкорпуса, можно увидеть список отобранных текстов, а также сравнить статистические характеристики подкорпуса и корпуса. Например, можно сравнить частотные словари регионального корпуса и отобранного в нем подкорпуса.

В 2023 году в портретах корпуса и подкорпуса появится больше статистических данных.

В составе Национального корпуса русского языка создан Панхронический корпус. Он объединяет три исторических – древнерусский, корпус берестяных грамот и старорусский – и основной корпус. В совокупности Панхронический корпус охватывает тысячелетие истории русского языка, от 1020-х до 2020-х годов. В Панхроническом корпусе можно сформулировать запрос и найти результаты одновременно на всем этом хронологическом диапазоне.

Для этого мы унифицировали подачу лексической, орфографической и семантической разметки. Лемму можно задавать и в раннедревнерусском виде (съвѣдѣтель), и в позднем/старорусском (свѣдѣтель или свидѣтель), и в современном виде (свидетель): по каждому из этих запросов находятся и древние, и современные примеры. Точно так же в разном облике можно указывать и словоформы. Исторические тексты получили лексико-семантическую аннотацию.

Теперь пользователю доступны конкордансы и частотные графики на протяжении всех десяти веков по таким запросам, как «предлог по с предложным падежом», «история существительного забава», «сочетаемость глаголов движения с абстрактным субъектом», «имена собственные на -славъ».

В корпусе региональных СМИ появилась возможность искать коллокации. Для поиска применяется статистический подход, то есть коллокациями считаются такие сочетания слов, которые встречаются совместно чаще, чем случайно. Для подсчета используются меры Dice, Loglikelihood, t-score, MI3 и агрегированная мера (геометрическое среднее мер t-score и MI3.

Подробнее о новой функциональности см. здесь.

Параллельный корпус пополнен до 168,8 млн словоупотреблений. Новыми текстами расширены английская, немецкая, французская, испанская и чешская языковые пары.

Церковнославянский корпус пополнен до 5,3 млн словоупотреблений. В него частично вошли «Зеленые минеи» издания 2002 года в гражданской печати. Церковнославянский корпус получил более подробную метатекстовую разметку: все тексты размечены по дате издания, произведения Нового времени снабжены датировками и указаниями на авторство, а новые (с XVIII в.) литургические тексты — еще и сведениями об их разработке и утверждении.

Старорусский корпус пополнен до 8,8 млн словоупотреблений. Новые тексты — это том «Библиотеки литературы древней Руси», посвященный XVII веку (прозаические повести и песни), ранние тексты из «Писем и бумаг Петра Великого», посольская книга XVI в. по связям с Крымским ханством. Исправлена и дополнена морфологическая разметка ранее включенных в корпус текстов.

Обновлен интерфейс поиска по газетному и региональному корпусам. Мы включили газетные корпуса в Обзор возможностей, переработано и дополнено их описание на русском и английском языках.

В новом интерфейсе сайта ruscorpora.ru произошли следующие изменения:

На главной странице, нажав на ссылку «все корпуса», теперь можно открыть полный список, состоящий из 38 корпусов (включая все двуязычные пары параллельного корпуса, все исторические корпуса и др.). Перейти на форму поиска по любому корпусу можно, кликнув на его название.
На странице «Статистика» также приведен полный список корпусов с данными о количестве текстов, предложений и словоупотреблений.

Усовершенствованы формы поиска и отбора подкорпуса для всех корпусов, переведенных на новый интерфейс. Форма лексико-грамматического поиска развернута по умолчанию, при желании пользователь может раскрыть строку запроса поиска точных форм. Поле ввода леммы отображается первым в списке полей. При отборе подкорпуса предоставлена возможность выбрать диапазон дат обновления версий корпуса.

С помощью меню на кнопке «Искать» пользователь теперь может выбрать предпочтительный для себя вид выдачи (конкорданс, KWIC, графики, n-граммы). Выбор пользователя автоматически запоминается в браузере и показывается при следующих посещениях.

Во всплывающем окне при клике на слово в тестовом режиме отображаются «Похожие слова», т.е. слова, которые близко связаны с данным словом по смыслу и употребляются в схожих контекстах. Коэффициент близости слов, приведенный в скобках, подсчитывается с помощью моделей дистрибутивной семантики, построенных на материале основного корпуса НКРЯ и предоставленных проектом RusVectōrēs. Подробнее об этом эксперименте см. здесь

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу. Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

Акцентологический корпус пополнен до 133,8 млн словоупотреблений.
Устный корпус пополнен до 13,9 млн словоупотреблений.

Существенно обновлен интерфейс поиска по основному корпусу. Мы постарались сделать поиск более современным и учесть пожелания, связанные с удобством работы.

Для тех пользователей, которые только знакомятся с новым интерфейсом или с корпусом, на главной странице появился новый функционал «Обзор возможностей». Задав слово или словосочетание, вы увидите, какие виды результатов поиска можно получить в НКРЯ, узнаете о возможных ошибках при задании запроса и сможете перейти к поиску по корпусу. 

В интерфейсе основного корпуса произошли следующие изменения:

В форме лексико-грамматического поиска по основному корпусу блоки с условиями на слово теперь расположены не сверху вниз, а слева направо. Это позволяет самостоятельно добавить нужное количество слов и для каждого из них задать только те условия, которые необходимы для исследования. В наборе условий, доступных в основном корпусе, теперь появилось отдельное поле «Словоформа».

В верхней части всплывающего окна при выборе значений атрибутов появляется формула поиска, объединяющая выбранные значения. Во всплывающих окнах для выбора атрибутов текстов списки значений теперь учитывают изменения в разметке текстов: тексты с новым атрибутом сразу можно найти, а атрибуты, тексты с которыми отсутствуют в корпусе, не отображаются в списке.

Подкорпус теперь можно задать как до, так и после задания запроса, а вместо всплывающих окон с большим количеством значений для художественных и нехудожественных текстов сделан компактный выбор из списков.

Как параметры запроса, так и параметры подкорпуса запоминаются, их можно отредактировать в любой момент. 

На странице с результатами поиска отображаются все параметры запроса и параметры подкорпуса (если он задан). Все настройки и выбор способа сортировки теперь сосредоточены в верхней части страницы и сохраняются в браузере пользователя. 

Этот список изменений далеко не полон, подробнее об изменениях можно почитать в руководстве пользователя.

Существенно изменилось также внутреннее устройство системы. Основной корпус переведен на корпусную платформу нового поколения, разработанную в рамках гранта МОН № 075-15-2020-793. Корпусная платформа, конфигурация корпусов и пользовательский интерфейс теперь представляют собой отдельные, но системно связанные посредством API части НКРЯ. 

Планируется постепенный перевод остальных корпусов на новый интерфейс и новую платформу.
Просим вас активно пользоваться новой версией сайта и сообщать нам о всех замеченных ошибках.

В наших больших корпусах появились новые типы разметки с использованием нейросетевых методов — это лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Сегодня поиск по такой разметке открыт в Газетном корпусе региональных СМИ, на следующем этапе он станет доступен для основного и газетного корпусов. 
На всем объёме регионального корпуса автоматически разведены морфологические омонимы: например, существительное печь теперь размечено иначе, чем глагол печь, а дательный падеж — чем предложный. Можно искать такие синтаксические параметры, как разные типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многое другое. Синтаксическая разметка в региональном корпусе устроена иначе, чем в отдельном синтаксическом корпусе, и сильнее ориентирована на синтаксис составляющих.
Просим вас активно пользоваться новыми возможностями поиска и сообщать нам о всех замеченных ошибках.

В синтаксическом корпусе существенно пополнена информация о текстах: теперь пользователю показываются пол автора, сфера функционирования, тема и тип текста, издание и дата разметки. Для предложений с неоднословными оборотами (например, потому что или по меньшей мере) показывается два варианта структуры предложения: с пословным разбором и с разбором, где оборот представлен как одно слово. Объем корпуса вырос до 1,5 млн словоупотреблений.

Пополнен Параллельный корпус. В чешско-русскую часть включены материалы современных чешских СМИ, а также художественная проза и публицистика XIX—XXI веков. Во французско-русскую часть включены художественные и научные тексты. Объем параллельного корпуса вырос до 166 млн словоформ.

Начиная с августа поиск по всем корпусам Национального корпуса русского языка доступен только в новой версии. Старая версия корпуса закрыта.

Улучшена работа русского и англо-русского мультиязычных корпусов, в них исправлен ряд мелких ошибок.

Увеличен размер выдачи в Excel в основном и газетных корпусах: теперь при большом количестве результатов поиска можно скачать 5000 результатов в таблицу Excel из любого режима выдачи.

В мультимедийном корпусе доступен поиск жестов по основному органу vs. по активному органу. Исправлен ряд мелких ошибок мультимедийного корпуса.