Новости НКРЯ

В древнерусском корпусе появились 14 новых текстов общим объемом 120 тысяч слов, в том числе такие известные произведения древнерусской литературы, как «Слово о законе и благодати», «Моление Даниила Заточника», «Киево-Печерский патерик», древнерусский перевод «Жития Василия Нового». В корпус теперь входят текстологические варианты одного произведения («Повести временных лет», «Жития Феодосия», цикла сочинений о Борисе и Глебе). При пополнении в корпусе появилось более тысячи раньше не входивших в него древнерусских лексем, в том числе предки таких русских слов, как выискивать, известие, избранник, пчелка, невежественный, стремглав, умышлять.

Продолжаем обновлять Портрет слова: теперь можно увидеть Похожие слова и Частотность слова в Старорусском корпусе и Частотность слова в Берестяных грамотах.

Бета-тестирование похожих слов в Портрете слова продолжается. Благодаря вашей обратной связи мы смогли улучшить векторную модель, ищущую похожие слова. Ждем новые отзывы о похожих словах в Основном и Региональном корпусах и реакцию на похожие слова в Старорусском корпусе. Оставить отзыв можно, нажав кнопку «Оценить» рядом с функционалом. 

Пять примеров в портретах слова теперь выбираются случайно, то есть при каждом новом просмотре портрета слова есть шанс увидеть что-то новое.

В раздел «Частотность выдачи» добавлена возможность группировать результаты не только по набору грамматических признаков, но и отдельно по частям речи. 

Начиная с сегодняшнего дня мы планируем регулярно собирать обратную связь от пользователей о новом функционале, чтобы с вашей помощью делать Корпус и сайт лучше. Для этого мы будем просить заинтересованных пользователей поработать с бета-версией функционала и сообщить нам о своих наблюдениях.

Рядом с функционалом, который сейчас находится в бета-тестировании, вы увидите кнопку «Оценить». Чтобы принять участие в бета-тестировании, нажмите эту кнопку, выберите свой вариант оценки, добавьте комментарий (это не обязательно, но поможет расшифровать вашу оценку) и нажмите «Отправить».

Сегодня мы приглашаем вас принять участие в оценке «Похожих слов» в портретах слова в Основном и Региональном корпусах. Пожалуйста, посмотрите описание функционала в Руководстве пользователя и попробуйте найти несколько разных существительных, прилагательных, глаголов и наречий в Портретах слова в Основном корпусе и в корпусе Региональных СМИ

Оцените, насколько удачно подобраны похожие слова к каждому слову, которое вы искали. Есть ли в облаке слов слова, которые кажутся вам лишними или вообще несуществующими? Есть ли среди похожих слов неожиданные находки или идеальные совпадения с вашими ожиданиями?

Чем больше слов вы оцените, тем лучше мы сможем понять, что и как стоит улучшить. Не забывайте и о хороших оценках - это поможет нам понять, как воспринимается функционал в целом.

Обновлен Портрет слова:  

  • скетчи и «Похожие слова» теперь есть не только в Основном корпусе, но и в Региональном
  • добавлена информация об относительной частотности слова
  • наиболее часто встречающаяся в корпусе часть речи для искомого слова теперь отображается в портрете первой (например, по запросу печь первым выводится существительное, а по запросу стать – глагол)

В составе НКРЯ появился новый корпус «Социальные сети», включающий более 160 млн словоупотреблений, начиная с 2007 года. Все тексты взяты из открытых источников: VK, Telegram, Livejournal, Liveinternet, Blogspot. Понятие «социальные сети» трактуется максимально широко, включая и записи в блогах, и сообщения в мессенджерах. Язык в социальных сетях отличается наибольшей динамикой и свободой от нормативных ограничений, отображая развитие лексики (включая сленг), эволюцию значений, изменения в грамматике и типичные ошибки.

Существенно обновлен интерфейс Диалектного корпуса, корпус подключен к обзору возможностей. Усовершенствована метатекстовая разметка (в частности, улучшен отбор места записи текста). В диалектном корпусе доступны просмотр и прослушивание мультимедийных роликов непосредственно в окне выдачи.

Запущена β-версия поиска по руководству пользователя, описаниям корпусов, анонсам и другим материалам, размещенным на сайте НКРЯ. Текущая версия Поиска по сайту имеет ряд ограничений, ознакомьтесь, пожалуйста, с описанием.

Улучшен и дополнен функционал Портрет слова в основном корпусе:

Информация в новом разделе Скетчи позволяет пользователю понять, как слово взаимодействует с другими словами в языке. Такое взаимодействие определяется через сочетаемость (коллокации) со словами разных частей речи. При этом учтены различные синтаксические функции слова в предложении, которые покрывают основные зоны «работы» слова в языке.
Например, можно узнать, каким бывает уважение (глубочайшее, искреннее, должное, взаимное…) и что с ним можно делать (внушать, заслуживать, питать…). Хотя обычно в текстах приносят довольно абстрактные вещи (пользу, жертву, вред…), те, кто чаще всего что-то приносят, – вполне конкретны (почтальон, официант, ветерок…).
Для существительных, прилагательных, глаголов и наречий показано до 10 наиболее тесно связанных слов в каждом скетче. Для других частей речи скетчи не отображаются.

В разделе Похожие слова теперь используется собственная модель для поиска семантических ассоциатов, обученная на актуальных материалах основного корпуса НКРЯ. Новая модель позволила нам сократить количество ошибок. Но из-за того, что выделение похожих слов происходит полностью автоматически, ошибки (например, несуществующие формы слов) еще могут встречаться.

Чтобы увидеть в одном месте всё, что мы знаем об интересующем слове, теперь можно воспользоваться функционалом Портрет слова. На сегодняшний день в Портрет слова входят:

  • грамматические и семантические свойства слова
  • Похожие слова β (только в основном корпусе)
  • примеры употребления слова в корпусе 
  • распределение примеров по годам и по видам текстов

Для быстрого доступа к Портрету слова и другим возможностям корпуса, а также к Руководству пользователя, теперь можно воспользоваться баннерами на главной странице ruscorpora.ru.

Вид выдачи Частотность усовершенствован: 

  • Добавлен столбец «Вхождения»
  • По просьбе наших активных пользователей в столбцах со словами и с расстояниями теперь можно отключить группировку и получить частотность сочетания слов с любым расстоянием между ними (в пределах расстояния, заданного в исходном запросе). Кроме того, можно выставить группировку по лемме/словоформе/грамматическим признакам только для части слов, а данные по остальным словам получить без группировки. Например, по запросу красивый + существительное можно получить распределение частотности всех существительных, встречающихся в результатах поиска, а можно посмотреть общую частотность для сочетания с любым существительным
  • Объем скачанной таблицы с «сырыми» данными может достигать 5000 строк

В частотном словаре подкорпуса добавлена возможность сортировки по разнице рангов леммы в корпусе и подкорпусе. Например, в корпусе текстов, написанных женщинами, при выборе этой сортировки можно получить сначала список слов, входящих в первые 500 только в подкорпусе (девочка, папа, сестра, помочь, стараться, страшный и др.), а потом представленные с повышенной частотностью по сравнению со всем корпусом (семья, муж, квартира, рядом, рассказать, проблема, искусство и др.)

В составе НКРЯ появился новый корпус текстов «Русская классика», включающий художественную прозу, публицистические и эпистолярные произведения из представительных академических собраний сочинений русских классических писателей XIX – начала XX вв.: Пушкина, Баратынского, Гоголя, Толстого, Тургенева, Чехова и других (значительная часть этих текстов входят и в Основной или Поэтический корпус). Сейчас корпус представлен в бета-версии («Русская классика β»), планируется его пополнение новыми авторами и произведениями. Объем корпуса – более 17,5 млн словоупотреблений.

Существенно обновлен интерфейс Корпуса берестяных грамот, корпус подключен к обзору возможностей. Для поиска доступна раннедревнерусская лемма (не только слати, но и сълати). Важное нововведение – оригинал и переводы теперь выводятся в две колонки, в правой колонке можно выбрать перевод – русский или один из двух английских.

Существенно улучшена функциональность основного корпуса: в нем появилась лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Теперь в основном корпусе разведены морфологические омонимы, а также появилась возможность задавать поиск по таким синтаксическим параметрам, как типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многим другим. Новая разметка сделала доступными в основном корпусе все новейшие функции, появившиеся ранее в корпусе региональных СМИ: Поиск коллокаций, Частотный словарь, Частотность выдачи.

Кроме того, в основном и газетных корпусах появилась возможность задавать поиск лемм и словоформ с использованием регулярных выражений (β-версия), а также статистика корпуса и подкорпуса в виде таблицы с объемом в текстах и словах, географической карты (только для корпуса региональных СМИ) и диаграммы значений метаатрибутов, что дает пользователям возможность сравнивать заданный подкорпус с корпусом, в том числе визуально.

Существенно обновлен интерфейс церковнославянского корпуса, корпус подключен к обзору возможностей.

Мультимедийный корпус пополнен до 5,7 млн словоупотреблений.
Параллельный корпус пополнен до 168 млн словоупотреблений.  В нем появились новые языковые пары: сербско-русская и словенско-русская (по 2 млн словоупотреблений каждая), а также небольшие пилотные корейско-русская и хинди-русская языковые пары с транслитерацией и словарной поддержкой.  Последние две пары впервые в истории параллельного корпуса включают выровненные поэтические тексты. Пополнены новыми текстами также чешско-русская и испанско-русская языковые пары.

Существенно обновлен интерфейс старорусского корпуса, корпус подключен к обзору возможностей.

В региональном корпусе появился новый вид выдачи — Частотность, с помощью которого можно проанализировать статистическое распределение результатов поиска по леммам, словоформам и набору грамматических признаков. Частотность рассчитывается на основе разборов с автоматически снятой омонимией по случайной подвыборке размером 1 млн результатов поиска. Пользователи могут управлять уровнем доверительной вероятности для сравнения доверительных интервалов частотности.

Диалектный корпус пополнен до 604 тыс. словоупотреблений.
Синтаксический корпус пополнен на 30 тыс. словоупотреблений.

В частотных словарях корпуса и подкорпуса теперь выводится 500 лемм вместо 100.

НКРЯ подвел итоги 2022-го года в Корпусе. Изменений в этом году много – объем Корпуса вырос в полтора раза и достиг 1,5 млрд словоупотреблений, в составе НКРЯ появилось два новых корпуса – Панхронический и «От 2 до 15», корпус берестяных грамот стал параллельным, в региональном корпусе появились автоматически снятая омонимия и новый функционал, связанный с сочетаемостью и частотностью. Закрыта старая версия Корпуса. Кроме того, НКРЯ переходит на новый интерфейс. Подробнее все изменения показаны на рисунке.

Корпус берестяных грамот пополнен текстами археологических находок 2021-го года, опубликованными в 2022-ом году: это очередные грамоты из Великого Новгорода и Старой Руссы, а также первая грамота из Переяславля Рязанского (современной Рязани). 

В составе НКРЯ появился корпус «От 2 до 15»,  включающий 75 прозаических произведений отечественных и зарубежных авторов, которые читают современные дети и подростки. Главная отличительная особенность нового корпуса — автоматическая разметка фрагментов текста по возрасту читателей, которым эти фрагменты должны быть понятны. Модель работает в экспериментальном режиме, поэтому в разметке пока могут встречаться ошибки.

Существенно обновлен интерфейс обучающего корпуса, корпус подключен к «Обзору возможностей», обновлено и уточнено описание корпуса.

Разработан раздел «Упражнения на основе Корпуса», в котором представлены упражнения, составленные на материале Обучающего корпуса и других корпусов НКРЯ. Упражнения относятся к разным разделам школьного курса русского языка и предназначены для самостоятельной работы на уроке и дома, а также для контроля знаний. Мы планируем развивать и пополнять раздел новыми заданиями и приглашаем учителей и преподавателей принять в этом участие. Присылайте свои уникальные упражнения на адрес info@ruscorpora.ru с темой письма «Упражнения», и мы разместим их в этом разделе.

Каждый корпус в составе НКРЯ получил свой собственный Портрет. Функционал «Портрет корпуса» задуман как инструмент, позволяющий пользователю НКРЯ проанализировать особенности корпуса и оценить, подходит ли корпус для решения его исследовательских или учебных задач. В портрет корпуса на данном этапе входит:

* описание корпуса

частотный словарь (только в корпусе Региональных СМИ)

Все корпуса НКРЯ размечены тегами, позволяющими классифицировать корпуса по историческому периоду, типам текстов, наличию специфической разметки и т.д. 

При наличии пользовательского подкорпуса пользователи также получают доступ к «Портрету подкорпуса». С помощью этого инструмента, нажав на (i) в шапке подкорпуса, можно увидеть список отобранных текстов, а также сравнить статистические характеристики подкорпуса и корпуса. Например, можно сравнить частотные словари регионального корпуса и отобранного в нем подкорпуса.

В 2023 году в портретах корпуса и подкорпуса появится больше статистических данных.