Новости НКРЯ

Старожилы помнят, что в Основном корпусе НКРЯ существовала возможность сравнить результаты поиска точных форм на графиках. Теперь в Корпусе доступен расширенный функционал сравнения результатов запросов:

  • Можно сравнивать поисковые запросы разных типов, например, результаты двух лексико-грамматических запросов. Так нам удалось узнать, когда стали говорить не более чем вместо не более как.
  • В разных запросах можно задавать разные подкорпусы, например, сравнивать разных авторов или типы текстов.
  • Все сравнения ведутся в пределах одного корпуса, и теперь функционал доступен почти во всех корпусах в новом интерфейсе. Вот такое исследование ударений нам удалось провести в Поэтическом корпусе.

Для работы с новым функционалом сравнений мы просим пользователя авторизоваться (ввести логин и пароль). Это необходимо, чтобы иметь возможность хранить большое количество параметров запросов и возвращаться к сохраненному сравнению.

Акцентологический корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов» акцентологического корпуса. Корпус подключен к «Обзору возможностей».

Усовершенствован Портрет слова в основном корпусе:
В виджете “Морфемный разбор” разведены альтернативные морфемные разборы для разных частей речи. Например, слово тепло как существительное разбирается иначе, чем как наречие. Разные разборы можно увидеть, переключаясь в портрете между частями речи.

Поэтический корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов» поэтического корпуса. Пользователь может увидеть результаты поиска в режиме «с формулами» — каждая строка стихотворения будет снабжена поэтической разметкой. При показе расширенного контекста доступно все стихотворение полностью. На странице отбора подкорпуса можно создать подкорпус из текстов нескольких авторов и задать условия на другие метаатрибуты.

В новом разделе «Авторы» в портрете корпуса отображается список всех авторов, представленных в поэтическом корпусе. Список может быть отсортирован по алфавиту, по датам рождения и смерти, а также по полу автора. Алфавитный фильтр позволяет просматривать только тех авторов, фамилия которых начинается на заданную букву. Выбрав одного автора в списке, можно создать подкорпус, состоящий только из его текстов.

В «Обзоре возможностей» появился виджет «Случайное стихотворение»: для любого слова или словосочетания подбирается случайный пример из поэтического корпуса.

В таблицах под графиком выдачи по годам в Основном корпусе теперь отображаются количество текстов и количество примеров в результатах поиска и в корпусе в целом.

В корпусе «Социальные сети» исправлены ошибочные датировки и устранены повторы текстов. Теперь корпус стал действенным инструментом по изучению диахронии языковых явлений: так, доступна хронология употребительности получающих популярность или выходящих из моды языковых единиц (ср. хайп, преведуметь во что-л.).
В корпус включена коллекция текстов социальных сетей, подготовленная сотрудниками и студентами Воронежского государственного университета. В нее вошли материалы «Большого воронежского форума» и других локальных сетей Воронежа, записи известных воронежских блогеров, обсуждения в местных группах на популярных платформах VK, Telegram, Livejournal и др. — всего около 22,8 млн словоупотреблений. Тексты воронежской коллекции имеют более подробную метатекстовую разметку  и охватывают период 2001—2023 годов. В дальнейшем планируется включить в корпус материалы социальных сетей других регионов России.

Портрет слова в Основном корпусе пополнился данными об однокоренных словах. В новом виджете сейчас показаны гнезда однокоренных слов. Пока эта опция доступна только для слов с одним корнем (например, стол, но не пароход), которые размечены вручную в словаре морфемного анализа. Данные о других словах появятся в ближайшие месяцы, но и сейчас в Портрете можно увидеть интересные связи между словами.

По традиции рядом с новым виджетом вы увидите кнопку «‎Оценить» и сможете сообщить нам о замеченных ошибках. Благодаря вашей обратной связи мы регулярно улучшаем нейролингвистические модели, лежащие в основе Портрета слова. Нам очень интересно и важно, что вы думаете о первой версии модели однокоренных слов.

Появилась возможность точнее задавать условия лексико-грамматического поиска в основном, газетном и региональном корпусах. Как вы знаете, в форме поиска можно задавать условия на расстояние между словами. До сегодняшнего дня если заданный диапазон включал 0 (например, от -1 до 1), то в результатах поиска найденные слова могли совпадать. Теперь вверху формы поиска можно выбрать опцию «совпадения слов исключаются» чтобы убрать нулевое расстояние из диапазона. Например, можно выяснить, рядом с какими одушевленными существительными во множественном числе перечисляются крестьяне, причем с любым порядком сочинения (рабочие и крестьяне, крестьян и мещан…). Вот получившийся список.  Раньше аналогичный запрос находил бы и слово крестьянин во множественном числе в одиночестве, без «соседей» (поскольку при расстоянии 0 оно само удовлетворяет всем условиям на сочиненное существительное).

Подпишитесь на наш телеграм канал, чтобы следить за обновлениями и получать иллюстрированные инструкции  по работе с корпусом.

В портрете слова появилось несколько улучшений:

  • Добавлены новые скетчи - сочиненные существительные, прилагательные, глаголы и наречия. 
  • В основном корпусе для всех скетчей включена возможность по клику в ячейке таблицы перейти к примерам употребления сочетания слов в корпусе.
  • Благодаря обратной связи от заинтересованных пользователей улучшены морфемные разборы. Пожалуйста, продолжайте информировать нас о замеченных ошибках с помощью кнопки “Оценить”.

Оптимизирована работа с информацией о говорящих в Устном корпусе. Теперь в результатах поиска выделены имя и роль, а подробную информацию о социологических параметрах можно получить во всплывающем окне, которое открывается по клику на имени.

При выгрузке результатов поиска в Excel на дополнительном листе Info теперь отображается информация о параметрах запроса, результаты которого скачаны в файл, а также есть ссылка на сам запрос.

Сервис «Портрет слова» продолжает развиваться: у существительных в основном корпусе появился новый виджет, в котором показаны формы слова, которые встречаются в корпусе более 5 раз. Для одной и той же формы существительного (падеж + число) могут отображаться разные морфологические, фонетические и орфографические варианты, если такие встречаются в корпусе. Поскольку в основном корпусе внедрена автоматическая разметка, среди форм могут встречаться ошибочно отнесенные к искомому слову. Если вы заметите такие несоответствия, сообщайте нам о найденных ошибках с помощью кнопки «Оценить».

Во всех корпусах в новом интерфейсе появилась возможность перейти из всплывающего окошка с информацией о разборе слова в портрет слова и посмотреть подробную информацию о нём.

Устный корпус переведен на новый интерфейс. Теперь в новом дизайне отображается поиск по корпусу, доступны «Портреты слов» устного корпуса, корпус подключен к «Обзору возможностей».

В сервисе «Портрет слова» в основном корпусе для каждого слова визуализируется морфемный состав: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания. В основе разметки словообразовательной структуры лежит специально разработанный для корпуса словарь морфемного анализа, а для лемм, отсутствующих в словаре, разборы сгенерированы нейросетевым алгоритмом НейроКРЯ. Обратите внимание, что членение слов на морфемы может отличаться от привычного вам (см. «Принципы разметки»).

При морфемном членении несловарных слов возможны ошибки. При обнаружении несоответствия принципам разметки, сообщайте об ошибке при помощи кнопки «‎Оценить».

Существенно обновлен интерфейс параллельного многоязычного корпуса. Для него доступны сервисы «Обзор возможностей» и «Портрет слова». Теперь все параллельные корпуса отображаются в новом интерфейсе.

Продолжаем обновлять Портрет слова: теперь можно увидеть Барометр частотности в Древнерусском корпусе.

Поэтический корпус пополнен на 400 тысяч словоупотреблений. В частности, добавлены новые тексты поэтов XX века, а также большая коллекция русских переводов античной поэзии: «Илиада»‎ Гомера в переводе Н. И. Гнедича, «Энеида»‎ Вергилия в переводе В. Я. Брюсова и С. М. Соловьева и сатиры Горация в переводе А. А. Фета.

Все параллельные двуязычные корпуса теперь работают в новом интерфейсе.

Существенно обновлен интерфейс древнерусского корпуса, корпус подключен к обзору возможностей. Отбор подкорпуса в древнерусском корпусе теперь находится на отдельной странице, как во всех корпусах в новом интерфейсе. В поле «Название памятника» можно выбрать из списка один или несколько памятников, в которых будет вестись поиск.

В коллокациях появилась возможность задавать синтаксические связи. Например, если задать ключ решение, а для коллоката указать часть речи «глагол», синтаксическую связь «дополнение», направление связи — «управляет», можно найти, что чаще всего делают с решением (принимают, согласовывают и т.д.). В таблице с результатами поиска будет показано 100 самых частотных коллокаций с такой синтаксической связью. Для каждой из этих коллокаций можно увидеть примеры, перейдя по ссылке.

У пользователей основного корпуса появилась возможность получить частотный словарь основных частей речи: существительных, прилагательных, глаголов и наречий. Такой же выбор появился и в частотном словаре подкорпуса - теперь при сравнении наиболее частотных лемм отобранного вами подкорпуса и корпуса можно указать часть речи.

Мы начали переводить параллельные корпуса на новый интерфейс. В конце апреля новый дизайн получили корпуса:

В форме поиска каждого из этих корпусов можно выбрать поиск точных форм, лексико-грамматический поиск или поиск на двух языках. Важное нововведение - в новом интерфейсе поиск на двух языках располагается не на отдельной, а на основной странице поиска. Запросы на русском и иностранном языке вводятся в двух разных группах условий на слова. Формат выдачи примеров в две колонки уже знаком тем, кто работает с корпусом берестяных грамот. Слева вы увидите оригинал, а справа - все доступные переводы.