Новости НКРЯ

Мультимедийный корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов». 

Особенностью корпуса является возможность мультимедийного поиска, когда можно задать одновременно три поисковых запроса: для слов, жестов и речевых действий. Найдутся клипотексты, где и в видео/аудио, и в тексте встретились соответствия этим запросам: например, те, где в речи есть слово за, а в значении жеста — тост.

Обратите внимание, что по умолчанию в форме скрыта часть условий на слова, жесты и речевые действия. Эти условия можно добавить, нажав на кнопку «Добавить условия». 

Например, чтобы найти клипотексты, в которых человек определенным образом двигает головой, необходимо добавить в форму два условия для Жестов — на активный орган и на направление движения — и задать значения голова и из стороны в сторону, а чтобы найти клипотексты, в которых шепчут, добавить в форму условие на Манеру говорения и выбрать значение шепот.

Дополнительно можно задавать условия, описывающие вокалическую и орфоэпическую структуру слов.

Прошло ежегодное пополнение Корпуса берестяных грамот. Пятнадцать грамот, найденных в Великом Новгороде и в Старой Руссе в прошлом году – и еще две, научная публикация которых задержалась с позапрошлого – теперь одновременно доступны в НКРЯ и в базе данных gramoty.ru. Работа над корпусом берестяных грамот велась при поддержке гранта Российского научного фонда (проект № 19-18-00352 «Некнижная письменность Древней Руси XI–XV вв. (берестяные грамоты и эпиграфика): новые источники и методы исследования»). Иллюстрированный рассказ о находках прошлого года можно прочесть на сайте «Арзамас».

Мы обновили Обучающий корпус, добавив в него более 1000 новых текстов. Теперь в нем есть все основные произведения из школьной программы по литературе, включая те, которые рекомендуются для внеклассного чтения.

Но это еще не всё. Для морфологической разметки всех текстов мы использовали нейросетевые модели. В процессе автоматической разметки снята грамматическая омонимия, что позволило нам добавить в Обучающий корпус современные инструменты для анализа слов и текстов.

Портрет слова показывает его сочетаемость, похожие слова, частоту использования, формы и историю употребления, а также примеры из текстов корпуса. Для сравнения частоты употребления слов и словосочетаний можно использовать Сравнение запросов

Можно анализировать и тексты. Для этого есть инструмент Портрет Корпуса, который предоставляет информацию об истории создания и о составе корпуса, а также статистику и частотный словарь. С помощью Портрета подкорпуса можно анализировать особенности выбранных текстов и сравнивать их с остальными текстами в корпусе.

При помощи новых инструментов можно составлять более разнообразные задания для школьников. Ученики могут использовать их и для самостоятельных исследований, например, чтобы написать реферат. А для тех преподавателей и студентов, кто готов проводить более сложные исследования, мы добавили новые виды выдачи результатов поиска (Статистика, Частотность, N-граммы) и новый вид поиска – Поиск коллокаций.

Для того, чтобы вы могли отбирать собственные подкорпуса и пользоваться нашими статистическими сервисами, нужна метаразметка. Количество текстов в корпусах НКРЯ уже превышает 6 млн и постоянно растет. Такие объемы материала все менее реально размечать вручную, поэтому мы развиваем сервисы нейроразметки (НейроКРЯ). Сегодня мы представляем новые результаты в этой области.

Ключевые слова в текстах корпуса Региональных СМИ размечены автоматически с помощью доработанной модели rutermextract. Одно ключевое слово может состоять из однословного ключа (праздник, переломы) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (католическая община).

В корпусе Социальные сети для основного массива текстов корпуса автоматически размечены жанры. Для разметки использована модель RuRoBERTa, дообученная на текстах корпуса. Один или несколько жанров можно выбрать из списка, например, рекомендации и советы.

В информации о тексте поля, значения которых заполняет НейроКРЯ, помечены специальным значком. В том же всплывающем окне есть кнопка “Сообщить об ошибке”. Сообщайте нам о всех неточностях и ошибках в определении ключевых слов и жанров.

Старожилы помнят, что в Основном корпусе НКРЯ существовала возможность сравнить результаты поиска точных форм на графиках. Теперь в Корпусе доступен расширенный функционал сравнения результатов запросов:

  • Можно сравнивать поисковые запросы разных типов, например, результаты двух лексико-грамматических запросов. Так нам удалось узнать, когда стали говорить не более чем вместо не более как.
  • В разных запросах можно задавать разные подкорпусы, например, сравнивать разных авторов или типы текстов.
  • Все сравнения ведутся в пределах одного корпуса, и теперь функционал доступен почти во всех корпусах в новом интерфейсе. Вот такое исследование ударений нам удалось провести в Поэтическом корпусе.

Для работы с новым функционалом сравнений мы просим пользователя авторизоваться (ввести логин и пароль). Это необходимо, чтобы иметь возможность хранить большое количество параметров запросов и возвращаться к сохраненному сравнению.

В новой версии Портрета слова в Основном корпусе "гнезда" однокоренных слов дополнены с помощью нейросетевой модели НейроКРЯ. Например, для слова актер все однокоренные слова, кроме актриса и киноактриса, подобраны НейроКРЯ. А еще, если НейроКРЯ находит хотя бы 5 слов с таким же корнем, мы показываем однокоренные слова в Портрете слова, даже если искомого слова нет в словаре морфемных разборов. Смотрите, например, какой красивый портрет получился для слова эстет.

Для того, чтобы помочь нашим пользователям интерпретировать результаты поисковых запросов, мы сопоставили каждому тегу семантической разметки названия на русском и английском языках. Теперь в карточке слова в поисковой выдаче и в портрете слова можно увидеть сверхъестественных существ, вещества и материалы или положительные оценки вместо t:hum:supernat, t:stuff, sc:thing, ev:posit.

Акцентологический корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов» акцентологического корпуса. Корпус подключен к «Обзору возможностей».

Усовершенствован Портрет слова в основном корпусе:
В виджете “Морфемный разбор” разведены альтернативные морфемные разборы для разных частей речи. Например, слово тепло как существительное разбирается иначе, чем как наречие. Разные разборы можно увидеть, переключаясь в портрете между частями речи.

Поэтический корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов» поэтического корпуса. Пользователь может увидеть результаты поиска в режиме «с формулами» — каждая строка стихотворения будет снабжена поэтической разметкой. При показе расширенного контекста доступно все стихотворение полностью. На странице отбора подкорпуса можно создать подкорпус из текстов нескольких авторов и задать условия на другие метаатрибуты.

В новом разделе «Авторы» в портрете корпуса отображается список всех авторов, представленных в поэтическом корпусе. Список может быть отсортирован по алфавиту, по датам рождения и смерти, а также по полу автора. Алфавитный фильтр позволяет просматривать только тех авторов, фамилия которых начинается на заданную букву. Выбрав одного автора в списке, можно создать подкорпус, состоящий только из его текстов.

В «Обзоре возможностей» появился виджет «Случайное стихотворение»: для любого слова или словосочетания подбирается случайный пример из поэтического корпуса.

В таблицах под графиком выдачи по годам в Основном корпусе теперь отображаются количество текстов и количество примеров в результатах поиска и в корпусе в целом.

Портрет слова в Основном корпусе пополнился данными об однокоренных словах. В новом виджете сейчас показаны гнезда однокоренных слов. Пока эта опция доступна только для слов с одним корнем (например, стол, но не пароход), которые размечены вручную в словаре морфемного анализа. Данные о других словах появятся в ближайшие месяцы, но и сейчас в Портрете можно увидеть интересные связи между словами.

По традиции рядом с новым виджетом вы увидите кнопку «‎Оценить» и сможете сообщить нам о замеченных ошибках. Благодаря вашей обратной связи мы регулярно улучшаем нейролингвистические модели, лежащие в основе Портрета слова. Нам очень интересно и важно, что вы думаете о первой версии модели однокоренных слов.

Появилась возможность точнее задавать условия лексико-грамматического поиска в основном, газетном и региональном корпусах. Как вы знаете, в форме поиска можно задавать условия на расстояние между словами. До сегодняшнего дня если заданный диапазон включал 0 (например, от -1 до 1), то в результатах поиска найденные слова могли совпадать. Теперь вверху формы поиска можно выбрать опцию «совпадения слов исключаются» чтобы убрать нулевое расстояние из диапазона. Например, можно выяснить, рядом с какими одушевленными существительными во множественном числе перечисляются крестьяне, причем с любым порядком сочинения (рабочие и крестьяне, крестьян и мещан…). Вот получившийся список.  Раньше аналогичный запрос находил бы и слово крестьянин во множественном числе в одиночестве, без «соседей» (поскольку при расстоянии 0 оно само удовлетворяет всем условиям на сочиненное существительное).

Подпишитесь на наш телеграм канал, чтобы следить за обновлениями и получать иллюстрированные инструкции  по работе с корпусом.

В корпусе «Социальные сети» исправлены ошибочные датировки и устранены повторы текстов. Теперь корпус стал действенным инструментом по изучению диахронии языковых явлений: так, доступна хронология употребительности получающих популярность или выходящих из моды языковых единиц (ср. хайп, преведуметь во что-л.).
В корпус включена коллекция текстов социальных сетей, подготовленная сотрудниками и студентами Воронежского государственного университета. В нее вошли материалы «Большого воронежского форума» и других локальных сетей Воронежа, записи известных воронежских блогеров, обсуждения в местных группах на популярных платформах VK, Telegram, Livejournal и др. — всего около 22,8 млн словоупотреблений. Тексты воронежской коллекции имеют более подробную метатекстовую разметку  и охватывают период 2001—2023 годов. В дальнейшем планируется включить в корпус материалы социальных сетей других регионов России.

В портрете слова появилось несколько улучшений:

  • Добавлены новые скетчи - сочиненные существительные, прилагательные, глаголы и наречия. 
  • В основном корпусе для всех скетчей включена возможность по клику в ячейке таблицы перейти к примерам употребления сочетания слов в корпусе.
  • Благодаря обратной связи от заинтересованных пользователей улучшены морфемные разборы. Пожалуйста, продолжайте информировать нас о замеченных ошибках с помощью кнопки “Оценить”.

Оптимизирована работа с информацией о говорящих в Устном корпусе. Теперь в результатах поиска выделены имя и роль, а подробную информацию о социологических параметрах можно получить во всплывающем окне, которое открывается по клику на имени.

При выгрузке результатов поиска в Excel на дополнительном листе Info теперь отображается информация о параметрах запроса, результаты которого скачаны в файл, а также есть ссылка на сам запрос.