Новости НКРЯ

В корпусе «Русская классика» внедрена автоматическая разметка при помощи нейросетевых механизмов. Теперь в нем доступны те же поисковые и статистические инструменты, что в Основном, Газетном и других «передовых» корпусах: частотность, н-граммы, статистика по метапризнакам, скетчи в портрете слова, поиск по синтаксическим отношениям, сравнение подкорпусов по частотным словникам и многое другое. Кроме того, корпус «Русская классика» — единственный из корпусов НКРЯ, где репрезентативно представлены и стих, и письменная проза, и можно отбирать эти типы текста отдельно. Благодаря всему этому мы можем сравнить, о чем писали русские классики. Например, можно говорить о «‎человекоцентричности»‎ русской классической литературы (см. иллюстрацию), а также заметить, что о душе поэты (В. А. ЖуковскийЕ. А. БаратынскийМ. Ю. Лермонтов), писали значительно чаще, чем прозаики (А. Н. РадищевН. В. ГогольИ. С. Тургенев).

В марте была существенно улучшена работа Синтаксического корпуса. В СинТагРусе появились новые типы информации и поисковые поля. Начиная со Слова 2, можно задать кореферентную и темпоральную связь. В поле Дополнительные признаки теперь есть возможность искать эллидированные слова, т. е. такие слова, которые опущены (подвергнуты эллипсису) в предложении, но присутствуют в его синтаксической структуре.

Поиск по микросинтаксической разметке позволяет идентифицировать устойчивые выражения разных типов. Например, отобрав конструкции все равно 1все равно 2 и все равно 3 пользователь может увидеть особенности значения этого многозначного оборота (‘по-любому’, ‘безразлично’ и ‘эквивалентно’, соответственно) и особенности его употребления (например, все равно 2 и 3 выступают в функции сказуемого, а все равно 1 — нет).

В выдаче теперь доступна сортировка по дате создания, дате рождения автора, дате разметки и случайная сортировка. По умолчанию результаты сортируются по дате разметки текстов.

В меню синтаксических отношений, лексических функций и морфологических признаков появились подсказки. По клику на кнопку (?) в соседнем окне откроется соответствующее описание в Руководстве пользователя.

В феврале мы существенно усовершенствовали Газетный корпус.

Корпус пополнен более чем на 49,6 млн словоформ. В него добавлены периодические издания 1990-х годов («Независимая газета», в том числе еженедельные приложения, «Московский комсомолец», «Санкт-Петербургские ведомости»).

Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей (напомним, что поле запроса появляется начиная со второго слова после нажатия ссылки «добавить условие»). Это делает доступными в Газетном корпусе центральных СМИ те новейшие функции, которые уже есть в меньших по объему Основном корпусе и Корпусе региональных СМИ: поиск по синтаксическим отношениям и свойствам, поиск коллокаций, частотный словарь, частотность выдачи.

Газетный корпус НКРЯ — теперь самый объемный в мире онлайн-корпус русского языка с возможностью поиска по синтаксическим связям!

В форме подкорпуса появилась возможность отбирать тексты по тематике и типу. Для разметки этих полей использована модель RuRoBERTa, дообученная на данных Регионального корпуса. Поля в форме подкорпуса и информации о тексте, значения которых сгенерированы НейроКРЯ, помечены специальным значком. При автоматической разметке возможны ошибки. Во всплывающем окне информации о тексте есть кнопка «Сообщить об ошибке». Сообщайте нам о всех неточностях и ошибках в определении тематики и типов.

В Синтаксическом корпусе появилась возможность отбора подкорпуса по основным параметрам, таким как автор, название текста, дата его создания и год рождения автора, а также по жанрам и типам текстов и по дате разметки.

Следите за нашими новостями на сайте и в социальных сетях, в марте мы продолжим совершенствовать работу Синтаксического корпуса!

В портрете Основного и Регионального корпусов появилась диахроническая статистика. Новый функционал позволяет представить распределение объема и состава текстов корпуса по времени создания. В Региональном корпусе дополнительно можно увидеть распределение объема текстов корпуса во времени по странам и регионам.

Чтобы увидеть графики диахронической статистики, нужно нажать на кнопку (i) в шапке корпуса, выбрать раздел Статистика и перейти во вкладку Распределение по времени.

Вы можете выбрать уровень детализации, задать диапазон дат и сглаживание. Эти параметры являются общими для всех графиков на странице, при изменении их значений будут перестраиваться все графики и таблицы.

Корпус «Русская классика» пополнен более чем на 1 млн словоформ. В него добавлены полные собрания сочинений А. Н. Радищева и И. А. Крылова, а также некоторые произведения уже представленных в нем авторов, пропущенные в предыдущем релизе корпуса. В корпусе можно строить графики, сравнивать запросы и отбирать подкорпус по жанру. Поисковую выдачу теперь можно сортировать по дате создания и по автору и жанру.

В форме лексико-грамматического поиска в Основном и Региональном корпусах появилась возможность задавать синтаксические параметры слова. 

Пользователь может указать синтаксические свойства слова, а также выбрать роль и направление связи между любыми двумя словами в поле «Синтаксическое отношение». Поле «Синтаксическое отношение» доступно в лексико-грамматическом поиске начиная со второго слова. Чтобы его увидеть, нажмите «добавить условие». Новый функционал, например, позволит определить, студенты каких учебных заведений чаще всего упоминаются в Основном корпусе.

Важно понимать, что синтаксическая разметка представлена в Национальном корпусе русского языка в двух различных форматах — в формате CинТагРус, используемом в Синтаксическом корпусе, и в формате Универсальных зависимостей, используемом в Основном, Обучающем и Региональном корпусах. При переходе между корпусами с разными форматами синтаксической разметки синтаксические связи в составе поискового запроса не сохраняются.

Подробнее ознакомиться с синтаксической разметкой в Корпусе можно в разделе «Синтаксическая разметка».

По традиции в последний рабочий день уходящего года команда НКРЯ подводит итоги и вспоминает о том, что нового появилось в Корпусе. 

В 2023 году нового у нас было много: новый сервис «Портрет слова», новые модели автоматической разметки НейроКРЯ, новый интерфейс, полностью заменивший старый, новые корпуса и новые инструменты для анализа и визуализации. 

Мы надеемся, что на этой картинке каждый найдет для себя инструменты, которые сделают вашу работу с Корпусом ещё более продуктивной и приятной. Пусть Новый год принесёт вам множество интересных находок и открытий!

С наилучшими пожеланиями в Новом Году,

команда Национального корпуса русского языка

 

В декабре 2023 мы завершили масштабный проект по переводу сайта Корпуса на новый интерфейс. Проект начался в 2022 году, а пользователи впервые увидели обновленную главную страницу https://ruscorpora.ru в мае прошлого года. В ходе проекта постепенно менялся интерфейс поиска по всем корпусам, а также появлялись нововведения и улучшения, которые помогли нашим пользователям решать свои ежедневные задачи быстрее и эффективнее:

  • Возможность работать с сайтом с мобильных устройств и переключать интерфейс на английский язык
  • Обзор возможностей для знакомства новой аудитории с интерфейсом и информирования о нововведениях
  • Портретирование корпусов, подкорпусов, слов для получения информации в разных разрезах
  • Широкие возможности визуализации для наглядного представления сложной информации
  • Быстрый доступ к решению стандартных задач: переход к основному функционалу с главной страницы, информация о заданном запросе и подкорпусе в шапке корпуса, сохранение пользовательских настроек пользователя, короткие ссылки для обмена запросами и многое другое.

Подробнее об этих и других задачах, которые решает новый интерфейс, вы можете прочитать в статье на сайте Корпуса. 

Панхронический корпус теперь учитывает недавние пополнения входящих в него корпусов — Древнерусского и Корпуса берестяных грамот. В него входят и все надписи из нового корпуса «Восточнославянская эпиграфика». Улучшена лемматизация старорусских текстов в составе Панхронического корпуса (около 3000 новых лексем). Исправлены и дополнены новыми данными таблица соответствия лемм и грамматических признаков разных эпох. Теперь эти соответствия учитывают части речи (например, у современного глагола, но не существительного, напасть указана древняя форма напасти). Кроме того, в составе Панхронического корпуса можно задавать подкорпус по жанровой категории текста – литературный текст, церковный, бытовой, деловой или учебный (у одного текста может быть несколько категорий). Это важно для изучения эволюции лексики и грамматических параметров, которые сильно зависят от жанра.

Региональный корпус пополнен до 35,5 млн словоупотреблений. В него включены тексты 5 новых газет и большая коллекция СМИ Воронежской области, подготовленная сотрудниками Воронежского государственного университета. В текстах пополнения снята грамматическая омонимия и внесена синтаксическая разметка. Ключевые слова к текстам сгенерированы с помощью языковой модели НейроКРЯ.

В Поэтическом корпусе теперь более ста тысяч текстов – стихотворений, поэм и их фрагментов; объем корпуса вырос на полмиллиона слов и приблизился к 14 млн. В корпус добавлены произведения десяти поэтов. Это три тома стихотворных сочинений Самуила Маршака (включая переводы), собрания стихов Булата Окуджавы, Инны Лиснянской, Юрия Кублановского, Тимура Кибирова и других.