Новости НКРЯ

В Синтаксическом корпусе появилась возможность отбора подкорпуса по основным параметрам, таким как автор, название текста, дата его создания и год рождения автора, а также по жанрам и типам текстов и по дате разметки.

Следите за нашими новостями на сайте и в социальных сетях, в марте мы продолжим совершенствовать работу Синтаксического корпуса!

В феврале мы существенно усовершенствовали Газетный корпус.

Корпус пополнен более чем на 49,6 млн словоформ. В него добавлены периодические издания 1990-х годов («Независимая газета», в том числе еженедельные приложения, «Московский комсомолец», «Санкт-Петербургские ведомости»).

Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей (напомним, что поле запроса появляется начиная со второго слова после нажатия ссылки «добавить условие»). Это делает доступными в Газетном корпусе центральных СМИ те новейшие функции, которые уже есть в меньших по объему Основном корпусе и Корпусе региональных СМИ: поиск по синтаксическим отношениям и свойствам, поиск коллокаций, частотный словарь, частотность выдачи.

Газетный корпус НКРЯ — теперь самый объемный в мире онлайн-корпус русского языка с возможностью поиска по синтаксическим связям!

В форме подкорпуса появилась возможность отбирать тексты по тематике и типу. Для разметки этих полей использована модель RuRoBERTa, дообученная на данных Регионального корпуса. Поля в форме подкорпуса и информации о тексте, значения которых сгенерированы НейроКРЯ, помечены специальным значком. При автоматической разметке возможны ошибки. Во всплывающем окне информации о тексте есть кнопка «Сообщить об ошибке». Сообщайте нам о всех неточностях и ошибках в определении тематики и типов.

В портрете Основного и Регионального корпусов появилась диахроническая статистика. Новый функционал позволяет представить распределение объема и состава текстов корпуса по времени создания. В Региональном корпусе дополнительно можно увидеть распределение объема текстов корпуса во времени по странам и регионам.

Чтобы увидеть графики диахронической статистики, нужно нажать на кнопку (i) в шапке корпуса, выбрать раздел Статистика и перейти во вкладку Распределение по времени.

Вы можете выбрать уровень детализации, задать диапазон дат и сглаживание. Эти параметры являются общими для всех графиков на странице, при изменении их значений будут перестраиваться все графики и таблицы.

Корпус «Русская классика» пополнен более чем на 1 млн словоформ. В него добавлены полные собрания сочинений А. Н. Радищева и И. А. Крылова, а также некоторые произведения уже представленных в нем авторов, пропущенные в предыдущем релизе корпуса. В корпусе можно строить графики, сравнивать запросы и отбирать подкорпус по жанру. Поисковую выдачу теперь можно сортировать по дате создания и по автору и жанру.

В форме лексико-грамматического поиска в Основном и Региональном корпусах появилась возможность задавать синтаксические параметры слова. 

Пользователь может указать синтаксические свойства слова, а также выбрать роль и направление связи между любыми двумя словами в поле «Синтаксическое отношение». Поле «Синтаксическое отношение» доступно в лексико-грамматическом поиске начиная со второго слова. Чтобы его увидеть, нажмите «добавить условие». Новый функционал, например, позволит определить, студенты каких учебных заведений чаще всего упоминаются в Основном корпусе.

Важно понимать, что синтаксическая разметка представлена в Национальном корпусе русского языка в двух различных форматах — в формате CинТагРус, используемом в Синтаксическом корпусе, и в формате Универсальных зависимостей, используемом в Основном, Обучающем и Региональном корпусах. При переходе между корпусами с разными форматами синтаксической разметки синтаксические связи в составе поискового запроса не сохраняются.

Подробнее ознакомиться с синтаксической разметкой в Корпусе можно в разделе «Синтаксическая разметка».

По традиции в последний рабочий день уходящего года команда НКРЯ подводит итоги и вспоминает о том, что нового появилось в Корпусе. 

В 2023 году нового у нас было много: новый сервис «Портрет слова», новые модели автоматической разметки НейроКРЯ, новый интерфейс, полностью заменивший старый, новые корпуса и новые инструменты для анализа и визуализации. 

Мы надеемся, что на этой картинке каждый найдет для себя инструменты, которые сделают вашу работу с Корпусом ещё более продуктивной и приятной. Пусть Новый год принесёт вам множество интересных находок и открытий!

С наилучшими пожеланиями в Новом Году,

команда Национального корпуса русского языка

 

В декабре 2023 мы завершили масштабный проект по переводу сайта Корпуса на новый интерфейс. Проект начался в 2022 году, а пользователи впервые увидели обновленную главную страницу https://ruscorpora.ru в мае прошлого года. В ходе проекта постепенно менялся интерфейс поиска по всем корпусам, а также появлялись нововведения и улучшения, которые помогли нашим пользователям решать свои ежедневные задачи быстрее и эффективнее:

  • Возможность работать с сайтом с мобильных устройств и переключать интерфейс на английский язык
  • Обзор возможностей для знакомства новой аудитории с интерфейсом и информирования о нововведениях
  • Портретирование корпусов, подкорпусов, слов для получения информации в разных разрезах
  • Широкие возможности визуализации для наглядного представления сложной информации
  • Быстрый доступ к решению стандартных задач: переход к основному функционалу с главной страницы, информация о заданном запросе и подкорпусе в шапке корпуса, сохранение пользовательских настроек пользователя, короткие ссылки для обмена запросами и многое другое.

Подробнее об этих и других задачах, которые решает новый интерфейс, вы можете прочитать в статье на сайте Корпуса. 

Все результаты интеллектуальной деятельности, используемые в Корпусе, доступны только для некоммерческого использования в научно-исследовательских и учебных целях. Однако некоторые пользователи, скачивая результаты выдачи, пытаются собрать весь Корпус, а не использовать его как источник примеров языковых явлений.

Мы хотим ограничить возможность неправомерного использования Корпуса, поэтому изменили некоторые правила. Теперь неавторизованные пользователи могут скачать не более 1000 примеров. 

Если вы хотите выгружать больше примеров, вам нужно авторизоваться в Корпусе. Для авторизованных пользователей лимит остался прежним.

Также напоминаем, что есть возможность получить офлайновую версию Основного и Синтаксического корпусов, а также мультиязычный и диахронические датасеты. Подробнее о том, как это сделать, читайте в статье Скачиваемые корпуса.

Синтаксический корпус теперь доступен в новом интерфейсе!

Пользователям доступны поиск точных форм и лексико-грамматический поиск по корпусу. В форме лексико-грамматического поиска появилось составное поле «Синтаксическое отношение», в котором пользователь может задать, с каким словом связано текущее слово, выбрать его роль (зависит/управляет) и тип связи. В составном поле «Лексическая функция» пользователь может задать, с каким словом и какой лексической функцией связано текущее слово, выбрать роль в связи (аргумент/значение) и служебное слово. Например, задав в качестве первого слова в лексико-грамматическом поиске лемму вести, а во втором слове выбрав лексическую функцию OPER1 в роли аргумента, вы увидите, что можно вести (прием, переговоры, кампанию, дневник).

В корпусе доступны два вида выдачи - конкорданс и KWIC. По клику на значок «Показать структуру» или «Показать структуру с разделенными оборотами» пользователь может ознакомиться с синтаксической структурой предложения в виде дерева зависимостей.

Морфологическая и синтаксическая разметка Синтаксического корпуса несколько отличается от основного морфологического и синтаксического стандарта НКРЯ. Подробнее ознакомиться с типами разметки можно в Портрете корпуса и разделе Виды разметки.

Синтаксический корпус также был пополнен на 28 тыс. словоупотреблений.

Панхронический корпус теперь учитывает недавние пополнения входящих в него корпусов — Древнерусского и Корпуса берестяных грамот. В него входят и все надписи из нового корпуса «Восточнославянская эпиграфика». Улучшена лемматизация старорусских текстов в составе Панхронического корпуса (около 3000 новых лексем). Исправлены и дополнены новыми данными таблица соответствия лемм и грамматических признаков разных эпох. Теперь эти соответствия учитывают части речи (например, у современного глагола, но не существительного, напасть указана древняя форма напасти). Кроме того, в составе Панхронического корпуса можно задавать подкорпус по жанровой категории текста – литературный текст, церковный, бытовой, деловой или учебный (у одного текста может быть несколько категорий). Это важно для изучения эволюции лексики и грамматических параметров, которые сильно зависят от жанра.

Региональный корпус пополнен до 35,5 млн словоупотреблений. В него включены тексты 5 новых газет и большая коллекция СМИ Воронежской области, подготовленная сотрудниками Воронежского государственного университета. В текстах пополнения снята грамматическая омонимия и внесена синтаксическая разметка. Ключевые слова к текстам сгенерированы с помощью языковой модели НейроКРЯ.

В Поэтическом корпусе теперь более ста тысяч текстов – стихотворений, поэм и их фрагментов; объем корпуса вырос на полмиллиона слов и приблизился к 14 млн. В корпус добавлены произведения десяти поэтов. Это три тома стихотворных сочинений Самуила Маршака (включая переводы), собрания стихов Булата Окуджавы, Инны Лиснянской, Юрия Кублановского, Тимура Кибирова и других.