Новости НКРЯ

По традиции в последний рабочий день уходящего года команда НКРЯ подводит итоги и вспоминает о том, что нового появилось в Корпусе. 

В 2023 году нового у нас было много: новый сервис «Портрет слова», новые модели автоматической разметки НейроКРЯ, новый интерфейс, полностью заменивший старый, новые корпуса и новые инструменты для анализа и визуализации. 

Мы надеемся, что на этой картинке каждый найдет для себя инструменты, которые сделают вашу работу с Корпусом ещё более продуктивной и приятной. Пусть Новый год принесёт вам множество интересных находок и открытий!

С наилучшими пожеланиями в Новом Году,

команда Национального корпуса русского языка

 

В декабре 2023 мы завершили масштабный проект по переводу сайта Корпуса на новый интерфейс. Проект начался в 2022 году, а пользователи впервые увидели обновленную главную страницу https://ruscorpora.ru в мае прошлого года. В ходе проекта постепенно менялся интерфейс поиска по всем корпусам, а также появлялись нововведения и улучшения, которые помогли нашим пользователям решать свои ежедневные задачи быстрее и эффективнее:

  • Возможность работать с сайтом с мобильных устройств и переключать интерфейс на английский язык
  • Обзор возможностей для знакомства новой аудитории с интерфейсом и информирования о нововведениях
  • Портретирование корпусов, подкорпусов, слов для получения информации в разных разрезах
  • Широкие возможности визуализации для наглядного представления сложной информации
  • Быстрый доступ к решению стандартных задач: переход к основному функционалу с главной страницы, информация о заданном запросе и подкорпусе в шапке корпуса, сохранение пользовательских настроек пользователя, короткие ссылки для обмена запросами и многое другое.

Подробнее об этих и других задачах, которые решает новый интерфейс, вы можете прочитать в статье на сайте Корпуса. 

Синтаксический корпус теперь доступен в новом интерфейсе!

Пользователям доступны поиск точных форм и лексико-грамматический поиск по корпусу. В форме лексико-грамматического поиска появилось составное поле «Синтаксическое отношение», в котором пользователь может задать, с каким словом связано текущее слово, выбрать его роль (зависит/управляет) и тип связи. В составном поле «Лексическая функция» пользователь может задать, с каким словом и какой лексической функцией связано текущее слово, выбрать роль в связи (аргумент/значение) и служебное слово. Например, задав в качестве первого слова в лексико-грамматическом поиске лемму вести, а во втором слове выбрав лексическую функцию OPER1 в роли аргумента, вы увидите, что можно вести (прием, переговоры, кампанию, дневник).

В корпусе доступны два вида выдачи - конкорданс и KWIC. По клику на значок «Показать структуру» или «Показать структуру с разделенными оборотами» пользователь может ознакомиться с синтаксической структурой предложения в виде дерева зависимостей.

Морфологическая и синтаксическая разметка Синтаксического корпуса несколько отличается от основного морфологического и синтаксического стандарта НКРЯ. Подробнее ознакомиться с типами разметки можно в Портрете корпуса и разделе Виды разметки.

Синтаксический корпус также был пополнен на 28 тыс. словоупотреблений.

Панхронический корпус теперь учитывает недавние пополнения входящих в него корпусов — Древнерусского и Корпуса берестяных грамот. В него входят и все надписи из нового корпуса «Восточнославянская эпиграфика». Улучшена лемматизация старорусских текстов в составе Панхронического корпуса (около 3000 новых лексем). Исправлены и дополнены новыми данными таблица соответствия лемм и грамматических признаков разных эпох. Теперь эти соответствия учитывают части речи (например, у современного глагола, но не существительного, напасть указана древняя форма напасти). Кроме того, в составе Панхронического корпуса можно задавать подкорпус по жанровой категории текста – литературный текст, церковный, бытовой, деловой или учебный (у одного текста может быть несколько категорий). Это важно для изучения эволюции лексики и грамматических параметров, которые сильно зависят от жанра.

Региональный корпус пополнен до 35,5 млн словоупотреблений. В него включены тексты 5 новых газет и большая коллекция СМИ Воронежской области, подготовленная сотрудниками Воронежского государственного университета. В текстах пополнения снята грамматическая омонимия и внесена синтаксическая разметка. Ключевые слова к текстам сгенерированы с помощью языковой модели НейроКРЯ.

В Поэтическом корпусе теперь более ста тысяч текстов – стихотворений, поэм и их фрагментов; объем корпуса вырос на полмиллиона слов и приблизился к 14 млн. В корпус добавлены произведения десяти поэтов. Это три тома стихотворных сочинений Самуила Маршака (включая переводы), собрания стихов Булата Окуджавы, Инны Лиснянской, Юрия Кублановского, Тимура Кибирова и других.

Все результаты интеллектуальной деятельности, используемые в Корпусе, доступны только для некоммерческого использования в научно-исследовательских и учебных целях. Однако некоторые пользователи, скачивая результаты выдачи, пытаются собрать весь Корпус, а не использовать его как источник примеров языковых явлений.

Мы хотим ограничить возможность неправомерного использования Корпуса, поэтому изменили некоторые правила. Теперь неавторизованные пользователи могут скачать не более 1000 примеров. 

Если вы хотите выгружать больше примеров, вам нужно авторизоваться в Корпусе. Для авторизованных пользователей лимит остался прежним.

Также напоминаем, что есть возможность получить офлайновую версию Основного и Синтаксического корпусов, а также мультиязычный и диахронические датасеты. Подробнее о том, как это сделать, читайте в статье Скачиваемые корпуса.

В преддверии Нового года мы хотим сделать подарок пользователям и пригласить вас в Музей Корпуса, реконструирующий интерфейс НКРЯ образца 2003 года!

Национальный корпус русского языка тогда включал 20 млн слов. Был доступен простой поиск (поиск форм) и расширенный (лексико-грамматический) поиск примеров по корпусу. В создании Национального корпуса русского языка принимала участие большая группа лингвистов из Москвы, Санкт-Петербурга и других научных центров России.

Одним из вдохновителей и создателей корпуса был Илья Сегалович (1964 — 2013), сооснователь и директор по технологиям Яндекса. Илья сам разработал первоначальный простой интерфейс Корпуса, при помощи которого теперь можно искать уже по современному составу Основного корпуса НКРЯ.

В предстоящее воскресенье, 10 декабря, с 10:00 до 18:00 по московскому времени на наших серверах будут проводиться технические работы.

Из-за этого возможны кратковременные перебои в работе сайта, которые продлятся не более 1 часа.

Пополнены коллекции устной речи в Акцентологическом и Устном корпусах. Добавлены записи текстов устной научной и политической речи, теле- и радиопублицистики, устных монологов-воспоминаний, повседневной диалогической речи. Объем Устного корпуса составляет 14 млн словоупотреблений, общий объем Акцентологического корпуса, вместе с наивной поэзией, - 134,8 млн словоупотреблений.

Параллельный корпус пополнился на 3 млн слов. Новые тексты появились в английской, испанской, немецкой, португальской, французской и чешской языковых парах. В частности, англо-русский корпус пополнился коллекцией расшифровок публичных лекций TED Talks, а португальско-русский вырос почти вдвое и теперь включает еще и тексты, созданные в португалоязычной Африке.

В корпусе Социальные сети автоматически размечены жанры для всего массива текстов. Пользователь может выбрать один или несколько жанров из списка. Выделено несколько новых жанров, например, подпись к фото.
Поля в информации о тексте, значения которых сгенерированы НейроКРЯ, помечены специальным значком. Если вы заметили неточность или ошибку, сообщайте нам, используя кнопку “Сообщить об ошибке” в том же окне.

С сегодняшнего дня задать подкорпус в корпусе Региональных СМИ можно, указав интервалы с точностью до дня. Например, можно исследовать употребление слова милиция.

Кроме того, в Региональном корпусе были усовершенствованы графики распределения результатов поиска. Единицей измерения по умолчанию теперь является месяц. Переключаться между днями, месяцами и годами на графиках можно в выдаче, обзоре возможностей, сравнении запросов и портрете слова.

С декабря 2023 г. пользователям Корпуса доступны два способа регистрации и авторизации — непосредственно на сайте и с помощью Яндекс ID.

Небольшая часть пользователей ранее регистрировалась в Корпусе через сторонний сервис ORCID.org. В связи с вступившими в силу изменениями в законодательстве Российской Федерации этот способ авторизации больше не доступен. Мы приносим свои извинения за доставленные неудобства пользователям, зарегистрировавшимся через ORCID.org. Пожалуйста, пройдите повторную регистрацию для доступа к расширенному функционалу НКРЯ.