Новости НКРЯ

Синтаксический корпус теперь доступен в новом интерфейсе!

Пользователям доступны поиск точных форм и лексико-грамматический поиск по корпусу. В форме лексико-грамматического поиска появилось составное поле «Синтаксическое отношение», в котором пользователь может задать, с каким словом связано текущее слово, выбрать его роль (зависит/управляет) и тип связи. В составном поле «Лексическая функция» пользователь может задать, с каким словом и какой лексической функцией связано текущее слово, выбрать роль в связи (аргумент/значение) и служебное слово. Например, задав в качестве первого слова в лексико-грамматическом поиске лемму вести, а во втором слове выбрав лексическую функцию OPER1 в роли аргумента, вы увидите, что можно вести (прием, переговоры, кампанию, дневник).

В корпусе доступны два вида выдачи - конкорданс и KWIC. По клику на значок «Показать структуру» или «Показать структуру с разделенными оборотами» пользователь может ознакомиться с синтаксической структурой предложения в виде дерева зависимостей.

Морфологическая и синтаксическая разметка Синтаксического корпуса несколько отличается от основного морфологического и синтаксического стандарта НКРЯ. Подробнее ознакомиться с типами разметки можно в Портрете корпуса и разделе Виды разметки.

Синтаксический корпус также был пополнен на 28 тыс. словоупотреблений.

Все результаты интеллектуальной деятельности, используемые в Корпусе, доступны только для некоммерческого использования в научно-исследовательских и учебных целях. Однако некоторые пользователи, скачивая результаты выдачи, пытаются собрать весь Корпус, а не использовать его как источник примеров языковых явлений.

Мы хотим ограничить возможность неправомерного использования Корпуса, поэтому изменили некоторые правила. Теперь неавторизованные пользователи могут скачать не более 1000 примеров. 

Если вы хотите выгружать больше примеров, вам нужно авторизоваться в Корпусе. Для авторизованных пользователей лимит остался прежним.

Также напоминаем, что есть возможность получить офлайновую версию Основного и Синтаксического корпусов, а также мультиязычный и диахронические датасеты. Подробнее о том, как это сделать, читайте в статье Скачиваемые корпуса.

В преддверии Нового года мы хотим сделать подарок пользователям и пригласить вас в Музей Корпуса, реконструирующий интерфейс НКРЯ образца 2003 года!

Национальный корпус русского языка тогда включал 20 млн слов. Был доступен простой поиск (поиск форм) и расширенный (лексико-грамматический) поиск примеров по корпусу. В создании Национального корпуса русского языка принимала участие большая группа лингвистов из Москвы, Санкт-Петербурга и других научных центров России.

Одним из вдохновителей и создателей корпуса был Илья Сегалович (1964 — 2013), сооснователь и директор по технологиям Яндекса. Илья сам разработал первоначальный простой интерфейс Корпуса, при помощи которого теперь можно искать уже по современному составу Основного корпуса НКРЯ.

В предстоящее воскресенье, 10 декабря, с 10:00 до 18:00 по московскому времени на наших серверах будут проводиться технические работы.

Из-за этого возможны кратковременные перебои в работе сайта, которые продлятся не более 1 часа.

С сегодняшнего дня задать подкорпус в корпусе Региональных СМИ можно, указав интервалы с точностью до дня. Например, можно исследовать употребление слова милиция.

Кроме того, в Региональном корпусе были усовершенствованы графики распределения результатов поиска. Единицей измерения по умолчанию теперь является месяц. Переключаться между днями, месяцами и годами на графиках можно в выдаче, обзоре возможностей, сравнении запросов и портрете слова.

Пополнены коллекции устной речи в Акцентологическом и Устном корпусах. Добавлены записи текстов устной научной и политической речи, теле- и радиопублицистики, устных монологов-воспоминаний, повседневной диалогической речи. Объем Устного корпуса составляет 14 млн словоупотреблений, общий объем Акцентологического корпуса, вместе с наивной поэзией, - 134,8 млн словоупотреблений.

Параллельный корпус пополнился на 3 млн слов. Новые тексты появились в английской, испанской, немецкой, португальской, французской и чешской языковых парах. В частности, англо-русский корпус пополнился коллекцией расшифровок публичных лекций TED Talks, а португальско-русский вырос почти вдвое и теперь включает еще и тексты, созданные в португалоязычной Африке.

В корпусе Социальные сети автоматически размечены жанры для всего массива текстов. Пользователь может выбрать один или несколько жанров из списка. Выделено несколько новых жанров, например, подпись к фото.
Поля в информации о тексте, значения которых сгенерированы НейроКРЯ, помечены специальным значком. Если вы заметили неточность или ошибку, сообщайте нам, используя кнопку “Сообщить об ошибке” в том же окне.

С декабря 2023 г. пользователям Корпуса доступны два способа регистрации и авторизации — непосредственно на сайте и с помощью Яндекс ID.

Небольшая часть пользователей ранее регистрировалась в Корпусе через сторонний сервис ORCID.org. В связи с вступившими в силу изменениями в законодательстве Российской Федерации этот способ авторизации больше не доступен. Мы приносим свои извинения за доставленные неудобства пользователям, зарегистрировавшимся через ORCID.org. Пожалуйста, пройдите повторную регистрацию для доступа к расширенному функционалу НКРЯ. 

Напомним, что две недели назад мы обновили Обучающий корпус и дополнили корпус самыми современными инструментами.

Новостей было так много, что они не поместились в анонсы предыдущего релиза, поэтому сегодня мы продолжаем рассказывать про обновления.

Представляем вашему вниманию обновленную страницу НКРЯ в школе. Здесь вы найдете полезную информацию об использовании НКРЯ на уроках русского языка и литературы и для самостоятельной работы в школе и дома. 

Мы обновили раздел с методическими материалами, а также дополнили коллекцию упражнений, включив в нее олимпиадные задачки.

Портрет слова в Обучающем корпусе дополнен “Морфемным разбором”. В других корпусах НКРЯ морфемные разборы строятся на основе специально разработанного для корпуса словаря морфемного анализа. Такие разборы предназначены для исследователей и могут не совпадать с принятыми в школе.

В Обучающем корпусе реализована специальная версия "Морфемного разбора". Здесь морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе и опирается на "Морфемно-орфографический  словарь" А.Н. Тихонова (2002), содержащий около 100 тыс лексем. Для слов, не входящих в словник словаря, морфемный состав не определяется. Подробнее о словообразовательной разметке в НКРЯ см. статью.

Графики - один из наиболее востребованных инструментов анализа результатов поиска в корпусе. Важно, чтобы выводы, которые вы делаете с помощью графиков, учитывали максимум возможной информации. Для этого мы дополнили графики несколькими вспомогательными инструментами.

С помощью «окон» отображения дат и частот на графиках вы можете приближать или отдалять определенные участки графика, а также перемещаться по значениям на осях. Это полезно, когда вы хотите рассмотреть более узкий временной или частотный диапазон в большом объеме данных.

В Основном, Газетных и Обучающем корпусах под графиком вы найдете тепловую шкалу, демонстрирующую количество текстов, в которых найдены примеры. Интенсивность цвета шкалы обратит ваше внимание на то, что изменение формы графика не обязательно означает изменение количества употреблений слова, а может быть связано с малым количеством найденных текстов. В таких случаях для проверки выводов вы сможете построить график без сглаживания.

График теперь можно скачать как картинку в высоком разрешении. 

Мультимедийный корпус пополнен до 5,8 млн словоупотреблений. В корпус включены новые коллекции публичной и непубличной речи, записанной в разных регионах, пополнены коллекции телепублицистики и театральной речи.