Новости НКРЯ

Пополнены коллекции устной речи в Акцентологическом и Устном корпусах. Добавлены записи текстов устной научной и политической речи, теле- и радиопублицистики, устных монологов-воспоминаний, повседневной диалогической речи. Объем Устного корпуса составляет 14 млн словоупотреблений, общий объем Акцентологического корпуса, вместе с наивной поэзией, - 134,8 млн словоупотреблений.

Параллельный корпус пополнился на 3 млн слов. Новые тексты появились в английской, испанской, немецкой, португальской, французской и чешской языковых парах. В частности, англо-русский корпус пополнился коллекцией расшифровок публичных лекций TED Talks, а португальско-русский вырос почти вдвое и теперь включает еще и тексты, созданные в португалоязычной Африке.

В корпусе Социальные сети автоматически размечены жанры для всего массива текстов. Пользователь может выбрать один или несколько жанров из списка. Выделено несколько новых жанров, например, подпись к фото.
Поля в информации о тексте, значения которых сгенерированы НейроКРЯ, помечены специальным значком. Если вы заметили неточность или ошибку, сообщайте нам, используя кнопку “Сообщить об ошибке” в том же окне.

С сегодняшнего дня задать подкорпус в корпусе Региональных СМИ можно, указав интервалы с точностью до дня. Например, можно исследовать употребление слова милиция.

Кроме того, в Региональном корпусе были усовершенствованы графики распределения результатов поиска. Единицей измерения по умолчанию теперь является месяц. Переключаться между днями, месяцами и годами на графиках можно в выдаче, обзоре возможностей, сравнении запросов и портрете слова.

С декабря 2023 г. пользователям Корпуса доступны два способа регистрации и авторизации — непосредственно на сайте и с помощью Яндекс ID.

Небольшая часть пользователей ранее регистрировалась в Корпусе через сторонний сервис ORCID.org. В связи с вступившими в силу изменениями в законодательстве Российской Федерации этот способ авторизации больше не доступен. Мы приносим свои извинения за доставленные неудобства пользователям, зарегистрировавшимся через ORCID.org. Пожалуйста, пройдите повторную регистрацию для доступа к расширенному функционалу НКРЯ. 

Не все знают, что Портрет слова доступен не только в Основном корпусе, но и вообще во всех корпусах в новом интерфейсе. 

Теперь попасть в портрет слова любого корпуса стало проще. В шапке корпуса вы найдете специальную кнопку, нажав на которую можно попасть в портрет слова, созданный на базе этого корпуса. 

Не забывайте, что есть и другие способы увидеть портреты слов:

  • с главной страницы сайта можно перейти в портрет слова Основного корпуса, найти слово, а затем переключиться на любой другой корпус и увидеть портрет этого же слова. 
  • ссылка на Портрет слова есть в результатах поиска во всплывающем окне с информацией о слове. 
  • в портреты слов можно переходить по прямым ссылкам. Вот, например, портреты слова слово в Старорусском корпусе и в Параллельном русско-китайском.

Мультимедийный корпус пополнен до 5,8 млн словоупотреблений. В корпус включены новые коллекции публичной и непубличной речи, записанной в разных регионах, пополнены коллекции телепублицистики и театральной речи.

Графики - один из наиболее востребованных инструментов анализа результатов поиска в корпусе. Важно, чтобы выводы, которые вы делаете с помощью графиков, учитывали максимум возможной информации. Для этого мы дополнили графики несколькими вспомогательными инструментами.

С помощью «окон» отображения дат и частот на графиках вы можете приближать или отдалять определенные участки графика, а также перемещаться по значениям на осях. Это полезно, когда вы хотите рассмотреть более узкий временной или частотный диапазон в большом объеме данных.

В Основном, Газетных и Обучающем корпусах под графиком вы найдете тепловую шкалу, демонстрирующую количество текстов, в которых найдены примеры. Интенсивность цвета шкалы обратит ваше внимание на то, что изменение формы графика не обязательно означает изменение количества употреблений слова, а может быть связано с малым количеством найденных текстов. В таких случаях для проверки выводов вы сможете построить график без сглаживания.

График теперь можно скачать как картинку в высоком разрешении. 

Напомним, что две недели назад мы обновили Обучающий корпус и дополнили корпус самыми современными инструментами.

Новостей было так много, что они не поместились в анонсы предыдущего релиза, поэтому сегодня мы продолжаем рассказывать про обновления.

Представляем вашему вниманию обновленную страницу НКРЯ в школе. Здесь вы найдете полезную информацию об использовании НКРЯ на уроках русского языка и литературы и для самостоятельной работы в школе и дома. 

Мы обновили раздел с методическими материалами, а также дополнили коллекцию упражнений, включив в нее олимпиадные задачки.

Портрет слова в Обучающем корпусе дополнен “Морфемным разбором”. В других корпусах НКРЯ морфемные разборы строятся на основе специально разработанного для корпуса словаря морфемного анализа. Такие разборы предназначены для исследователей и могут не совпадать с принятыми в школе.

В Обучающем корпусе реализована специальная версия "Морфемного разбора". Здесь морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе и опирается на "Морфемно-орфографический  словарь" А.Н. Тихонова (2002), содержащий около 100 тыс лексем. Для слов, не входящих в словник словаря, морфемный состав не определяется. Подробнее о словообразовательной разметке в НКРЯ см. статью.

В составе Национального корпуса русского языка появился новый исторический корпус – «Восточнославянская эпиграфика». 

В этот корпус входят 663 морфологически размеченные текста XI-XV веков с территории современных Украины, России и Беларуси, а также найденные за пределами Восточной Европы – в Германии, Франции, Турции. Это надписи, в основном краткие, на стенах церквей, на камнях, на предметах, найденных при раскопках или хранящихся много веков. Эпиграфика – ценный источник как по истории повседневной древнерусской речи, так и по бытованию церковных, литературных и фольклорных текстов. Из каждого текста можно перейти на сайт epigraphica.ru, где помещены более подробные данные о тексте и фотографии.

Пополнен Древнерусский корпус. Его объем достиг 800 тысяч словоупотреблений, в него включены несколько десятков официально-деловых текстов XII–XIV веков: княжеские уставы, грамоты из Новгорода, Полоцка, Украины и Литвы. Впервые в ранний корпус вошли предки таких современных слов, как блистать, больница, великолепие, доход, дружить, наслаждение, околица, простоволосый, ящерица

Русский и Англо-русский Мультипарки переведены на новый интерфейс. Теперь поиск по этим корпусам отображается в новом дизайне, доступны «Портреты слов». Корпуса подключены к «Обзору возможностей».

Для того, чтобы вы могли отбирать собственные подкорпуса и пользоваться нашими статистическими сервисами, нужна метаразметка. Количество текстов в корпусах НКРЯ уже превышает 6 млн и постоянно растет. Такие объемы материала все менее реально размечать вручную, поэтому мы развиваем сервисы нейроразметки (НейроКРЯ). Сегодня мы представляем новые результаты в этой области.

Ключевые слова в текстах корпуса Региональных СМИ размечены автоматически с помощью доработанной модели rutermextract. Одно ключевое слово может состоять из однословного ключа (праздник, переломы) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (католическая община).

В корпусе Социальные сети для основного массива текстов корпуса автоматически размечены жанры. Для разметки использована модель RuRoBERTa, дообученная на текстах корпуса. Один или несколько жанров можно выбрать из списка, например, рекомендации и советы.

В информации о тексте поля, значения которых заполняет НейроКРЯ, помечены специальным значком. В том же всплывающем окне есть кнопка “Сообщить об ошибке”. Сообщайте нам о всех неточностях и ошибках в определении ключевых слов и жанров.

Мультимедийный корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов». 

Особенностью корпуса является возможность мультимедийного поиска, когда можно задать одновременно три поисковых запроса: для слов, жестов и речевых действий. Найдутся клипотексты, где и в видео/аудио, и в тексте встретились соответствия этим запросам: например, те, где в речи есть слово за, а в значении жеста — тост.

Обратите внимание, что по умолчанию в форме скрыта часть условий на слова, жесты и речевые действия. Эти условия можно добавить, нажав на кнопку «Добавить условия». 

Например, чтобы найти клипотексты, в которых человек определенным образом двигает головой, необходимо добавить в форму два условия для Жестов — на активный орган и на направление движения — и задать значения голова и из стороны в сторону, а чтобы найти клипотексты, в которых шепчут, добавить в форму условие на Манеру говорения и выбрать значение шепот.

Дополнительно можно задавать условия, описывающие вокалическую и орфоэпическую структуру слов.

Прошло ежегодное пополнение Корпуса берестяных грамот. Пятнадцать грамот, найденных в Великом Новгороде и в Старой Руссе в прошлом году – и еще две, научная публикация которых задержалась с позапрошлого – теперь одновременно доступны в НКРЯ и в базе данных gramoty.ru. Работа над корпусом берестяных грамот велась при поддержке гранта Российского научного фонда (проект № 19-18-00352 «Некнижная письменность Древней Руси XI–XV вв. (берестяные грамоты и эпиграфика): новые источники и методы исследования»). Иллюстрированный рассказ о находках прошлого года можно прочесть на сайте «Арзамас».