Новости НКРЯ

Напомним, что две недели назад мы обновили Обучающий корпус и дополнили корпус самыми современными инструментами.

Новостей было так много, что они не поместились в анонсы предыдущего релиза, поэтому сегодня мы продолжаем рассказывать про обновления.

Представляем вашему вниманию обновленную страницу НКРЯ в школе. Здесь вы найдете полезную информацию об использовании НКРЯ на уроках русского языка и литературы и для самостоятельной работы в школе и дома. 

Мы обновили раздел с методическими материалами, а также дополнили коллекцию упражнений, включив в нее олимпиадные задачки.

Портрет слова в Обучающем корпусе дополнен “Морфемным разбором”. В других корпусах НКРЯ морфемные разборы строятся на основе специально разработанного для корпуса словаря морфемного анализа. Такие разборы предназначены для исследователей и могут не совпадать с принятыми в школе.

В Обучающем корпусе реализована специальная версия "Морфемного разбора". Здесь морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе и опирается на "Морфемно-орфографический  словарь" А.Н. Тихонова (2002), содержащий около 100 тыс лексем. Для слов, не входящих в словник словаря, морфемный состав не определяется. Подробнее о словообразовательной разметке в НКРЯ см. статью.

Мультимедийный корпус пополнен до 5,8 млн словоупотреблений. В корпус включены новые коллекции публичной и непубличной речи, записанной в разных регионах, пополнены коллекции телепублицистики и театральной речи.

Графики - один из наиболее востребованных инструментов анализа результатов поиска в корпусе. Важно, чтобы выводы, которые вы делаете с помощью графиков, учитывали максимум возможной информации. Для этого мы дополнили графики несколькими вспомогательными инструментами.

С помощью «окон» отображения дат и частот на графиках вы можете приближать или отдалять определенные участки графика, а также перемещаться по значениям на осях. Это полезно, когда вы хотите рассмотреть более узкий временной или частотный диапазон в большом объеме данных.

В Основном, Газетных и Обучающем корпусах под графиком вы найдете тепловую шкалу, демонстрирующую количество текстов, в которых найдены примеры. Интенсивность цвета шкалы обратит ваше внимание на то, что изменение формы графика не обязательно означает изменение количества употреблений слова, а может быть связано с малым количеством найденных текстов. В таких случаях для проверки выводов вы сможете построить график без сглаживания.

График теперь можно скачать как картинку в высоком разрешении. 

В составе Национального корпуса русского языка появился новый исторический корпус – «Восточнославянская эпиграфика». 

В этот корпус входят 663 морфологически размеченные текста XI-XV веков с территории современных Украины, России и Беларуси, а также найденные за пределами Восточной Европы – в Германии, Франции, Турции. Это надписи, в основном краткие, на стенах церквей, на камнях, на предметах, найденных при раскопках или хранящихся много веков. Эпиграфика – ценный источник как по истории повседневной древнерусской речи, так и по бытованию церковных, литературных и фольклорных текстов. Из каждого текста можно перейти на сайт epigraphica.ru, где помещены более подробные данные о тексте и фотографии.

Пополнен Древнерусский корпус. Его объем достиг 800 тысяч словоупотреблений, в него включены несколько десятков официально-деловых текстов XII–XIV веков: княжеские уставы, грамоты из Новгорода, Полоцка, Украины и Литвы. Впервые в ранний корпус вошли предки таких современных слов, как блистать, больница, великолепие, доход, дружить, наслаждение, околица, простоволосый, ящерица

Русский и Англо-русский Мультипарки переведены на новый интерфейс. Теперь поиск по этим корпусам отображается в новом дизайне, доступны «Портреты слов». Корпуса подключены к «Обзору возможностей».

Для того, чтобы вы могли отбирать собственные подкорпуса и пользоваться нашими статистическими сервисами, нужна метаразметка. Количество текстов в корпусах НКРЯ уже превышает 6 млн и постоянно растет. Такие объемы материала все менее реально размечать вручную, поэтому мы развиваем сервисы нейроразметки (НейроКРЯ). Сегодня мы представляем новые результаты в этой области.

Ключевые слова в текстах корпуса Региональных СМИ размечены автоматически с помощью доработанной модели rutermextract. Одно ключевое слово может состоять из однословного ключа (праздник, переломы) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (католическая община).

В корпусе Социальные сети для основного массива текстов корпуса автоматически размечены жанры. Для разметки использована модель RuRoBERTa, дообученная на текстах корпуса. Один или несколько жанров можно выбрать из списка, например, рекомендации и советы.

В информации о тексте поля, значения которых заполняет НейроКРЯ, помечены специальным значком. В том же всплывающем окне есть кнопка “Сообщить об ошибке”. Сообщайте нам о всех неточностях и ошибках в определении ключевых слов и жанров.

Мы обновили Обучающий корпус, добавив в него более 1000 новых текстов. Теперь в нем есть все основные произведения из школьной программы по литературе, включая те, которые рекомендуются для внеклассного чтения.

Но это еще не всё. Для морфологической разметки всех текстов мы использовали нейросетевые модели. В процессе автоматической разметки снята грамматическая омонимия, что позволило нам добавить в Обучающий корпус современные инструменты для анализа слов и текстов.

Портрет слова показывает его сочетаемость, похожие слова, частоту использования, формы и историю употребления, а также примеры из текстов корпуса. Для сравнения частоты употребления слов и словосочетаний можно использовать Сравнение запросов

Можно анализировать и тексты. Для этого есть инструмент Портрет Корпуса, который предоставляет информацию об истории создания и о составе корпуса, а также статистику и частотный словарь. С помощью Портрета подкорпуса можно анализировать особенности выбранных текстов и сравнивать их с остальными текстами в корпусе.

При помощи новых инструментов можно составлять более разнообразные задания для школьников. Ученики могут использовать их и для самостоятельных исследований, например, чтобы написать реферат. А для тех преподавателей и студентов, кто готов проводить более сложные исследования, мы добавили новые виды выдачи результатов поиска (Статистика, Частотность, N-граммы) и новый вид поиска – Поиск коллокаций.

Мультимедийный корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов». 

Особенностью корпуса является возможность мультимедийного поиска, когда можно задать одновременно три поисковых запроса: для слов, жестов и речевых действий. Найдутся клипотексты, где и в видео/аудио, и в тексте встретились соответствия этим запросам: например, те, где в речи есть слово за, а в значении жеста — тост.

Обратите внимание, что по умолчанию в форме скрыта часть условий на слова, жесты и речевые действия. Эти условия можно добавить, нажав на кнопку «Добавить условия». 

Например, чтобы найти клипотексты, в которых человек определенным образом двигает головой, необходимо добавить в форму два условия для Жестов — на активный орган и на направление движения — и задать значения голова и из стороны в сторону, а чтобы найти клипотексты, в которых шепчут, добавить в форму условие на Манеру говорения и выбрать значение шепот.

Дополнительно можно задавать условия, описывающие вокалическую и орфоэпическую структуру слов.

Прошло ежегодное пополнение Корпуса берестяных грамот. Пятнадцать грамот, найденных в Великом Новгороде и в Старой Руссе в прошлом году – и еще две, научная публикация которых задержалась с позапрошлого – теперь одновременно доступны в НКРЯ и в базе данных gramoty.ru. Работа над корпусом берестяных грамот велась при поддержке гранта Российского научного фонда (проект № 19-18-00352 «Некнижная письменность Древней Руси XI–XV вв. (берестяные грамоты и эпиграфика): новые источники и методы исследования»). Иллюстрированный рассказ о находках прошлого года можно прочесть на сайте «Арзамас».

Старожилы помнят, что в Основном корпусе НКРЯ существовала возможность сравнить результаты поиска точных форм на графиках. Теперь в Корпусе доступен расширенный функционал сравнения результатов запросов:

  • Можно сравнивать поисковые запросы разных типов, например, результаты двух лексико-грамматических запросов. Так нам удалось узнать, когда стали говорить не более чем вместо не более как.
  • В разных запросах можно задавать разные подкорпусы, например, сравнивать разных авторов или типы текстов.
  • Все сравнения ведутся в пределах одного корпуса, и теперь функционал доступен почти во всех корпусах в новом интерфейсе. Вот такое исследование ударений нам удалось провести в Поэтическом корпусе.

Для работы с новым функционалом сравнений мы просим пользователя авторизоваться (ввести логин и пароль). Это необходимо, чтобы иметь возможность хранить большое количество параметров запросов и возвращаться к сохраненному сравнению.

В новой версии Портрета слова в Основном корпусе "гнезда" однокоренных слов дополнены с помощью нейросетевой модели НейроКРЯ. Например, для слова актер все однокоренные слова, кроме актриса и киноактриса, подобраны НейроКРЯ. А еще, если НейроКРЯ находит хотя бы 5 слов с таким же корнем, мы показываем однокоренные слова в Портрете слова, даже если искомого слова нет в словаре морфемных разборов. Смотрите, например, какой красивый портрет получился для слова эстет.

Для того, чтобы помочь нашим пользователям интерпретировать результаты поисковых запросов, мы сопоставили каждому тегу семантической разметки названия на русском и английском языках. Теперь в карточке слова в поисковой выдаче и в портрете слова можно увидеть сверхъестественных существ, вещества и материалы или положительные оценки вместо t:hum:supernat, t:stuff, sc:thing, ev:posit.

Акцентологический корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов» акцентологического корпуса. Корпус подключен к «Обзору возможностей».

Усовершенствован Портрет слова в основном корпусе:
В виджете “Морфемный разбор” разведены альтернативные морфемные разборы для разных частей речи. Например, слово тепло как существительное разбирается иначе, чем как наречие. Разные разборы можно увидеть, переключаясь в портрете между частями речи.