Портрет слова

Портрет слова предназначен для анализа характеристик слова на материале конкретного корпуса и показывает его грамматические и семантические свойства, похожие слова, характерные сочетания с другими словами в предложениях, примеры употребления слова в текстах корпуса, а также распределение примеров по годам и по свойствам текстов. 

В портрет слова для Основного корпуса можно перейти с главной страницы НКРЯ, нажав на баннер:

Переключиться на Портрет слова в других корпусах можно с помощью меню выбора корпусов.

Портрет слова доступен только для корпусов в новом интерфейсе.

Как искать

Чтобы посмотреть Портрет слова, пользователь вводит:

  • лемму (начальную форму слова). Для ввода леммы можно воспользоваться саджестом и/или виртуальной клавиатурой. Если пользователь введет словоформу, не совпадающую с леммой, в портрете не будет отображена информация о грамматике, семантике и похожих словах.
  • часть речи. Если часть речи не будет выбрана, будут показаны все части речи искомого слова, которые встречаются в текстах корпуса более 5 раз. 

Нажав на кнопку Показать портрет пользователь увидит разнообразную информацию о слове. 

Если в корпусе есть примеры, в которых искомое слово относится к разным частям речи, пользователь сможет переключаться между частями речи и увидеть несколько портретов слова.

Портрет слова строится на материале полного корпуса без учета пользовательского подкорпуса, однако при переходе из портрета слова в выдачу, подкорпус будет подключен. В этой связи примеры употребления слова, которые приведены в портрете, могут не совпадать с первыми примерами в выдаче.

Скетчи слова

Информация в виджете Скетчи позволяет пользователю понять, как слово взаимодействует с другими словами в языке. Такое взаимодействие определяется через сочетаемость (коллокации) со словами разных частей речи с учетом синтаксических связей, которые покрывают основные зоны «работы» слова в языке. Для слов разных частей речи наиболее показательный набор синтаксических связей свой.

Для существительных:

  • прилагательные-определения к заданному существительному
  • глаголы, для которых данное существительное является подлежащим
  • глаголы, для которых данное существительное является прямым дополнением
  • глаголы, для которых данное существительное является косвенным дополнением без предлога
  • глаголы, для которых данное существительное является косвенным дополнением с предлогом

Для глаголов:

  • существительные-подлежащие
  • существительные-прямые дополнения
  • существительные-косвенные дополнения без предлога
  • существительные-косвенные дополнения с предлогом

Для прилагательных:

  • существительные, для которых прилагательное является определением
  • наречные модификаторы

Для наречий:

  • глаголы, которые модифицирует данное наречие
  • прилагательные, которые модифицируют данное наречие

В виджете показано до 10 коллокатов для каждого скетча, для ранжирования используется метрика logDice. Соответственно, список коллокатов может быть пустым, если поиск коллокаций существительного, прилагательного, глагола или наречия с заданной синтаксической связью не дал результатов. Для имен собственных, топонимов, аббревиатур и слов, имеющих нестандартные написания или редко (менее 5 раз) встречающихся в корпусе, скетчи не выводятся. Для других частей речи скетчи не выводятся.

Чтобы увидеть больше скетчей, можно воспользоваться полосой прокрутки или слайдером на мобильных устройствах.

Нажав на кнопку Показать все коллокации можно перейти к форме поиска коллокаций.

Скетчи слова пока доступны только в Основном корпусе и корпусе Региональных СМИ.

О слове

В виджете "О слове" приводятся грамматические и семантические признаки слова.

Для существительных, прилагательных, глаголов и наречий можно получить наиболее полную информацию о грамматическим разборе.

Частотность слова

Виджет показывает шкалу частотности слов, состоящую из шести диапазонов. 

Для искомого слова частота (IPM) определяется как отношение количества вхождений всех форм слова, поделенное на объем корпуса и умноженное на миллион. В зависимости от полученного значения IPM слово попадет в один из диапазонов:

>10000 частотность высокая, слово очень распространенное
1000..10000 частотность довольно высокая, слово распространенное
100..1000 частотность скорее высокая
10..100 частотность скорее низкая
1..10 частотность довольно низкая, слово редкое
<1 частотность низкая, слово очень редкое

Подведя мышку к любому месту виджета, можно увидеть численное значение IPM.

Информация о частотности доступна при наличии примеров словоупотреблений и только в корпусах со снятой омонимией.

Похожие слова

В виджете Похожие слова отображаются ближайшие семантические ассоциаты слова. Коэффициент близости слов, который можно увидеть наведя мышь на слово в Облаке слов, подсчитывается с помощью моделей дистрибутивной семантики, построенных на актуальных материалах основного корпуса НКРЯ. Чем ближе значение коэффициента к 1, тем крупнее слово в Облаке слов, и тем предположительно более похожими должны быть контексты употребления этого слова на контексты употребления ключевого слова.  

Текущая версия Похожих слов работает только в основном, региональном и старорусском корпусах и ограничивается выводом семантических ассоциатов той же части речи для существительных, глаголов, прилагательных и наречий. Для имен собственных, топонимов, аббревиатур и слов, имеющие нестандартные написания или редко встречающихся в корпусе, похожие слова не выводятся.

Виджет снабжен специальным признаком «‎сгенерировано НейроКРЯ». Это означает, что выделение ассоциатов происходит полностью автоматически, и в списках могут встречаться ошибки, например неправильно образованные слова, интуитивно не вполне понятные сопоставления слов. 

Морфемный разбор β

С июня 2023 в виджете визуализируется морфемный состав слова: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания. 

В основе разметки словообразовательной структуры лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на май 2023 года даны разборы для 75 тыс лексем (310 тысяч неуникальных морфем). 

Для лемм, отсутствующих в словаре морфемного анализа, разметка морфемной структуры дополнена автоматически построенной (на основе нейросетевого алгоритма) разметкой. Например, слово гарантировать отсутствует в словаре морфемного анализа, так что его членение (гарант-ирова-ть) предсказано алгоритмом. Такие разборы в снабжены специальным признаком «‎сгенерировано НейроКРЯ».

При морфемном членении несловарных слов возможны ошибки. Обратите внимание, что членение слов на морфемы может отличаться от привычного вам (см. «Принципы разметки»).

Распределение по годам

В ряде корпусов доступен график частоты употребления слова по годам (частота на миллион словоформ).

Пользователь может воспользоваться готовым графиком, включающим примеры употребления слова за все годы, или уточнить отображение результатов, изменив период времени. 

Сглаживание графика позволяет увидеть общую тенденцию за случайными колебаниями частот. Например, сглаживание в 10 лет усредняет частоту слова с учетом предшествующих и последующих 5 лет. Чтобы получить точные данные за каждый год, можно установить сглаживание 0.

Подведя мышку к любой точке на линии, можно увидеть относительную частоту употребления за определенный год (ipm). Частота ipm определяется как количество употреблений слова за год, поделенное на объем корпуса за этот год и умноженное на 1 миллион.

Распределение текстов

Круговая диаграмма показывает, в каких видах текстов корпуса встречается слово. Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса, а также единицу измерения объема – тексты или слова. При переключении метаатрибута и/или единицы измерения диаграмма перерисовывается.

На диаграмме показано распределение топ-10 значений метаатрибута. Остальные значения объединены в категорию прочее. Справа от диаграммы приведен список значений и доля в процентах. При наведении мыши на сектор диаграммы можно увидеть название значения и соответствующее ему количество слов или текстов, включающих искомую лемму.

Визуализация распределения текстов пока доступна не во всех корпусах.

Примеры употребления

В виджете приведено пять примеров употребления слова в текстах корпуса. Для отбора примеров используется лексико-грамматический поиск по лемме и части речи. Настройки отображения:

  • сортировка в случайном порядке
  • один пример из документа
  • пользовательский подкорпус не учитывается

По ссылке Показать больше примеров пользователь может перейти в полные результаты поиска (вид выдачи Конкорданс).

Портрет слова строится на материале полного корпуса без учета пользовательского подкорпуса, однако если подкорпус был задан пользователем ранее, при нажатии на кнопку Показать все примеры он будет подключен. В этом случае примеры употребления слова, которые приведены в портрете, могут не совпадать с первыми примерами в выдаче.

Портрет слова доступен во всех корпусах в новом интерфейсе. Некоторые виджеты доступны только в отдельных корпусах.

Обновлено