Портрет слова

Портрет слова предназначен для анализа характеристик слова на материале конкретного корпуса и показывает его грамматические и семантические свойства, похожие слова, характерные сочетания с другими словами в предложениях, примеры употребления слова в текстах корпуса, а также распределение примеров по годам и по свойствам текстов.

В портрет слова для Основного корпуса можно перейти с главной страницы НКРЯ, нажав на баннер:

Переключиться на Портрет слова в других корпусах можно с помощью меню выбора корпусов или кликнув на иконку «Перейти в портрет слова» в шапке любого корпуса в новом интерфейсе.

Как искать

Чтобы посмотреть Портрет слова, пользователь вводит:

лемму (начальную форму слова). Для ввода леммы можно воспользоваться саджестом и/или виртуальной клавиатурой. Если пользователь введет словоформу, не совпадающую с леммой, в портрете не будет отображена информация о грамматике, семантике и похожих словах.
часть речи. Если часть речи не будет выбрана, будут показаны все части речи искомого слова, которые встречаются в текстах корпуса более 5 раз.

Нажав на кнопку Показать портрет пользователь увидит разнообразную информацию о слове.

Если в корпусе есть примеры, в которых искомое слово относится к разным частям речи, пользователь сможет переключаться между частями речи и увидеть несколько портретов слова.

Портрет слова строится на материале полного корпуса без учета пользовательского подкорпуса, однако при переходе из портрета слова в выдачу, подкорпус будет подключен. В этой связи примеры употребления слова, которые приведены в портрете, могут не совпадать с первыми примерами в выдаче.

Скетчи слова

Информация в виджете Скетчи позволяет пользователю понять, как слово взаимодействует с другими словами в языке. Такое взаимодействие определяется через сочетаемость (коллокации) со словами разных частей речи с учетом синтаксических связей, которые покрывают основные зоны «работы» слова в языке. Для слов разных частей речи наиболее показательный набор синтаксических связей свой.

Для существительных:

прилагательные-определения к заданному существительному
глаголы, для которых данное существительное является подлежащим
глаголы, для которых данное существительное является прямым дополнением
глаголы, для которых данное существительное является косвенным дополнением без предлога
глаголы, для которых данное существительное является косвенным дополнением с предлогом
сочиненные существительные

Для глаголов:

существительные-подлежащие
существительные-прямые дополнения
существительные-косвенные дополнения без предлога
существительные-косвенные дополнения с предлогом
наречные обстоятельства
сочиненные глаголы

Для прилагательных:

существительные, для которых прилагательное является определением
наречные модификаторы
сочиненные прилагательные

Для наречий:

глаголы, которые модифицирует данное наречие
прилагательные, которые модифицируют данное наречие
сочиненные наречия

В виджете показано до 10 коллокатов для каждого скетча, для ранжирования используется метрика logDice. Соответственно, список коллокатов может быть пустым, если поиск коллокаций существительного, прилагательного, глагола или наречия с заданной синтаксической связью не дал результатов. Для имен собственных, топонимов, аббревиатур и слов, имеющих нестандартные написания или редко (менее 3 раз в 3 разных текстах) встречающихся в корпусе, скетчи не выводятся. Для других частей речи скетчи не выводятся. Кликнув на слово в таблице можно перейти к просмотру примеров скетча в корпусе.

Чтобы увидеть больше скетчей, можно воспользоваться полосой прокрутки или слайдером на мобильных устройствах.

Нажав на кнопку Показать все коллокации можно перейти к форме поиска коллокаций.

Скетчи слова доступны в Основном, Обучающем, Газетных и некоторых других корпусах. В этих же корпусах доступен функционал Сравнение скетчей.

В некоторых корпусах НКРЯ теперь можно сравнить скетчи

Толкование β

Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов.

При обнаружении ошибок в толкованиях сообщайте об них при помощи кнопки «‎Оценить».

О слове

В виджете "О слове" приводятся грамматические и семантические признаки слова.

Для существительных, прилагательных, глаголов и наречий можно получить наиболее полную информацию о грамматическом разборе.

Семантика омонимов показана в отдельных строках.

Частотность слова

Виджет показывает шкалу частотности слов, состоящую из шести диапазонов.

Для искомого слова частота (IPM) определяется как отношение количества вхождений всех форм слова, поделенное на объем корпуса и умноженное на миллион. В зависимости от полученного значения IPM слово попадет в один из диапазонов:

>10000 частотность высокая, слово очень распространенное
1000..10000 частотность довольно высокая, слово распространенное
100..1000 частотность скорее высокая
10..100 частотность скорее низкая
1..10 частотность довольно низкая, слово редкое
<1 частотность низкая, слово очень редкое

Подведя мышку к любому месту виджета, можно увидеть численное значение IPM.

Информация о частотности доступна при наличии примеров словоупотреблений и только в корпусах со снятой омонимией.

Морфемный разбор

В виджете показан морфемный состав слова: при помощи знаков, принятых в школьном преподавании русского языка, выделены приставки, корни, суффиксы и окончания.

В основе разметки словообразовательной структуры в Основном корпусе лежит специально разработанный для корпуса словарь морфемного анализа, где по состоянию на декабрь 2024 года даны разборы для более 75,5 тыс. лексем (более 312 тысяч неуникальных морфем). Для лемм, отсутствующих в словаре морфемного анализа, разметка морфемной структуры дополнена автоматически построенной (на основе нейросетевого алгоритма) разметкой. Например, слово эстетика отсутствует в словаре морфемного анализа, так что его членение (эстет-ик-а) предсказано алгоритмом. Такие разборы в снабжены специальным признаком «‎сгенерировано НейроКРЯ».

В Обучающем корпусе реализована специальная версия виджета. Здесь морфемный состав слова определяется в соответствии с практикой морфемного анализа в средней школе и опирается на «Морфемно-орфографический словарь» А.Н. Тихонова (2002), содержащий около 100 тыс лексем. Для слов, не входящих в словник словаря, морфемный состав не определяется.

Подробнее о словообразовательной разметке НКРЯ см. статью.

При морфемном членении несловарных слов возможны ошибки. Обратите внимание, что членение слов на морфемы может отличаться от привычного вам (см. «Принципы разметки»).

Однокоренные слова β

В виджете показаны однокоренные слова для искомого слова.

Слева отображается корень, справа - искомое слово и до 10 наиболее часто встречающихся однокоренных слов.

Корни слов выделены благодаря разметке словообразовательной структуры, сделанной с помощью специально разработанного для корпуса словаря морфемного анализа и дополненной автоматически. Такое выделение корней может отличаться от привычного вам.

В текущей версии виджета однокоренные слова показаны

для слов, размеченных вручную с помощью словаря морфемных разборов, при этом "гнезда" однокоренных слов содержат не только слова из словаря, но и дополнены с помощью нейросетевой модели НейроКРЯ. Например, для слова актер все однокоренные слова, кроме актриса и киноактриса, подобраны НейроКРЯ
для слов, отсутствующих в словаре, если НейроКРЯ нашла хотя бы 5 слов с таким же корнем. Например, эстет
для слов с несколькими корнями выводятся однокоренные слова для одного из корней
только в Портрете слова в Основном корпусе.

При наведении мыши на слово можно увидеть IPM (количество вхождений формы слова, поделенное на объем корпуса и умноженное на миллион). При этом, если у однокоренного слова есть разборы с разными частями речи, будет показан суммарный IPM.

Кликнув на однокоренное слово, можно перейти к его Портрету.

При обнаружении ошибок в списках однокоренных слов, связанных с несоответствием принципам разметки, сообщайте об ошибке при помощи кнопки «‎Оценить».

Формы слова в корпусе

В виджете показаны формы слова, которые встречаются в корпусе более 5 раз. Для одной и той же формы слова могут отображаться разные варианты написания, если такие встречаются в корпусе.

Цвет ячейки зависит от частоты употребления той или иной формы слова, чем больше примеров найдено в корпусе, тем насыщеннее цвет. При наведении мыши можно увидеть IPM (количество вхождений формы слова, поделенное на объем корпуса и умноженное на миллион). Если форма слова не встретилась ни в одном тексте в корпусе, в ячейке отображается прочерк.

Кликнув на форму слова можно перейти к просмотру примеров употребления в корпусе.

Информация о формах слова пока доступна только для существительных в Основном, Обучающем и Древнерусском корпусах.

В разметке лемм и форм возможны ошибки.

Похожие слова

В виджете Похожие слова отображаются ближайшие семантические ассоциаты слова. Коэффициент близости слов, который можно увидеть наведя мышь на слово в Облаке слов, подсчитывается с помощью моделей дистрибутивной семантики, построенных на актуальных материалах основного корпуса НКРЯ. Чем ближе значение коэффициента к 1, тем крупнее слово в Облаке слов, и тем предположительно более похожими должны быть контексты употребления этого слова на контексты употребления ключевого слова.

Текущая версия Похожих слов работает в Основном, Газетных, Обучающем и некоторых других корпусах‎ и ограничивается выводом семантических ассоциатов той же части речи для существительных, глаголов, прилагательных и наречий. Для имен собственных, топонимов, аббревиатур и слов, имеющие нестандартные написания или редко встречающихся в корпусе, похожие слова не выводятся.

Для поиска слов-ассоциатов в НКРЯ используются обученные на текстах конкретного корпуса word2vec-модели. Для обучения использован алгоритм Continious Bag-of-Words (реализация из библиотеки gensim). Для всех моделей используется размерность вектора 300 и окно в 5 слов. Порог зависит от корпуса и составляет:

5 вхождений для Основного, Старорусского корпусов, корпусов «‎Русская классика»‎, «От 2 до 15» и корпуса Центральных СМИ;
7 вхождений для корпуса Региональных СМИ;
10 вхождений для Обучающего корпуса.

Скачать векторные модели, обученные на данных корпусов НКРЯ, можно на странице «‎Нейросетевые модели НКРЯ»‎.

В Портрете слова Основного корпуса можно изучать список слов-ассоциатов не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Если количество вхождений слова в тексты выбранного периода ниже порогового значения для корпуса, то похожие слова не выводятся.

В Портрете слова корпуса «‎Русская классика β»‎ похожие слова‎ доступны не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей. Если количество вхождений слова во все тексты конкретного автора меньше 7, то похожие слова не выводятся.

Пользователи могут посмотреть на похожие слова одного периода или автора, сравнить два периода или автора, а также скачать скриншот.

Виджет снабжен специальным признаком «‎сгенерировано НейроКРЯ». Это означает, что выделение ассоциатов происходит полностью автоматически, и в списках могут встречаться ошибки, например неправильно образованные слова, интуитивно не вполне понятные сопоставления слов.

Распределение текстов

Визуализация распределения текстов доступна в формате столбчатой и круговой диаграмм.

Столбчатая диаграмма показывает отношение количества вхождений слова в категорию, поделенное на объем категории и умноженное на миллион (ipm).

Круговая диаграмма показывает, в каких видах текстов корпуса встречается слово. В случае, если пользователь выбирает единицу измерения «‎слово»‎, то на круговой диаграмме будет отображено точное число вхождений слова в категорию. В случае, если пользователь выбирает единицу измерения «‎текст»‎, то на круговой диаграмме будет отображено число текстов выбранной категории, содержащих искомое слово.

Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса. На диаграмме показано распределение топ-10 значений метаатрибута. Остальные значения объединены в категорию прочее. Справа от диаграммы приведен список значений и доля в процентах. При наведении мыши на сектор диаграммы можно увидеть название значения и соответствующее ему количество слов или текстов, включающих искомую лемму. При переключении метаатрибута и/или единицы измерения диаграмма перерисовывается.

Визуализация распределения текстов пока доступна не во всех корпусах.

Распределение по времени

В ряде корпусов доступен график распределения результатов поиска во времени (частота на миллион словоформ). В корпусе Региональных СМИ доступна детализация графиков по дням, месяцам и годам, в остальных корпусах - только по годам.

Пользователь может посмотреть готовый график, включающий все примеры употребления слова, или уточнить отображение результатов, изменив диапазон дат или сглаживание.

Подробнее об анализе графиков см в статье Хронологическое распределение результатов поиска.

Примеры употребления

В виджете приведено пять примеров употребления слова в текстах корпуса. Для отбора примеров используется лексико-грамматический поиск по лемме и части речи. Настройки отображения:

сортировка в случайном порядке
один пример из документа
пользовательский подкорпус не учитывается

По ссылке Показать все примеры пользователь может перейти в полные результаты поиска (вид выдачи Конкорданс).

Портрет слова строится на материале полного корпуса без учета пользовательского подкорпуса, однако если подкорпус был задан пользователем ранее, при нажатии на кнопку Показать все примеры он будет подключен. В этом случае примеры употребления слова, которые приведены в портрете, могут не совпадать с первыми примерами в выдаче.

Портрет слова доступен во всех корпусах в новом интерфейсе. Некоторые виджеты доступны только в отдельных корпусах.

Обновлено 26.03.2025