Виды выдачи: частотность

Вид выдачи «Частотность» отражает частотное распределение результатов поиска. В таблице частотности можно увидеть, какие словоформы, леммы или наборы грамматических признаков чаще всего соответствуют заданным условиям запроса в результатах поиска.

Такая выдача может быть особенно информативной, если запрос содержит в себе лексико-грамматические условия на несколько слов с заданными расстояниями между ними. Например, можно найти сочетания прилагательного и существительного, которые находятся на расстоянии от -1 до 1 друг от друга, то есть располагаются в любом порядке. Распределение 100 самых часто встречающихся сочетаний будет показано в таблице. 

В настоящий момент вид выдачи «Частотность» доступен в корпусе Региональных СМИ. В дальнейшем список таких корпусов будет расширяться.

Как пользоваться таблицей

Таблица содержит четыре типа столбцов: столбцы со словами, столбцы с расстояниями, столбцы с данными о частотности и столбец со ссылками на примеры. 

Каждый столбец со словом соответствует одному слову из запроса и имеет три режима отображения: «Лемма», «Словоформа» и «Грамматические признаки». По умолчанию во всех столбцах включен режим «Лемма», при этом режим отображения каждого слова можно выбирать независимо. Такая гибкость настройки столбцов со словами удобна для обобщения или дифференциации частей словосочетаний: например, при исследовании глагольного управления в столбце с глаголами удобнее включить режим отображения «Лемма», а в столбце с зависимыми существительными - режим «Словоформа». При изменения режима отображения в столбцах со словами соответственно пересчитываются и данные о частотности.

Столбцы с расстояниями между соседними словами запроса дают возможность упорядочивать список по расстоянию и получать наиболее частотные результаты с минимальным или максимальным заданным расстоянием.

В столбцах «Доля» и «ipm» содержится информация о том, насколько частотно полученное словосочетание в выбранном корпусе или подкорпусе. В столбце «Доля» показана процентная доля словосочетания среди всех, подходящих под поисковый запрос. В столбце «ipm» показана частотность каждого словосочетания на миллион словоупотреблений корпуса или подкорпуса, по которому осуществлялся поиск.

Значения столбцов «Доля» и «ipm» также представлены в виде гистограмм с заданными доверительными интервалами, по которым можно судить о точности расчетов и более корректно сравнивать показатели. Например, в данном случае нельзя утверждать, что словосочетание "какая разница" более частотно, чем "какая жалость", так как доверительные интервалы пересекаются:

Столбцы «Доля» и «ipm» могут быть отсортированы от больших значений к меньшим. 

В столбце «Конкорданс» приводятся ссылки на все примеры, в которых были найдены искомые словосочетания.

Настройки

Настройки позволяют выбрать доверительный интервал для расчета частотности (90%, 95% или 99%) и режим отображения в столбцах со словами (лемма, словоформа, грамматические признаки).

 

Скачивание данных о частотности

Результаты выдачи с данными о частотности можно скачать в форматах Excel или CSV в объеме до 100 строк.

При скачивании «сырых» данных выгружается более полная таблица: для каждого слова приводится все три вида отображения (лемма, словоформа, грамматические признаки). Такой формат выгрузки позволяет продвинутому пользователю самостоятельно делать более сложные группировки и подсчитывать суммарные частоты. Объем скачанной таблицы с "сырыми" данными не может превышать 1000 строк.

Скачанные таблицы не содержат ссылок на примеры.

Обновлено