Виды выдачи: частотность

Вид выдачи «Частотность» отражает частотное распределение результатов поиска. В таблице частотности можно увидеть, какие словоформы, леммы или наборы грамматических признаков чаще всего соответствуют заданным условиям запроса в результатах поиска.

Такая выдача может быть особенно информативной, если запрос содержит в себе лексико-грамматические условия на несколько слов с заданными расстояниями между ними. Например, можно найти сочетания прилагательного и существительного, которые находятся на расстоянии от -1 до 1 друг от друга, то есть располагаются в любом порядке. Распределение 1000 самых часто встречающихся сочетаний будет показано в таблице. 

В настоящий момент вид выдачи Частотность доступен в Основном, Обучающем, Газетных и некоторых других корпусах. В дальнейшем список таких корпусов будет расширяться.

Как пользоваться таблицей

Таблица содержит четыре типа столбцов: столбцы со словами, столбцы с расстояниями, столбцы с данными о частотности и столбец со ссылками на примеры. 

Каждый столбец со словом соответствует одному слову из запроса и имеет четыре режима отображения: «Лемма», «Словоформа», «Грамматические признаки» и «Части речи». По умолчанию во всех столбцах включен режим «Лемма», при этом режим отображения каждого слова можно выбирать независимо. Такая гибкость настройки столбцов со словами удобна для обобщения или дифференциации частей словосочетаний: например, при исследовании глагольного управления в столбце с глаголами удобнее включить режим отображения «Лемма», а в столбце с зависимыми существительными - режим «Словоформа». При изменении режима отображения в столбцах со словами соответственно пересчитываются и данные о частотности.

Столбцы с расстояниями между соседними словами запроса дают возможность упорядочивать список по расстоянию и получать наиболее частотные результаты с минимальным или максимальным заданным расстоянием.

В столбцах со словами и с расстояниями есть возможность отключить группировку и получить частотность сочетания слов с любым расстоянием между ними (в пределах расстояния, заданного в исходном запросе) или для части слов выставить группировку по лемме/словоформе/грамм признакам, а остальные слова смотреть без группировки. Например, по запросу "еда и напитки" + с + "еда и напитки" можно получить такие частотные сочетания разных блюд, которые едят с чем-то еще съедобным. Отключив группировку для первого слова, мы поймем, что чаще всего добавляют в любые блюда.

С помощью переключателей Группировка расстояний и Группировка слов, расположенных над таблицей, можно выставить режим отображения одновременно для всех столбцов в таблице.

В столбцах «Доля» и «ipm» содержится информация о том, насколько частотно полученное словосочетание в выбранном корпусе или подкорпусе. В столбце «Доля» показана процентная доля словосочетания среди всех, подходящих под поисковый запрос. В столбце «ipm» показана частотность каждого словосочетания на миллион словоупотреблений корпуса или подкорпуса, по которому осуществлялся поиск. Для запросов, для которых найдено больше одного миллиона вхождений, группировка ведётся по случайному миллиону вхождений.

В столбце Вхождения приведено количество примеров, в которых встречается словосочетание. При наведении мыши можно увидеть доверительный интервал, в котором находится рассчитанное значение.

Значения в столбце «Доля» также представлены в виде гистограмм с заданным доверительным интервалом, по которым можно судить о точности расчетов и более корректно сравнивать показатели. Например, в данном случае нельзя утверждать, что словосочетание "какая разница" более частотно, чем "какая жалость", так как доверительные интервалы пересекаются:

Столбцы «Вхождения», «Доля» и «ipm» могут быть отсортированы от больших значений к меньшим. 

В столбце «Конкорданс» приводятся ссылки на все примеры, в которых были найдены искомые словосочетания. 

Принципы работы вида выдачи «‎Частотность»‎ наглядно продемонстрированы в видеоинструкции

Настройки

Настройки в режиме Частотность позволяют выбрать доверительную вероятность 90%, 95% или 99%, характеризующую точность расчетов.

Исследователям необходимо учитывать, что для больших корпусов значения количества вхождений, долей и IPM, приведенные в таблице, рассчитаны приблизительно. В дополнение к каждому значению мы приводим доверительный интервал. Выбирая доверительную вероятность, исследователи могут быть на 90%, 95% или 99% уверены, что отображаемые значения находятся в пределах доверительного интервала.

 

Скачивание данных о частотности

Результаты выдачи с данными о частотности можно скачать в форматах Excel или CSV в объеме до 5000 строк.

При скачивании «сырых» данных выгружается более полная таблица: для каждого слова приводится все три вида отображения (лемма, словоформа, грамматические признаки). Такой формат выгрузки позволяет продвинутому пользователю самостоятельно делать более сложные группировки и подсчитывать суммарные частоты. Объем скачанной таблицы с "сырыми" данными не может превышать 5000 строк.

Скачанные таблицы не содержат ссылок на примеры.

Обновлено 02.09.2024