Частотные словари

Частотный словарь предоставляет информацию о том, какие слова чаще всего встречаются в корпусе или в подкорпусе, который выбрал пользователь.

Получить доступ к частотному словарю можно через портрет корпуса (или подкорпуса), нажав на кнопку (i) в шапке корпуса или подкорпуса.

Частотный словарь корпуса

Частотный словарь представляет собой таблицу из 500 самых частотных лемм корпуса.  

Таблица состоит из четырех колонок: ранг леммы по частоте вхождения от 1 до 500, собственно лемма и сведения о ее частотности - относительная (ipm) и абсолютная. 

В каждой из колонок данные можно упорядочивать по возрастанию или по убыванию.

Частотный словарь подкорпуса

Частотный словарь подкорпуса дает возможность сравнить состав отобранного пользователем подкорпуса и исходного корпуса. Поэтому таблица совмещает в себе два списка - частотный список подкорпуса и частотный список корпуса. 

Эти два списка связаны через ранги лемм частотного словаря подкорпуса. 

В колонке рангов подкорпуса содержится информация не только о том, какова позиция леммы в этом частотном списке, но и том, как она изменилась относительно исходного корпуса: повысилась или понизилась. Таким образом, для каждой из 500 частотных лемм подкорпуса можно посмотреть, насколько они часто встречаются в исходном корпусе, а также сравнить сведения об их относительной и абсолютной частотности в корпусе и подкорпусе. Если лемма из списка подкорпуса оказывается малочастотной в исходном корпусе, то ее ранг там определяется как "> 500".

Такой инструмент сравнения позволяет пользователю получить информацию о лексической специфике документов отобранного подкорпуса по сравнению со сбалансированным исходным корпусом. 

Скачивание в файл

Кнопка Скачать в меню видов выдачи позволяет скачать частотные словари в одном из двух форматов - Excel или CSV.

Объем скачанного в файл не может быть более 500 лемм.

В настоящий момент Частотные словари доступны в корпусе Региональных СМИ. В дальнейшем список таких корпусов будет расширяться.

Обновлено