Статистика в портрете подкорпуса

В разделе Статистика подкорпуса представлены таблицы, графики и диаграммы, которые позволяют сравнить пользовательский подкорпус с целым корпусом на данный момент и во времени:

  1. Таблица и график с объемом корпуса и подкорпуса в текстах и словах.
  2. Географические карты и диаграммы распределения объема в подкорпусе и корпусе по странам и регионам (только для корпусов с региональной разметкой).
  3. Диаграммы распределения значений метаатрибутов в подкорпусе и корпусе.

Получить доступ к сравнению статистики подкорпуса и корпуса можно через портрет корпуса, нажав на кнопку (i) в шапке подкорпуса.

В настоящий момент статистика подкорпуса в сравнении с текущим состоянием корпуса доступна в Основном, Обучающем, Газетных корпусах, некоторых исторических корпусах, а также корпусах «‎Русская классика»‎ и «‎От 2 до 15».

Диахроническая статистика текстов подкорпуса в сравнении с корпусом доступна только в Основном и Региональном корпусах.

Для всех диаграмм и графиков в разделе Статистика предусмотрена стандартная всплывающая подсказка (?), в которой объясняется, как интерпретировать визуализацию, а также возможность скачать исходные данные, использованные для построения визуализации, и/или скриншот.

Текущее состояние

Объемы корпуса и подкорпуса

Данные об объемах корпуса и подкорпуса представлены в количестве текстов и слов.

 

Географические карты

Для сравнения показаны две географические карты, на которых можно увидеть региональное распределение объемов подкорпуса и корпуса в выбранной единице измерения (тексты или слова). При переключении единицы измерения карты перерисовываются. 

Об объеме корпуса в том или ином регионе можно судить по цветовой шкале. Для удобства сравнения на обеих картах один и тот же цвет соответствует одинаковому объему. При наведении мыши на закрашенную область можно увидеть название региона и соответствующее ему количество текстов или слов в корпусе.

Нажав на Скачать, пользователь может выгрузить Excel/CSV с исходными данными, использованными для построения карт. 

 

Распределение текстов

Для сравнения текстов подкорпуса и корпуса показаны две диаграммы. Пользователь может выбрать метаатрибут, для которого нужно построить диаграммы, из списка наиболее показательных атрибутов корпуса, а также единицу измерения объема – тексты или слова. При переключении метаатрибута и/или единицы измерения диаграммы перерисовываются.

Для удобства сравнения рассчитано распределение топ-10 значений выбранного метаатрибута в подкорпусе и соответствующие им значения в корпусе. Остальные значения объединены в категорию прочее.

На разностной диаграмме показаны отличия подкорпуса и корпуса. В правой части зеленым цветом – на сколько больше доля значения метаатрибута в подкорпусе. В левой части красным цветом – перевес в пользу корпуса.

На столбчатой диаграмме доли каждого значения метаатрибута в объеме подкорпуса и корпуса приведены рядом. При наведении мыши на столбик диаграммы можно увидеть название значения и соответствующие ему долю и количество текстов или слов в подкорпусе и корпусе.

Нажав на Скачать, пользователь может выгрузить Excel/CSV с исходными данными, использованными для построения диаграмм, а также скачать диаграммы как картинки

Распределение по времени

В разделение Распределение по времени пользователь может выбрать уровень детализации, задать диапазон дат и сглаживание. Указанные параметры являются общими для всех графиков на странице.

Распределение объема подкорпуса во времени

На графике пользователь может сравнить распределение объема текстов подкорпуса в сравнении с корпусом во времени. При наведении мыши на график можно увидеть количество слов или текстов в подкорпусе и корпусе с учетом и без учета сглаживания.

Под графиком показаны тепловые шкалы, демонстрирующие количество текстов корпуса и подкорпуса.

С помощью «окон» отображения дат и частот на графиках пользователь может приближать или отдалять определенные участки графика, а также перемещаться по значениям на осях.

 

Распределение текстов

Для сравнения текстов подкорпуса и корпуса показаны две диаграммы. Пользователь может выбрать метаатрибут, для которого нужно построить диаграммы, из списка наиболее показательных атрибутов корпуса, а также единицу измерения объема - тексты или слова. При переключении метаатрибута и/или единицы измерения диаграммы перерисовываются.

Для удобства сравнения рассчитано распределение топ-10 значений выбранного метаатрибута в подкорпусе и соответствующие им значения в корпусе. Остальные значения объединены в категорию прочее.

При наведении мыши на закрашенную область диаграммы можно увидеть название значения и соответствующие ему долю и количество текстов или слов в подкорпусе и корпусе. С помощью «‎окна»‎ отображения дат, общего для двух диаграмм, можно дополнительно настраивать временной период для более детального изучения.

 

Регионы

График показывает распределение объема корпуса и подкорпуса в выбранной единице измерения (тексты или слова) по регионам и странам. При переключении метаатрибута и/или единицы измерения график перерисовывается.

Для удобства сравнения рассчитано распределение топ-10 значений выбранного метаатрибута в подкорпусе и корпусе. Остальные значения объединены в категорию прочее.

При наведении мыши на закрашенную область можно увидеть название региона/страны и соответствующее количество и долю текстов или слов в корпусе и подкорпусе. С помощью «‎окна»‎ отображения дат, общего для двух диаграмм, можно дополнительно настраивать временной период для более детального изучения.

Обновлено