Частоты словоформ и словосочетаний

Вы можете скачать архивы с текстовыми файлами, содержащими частоты словоформ и словосочетаний в основном корпусе.
При подсчёте учитывался регистр букв, а также знаки препинания.

Общий объём корпуса:

  • в ноябре 2011 – 192 689 044 словоформы.
  • в октябре 2023 – 374 449 975 словоформ.

 

  По данным на ноябрь 2011 По данным на октябрь 2023
Словоформы zip-архив (5,5 Мб, обрезаны по частоте 3) топ-100 zip-архив (8,9 Мб, обрезаны по частоте 3)
2-граммы zip-архив (39 Мб, обрезаны по частоте 3) топ-100 zip-архив (71,5 Мб, обрезаны по частоте 3)
3-граммы zip-архив (31 Мб, обрезаны по частоте 3) топ-100  
4-граммы zip-архив (44 Мб, обрезаны по частоте 2) топ-100  
5-граммы zip-архив (28 Мб, обрезаны по частоте 2) топ-100  
6-граммы   топ  

Обновлено 23.07.2024