Портрет корпуса

Корпус

637 051 318 текстов
11 289 617 320 слов

омонимия снята

Корпус: ГИКРЯ (ВКонтакте) β

Интернет-корпус социальных медиа в составе НКРЯ

В состав Национального корпуса русского языка входит коллекция Генерального интернет-корпуса русского языка “ВКонтакте” (далее ГИКРЯ ВК). Это самый большой корпус в составе НКРЯ – более 11 млрд словоупотреблений. В его основе лежит часть другого российского корпусного проекта с долгой историей – Генерального интернет-корпуса русского языка (далее ГИКРЯ или Генеральный корпус).

Корпус ГИКРЯ ВК (бета-версия) появился в составе НКРЯ в результате встречных усилий разработчиков обоих проектов. Концепции Генерального и Национального корпусов различаются, поэтому включение ГИКРЯ ВК расширяет границы применения Национального корпуса.

Разница в концепциях двух проектов, в частности, определяет и их объем: это принципы репрезентативности и дифференциальности. Это два различных подхода к повышению надежности корпусных исследований, которые не противоречат друг другу, а взаимно друг друга дополняют. Репрезентативность (концепция Национального корпуса) – это сбалансированная жанровая представительность текстов: художественных, публицистичных, научных, бытовых и других. Дифференциальный подход – это концепция Генерального корпуса. Он делает акцент на выявление вариативности в языке и предполагает разметку большого корпуса, с точки зрения жанров существенно менее разнообразного (в случае ГИКРЯ ВК это корпус социальных сетей) при помощи системы дифференциальных метатекстовых признаков (социолингвистических и других). При наличии статистически значимых объемов текстов c разными дифференциальными параметрами становится возможным выявлять смещения в корпусной выдаче, определять особенности социолектов.

Генеральный корпус в целом включает в себя несколько сегментов социальных сетей; в состав Национального корпуса вошел корпус, созданный на основе сообщений пользователей ВКонтакте за период с 2007 по начало 2022 г. Общий объем этого корпуса в ГИКРЯ – более 15 млрд слов, в бета-версии в составе НКРЯ он несколько меньше – 11.3 млрд. Текстам приписаны, помимо даты написания, также пол, возраст и место рождения автора, а также место жительства автора (город, регион, страна). Эти данные соответствуют указанным в соответствующем профиле социальной сети пользователя. При этом тексты анонимизированы (имена или псевдонимы авторов сообщений в корпус не включены). В корпусе снята морфологическая омонимия с использованием SOTA-технологий (2022 год) и с использованием словаря для улучшения лемматизации.

Особенностью социальных сетей, и ВКонтакте в особенности, является значительная доля «неавторских» сообщений и фейковых данных в профилях. Эта проблема становится все более значимой по мере роста доли сообщений, полученных полностью или частично за счет автогенерации. Разработчики ГИКРЯ приложили значительные усилия по фильтрации таких сообщений, однако, в случае, когда текст является неавторским частично, выявление этого свойства существенно осложняется. Это означает, что исследователю, использующему большой интернет-корпус, не следует слепо полагаться на полученные количественные данные: всегда полезен дополнительный анализ результатов поиска. Исследования показывают, что около 10% выдачи может быть нерелевантной по той или иной причине: этот уровень доверия следует иметь в виду.

Генеральный корпус представляет собой ценный инструмент для изучения диахронической, социолингвистической и географической вариативности русского языка XXI века. Тексты, включенные в корпус, представляют разные территории, где живут пишущие на русском языке – не только страны, где русский язык имеет значительное распространение как родной или второй язык, но и практически весь мир. Соответствующая разметка дифференцирована с точностью до региона (административной единицы первого уровня). Таким образом, доступна статистическая информация о географическом распределении лексических и грамматических регионализмов и диалектизмов. Публикации социальных сетей имеют датировку с точностью до месяца и позволяют проследить эволюцию языка на огромном материале и на микродиахронических интервалах, проследить появление и дальнейшую биографию новых заимствований, собственно русских неологизмов, словообразовательных моделей, продуктивных субнормативных конструкций, сетевых мемов.

Соответственно в корпусе доступны инструменты выдачи “График” и “Статистика”, демонстрирующие диахроническое, возрастное, гендерное (60% текстов, для которых указан пол автора, написано женщинами) и географическое распределение языковых явлений. Нужно учитывать, что не все региональные подкорпуса достаточно объемны и показательны (а часть “экзотических” локаций может носить и игровой характер), поэтому, например, высокий показатель IPM у тех или иных административных единиц Южной Америки менее информативен, чем для областей восточнославянских стран.

Создание Генерального корпуса

Проект ГИКРЯ разрабатывался при многолетнем участии студентов кафедр компьютерной лингвистики РГГУ и МФТИ.

Авторы идеи и научные руководители:

Владимир Беликов
Владимир Селегей
Сергей Шаров

Программисты:

Николай Копылов (вед. программист)
Илья Раскин (фильтрация)
Мария Пономарева (разметка)
Юрий Куратов (статистика)
Сергей Гладилин (адаптация к архитектуре НКРЯ)
Антон Казенников (поисковая система НКРЯ)
Дмитрий Морозов (интеграция в НКРЯ)
Павел Дяченко (интеграция в НКРЯ)

Менеджеры проекта (в разные годы):

Татьяна Шаврина
Александра Ивойлова
Даниил Селегей
Анастасия Козеренко

Публикации

Ознакомьтесь со списком научных публикаций о Генеральном корпусе по ссылке: https://ruscorpora.ru/corpus/gicr/publications. Чтобы найти другие типы публикаций о корпусе, используйте фильтры в разделе «‎Публикации»‎.

Обновлено 30.06.2026