В состав Национального корпуса русского языка входит коллекция Генерального интернет-корпуса русского языка “ВКонтакте” (далее ГИКРЯ ВК). Это самый большой корпус в составе НКРЯ – более 11 млрд словоупотреблений. В его основе лежит часть другого российского корпусного проекта с долгой историей – Генерального интернет-корпуса русского языка (далее ГИКРЯ или Генеральный корпус).
Корпус ГИКРЯ ВК (бета-версия) появился в составе НКРЯ в результате встречных усилий разработчиков обоих проектов. Концепции Генерального и Национального корпусов различаются, поэтому включение ГИКРЯ ВК расширяет границы применения Национального корпуса.
Разница в концепциях двух проектов, в частности, определяет и их объем: это принципы репрезентативности и дифференциальности. Это два различных подхода к повышению надежности корпусных исследований, которые не противоречат друг другу, а взаимно друг друга дополняют. Репрезентативность (концепция Национального корпуса) – это сбалансированная жанровая представительность текстов: художественных, публицистичных, научных, бытовых и других. Дифференциальный подход – это концепция Генерального корпуса. Он делает акцент на выявление вариативности в языке и предполагает разметку большого корпуса, с точки зрения жанров существенно менее разнообразного (в случае ГИКРЯ ВК это корпус социальных сетей) при помощи системы дифференциальных метатекстовых признаков (социолингвистических и других). При наличии статистически значимых объемов текстов c разными дифференциальными параметрами становится возможным выявлять смещения в корпусной выдаче, определять особенности социолектов.
Генеральный корпус в целом включает в себя несколько сегментов социальных сетей; в состав Национального корпуса вошел корпус, созданный на основе сообщений пользователей ВКонтакте за период с 2007 по начало 2022 г. Общий объем этого корпуса в ГИКРЯ – более 15 млрд слов, в бета-версии в составе НКРЯ он несколько меньше – 11.3 млрд. Текстам приписаны, помимо даты написания, также пол, возраст и место рождения автора, а также место жительства автора (город, регион, страна). Эти данные соответствуют указанным в соответствующем профиле социальной сети пользователя. При этом тексты анонимизированы (имена или псевдонимы авторов сообщений в корпус не включены). В корпусе снята морфологическая омонимия с использованием SOTA-технологий (2022 год) и с использованием словаря для улучшения лемматизации.
Особенностью социальных сетей, и ВКонтакте в особенности, является значительная доля «неавторских» сообщений и фейковых данных в профилях. Эта проблема становится все более значимой по мере роста доли сообщений, полученных полностью или частично за счет автогенерации. Разработчики ГИКРЯ приложили значительные усилия по фильтрации таких сообщений, однако, в случае, когда текст является неавторским частично, выявление этого свойства существенно осложняется. Это означает, что исследователю, использующему большой интернет-корпус, не следует слепо полагаться на полученные количественные данные: всегда полезен дополнительный анализ результатов поиска. Исследования показывают, что около 10% выдачи может быть нерелевантной по той или иной причине: этот уровень доверия следует иметь в виду.
Генеральный корпус представляет собой ценный инструмент для изучения диахронической, социолингвистической и географической вариативности русского языка XXI века. Тексты, включенные в корпус, представляют разные территории, где живут пишущие на русском языке – не только страны, где русский язык имеет значительное распространение как родной или второй язык, но и практически весь мир. Соответствующая разметка дифференцирована с точностью до региона (административной единицы первого уровня). Таким образом, доступна статистическая информация о географическом распределении лексических и грамматических регионализмов и диалектизмов. Публикации социальных сетей имеют датировку с точностью до месяца и позволяют проследить эволюцию языка на огромном материале и на микродиахронических интервалах, проследить появление и дальнейшую биографию новых заимствований, собственно русских неологизмов, словообразовательных моделей, продуктивных субнормативных конструкций, сетевых мемов.
Соответственно в корпусе доступны инструменты выдачи “График” и “Статистика”, демонстрирующие диахроническое, возрастное, гендерное (60% текстов, для которых указан пол автора, написано женщинами) и географическое распределение языковых явлений. Нужно учитывать, что не все региональные подкорпуса достаточно объемны и показательны (а часть “экзотических” локаций может носить и игровой характер), поэтому, например, высокий показатель IPM у тех или иных административных единиц Южной Америки менее информативен, чем для областей восточнославянских стран.