Язык в социальных сетях отличается наибольшей динамикой и свободой от нормативных ограничений. Потребность лингвистов в таком инструменте, который, с одной стороны, будет снабжен разметкой НКРЯ, а с другой, позволит искать по большому объему текстов электронной коммуникации, ощущалась давно.
В данном случае мы понимаем «социальные сети» максимально широко, включая в это понятие и записи в блогах, и сообщения в мессенджерах. Все тексты взяты из открытых источников: VK, Telegram, Livejournal, Liveinternet, Blogspot.
Для части текстов сохранена их диалоговая природа: корпус позволяет искать отдельно по записям и по комментариям к ним. В случае поиска по комментариям можно увидеть исходный пост, начинающий тему.
Для всего массива текстов корпуса жанры размечены автоматически. Для разметки использована модель RuRoBERTa, дообученная на текстах корпуса.
Существует постоянно расширяющийся спектр возможностей для нелексического выражения эмоций в текстах социальных сетей (эмотиконы, эмодзи, эмоджи, окказионально употребленные символы). Разметка в корпусе вынужденно упрощает этот аспект электронной коммуникации: все нераспознанные символы заменены на 👻. В настоящей версии корпуса поиск по эмотиконам недоступен, но планируется в будущем.
На текущий момент корпус включает более 160 млн словоупотреблений, начиная с 2001 года, и будет расширяться за счет текстов с более глубокой разметкой.