Корпус: Социальные сети

Язык в социальных сетях отличается наибольшей динамикой и свободой от нормативных ограничений. Потребность лингвистов в таком инструменте, который, с одной стороны, будет снабжен разметкой НКРЯ, а с другой, позволит искать по большому объему текстов электронной коммуникации, ощущалась давно.

В данном случае мы понимаем «социальные сети» максимально широко, включая в это понятие и записи в блогах, и сообщения в мессенджерах. Все тексты взяты из открытых источников: VK, Telegram, Livejournal, Liveinternet, Blogspot.

Для части текстов сохранена их диалоговая природа: корпус позволяет искать отдельно по записям и по комментариям к ним. В случае поиска по комментариям можно увидеть исходный пост, начинающий тему.

Для всего массива текстов корпуса жанры размечены автоматически. Для разметки использована модель RuRoBERTa, дообученная на текстах корпуса.

Существует постоянно расширяющийся спектр возможностей для нелексического выражения эмоций в текстах социальных сетей (эмотиконы, эмодзи, эмоджи, окказионально употребленные символы). Разметка в корпусе вынужденно упрощает этот аспект электронной коммуникации: все нераспознанные символы заменены на 👻. В настоящей версии корпуса поиск по эмотиконам недоступен, но планируется в будущем.

На текущий момент корпус включает более 160 млн словоупотреблений, начиная с 2001 года, и будет расширяться за счет текстов с более глубокой разметкой.

Цели корпуса

Цель создания корпуса состоит в том, чтобы отразить живые языковые изменения за пределами литературного языка. Такие языковые явления почти не фиксируются в основном и газетном корпусе. 

Среди значимых языковых явлений — сленг:

  • бэха ‘автомобиль БМВ’
  • падик ‘подъезд’ (вхождения в основном и в газетном корпусах единичны, несмотря на больший объем этих корпусов)
  • кринж ‘~дискомфортные ощущения’
  • вайб ‘~атмосфера, ассоциации’

жаргон (например, из области видеоигр, аудитория которых социолингвистически во многом совпадает с аудиторией социальных сетей):

изменение значения сленговых слов, вытеснение одних значений другими: 

  • бумер (‘марка машины’ и ‘поколенческая характеристика’)
  • вписка (‘молодежная вечеринка’ и ‘место для ночлега’)

грамматические конструкции:

типичные ошибки:

  • болие лимение (< более или менее)
  • вообщем (контаминация в общем и вообще)
  • врятле (утрата членимости сочетания вряд ли + влияние стандартного исхода наречий на -о/-е)

эрративы, модные в середине 2000-х годов и отчасти сохранившиеся в языке и позже: 

Создание корпуса

Над корпусом работали:

  • Б. В. Орехов (общая концепция корпуса; сбор текстов, программная обработка)
  • С. О. Савчук (общая концепция корпуса)
  • Д. В. Сичинава (консультативная поддержка)
  • В. Г. Сизов (реализация поиска)
  • Е. И. Пискунова (сбор текстов VK)
  • А. Б. Хазова (сбор текстов VK, Telegram)

Обновлено 06.08.2024