Корпус
  • 2 728 688 текстов
  • 815 141 029 слов
синтаксически размечен, омонимия снята
Корпус: Газетные | Центральные СМИ
Центральные СМИ

Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации начиная с 1983 г. (газета «Аргументы и факты») до 2021 г. Значительные объёмы текстов СМИ, доступные в электронном виде и представляющие большой интерес для мониторинга языковых изменений «в режиме реального времени» (например, как появляется и становится привычным слово смартфон или расширяет употребительность предлог по), не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объёму это крупнейший подкорпус НКРЯ, превосходящий основной корпус и приближающийся к отметке 1 млрд словоупотреблений.

В корпус газетных текстов примерно в равном объёме включены тексты нескольких СМИ — как печатных газет, так и электронных агентств. Продолжается ежегодное пополнение корпуса; каждый год выпуска должен быть представлен одинаковым объёмом текстов в несколько десятков миллионов словоупотреблений.

Создание корпуса

Задача по созданию подкорпуса современных текстов средств массовой информации решается группой ИРЯ РАН под руководством С. О. Савчук; в работе участвовали также Л. А. Алексеевский, М. С. Кудинов и Б. В. Орехов. Основная часть текстов для корпуса подготовлена Б. В. Ореховым. За предоставленные тексты разработчики корпуса также приносят благодарность Д. В. Левоняну и С. В. Рубакову.

Обновлено 22.07.2024