Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации начиная с 1983 г. (газета «Аргументы и факты») до 2021 г. Значительные объёмы текстов СМИ, доступные в электронном виде и предоставляющие большой интерес для мониторинга языковых изменений «в режиме реального времени» (например, как появляется и становится привычным слово смартфон или расширяет употребительность предлог по), не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объёму это крупнейший подкорпус НКРЯ, превосходящий основной корпус и приближающийся к отметке 1 млрд словоупотреблений.
В корпус газетных текстов примерно в равном объёме включены тексты нескольких СМИ — как печатных газет, так и электронных агентств. Продолжается ежегодное пополнение корпуса; каждый год выпуска должен быть представлен одинаковым объёмом текстов в несколько десятков миллионов словоупотреблений.
Создание корпуса
Задача по созданию подкорпуса современных текстов средств массовой информации решается группой ИРЯ РАН под руководством С. О. Савчук; в работе участвовали также Л. А. Алексеевский, М. С. Кудинов, Б. В. Орехов и Д. В. Сичинава. За тексты, предоставленные на начальном этапе работы над корпусом, разработчики приносят благодарность Д. В. Левоняну и С. С. Рубакову (Corpus Technologies).