Газетный корпус
Корпус современных СМИ

 

Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации начиная с 1983 г. (газета «Аргументы и факты») до 2021 г. Значительные объёмы текстов СМИ, доступные в электронном виде и предоставляющие большой интерес для мониторинга языковых изменений «в режиме реального времени» (например, как появляется и становится привычным слово смартфон или расширяет употребительность предлог по), не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объёму это крупнейший подкорпус НКРЯ, превосходящий основной корпус и приближающийся к отметке 1 млрд словоупотреблений.

В корпус газетных текстов примерно в равном объёме включены тексты нескольких СМИ — как печатных газет, так и электронных агентств. Продолжается ежегодное пополнение корпуса; каждый год выпуска должен быть представлен одинаковым объёмом текстов в несколько десятков миллионов словоупотреблений.

Создание корпуса

Задача по созданию подкорпуса современных текстов средств массовой информации решается группой ИРЯ РАН под руководством С. О. Савчук; в работе участвовали также Л. А. Алексеевский, М. С. Кудинов, Б. В. Орехов и Д. В. Сичинава. За тексты, предоставленные на начальном этапе работы над корпусом, разработчики приносят благодарность Д. В. Левоняну и С. С. Рубакову (Corpus Technologies).

 

Корпус региональной и зарубежной прессы

Корпус региональной и зарубежной прессы открыт для общего доступа в 2015 г. В нем представлены газеты нескольких уровней – региональные выпуски центральных газет, газеты регионального уровня и местные издания – районные и городские. Временные рамки текстов 1996—2020 годы. География печатных изданий широка и охватывает все федеральные округа России, а также страны СНГ (Беларусь, Молдова, Кыргызстан) и Балтии.

В текущей версии регионального газетного корпуса выделяются четыре относительно самостоятельные коллекции: тексты русскоязычных газет Брестской и Гродненской областей Республики Беларусь на русском и белорусском языке («Лингвистический иллюстративный корпус СМИ Гродненщины»), две коллекции региональных газет России с дистанцией в 20 лет — газеты 1990—2000-х годов и СМИ 2010-х годов и коллекция региональных выпусков «Комсомольской правды». С ними можно работать как с единым массивом, так и с каждой коллекцией в отдельности. Эти и многие другие возможности обеспечиваются поиском по корпусу.

Подробнее см.

Савчук С. О. Корпус региональных газет России и зарубежья // Труды Института русского языка им. В.В. Виноградова. Вып. 6. М., 2015. C. 163—193.

Савчук С. О. Лексико-семантические особенности текстов региональных СМИ по данным корпусного обследования // Труды международной конференции «Корпусная лингвистика — 2015». СПб, 2015. С. 398—407.

Кустова Г. И., Савчук С. О. Изучение лексико-семантической и социокультурной специфики русской речи на территории Республики Беларусь (на материале текстов СМИ) // Труды Международной конференции «Корпусная лингвистика — 2013». Санкт-Петербург, 2013. С. 344—352.

Создание корпуса

Подкорпус российских региональных газет подготовлен при поддержке РГНФ (грант 13-24-01004). В корпус региональной и зарубежной прессы включен иллюстративный лингвистический корпус СМИ Гродненщины, подготовленный в рамках проекта БРФФИ Г13Р-050 преподавателями кафедры общего и славянского языкознания Гродненского государственного университета имени Янки Купалы, научный руководитель проекта — заведующий кафедрой Л. В. Рычкова; в проекте участвовали А. Ю. Станкевич, И. А. Чепикова, Е. Н. Мохань. Ссылки на публикации представлены в разделе «Публикации» и на http://studiorum.ruscorpora.ru/

Дальнейшее развитие корпуса осуществлялось группой ИРЯ РАН во главе с С. О. Савчук при поддержке гранта РФФИ № 17-29-09154 (руководитель проекта Г. И. Кустова). В работе над проектом участвовали И. В. Макарчук, Е. Н. Морозова, И. Г. Мухин, Б. В. Орехов, Е. А. Слепак.

Обновлено