Корпус
  • 110 265 текстов
  • 35 489 528 слов
омонимия снята, синтаксически размечен
Корпус: Газетные | Региональные СМИ
Региональные СМИ

Корпус региональной и зарубежной прессы открыт для общего доступа в 2015 г. В нем представлены газеты нескольких уровней – региональные выпуски центральных газет, газеты регионального уровня и местные издания – районные и городские. Временные рамки текстов 1996—2020 годы. География печатных изданий широка и охватывает все федеральные округа России, а также страны СНГ (Беларусь, Молдова, Кыргызстан) и Балтии.

В текущей версии регионального газетного корпуса выделяются четыре относительно самостоятельные коллекции: тексты русскоязычных газет Брестской и Гродненской областей Республики Беларусь («Лингвистический иллюстративный корпус СМИ Гродненщины»), две коллекции региональных газет России с дистанцией в 20 лет — газеты 1990—2000-х годов и СМИ 2010-х годов и коллекция региональных выпусков «Комсомольской правды». С ними можно работать как с единым массивом, так и с каждой коллекцией в отдельности. Эти и многие другие возможности обеспечиваются поиском по корпусу.

С 2022 года в региональном корпусе в тестовом режиме доступен ряд параметров. Аналогичная разметка будет распространена на все тексты НКРЯ с неснятой омонимией, написанные на современном русском языке.

Во-первых, это поиск не только с неснятой лексико-грамматической омонимией, но и с автоматически снятой омонимией. Во всем корпусе региональной и зарубежной прессы приписаны наиболее вероятные леммы и грамматические признаки. Разметка выполнена при помощи нейросетевой модели, обучавшейся на 6-миллионном корпусе со снятой вручную омонимией. Возможны ошибки в выборе грамматических помет, а также в выборе (и облике) лемм.

Во-вторых, в региональном корпусе размечены синтаксические группы, например, типы клауз (предикативных групп), группы подлежащего и сказуемого и другие параметры. Разметка также проводилась путем обучения нейросети.

С октября 2023 года ключевые слова в текстах корпуса размечены автоматически с помощью НейроКРЯ, в основе которой лежит доработанная модель rutermextract. Одно ключевое слово может состоять из одного существительного в именительном падеже в единственном или множественном числе (праздник, переломы) либо из двусловного сочетания с главным словом-существительным (таяние снега, обычные дни, Иван Петров). В запросе пробел интерпретируется как пробел внутри словосочетания; ключевые слова разделяются запятой (логическое "и") или вертикальной линией (логическое "или"). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (католическая община).

Публикации

Ознакомиться со списком научных публикаций о корпусе региональных СМИ можно по ссылке: https://ruscorpora.ru/s/eZyo8. Чтобы найти другие типы публикаций о корпусе, используйте фильтры в разделе «‎Публикации»‎.

Создание корпуса

Подкорпус российских региональных газет подготовлен при поддержке РГНФ (грант 13-24-01004). В корпус региональной и зарубежной прессы включен иллюстративный лингвистический корпус СМИ Гродненщины, подготовленный в рамках проекта БРФФИ Г13Р-050 преподавателями кафедры общего и славянского языкознания Гродненского государственного университета имени Янки Купалы, научный руководитель проекта — заведующий кафедрой Л. В. Рычкова; в проекте участвовали А. Ю. Станкевич, И. А. Чепикова, Е. Н. Мохань. Ссылки на публикации представлены в разделе «Публикации» и на http://studiorum.ruscorpora.ru/

Дальнейшее развитие корпуса осуществлялось группой ИРЯ РАН во главе с С. О. Савчук при поддержке гранта РФФИ № 17-29-09154 (руководитель проекта Г. И. Кустова). В работе над проектом участвовали И. В. Макарчук, Е. Н. Морозова, И. Г. Мухин, Б. В. Орехов, Е. А. Слепак.

Обновлено 22.07.2024