Корпус устной речи

Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки магнитофонных записей публичной и бытовой повседневной устной речи, а также транскрипты кинофильмов, театральных спектаклей и записей чтения художественной прозы в исполнении авторов и профессиональных чтецов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Материал представлен в виде транскриптов, соответствующий звучащий текст недоступен. Ценность этого корпуса для исследователей устной речи заключается прежде всего в его большом объеме (13,4 млн), большом временном диапазоне, отраженном в записях (1900—2020-е гг.), функциональном разнообразии текстов, региональном многообразии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.).

В корпусе используется стандартная для НКРЯ морфологическая, семантическая разметка, метатекстовая разметка, включающая регион записи текста, а также специфическая для устного корпуса социологическая аннотация. Каждой реплике приписаны сведения о говорящем (если они известны): пол, возраст или год рождения, род занятий. Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Пользователь может отобрать для изучения свой подкорпус более или менее однородных текстов по интересующим его признакам. Например, подкорпус устных научных текстов, спортивных комментариев или бытовых микродиалогов, подкорпус разговоров, записанных в Москве или других регионах России, подкорпус реплик только мужских или женских, представителей разных возрастных групп и пр.

 

 

Подробнее см.:

Гришина Е. А. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 94—110.

Гришина Е. А., Савчук С. О. Корпус устных текстов в НКРЯ: состав и структура // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 129—149.

Создание корпуса

Задача по созданию подкорпуса записей устной речи решалась группой ИРЯ РАН под руководством Е. А. Гришиной при поддержке грантов РГНФ № 03-04-00226а (руководитель проекта Л. А. Вербицкая) и РФФИ № 06-06-80133а (руководитель проекта В. А. Плунгян), проекта Федерального агентства образования «Разработка и апробация информационного ресурса “Корпус живой русской речи”» (руководитель А. М. Молдован), программы Президиума РАН «Корпусная лингвистика». Разработчики корпуса приносят благодарность М. В. Китайгородской, М. Л. Каленчук, Н. Н. Розановой, Д. М. Савинову, Е. С. Скачедубовой, Е. В. Щигель, О. В. Антоновой, Е. В. Корпечковой (ИРЯ РАН), А. С. Герду и М. В. Русаковой (СПбГУ), О. Б. Сиротининой (Саратовский государственный университет), Исследовательскому коллективу филологического факультета СПбГУ под руководством А. С. Асиновского (А. С. Асиновский, Н. В. Богданова, С. Б. Степанова, Т. Ю. Шерстинова, И. В. Королева и др.; Мультимедийный корпус русского языка повседневного общения «Один речевой день»), Ю. А. Гунько, Т. И. Петровой, А. Е. Цесарской, О. В. Лыс (Дальневосточный федеральный университет, Владивосток), Д. Б. Спорову, В. А. Иванову (отдел устной истории Научной библиотеки МГУ, Фонд «Устная история»), предоставившим для Корпуса материалы записей устной речи.

Обновлено