Мультимедийный корпус (МУРКО)

Мультимедийный русский корпус (МУРКО) предназначен для изучения устных текстов разных жанров. Разработка и размещение в открытом доступе пилотной версии корпуса (которая первоначально представляла собой корпус кино) относится к 2009—2010 гг., в дальнейшем осуществлялось пополнение корпуса и включение в него образцов звучащей речи, функционирующей в различных речевых сферах. В настоящее время объем корпуса приближается к 5 млн словоупотреблений. В состав МУРКО входят следующие разделы (подкорпусы)


1. Речь кино включает советские и российские кинофильмы 1930—2000-х годов. 
2. Устная публичная речь представлена текстами, относящимися к устной научной речи (доклады и дискуссии на конференциях, учебные и популярные лекции, теле- и радиопередачи), устной политической речи (интервью, пресс-конференции, выступления на митингах, собраниях и съездах, ток-шоу на радио и ТВ), публицистике (интервью и беседы на разные темы, документальное кино и др.), рекламе (рекламные ролики). 
3. Устная непубличная речь включает тексты повседневного бытового общения – диалоги и микродиалоги, разговоры в дружеском и семейном кругу, телефонные разговоры и мн. др. 
4. Театральная речь представлена аудио- и видеозаписями театральных постановок на сцене и на радио.
5. Авторское и художественное чтение — эти два раздела представляют озвученную письменную речь (written-to-be-spoken), которая интересна в плане изучения фонетических особенностей звучащего текста, орфоэпии и акцентологии, интерпретации текста. В разделе собраны записи прозаических текстов в авторском исполнении и в исполнении мастеров художественного слова.

Звучащий текст в Мультимедийном корпусе представлен в виде аудио- и видеофайла, разрезанного на небольшие фрагменты (клипы) длительностью 10—30 сек., каждому из которых поставлен в соответствие фрагмент текстовой расшифровки. Пара клип + текст (или кликст, по терминологии Е. А. Гришиной) представляет, как правило, относительно законченный в смысловом отношении коммуникативный фрагмент.

Каждый текстовый фрагмент размечен в соответствии со стандартами МУРКО и содержит метатекстовую, морфологическую, семантическую, акцентологическую и социологическую аннотацию, по которым возможен онлайновый поиск на сайте. Кроме того, в форме поиска предусмотрена возможность запроса орфоэпической структуры слова и поиска по вокалической структуре слова.

В составе МУРКО выделяется глубоко аннотированная часть, в которой размечены типы речевых действий и жестикуляция (разметка выполнена Е. А. Гришиной). В настоящий момент эта часть включает 6 фильмов. С помощью разметки речевых действий можно целенаправленно отбирать выказывания определенной семантики (вопросы, императивы, модальные высказывания, этикетные высказывания и мн. др.), типы речевого подчеркивания (парцелляция, скандирование и др.), типы междометий и вокальных жестов, типы повторов. Разметка жестов позволяет отобрать жесты по их субъективным (типу и значению) и объективным характеристикам (активному и пассивному органу, ориентации в пространстве, направлению движения и проч.). Выбрав соответствующие характеристики, пользователь получает клипы, в которых встречаются речевые действия и жесты заданного типа.

Подробнее см.:

Гришина Е. А. Национальный корпус русского языка как источник сведений об устной речи // Речевые технологии. 2008. № 3. С. 50—62. 
Гришина Е. А. Мультимедийный русский корпус (МУРКО): пробле­мы аннотации // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб., 2009. С. 150—174. 
Гришина Е. А. Мультимедийный русский корпус (МУРКО): современное состояние и перспективы развития // Труды международной кон­ференции «Корпусная лингвистика — 2011». СПб., 2011. С. 138—144. 
Гришина Е. А. Мультимодальный модуль в составе Национального корпуса русского языка // Труды Института русского языка им. В. В. Виноградова. 2015. № 6 (6). С. 65—88. 
Гришина Е. А., Кудинов М. С. Инструменты полуавтоматической разметки для Мультимедийного русского корпуса (МУРКО) // Компьютерная лингвистика и интеллектуальные технологии (по материалам ежегодной Международной конференции «Диалог 2009»). М., 2009. С. 248—261. 
Гришина Е. А., Савчук С. О. Корпус звучащей русской речи в составе Национального корпуса русского языка // Компьютерная лингвистика и интеллектуальные технологии (по материалам ежегодной Международной конференции «Диалог 2008»). М., 2008. С. 125—132. 
Савчук С. О., Махова А. А. Мультимедийный модуль в составе НКРЯ: направления развития // Анализ разговорной русской речи (АР3 - 2017) Труды седьмого междисциплинарного семинара. 2017. С. 83—89.
Svetlana Savchuk & Alexandra Makhova (2021) Multimodal Russian Corpus and its use in emotional studies // Russian Journal of Communication, 13:1, 42-61, DOI: 10.1080/19409419.2021.1887991

Создание корпуса

Задача по созданию мультимедийного корпуса решалась группой под руководством Е. А. Гришиной (1958—2016) при поддержке грантов РФФИ № 10-0600151-а и № 15-06-04334а (руководитель проектов С. О. Савчук), №11-06-00030а (руководитель проекта Е. А. Гришина), программы ОИФН «Генезис и взаимодействие социальных, культурных и языковых общностей», программы Президиума РАН «Корпусная лингвистика» (2012—2014), программы ОИФН РАН «Язык и информационные технологии» (2015—2017), программы фундаментальных научных исследований Президиума РАН «Памятники материальной и духовной культуры в современной информационной среде» (2018—2020). Принципы отбора материала, система аннотации, организация базы данных корпуса разработаны Е. А. Гришиной при участии С. О. Савчук. Наиболее значительный объем работ по разметке текстов и видеоматериалов был выполнен Е. А. Гришиной, Е. Голосовой, С. Б. Иванютиным, А. А. Курсаковой, А. А. Маховой, Д. Рощупкиным, А. М. Соседовой. В создании и усовершенствовании программного обеспечения мультимедийного корпуса в целом (системы поиска, различных видов разметки и др.) на различных этапах работы принимали участие А. А. Аброскин, Л. Д. Алексеевский, С. В. Давыдов, А. И. Зобнин, М. С. Кудинов, И. В. Шалыминов. Координация работ и редактирование разметки мультимедийного корпуса осуществлялась Е. А. Гришиной и С. О. Савчук (с 2016 г.).

Дополнительные материалы

Терминологический указатель

Обновлено