Мультимедийный русский корпус (МУРКО) предназначен для изучения устных текстов разных жанров. Разработка и размещение в открытом доступе пилотной версии корпуса (которая первоначально представляла собой корпус кино) относится к 2009—2010 гг., в дальнейшем осуществлялось пополнение корпуса и включение в него образцов звучащей речи, функционирующей в различных речевых сферах. В настоящее время объем корпуса приближается к 5 млн словоупотреблений. В состав МУРКО входят следующие разделы (подкорпусы)
1. Речь кино включает советские и российские кинофильмы 1930—2000-х годов.
2. Устная публичная речь представлена текстами, относящимися к устной научной речи (доклады и дискуссии на конференциях, учебные и популярные лекции, теле- и радиопередачи), устной политической речи (интервью, пресс-конференции, выступления на митингах, собраниях и съездах, ток-шоу на радио и ТВ), публицистике (интервью и беседы на разные темы, документальное кино и др.), рекламе (рекламные ролики).
3. Устная непубличная речь включает тексты повседневного бытового общения – диалоги и микродиалоги, разговоры в дружеском и семейном кругу, телефонные разговоры и мн. др.
4. Театральная речь представлена аудио- и видеозаписями театральных постановок на сцене и на радио.
5. Авторское и художественное чтение — эти два раздела представляют озвученную письменную речь (written-to-be-spoken), которая интересна в плане изучения фонетических особенностей звучащего текста, орфоэпии и акцентологии, интерпретации текста. В разделе собраны записи прозаических текстов в авторском исполнении и в исполнении мастеров художественного слова.
Звучащий текст в Мультимедийном корпусе представлен в виде аудио- и видеофайла, разрезанного на небольшие фрагменты (клипы) длительностью 10—30 сек., каждому из которых поставлен в соответствие фрагмент текстовой расшифровки. Пара клип + текст (или кликст, по терминологии Е. А. Гришиной) представляет, как правило, относительно законченный в смысловом отношении коммуникативный фрагмент.
Каждый текстовый фрагмент размечен в соответствии со стандартами МУРКО и содержит метатекстовую, морфологическую, семантическую, акцентологическую и социологическую аннотацию, по которым возможен онлайновый поиск на сайте. Кроме того, в форме поиска предусмотрена возможность запроса орфоэпической структуры слова и поиска по вокалической структуре слова.
В составе МУРКО выделяется глубоко аннотированная часть, в которой размечены типы речевых действий и жестикуляция (разметка выполнена Е. А. Гришиной). В настоящий момент эта часть включает 6 фильмов. С помощью разметки речевых действий можно целенаправленно отбирать выказывания определенной семантики (вопросы, императивы, модальные высказывания, этикетные высказывания и мн. др.), типы речевого подчеркивания (парцелляция, скандирование и др.), типы междометий и вокальных жестов, типы повторов. Разметка жестов позволяет отобрать жесты по их субъективным (типу и значению) и объективным характеристикам (активному и пассивному органу, ориентации в пространстве, направлению движения и проч.). Выбрав соответствующие характеристики, пользователь получает клипы, в которых встречаются речевые действия и жесты заданного типа.
Подробнее см.:
Гришина Е. А. Национальный корпус русского языка как источник сведений об устной речи // Речевые технологии. 2008. № 3. С. 50—62.
Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб., 2009. С. 150—174.
Гришина Е. А. Мультимедийный русский корпус (МУРКО): современное состояние и перспективы развития // Труды международной конференции «Корпусная лингвистика — 2011». СПб., 2011. С. 138—144.
Гришина Е. А. Мультимодальный модуль в составе Национального корпуса русского языка // Труды Института русского языка им. В. В. Виноградова. 2015. № 6 (6). С. 65—88.
Гришина Е. А., Кудинов М. С. Инструменты полуавтоматической разметки для Мультимедийного русского корпуса (МУРКО) // Компьютерная лингвистика и интеллектуальные технологии (по материалам ежегодной Международной конференции «Диалог 2009»). М., 2009. С. 248—261.
Гришина Е. А., Савчук С. О. Корпус звучащей русской речи в составе Национального корпуса русского языка // Компьютерная лингвистика и интеллектуальные технологии (по материалам ежегодной Международной конференции «Диалог 2008»). М., 2008. С. 125—132.
Савчук С. О., Махова А. А. Мультимедийный модуль в составе НКРЯ: направления развития // Анализ разговорной русской речи (АР3 - 2017) Труды седьмого междисциплинарного семинара. 2017. С. 83—89.
Svetlana Savchuk & Alexandra Makhova (2021) Multimodal Russian Corpus and its use in emotional studies // Russian Journal of Communication, 13:1, 42-61, DOI: 10.1080/19409419.2021.1887991