Корпус
  • 1383 текста
  • 5 763 881 слово
мультимедийный, устный
Корпус: Мультимедийный
Мультимедийный корпус (МУРКО)

Мультимедийный русский корпус (МУРКО) предназначен для изучения устных текстов разных жанров. Разработка и размещение в открытом доступе пилотной версии корпуса (которая первоначально представляла собой корпус кино) относится к 2009—2010 гг., в дальнейшем осуществлялось пополнение корпуса и включение в него образцов звучащей речи, функционирующей в различных речевых сферах. В настоящее время объем корпуса приближается к 5,5 млн словоупотреблений. В состав МУРКО входят следующие разделы (подкорпусы)


1. Речь кино включает советские и российские кинофильмы 1930—2000-х годов. 
2. Устная публичная речь представлена текстами, относящимися к устной научной речи (доклады и дискуссии на конференциях, учебные и популярные лекции, теле- и радиопередачи), устной политической речи (интервью, пресс-конференции, выступления на митингах, собраниях и съездах, ток-шоу на радио и ТВ), публицистике (интервью и беседы на разные темы, документальное кино и др.), рекламе (рекламные ролики). 
3. Устная непубличная речь включает тексты повседневного бытового общения – диалоги и микродиалоги, разговоры в дружеском и семейном кругу, телефонные разговоры и мн. др. 
4. Театральная речь представлена аудио- и видеозаписями театральных постановок на сцене и на радио.
5. Авторское и художественное чтение — эти два раздела представляют озвученную письменную речь (written-to-be-spoken), которая интересна в плане изучения фонетических особенностей звучащего текста, орфоэпии и акцентологии, интерпретации текста. В разделе собраны записи прозаических текстов в авторском исполнении и в исполнении мастеров художественного слова.

Звучащий текст в Мультимедийном корпусе представлен в виде аудио- и видеофайла, разрезанного на небольшие фрагменты (клипы) длительностью 10—30 сек., каждому из которых поставлен в соответствие фрагмент текстовой расшифровки. Пара клип + текст (или кликст, по терминологии Е. А. Гришиной) представляет, как правило, относительно законченный в смысловом отношении коммуникативный фрагмент.

Каждый текстовый фрагмент размечен в соответствии со стандартами МУРКО и содержит метатекстовую, морфологическую, семантическую, акцентологическую и социологическую аннотацию, по которым возможен онлайновый поиск на сайте. Кроме того, в форме поиска предусмотрена возможность запроса орфоэпической структуры слова и поиска по вокалической структуре слова.

В составе МУРКО выделяется глубоко аннотированная часть, в которой размечены типы речевых действий и жестикуляция (разметка выполнена Е. А. Гришиной). В настоящий момент эта часть включает 6 фильмов. С помощью разметки речевых действий можно целенаправленно отбирать выказывания определенной семантики (вопросы, императивы, модальные высказывания, этикетные высказывания и мн. др.), типы речевого подчеркивания (парцелляция, скандирование и др.), типы междометий и вокальных жестов, типы повторов. Разметка жестов позволяет отобрать жесты по их субъективным (типу и значению) и объективным характеристикам (активному и пассивному органу, ориентации в пространстве, направлению движения и проч.). Выбрав соответствующие характеристики, пользователь получает клипы, в которых встречаются речевые действия и жесты заданного типа.

Публикации

Ознакомьтесь со списком научных публикаций о Мультимедийном корпусе по ссылке: https://ruscorpora.ru/s/aAo2p. Чтобы найти другие типы публикаций о корпусе, используйте фильтры в разделе «‎Публикации»‎.

Создание корпуса

Задача по созданию мультимедийного корпуса решалась группой под руководством Е. А. Гришиной (1958—2016) при поддержке грантов РФФИ № 10-0600151-а и № 15-06-04334а (руководитель проектов С. О. Савчук), №11-06-00030а (руководитель проекта Е. А. Гришина), программы ОИФН «Генезис и взаимодействие социальных, культурных и языковых общностей», программы Президиума РАН «Корпусная лингвистика» (2012—2014), программы ОИФН РАН «Язык и информационные технологии» (2015—2017), программы фундаментальных научных исследований Президиума РАН «Памятники материальной и духовной культуры в современной информационной среде» (2018—2020). Принципы отбора материала, система аннотации, организация базы данных корпуса разработаны Е. А. Гришиной при участии С. О. Савчук. Наиболее значительный объем работ по разметке текстов и видеоматериалов был выполнен Е. А. Гришиной, Е. Голосовой, С. Б. Иванютиным, А. А. Курсаковой, А. А. Маховой, Д. Рощупкиным, А. М. Соседовой. В создании и усовершенствовании программного обеспечения мультимедийного корпуса в целом (системы поиска, различных видов разметки и др.) на различных этапах работы принимали участие А. А. Аброскин, Л. Д. Алексеевский, С. В. Давыдов, А. И. Зобнин, М. С. Кудинов, И. В. Шалыминов. Координация работ и редактирование разметки мультимедийного корпуса осуществлялась Е. А. Гришиной и С. О. Савчук (с 2016 г.).

Дополнительные материалы

Обновлено 22.07.2024