Мультипарк

Мультимедийный параллельный корпус сочетает в себе свойства мультимедийного и параллельного корпусов и предназначен для сопоставительных исследований. Корпус состоит из двух независимых зон, которые отличаются как характером материала, так и способом его организации.


Русский МультиПАРК дает возможность сопоставить разные кино-, теле-, радио- и театральные постановки одной и той же пьесы на русском языке. В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» и «Дядя Ваня» – в 4 и 5 постановках соответственно. Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. В результате таких исследований могут быть установлены пределы варьирования различных аспектов звучащей речи и ее жестового сопровождения в зависимости от факторов, связанных с личностью актера, временем и стилем постановки, замыслом режиссера т. д.

Технология подготовки корпуса довольно сложна и напоминает подготовку мультиязычного параллельного корпуса письменных переводов одного и того же текста. В качестве «якорного» текста, с которым сопоставляются все варианты его исполнения, в МультиПАРКе выступает опубликованный текст пьесы. Текст пьесы разрезан на фрагменты, в соответствии с которыми фрагментируется аудио- или видеозапись постановки, а затем каждый аудио- или видеофрагмент выравнивается с его письменным транскриптом. Результаты поиска выдаются в виде кластеров: в каждый кластер входит контекст из печатного текста пьесы, содержащий запрашиваемый элемент, и выровненные с ним фрагменты из всех постановок, сопровождаемые соответствующими клипами.


Англо-русский МультиПАРК включает фрагменты сериалов и фильмов на английском языке с закадровым русским переводом или дубляжем, а также разные постановки пьес – на русском языке и в англоязычной интерпретации. Он дает возможность сравнивать и изучать речевое поведение людей, относящихся к разным культурам, говорящим на разных языках, при этом оказавшихся в сходных ситуациях.

Каждый фильм (оригинал и перевод) разрезан на небольшие фрагменты (клипы). На соответствующие фрагменты разрезаны английские и русские расшифровки этих фрагментов. После этого два клипа (английский и русский) и две расшифровки (английская и русская) выравниваются между собой. Нумерация клипов и текстовых фрагментов совпадает в английском и русском варианте.

Каждый текстовый фрагмент размечен в соответствии со стандартами МУРКО и параллельного корпуса НКРЯ и содержит метатекстовую, морфологическую аннотацию (размечены оригинал и перевод), семантическую аннотацию (русский перевод), акцентологическую аннотацию (русский перевод), социологическую аннотацию (сведения об актере — исполнителе роли и актере дубляжа). На запрос пользователя выдаются две пары клип + текст (на английском и русском языках), в которых выровнены между собой видео- и текстовый ряд. Такая подача материала позволяет вести сопоставительные исследования в области интонации и фонетики, лексики и семантики, фразеологии, синтаксиса, анализировать жестикуляцию в англоязычном дискурсе и с помощью сопоставления полученных данных с данными МУРКО проводить сопоставительные жестикуляционные исследования. Кроме того, этот корпус дает образцы особого вида речевой деятельности на русском языке — перевода аудиовизуальных текстов, который рассматривается как самостоятельный вид переводческой деятельности.

Подробнее см.
    1. Гришина Е. А. Мультимедийный русский корпус (МУРКО): современное состояние и перспективы развития // Труды международной конференции «Корпусная лингвистика — 2011». СПб., 2011. С. 138–144. 
    2. Grishina E., Savchuk S., Sichinava D. Multimodal Parallel Russian Corpus (MultiPARC): Main Tasks and General Structure // LREC 2012 Workshop on Best Practices for Speech Corpora in Linguistic Research. Istanbul, Turkey, May 21, 2012. ELRA. P. 1316.
    3. Гришина Е. А. Мультимодальный модуль в составе Национального корпуса русского языка // Труды Института русского языка им. В. В. Вино­градова. 2015. № 6 (6). С. 65–88. 
    4. Гришина Е. А. Мультимедийный параллельный корпус (МультиПАРК): новый тип корпуса для сопоставительных исследований // Седьмая международная конференция по когнитивной науке: Тезисы докладов. Светлогорск, 20–24 июня 2016 г. / Отв. ред. Ю. И. Александров, К. В. Анохин. М.: Изд-во «Институт психологии РАН», 2016. 720 с.
    5. Савчук С. О. Мультимедийный параллельный корпус: перспективы развития // Восьмая международная конференция по когнитивной науке: Тезисы докладов. Светлогорск, 18–21 октября 2018 г. / Отв. ред. А. К. Крылов, В. Д. Соловьев. — М.: Изд-во «Институт психологии РАН», 2018. С. 1320-1322. 

 

 

Создание корпуса

Задача по созданию мультимедийного параллельного корпуса решалась группой под руководством Е. А. Гришиной при поддержке гранта РФФИ № 14-06-00245, программы Президиума РАН «Корпусная лингвистика», программы ОИФН РАН «Язык и информационные технологии»; дальнейшее развитие корпуса осуществлялось при поддержке программы фундаментальных научных исследований Президиума РАН «Памятники материальной и духовной культуры в современной информационной среде» (2018—2020). Концепция корпуса, принципы отбора материала, система аннотации и технология подготовки базы данных разработаны Е. А. Гришиной. Координация работ и редактирование разметки мультимедийного корпуса осуществлялась Е. А. Гришиной и С. О. Савчук (с 2016 г.). В подготовке текстовых и мультимедийных материалов участвовали Е. А. Гришина, А. А. Курсакова, А. А. Махова, С. О. Савчук, А. М. Соседова. В создании и усовершенствовании программного обеспечения мультимедийного параллельного корпуса в целом (системы поиска, различных видов разметки и др.) на различных этапах работы принимали участие Л. Д. Алексеевский, Д. В. Вылегжанин, А. И. Зобнин, В. Г. Сизов, И. В. Шалыминов.

Обновлено