Портрет корпуса

Корпус

2355 текстов
1 223 760 слов

параллельный

Корпус: Параллельные | Карельский

Параллельный корпус

Параллельный корпус — собрание оригинальных и переводных текстов с выравниванием по предложениям. Это важный источник для сопоставления и типологии языков, а также для теории перевода.

Специфика корпуса

Особым типом корпуса является так называемый параллельный корпус, в котором тексту сопоставлен перевод этого текста на другой язык. Между единицами оригинального и переводного текста (обычно — между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием. В частности, параллельный корпус может включать несколько альтернативных переводов на один язык (такой текст называется поливариантным, например, разные переводы одной и той же повести Пушкина на французский) и/или на разные языки (такой текст называется многоязычным, например, переводы Библии на много разных языков, в том числе альтернативные английские или русские версии).

Параллельный корпус представляет собой важный инструмент для научных исследований, например, в области типологии, контрастивной лингвистики, внутриязыкового варьирования, а также для исследований по теории и практике перевода. Он может также использоваться при обучении русскому и иностранным языкам, а также при машинном обучении.

В настоящее время на сайте Национального корпуса размещены двуязычные пары параллельных корпусов для следующих языков с русским, причем большинство этих пар включает как переводы иноязычных текстов на русский, так и русских текстов на другой язык:

английский, армянский, башкирский, белорусский, болгарский, бурятский, вепсский, испанский, итальянский, карельский, китайский, корейский, латышский, литовский, немецкий, польский, португальский, румынский, сербский, словенский, украинский, финский, французский, хакасский, хинди, цыганский (язык цыган России), чешский, чувашский, шведский, эстонский, японский.

В состав параллельных корпусов НКРЯ также входит многоязычный корпус, в котором художественные тексты XIX—XX веков с оригиналом на разных языках переведены на несколько десятков языков (в основном славянских), в том числе не входящих в список выше.

В двуязычных парах поддерживается одновременный поиск в обоих языках запросов любой сложности: например, можно найти предложения с английским словом hamburger, которым соответствуют предложения, содержащие русское слово котлета. (Однако не обязательно так переведено именно это слово!).

Разметка

В составе двуязычных пар большинство параллельных текстов в составе НКРЯ выравнивается при помощи алгоритма программы HunAlign, позволяющей ручную посткоррекцию оболочке Euclid (автор Т. А. Архангельский). Используются также другие программные средства для выравнивания текстов.

Тексты на русском языке сопровождаются автоматической морфологической разметкой с неснятой омонимией, основанной на программе MyStem компании Яндекс, а также семантической разметкой, аналогичной разметке русской лексики в других корпусах. Семантическая разметка, основанная на анализаторе Juman++, доступна также для японского языка.

Тексты на некоторых языках (английский, белорусский, болгарский, испанский, итальянский, немецкий, португальский, румынский, украинский, французский, чешский) размечены специальными версиями программы MyStem для морфологии соответствующих языков, также с неснятой омонимией. Для польского языка используется алгоритм TaKiPi, для латышского — LUMII, оба со статистическим предсказанием разборов. Анализатор для литовского текста основан на морфологическом анализаторе Каунасского университета, для эстонского используется анализатор Vabamorf, для финского — открытый морфологический анализатор OMorfi, для шведского — нейросетевая система Stagger с открытым кодом, для сербского и словенского — нейросетевые модели команды CLASSLA (для сербского используется также правиловая комбинация результатов разных моделей, разработанная Е. М. Бирюковой), для армянского — морфология Восточноармянского языкового корпуса, для башкирского — анализатор Bashmorph, разработанный Б. В. Ореховым, для бурятского и цыганского — анализатор UniParser, разработанный Т. А. Архангельским, для корейского — анализатор KKMA, для хинди — инструмент StanfordNLP, для хакасского — автоматический парсер Электронного корпуса хакасского языка, для японского — анализатор Juman++, для карельского и вепсского — анализаторы, разработанные для корпуса ВепКар. Для чувашских текстов используется сочетание механизмов лемматизации Корпуса чувашского языка и анализатора Apertium, для частотных неразобранных словоформ написан ряд дополнительных правил. Для китайских текстов стандарт словоделения и частеречной разметки — Penn Chinese Treebank (синтаксически ориентирован). Тексты на китайском языке размечены единым модулем аннотации китайских текстов, разработанным студентами НИУ ВШЭ в рамках Конкурса проектных групп для обучающихся на Факультете гуманитарных наук. В качестве компонентов модуля использованы модифицированные нейросетевые алгоритмы FastHan (словоделение, разметка частей речи) и G2PC (транслитерация).

Для языков с неевропейской графикой (армянского, китайского, корейского, хинди, японского) используется также латинская транслитерация как лемм, так и словоформ, поиск по которой доступен. Особая ситуация представлена в сербском языке, где наблюдается ситуация двуписьменности (biscriptality), при которой сосуществуют два употребительных алфавита: кириллица и латиница, причем тексты, вошедшие в корпус, опубликованы в разных письменностях. Поэтому каждый сербский текст дополнительно транслитерирован в другой алфавит, поиск по которым осуществляется равноправно. Для ряда языков (армянского, бурятского, вепсского, карельского, корейского, хакасского, цыганского, чувашского, японского) в разметке задействованы переводные словари, переводы привязаны к леммам. Кроме того, гиперссылки ведут от лемм всех языков к различным словарям на внешних сайтах.

Разработчики НКРЯ стремятся к жанровому разнообразию русско-иноязычных языковых пар, хотя репрезентативность параллельного корпуса объективно ограничена существующими переводами. Так, в двуязычные пары обычно включаются художественная проза, публицистические и научные тексты, в ряде случаев также религиозные и юридические, а иногда и поэтические (корейский, хинди, чувашский). В некоторых корпусах языков народов России (вепсском, карельском, хакасском) представлено большое число записей диалектных бытовых рассказов и фольклора, в том числе народной поэзии. В параллельный корпус входят также субтитры, например, к художественному фильму в русско-французской языковой паре, к выступлениям TED Talks в англо-русской.

В подавляющем большинстве случаев в корпус включаются профессиональные опубликованные переводы без каких-либо изменений: сознательная неточность перевода, ошибки, пропуски и добавления, цензурные и редакционные изъятия представляют собой самостоятельный ценный объект исследования. Для ряда текстов сделано исключение, и в корпус введены также непрофессиональные переводы на русский язык, сделанные любителями или волонтёрами (например, переводы корейских поп-песен или некоторых чувашских текстов), в том числе специально для корпусного проекта. В таких переводов, помимо ошибок, от которых не застрахован и профессиональный переводчик, могут встречаться и нарушения русских языковых норм.

В метаразметке параллельных корпусов, как правило, датируется не только оригинал, но и (хотя бы приблизительно, по дате издания) перевод, приводятся имена переводчиков с возможностью выбора подкорпусов, указана сфера функционирования текста: художественная, учебно-научная, публицистика и др.. В вепсском, карельском, хакасском и чувашском корпусах в информации о тексте (но пока не в поиске) доступна расширенная метаразметка: указан также тип текста, жанр художественной литературы, источник публикации, а для чувашского и тематика нехудожественного текста. Для ряда языков, для которых это релевантно, дается информация о том, какой вариант литературного языка представлен в языке автора или переводчика: например, американский/британский английский, европейский/бразильский/африканский португальский, а также разные нормы или варианты белорусского, испанского, карельского, немецкого, румынского, сербского, украинского, шведского. Для корпусов, в состав которых входят диалектные записи (вепсского, карельского, хакасского), указывается диалект.

Публикации

Ознакомьтесь со списком научных публикаций о параллельных корпусах по ссылке: https://ruscorpora.ru/s/dRn7Y. В разделе «‎Публикации»‎ используйте фильтры, чтобы найти другие типы публикаций о корпусе. Чтобы узнать о публикациях, посвящённых определённым парам параллельных корпусов НКРЯ, выберите нужный корпус в шапке.

Создание корпусов

Общую координацию проектов параллельных корпусов (включая интеграцию и унификацию наборов морфологических тегов и метаразметки) осуществлял Д. В. Сичинава.

В работе принимали участие программисты Т. А. Архангельский (он же, в частности, разработчик рабочего места «Евклид» для выравнивания текстов и морфологического анализатора Uniparser), А. П. Печёный (реализовавший выравнивание по предложениям в многоязычном корпусе), Д. Алексеев, А. В. Панасюк, Е. М. Бирюкова, С. С. Столяров. Программную обработку башкирской, китайской, корейской, хинди и цыганской языковых пар выполнили сами разработчики этих корпусов.

Задачу разработки англо-русской и немецко-русской языковых пар решали совместно группа ИРЯ РАН под руководством Д. О. Добровольского и группа Воронежского университета под руководством А. А. Кретова (Е. Н. Подтележникова, И. А. Меркулова, К. М. Шилихина, Ю. П. Плешкова, Ю. П. Суворова). На начальных этапах в работе принимала участие также группа СПбГУ под руководством В. Б. Касевича. В состав этих языковых пар вошли также коллекции параллельных текстов с выравниванием, любезно предоставленные М. А. Куниловской (английские) и Д. Н. Шаповаленко (немецкие), а также тексты, подготовленные практикантами НИУ ВШЭ под руководством К. О. Шейфер.

Армянско-русская двуязычная пара подготовлена Т. О. Шавриной на основе выборки переводных текстов в составе Восточноармянского национального корпуса.

Башкирско-русские тексты подготовлены под общим руководством Б. В. Орехова командой разработчиков-волонтёров из Башкирии для компании Яндекс.

Над белорусско-русской парой работал коллектив Института языка и литературы НАН Беларуси под руководством В. А. Кощенко (И. В. Глинник, О. В. Мицкевич, А. В. Зубов, И. Л. Копылов), а также Ю. А. Стасевич (Коровко) и Е. Н. Скопинова (Карпучок).

Болгарский компонент параллельных корпусов НКРЯ в русско-болгарской части основывается на текстах, любезно предоставленных Великотырновским университетом (группой под руководством проф. Гочо Гочева). Тексты с болгарским оригиналом собраны и метаразмечены Д. В. Сичинавой (с автоматическим выравниванием).

Создание бурятско-русского корпуса осуществлялось ИРЯ РАН совместно с Институтом монголоведения, буддологии и тибетологии РАН (Улан-Удэ) под руководством Л. Д. Бадмаевой.

Вепсско-русский и карельско-русский корпусы созданы на основе Открытого корпуса вепсского и карельского языков (ВепКар), разработанного коллективом Карельского научного центра РАН в составе: Н. Г. Зайцева, И. П. Новак, Н. Б. Крижановская, Т. П. Бойко, А. Н. Рунтова, Н. Л. Шибанова, А. П. Родионова, Н. А. Пеллинен, О. Ю. Жукова, В. Г. Старкова, Е. В. Захарова, А. А. Крижановский, М. В. Кошелева, Д. Ю. Баландин. На этапе включения в НКРЯ конвертацию и доработку разметки проводили Д. В. Сичинава, С. С. Столяров и Н. Б. Крижановская.

Испанско-русские тексты подготовлены А. Ю. Орлицкой, К. О. Шейфер, Т. Горожанкиной, С. Ю. Бочавер, В. С. Люсиной и К. А. Флоринским.

Итальянско-русские тексты выравнивались К. Д. Балакиной, А. Бонолой, Ф. Бьяджини и В. Нозедой.

В разработке китайско-русской языковой пары участвует коллектив сотрудников и студентов из российских (ВШЭ, РГГУ, МГУ, РАНХиГС, Алтайский государственный университет) и китайских вузов; в частности, ключевые роли в проекте на разных этапах играли Л. С. Холкина, К. И. Семенов, С. П. Дурнева, Ю. Н. Кузнецова, М. Н. Якубов. Поиском и предоставлением данных, наряду с выравниванием текстов, занимаются Синь На (и коллектив под руководством Е Цисуна) Института лексикографии Хэйлунцзянского университета, а также Юань Мяосюй (и коллектив под руководством Ван Юн) Института иностранных языков Чжэцзянского университета. В корпус вошли также коллекции параллельных текстов, собранные К. П. Ульяновой (деловые письма), совместно Тао Юань и В. П. Захаровым, а также отдельная коллекция переводов на китайский язык Нового Завета. Полный список участников рабочей группы китайского-русского корпуса.

Корейско-русский параллельный корпус разработан А. В. Лобановой и А. А. Самигуллиной.

Латышско-русские, а также литовско-русские тексты подготовлены Н. В. Перковой.

Параллельный польско-русский корпус развивался совместно группой Варшавского университета под руководством М. Лазиньского и группой РГГУ под руководством С. О. Минлос.

Португальско-русские параллельные тексты готовила А. Ю. Орлицкая.

Румынско-русские параллельные тексты собирала и метаразмечала К.-Д. Маляр (выравнивание автоматическое с коррекцией Д. В. Сичинавы).

Словенско-русская и сербско-русская языковые пары опираются на электронные версии опубликованных книг и периодики, собранные и распознанные Д. В. Сичинавой при участии С. Милошевича; метаразметка Д. В. Сичинавы, выравнивание автоматическое.

Над украинско-русской парой работала М. А. Шведова при участии О. А. Тищенко-Монастырской и А. Л. Кривенко.

Финско-русские тексты для корпуса готовила К. О. Шейфер. Кроме того, корпус включает также подборку межгосударственных договоров, подготовленную и выровненную под руководством М. Н. Михайлова в университете Тампере.

Над французско-русской парой работала группа ИПИ РАН под руководством И. М. Зацмана и Анны А. Зализняк (В. М. Бачевская, Н. В. Бунтман, А. А. Гончаров, С. Д. Игнатова, О. Ю. Инькова, О. С. Кожунова, М. Г. Кружков, В. А. Нуриев), а также французские исследователи (В. Бене и С. Луазо; в качестве консультанта выступала А. Кольдефи-Фокар). Часть текстов подготовлена практикантами НИУ ВШЭ под руководством К. О. Шейфер, а также происходит из других источников (в том числе существующих параллельных коллекций).

В основу хакасско-русского корпуса положен Электронный корпус хакасского языка, разработанный ранее именно как параллельный (но без возможности поиска по русским текстам) коллективом в составе А. В. Дыбо, А. В. Шеймович, В. С. Мальцевой, Э. В. Султрековой, И. М. Чебочаковой, Е. Б. Чекменёвой, Ф. С. Крылова. На этапе включения в НКРЯ конвертацию и доработку разметки проводили С. С. Столяров и Д. В. Сичинава.

Хинди-русская языковая пара подготовлена В. Смирновой. В настоящее время корпус находится в стадии разработки.

В русско-цыганский паралелльный корпус вошли тексты на севернорусском диалекте (языке русских цыган), публиковавшиеся в СССР в 1930-е годы. Над корпусом работали Кирилл Конча, Абина Куканова, Таня Казакова, Глория Розовская, а также Фёдор Самодов, помогавший с ручным выравниванием текстов. В основу корпуса положены тексты из Корпуса языка русских цыган. Выравнивание производилось с помощью библиотеки lingtrain-aligner, для морфологической разметки использовалась библиотека uniparser-soviet-romani и правила, разработанные Таней Казаковой.

Чешско-русские тексты подготовлены группой под руководством Т. А. Малышевой (А. А. Бескровная, Д. Р. Восканян).

Для чувашско-русской языковой пары выровненные тексты, метаразметка и словарь предоставлены разработчиками корпуса «Лаборатории чувашского языка» под руководством Николая (Аҫтахар) Плотникова. Конвертация в формат НКРЯ, доразметка и комбинированная морфологическая и словарная аннотация осуществлены Д. В. Сичинавой и С. С. Столяровым.

Шведско-русские тексты выравнивали Н. В. Перкова (Стокгольмский университет / Упсальский университет); М. Лундгрен и Э. Маттссон (Упсальский университет, под руководством К. Окерман-Саркисян и О. Янссон).

Эстонско-русские тексты размечены Н. В. Перковой, М. В. Боровиковой, Е. С. Фоминой.

Японско-русская языковая пара разработана коллективом под руководством А. С. Слащёвой и У. П. Стрижак и включает также ранее подготовленный Е. М. Бирюковой параллельный корпус новостей. При разработке набора грамматических помет использовалась работа А. Р. Заболотской. Выравнивали тексты В. И. Аствацатурова, Б. Е. Дмитерко, Л. Ш. Кулиева, Е. В. Максименко, Н. С. Сайфуллин, А. Г. Шехтер. Автоматически размеченные тексты частично посткорректировались Е. М. Бирюковой. Проект консультирует Н. А. Соломкина.

В основу многоязычного корпуса положен Амстердамский параллельный корпус ASPAC профессора А. Барентсена (Амстердамский университет), дополненный в рамках НКРЯ более точным выравниванием (по предложениям вместо абзацев), грамматической разметкой для большинства языков и некоторыми новыми текстами. Отдельные тексты из корпуса ASPAC, с программным уточнением выравнивания, вошли в состав также некоторых языковых пар: английской, болгарской, итальянской, немецкой, польской, португальской, сербской, словенской, украинской, французской, чешской, шведской.

Работа велась при поддержке проектов ОИФН РАН «Программное обеспечение корпуса параллельных текстов: разработка методики выравнивания» (руководитель Д. О. Добровольский), «Пополнение и развитие корпуса параллельных текстов» (руководитель Д. О. Добровольский), проекта «Корпусная лингвистика» (руководитель направления Д. О. Добровольский), гранта РГНФ № 11-24-01004a/Bel «Корпусные сопоставительные исследования русского и белорусского языков и разработка параллельных электронных корпусов» (руководитель А. М. Молдован), гранта РФФИ № 12-06-33038 «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» (руководитель Д. В. Сичинава), РФФИ №15-46-04417 («Бурятско-русский параллельный корпусный модуль»; руководитель Л. Д. Бадмаева). Электронный корпус хакасского языка был создан в рамках программы Президиума РАН «Корпусная лингвистика», направление «Создание и развитие корпусных ресурсов по языкам народов России»; позже поддерживался на средства: гранта РГНФ № 15-04-12030 «Система автоматического морфологического и синтаксического анализа для корпусов миноритарных тюркских языков России»; программы ОИФН РАН «Евразийское наследие и его современные смыслы», Направление 4. Мультимедийные технологии в филологических исследованиях (проекты «Развитие корпусов миноритарных тюркских языков России»); проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур», выполняемого на базе Томского государственного университета (грант Правительства РФ № 14.Y26.31.0014); гранта РНФ №18-18-00501 «Создание диалектологического атласа тюркских языков России».

Обновлено 06.08.2024