Параллельный корпус
Специфика корпуса

Особым типом корпуса является так называемый параллельный корпус, в котором тексту сопоставлен перевод этого текста на другой язык. Между единицами оригинального и переводного текста (обычно — между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием. В частности, параллельный корпус может включать несколько альтернативных переводов на один язык (такой текст называется поливариантным, например, разные переводы одной и той же повести Пушкина на французский) и/или на разные языки (такой текст называется многоязычным, например, переводы Библии на много разных языков, в том числе альтернативные английские или русские версии).

Параллельный корпус представляет собой важный инструмент для научных исследований, например, в области типологии, контрастивной лингвистики, внутриязыкового варьирования, а также для исследований по теории и практике перевода. Он может также использоваться при обучении русскому и иностранным языкам, а также при машинном обучении.

В настоящее время на сайте Национального корпуса размещены двуязычные пары параллельных корпусов для следующих языков с русским, причем эти пары включают как переводы иноязычных текстов на русский, так и русских текстов на другой язык: 

английский, армянский, башкирский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, литовский, немецкий, польский, португальский, румынский, украинский, финский, французский, чешский, шведский, эстонский.

В состав параллельных корпусов НКРЯ также входит многоязычный корпус, в котором художественные тексты XIX—XX веков с оригиналом на разных языках переведены на несколько десятков языков (в основном славянских), в том числе не входящих в список выше.

В двуязычных парах поддерживается одновременный поиск в обоих языках запросов любой сложности: например, можно найти предложения с английским словом hamburger, которым соответствуют предложения, содержащие русское слово котлета. (Однако не обязательно так переведено именно это слово!).

Разметка

В составе двуязычных пар параллельные тексты в составе НКРЯ выравниваются, как правило, при помощи алгоритма программы HunAlign в позволяющей ручную посткоррекцию оболочке Euclid (автор Т. А. Архангельский). 

Тексты на русском языке сопровождаются автоматической морфологической разметкой с неснятой омонимией, основанной на программе MyStem компании Яндекс, а также семантической разметкой, аналогичной разметке основного корпуса. Тексты на ряде других языков (английский, белорусский, болгарский, испанский, итальянский, немецкий, португальский, румынский, украинский, французский, чешский) размечены специальными версиями программы MyStem для морфологии соответствующих языков. Для польского языка используется алгоритм TaKiPi, для латышского — LUMII, оба со статистическим предсказанием разборов. Анализатор для литовского текста основан на морфологическом анализаторе Каунасского университета, для эстонского используется анализатор Vabamorf, для финского — открытый морфологический анализатор OMorfi, для шведского — нейросетевая система Stagger с открытым кодом, для армянского — морфология Восточноармянского языкового корпуса, для башкирского — анализатор Bashmorph, разработанный Б. В. Ореховым, для бурятского — анализатор, разработанный Т. А. Архангельским. Для китайских текстов стандарт словоделения и частеречной разметки — Penn Chinese Treebank (синтаксически ориентирован). Тексты размечены единым модулем аннотации китайских текстов, разработанным студентами НИУ ВШЭ в рамках Конкурса проектных групп для обучающихся на Факультете гуманитарных наук. В качестве компонентов модуля использованы модифицированные нейросетевые алгоритмы FastHan (словоделение, разметка частей речи) и G2PC (транслитерация). 

Для языков с неевропейской графикой (армянского, китайского) используется также латинская транслитерация. Для ряда языков (армянского, бурятского) в разметке задействованы переводные словари, переводы привязаны к леммам.

Разработчики НКРЯ стремятся к жанровому разнообразию русско-иноязычных языковых пар, хотя репрезентативность параллельного корпуса объективно ограничена существующими переводами. Так, в двуязычные пары обычно включаются художественные, публицистические, научные тексты, в ряде случаев также религиозные и юридические. 

В метаразметке параллельных корпусов датируется не только оригинал, но и (хотя бы приблизительно, по дате издания) перевод, приводятся имена переводчиков с возможностью выбора подкорпусов, указана сфера функционирования текста (художественная, учебно-научная, публицистика и др.). Для ряда языков, для которых это релевантно, дается информация о том, какой вариант литературного языка представлен (например, американский/британский английский, европейский/бразильский португальский, а также разные нормы белорусского, испанского, немецкого, румынского, украинского, шведского).

Параллельный корпус — собрание оригинальных и переводных текстов с выравниванием по предложениям. Это важный источник для сопоставления и типологии языков, а также для теории перевода.

Подробнее см.

Д. О. Добровольский, А. А. Кретов, С. А. Шаров. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005. C. 263—296.
Dmitri V. Sitchinava. Parallel corpora within the Russian National corpus // Prace filologiczne, LXIII, 2012. pp. 271—278.
Д. В. Сичинава. Параллельные тексты в составе Национального корпуса русского языка: Новые языки и новые задачи. // Труды Института русского языка им. В. В. Виноградова. 2019. № 21. С. 41—60.

Создание корпусов

Общую координацию проектов параллельных корпусов (включая интеграцию и унификацию наборов морфологических тегов и метаразметки) осуществлял Д. В. Сичинава.

В работе принимали участие программисты Т. А. Архангельский (в частности, разработчик рабочего места Евклид для выравнивания текстов), А. П. Печёный (разметивший выравнивание по предложениям в многоязычном корпусе), Д. Алексеев, А. В. Панасюк, Е. М. Бирюкова.

Задачу разработки англо-русской и немецко-русской языковых пар решали совместно группа ИРЯ РАН под руководством Д. О. Добровольского и группа Воронежского университета под руководством А. А. Кретова (Е. Н. Подтележникова, И. А. Меркулова, К. М. Шилихина, Ю. П. Плешкова, Ю. П. Суворова). На начальных этапах в работе принимала участие также группа СПбГУ под руководством В. Б. Касевича. В состав данных языковых пар вошли также коллекции параллельных текстов с выравниванием, любезно предоставленные М. А. Куниловской (английские) и Д. Н. Шаповаленко (немецкие), а также тексты, подготовленные практикантами НИУ ВШЭ под руководством К. О. Шейфер.

Армянско-русская двуязычная пара подготовлена Т. О. Шавриной на основе выборки переводных текстов в составе Восточноармянского национального корпуса. 

Башкирско-русские тексты подготовлены под общим руководством Б. В. Орехова командой разработчиков-волонтёров из Башкирии для компании «Яндекс».

Над белорусско-русской парой работал коллектив Института языка и литературы НАН Беларуси под руководством В. А. Кощенко (И. В. Глинник, О. В. Мицкевич, А. В. Зубов, И. Л. Копылов), а также Ю. А. Стасевич (Коровко) и Е. Н. Скопинова (Карпучок).

Болгарский компонент параллельных корпусов НКРЯ в русско-болгарской части основывается на текстах, любезно предоставленных Великотырновским университетом (группой под руководством проф. Гочо Гочева). Тексты с болгарским оригиналом собраны и метаразмечены Д. В. Сичинавой (с автоматическим выравниванием).

Создание бурятско-русского корпуса осуществлялось ИРЯ РАН совместно с Институтом монголоведения, буддологии и тибетологии РАН (Улан-Удэ) под руководством Л. Д. Бадмаевой.

Испанско-русские тексты подготовлены А. Ю. Орлицкой, К. О. Шейфер, С. Ю. Бочавер и В. С. Люсиной. 

Итальянско-русские тексты выравнивались К. Д. Балакиной, А. Бонолой, Ф. Бьяджини и В. Нозедой. 

В разработке китайско-русской языковой пары участвует коллектив сотрудников и студентов из российских (ВШЭ, РГГУ, МГУ, РАНХиГС, Алтайский государственный университет) и китайских вузов; в частности, ключевые роли в проекте на разных этапах играли Л. С. Холкина, К. И. Семенов, С. П. Дурнева, Ю. Н. Кузнецова, М. Н. Якубов. Поиском и предоставлением данных, наряду с выравниванием текстов, занимаются Синь На (и коллектив под руководством Е Цисуна) Института лексикографии Хэйлунцзянского университета, а также Юань Мяосюй (и коллектив под руководством Ван Юн) Института иностранных языков Чжэцзянского университета. В корпус вошли также коллекции параллельных текстов, собранные К. П. Ульяновой (деловые письма), совместно Тао Юань и В. П. Захаровым, а также отдельная коллекция переводов на китайский язык Нового Завета. Полный список участников рабочей группы китайского-русского корпуса.

Латышско-русские, а также литовско-русские тексты подготовлены Н. В. Перковой.

Параллельный польско-русский корпус развивался совместно группой Варшавского университета под руководством М. Лазиньского и группой РГГУ под руководством С. О. Минлос.

Португальско-русские параллельные тексты выравнивала А. Ю. Орлицкая.

Румынско-русские параллельные тексты собирала и метаразмечала К.-Д. Маляр (выравнивание автоматическое с коррекцией Д. В. Сичинавы).

Над украинско-русской парой работала М. А. Шведова при участии О. А. Тищенко-Монастырской и А. Л. Кривенко.

Финско-русские тексты для корпуса готовила К. О. Шейфер. Кроме того, корпус включает также подборку межгосударственных договоров, подготовленную и выровненную под руководством М. Н. Михайлова в университете Тампере.

Над французско-русской парой работала группа ИПИ РАН под руководством И. М. Зацмана и Анны А. Зализняк (Н. В. Бунтман, О. С. Кожунова, М. Г. Кружков), а также французские исследователи (В. Бене и С. Луазо).  Часть текстов подготовлена практикантами НИУ ВШЭ под руководством К. О. Шейфер.

Чешско-русские тексты подготовлены группой под руководством Т. А. Малышевой (А. А. Бескровная, Д. Р. Восканян).

Шведско-русские тексты выравнивали Н. В. Перкова (Стокгольмский университет / Упсальский университет); М. Лундгрен и Э. Маттссон (Упсальский университет, под руководством К. Окерман-Саркисян и О. Янссон).

Эстонско-русские тексты размечены Н. В. Перковой, М. В. Боровиковой, Е. С. Фоминой. 

В основу многоязычного корпуса положен Амстердамский параллельный корпус ASPAC профессора А. Барентсена (Амстердамский университет), дополненный в рамках НКРЯ более точным выравниванием (по предложениям вместо абзацев), грамматической разметкой для большинства языков и некоторыми новыми текстами. Отдельные тексты из корпуса ASPAC, с программным уточнением выравнивания, вошли в состав также некоторых языковых пар: английской, болгарской, итальянской, немецкой, польской, португальской, французской, чешской, шведской.

Работа велась при поддержке проектов ОИФН РАН «Программное обеспечение корпуса параллельных текстов: разработка методики выравнивания» (руководитель Д. О. Добровольский), «Пополнение и развитие корпуса параллельных текстов» (руководитель Д. О. Добровольский), проекта «Корпусная лингвистика» (руководитель направления Д. О. Добровольский), гранта РГНФ № 11-24-01004a/Bel «Корпусные сопоставительные исследования русского и белорусского языков и разработка параллельных электронных корпусов» (руководитель А. М. Молдован), гранта РФФИ № 12-06-33038 «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» (руководитель Д. В. Сичинава), РФФИ №15-46-04417 («Бурятско-русский параллельный корпусный модуль»; руководитель Л. Д. Бадмаева).

Обновлено