Создание корпусов
Общую координацию проектов параллельных корпусов (включая интеграцию и унификацию наборов морфологических тегов и метаразметки) осуществлял Д. В. Сичинава.
В работе принимали участие программисты Т. А. Архангельский (в частности, разработчик рабочего места Евклид для выравнивания текстов), А. П. Печёный (разметивший выравнивание по предложениям в многоязычном корпусе), Д. Алексеев, А. В. Панасюк, Е. М. Бирюкова.
Задачу разработки англо-русской и немецко-русской языковых пар решали совместно группа ИРЯ РАН под руководством Д. О. Добровольского и группа Воронежского университета под руководством А. А. Кретова (Е. Н. Подтележникова, И. А. Меркулова, К. М. Шилихина, Ю. П. Плешкова, Ю. П. Суворова). На начальных этапах в работе принимала участие также группа СПбГУ под руководством В. Б. Касевича. В состав данных языковых пар вошли также коллекции параллельных текстов с выравниванием, любезно предоставленные М. А. Куниловской (английские) и Д. Н. Шаповаленко (немецкие), а также тексты, подготовленные практикантами НИУ ВШЭ под руководством К. О. Шейфер.
Армянско-русская двуязычная пара подготовлена Т. О. Шавриной на основе выборки переводных текстов в составе Восточноармянского национального корпуса.
Башкирско-русские тексты подготовлены под общим руководством Б. В. Орехова командой разработчиков-волонтёров из Башкирии для компании «Яндекс».
Над белорусско-русской парой работал коллектив Института языка и литературы НАН Беларуси под руководством В. А. Кощенко (И. В. Глинник, О. В. Мицкевич, А. В. Зубов, И. Л. Копылов), а также Ю. А. Стасевич (Коровко) и Е. Н. Скопинова (Карпучок).
Болгарский компонент параллельных корпусов НКРЯ в русско-болгарской части основывается на текстах, любезно предоставленных Великотырновским университетом (группой под руководством проф. Гочо Гочева). Тексты с болгарским оригиналом собраны и метаразмечены Д. В. Сичинавой (с автоматическим выравниванием).
Создание бурятско-русского корпуса осуществлялось ИРЯ РАН совместно с Институтом монголоведения, буддологии и тибетологии РАН (Улан-Удэ) под руководством Л. Д. Бадмаевой.
Испанско-русские тексты подготовлены А. Ю. Орлицкой, К. О. Шейфер, С. Ю. Бочавер и В. С. Люсиной.
Итальянско-русские тексты выравнивались К. Д. Балакиной, А. Бонолой, Ф. Бьяджини и В. Нозедой.
В разработке китайско-русской языковой пары участвует коллектив сотрудников и студентов из российских (ВШЭ, РГГУ, МГУ, РАНХиГС, Алтайский государственный университет) и китайских вузов; в частности, ключевые роли в проекте на разных этапах играли Л. С. Холкина, К. И. Семенов, С. П. Дурнева, Ю. Н. Кузнецова, М. Н. Якубов. Поиском и предоставлением данных, наряду с выравниванием текстов, занимаются Синь На (и коллектив под руководством Е Цисуна) Института лексикографии Хэйлунцзянского университета, а также Юань Мяосюй (и коллектив под руководством Ван Юн) Института иностранных языков Чжэцзянского университета. В корпус вошли также коллекции параллельных текстов, собранные К. П. Ульяновой (деловые письма), совместно Тао Юань и В. П. Захаровым, а также отдельная коллекция переводов на китайский язык Нового Завета. Полный список участников рабочей группы китайского-русского корпуса.
Латышско-русские, а также литовско-русские тексты подготовлены Н. В. Перковой.
Параллельный польско-русский корпус развивался совместно группой Варшавского университета под руководством М. Лазиньского и группой РГГУ под руководством С. О. Минлос.
Португальско-русские параллельные тексты выравнивала А. Ю. Орлицкая.
Румынско-русские параллельные тексты собирала и метаразмечала К.-Д. Маляр (выравнивание автоматическое с коррекцией Д. В. Сичинавы).
Над украинско-русской парой работала М. А. Шведова при участии О. А. Тищенко-Монастырской и А. Л. Кривенко.
Финско-русские тексты для корпуса готовила К. О. Шейфер. Кроме того, корпус включает также подборку межгосударственных договоров, подготовленную и выровненную под руководством М. Н. Михайлова в университете Тампере.
Над французско-русской парой работала группа ИПИ РАН под руководством И. М. Зацмана и Анны А. Зализняк (Н. В. Бунтман, О. С. Кожунова, М. Г. Кружков), а также французские исследователи (В. Бене и С. Луазо). Часть текстов подготовлена практикантами НИУ ВШЭ под руководством К. О. Шейфер.
Чешско-русские тексты подготовлены группой под руководством Т. А. Малышевой (А. А. Бескровная, Д. Р. Восканян).
Шведско-русские тексты выравнивали Н. В. Перкова (Стокгольмский университет / Упсальский университет); М. Лундгрен и Э. Маттссон (Упсальский университет, под руководством К. Окерман-Саркисян и О. Янссон).
Эстонско-русские тексты размечены Н. В. Перковой, М. В. Боровиковой, Е. С. Фоминой.
В основу многоязычного корпуса положен Амстердамский параллельный корпус ASPAC профессора А. Барентсена (Амстердамский университет), дополненный в рамках НКРЯ более точным выравниванием (по предложениям вместо абзацев), грамматической разметкой для большинства языков и некоторыми новыми текстами. Отдельные тексты из корпуса ASPAC, с программным уточнением выравнивания, вошли в состав также некоторых языковых пар: английской, болгарской, итальянской, немецкой, польской, португальской, французской, чешской, шведской.
Работа велась при поддержке проектов ОИФН РАН «Программное обеспечение корпуса параллельных текстов: разработка методики выравнивания» (руководитель Д. О. Добровольский), «Пополнение и развитие корпуса параллельных текстов» (руководитель Д. О. Добровольский), проекта «Корпусная лингвистика» (руководитель направления Д. О. Добровольский), гранта РГНФ № 11-24-01004a/Bel «Корпусные сопоставительные исследования русского и белорусского языков и разработка параллельных электронных корпусов» (руководитель А. М. Молдован), гранта РФФИ № 12-06-33038 «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» (руководитель Д. В. Сичинава), РФФИ №15-46-04417 («Бурятско-русский параллельный корпусный модуль»; руководитель Л. Д. Бадмаева).