О проекте
Организация проекта
Основной корпус письменных текстов
Корпус СМИ 1990-2000-х годов (газетный корпус)
Корпус устных текстов (корпус живой русской речи)
Акцентологический корпус (корпус истории русского ударения)
Мультимедийный корпус
Параллельные корпуса письменных текстов
Корпус диалектных текстов
Корпус поэтических текстов
Обучающий корпус русского языка
Поисковая система
Дизайн и поддержка сайта
Информация об участниках проекта
Команда мультимедийного корпуса
Организация проекта
В создании Национального корпуса русского языка в настоящее время участвует большая группа лингвистов Москвы, Санкт-Петербурга, Казани, Воронежа, Саратова и других научных центров России.
Почтовый адрес администрации Корпуса: 119019 Москва, Г-19, Волхонка, 18/2,
Институт русского языка им. В. В. Виноградова РАН,
Отдел компьютерной лингвистики и лингвистической поэтики.
В период 2003-2010 гг. проект создания Национального корпуса получил поддержку:
Отделения историко-филологических наук Российской академии наук в рамках программ «Филология и информатика» (2003-2006), «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006-2009), «Генезис и взаимодействие социальных, культурных и языковых общностей», «Текст во взаимодействии с социокультурной средой: уровни историко-литературной и лингвистической интерпретации»; Президиума РАН «Историко-культурное наследие и духовные ценности России» (2009-2012)
Российского гуманитарного научного фонда (гранты РГНФ №№ 03-04-00226а, 06-04-03817в, 06-04-03818в, 08-04-12127в, 09-04-12159в);
Российского фонда фундаментальных исследований (гранты РФФИ №№ 06-06-80133а, 08-06-00371-а).
федеральной целевой программы «Русский язык» Федерального агентства по образованию (госконтракты №№ 1028, 890, 608 от 14.12.2006, 219 от 18.06.2007, 66 от 11.04.2008).
В проекте участвуют специалисты Института русского языка им. В. В. Виноградова РАН [ИРЯ РАН], Института языкознания РАН [ИЯз РАН], Института проблем передачи информации РАН [ИППИ РАН], Всероссийского института научной и технической информации РАН [ВИНИТИ РАН] и Института лингвистических исследований РАН [ИЛИ РАН] в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом [СПбГУ]), Казанского (Приволжского) федерального университета, Воронежского государственного университета, Саратовского государственного университета. Подробная информация о сотрудниках проекта, на разных этапах принимавших участие в работе над Корпусом, размещена на странице «Участники».
Подробнее об истории создания корпуса см. статью Д. В. Сичинавы «Национальный корпус русского языка: очерк предыстории» (2005).
Основной корпус письменных текстов
Создание основного корпуса письменных и устных текстов. В этой работе выделяется ряд подзадач:
Создание представительного корпуса письменных текстов XVIII века. Эта задача решалась группой КГУ под руководством В. Д. Соловьёва и группой ИРЯ под руководством С. О. Савчук при поддержке программы Президиума РАН «Историко-культурное наследие и духовные ценности России» (руководитель проекта Д. В. Сичинава).
Создание представительного корпуса письменных текстов XIX первой половины XX века. Эта задача решалась группой ИЛИ РАН под руководством М. Д. Воейковой и Н. Н. Казанского при поддержке грантов РФФИ № 03-04-00226а (руководитель проекта Л. А. Вербицкая), № 06-04-03817в (руководитель проекта Е. В. Рахилина), программы ОИФН РАН (проект «Пополнение текстовых ресурсов корпуса (тексты первой половины ХХ в.)», руководитель С. О. Савчук).
Создание представительного корпуса современных письменных текстов (середины XX начала XXI века). Эта задача решалась группой ИРЯ РАН (с участием сотрудников ряда других институтов) под руководством А. М. Молдована и В. А. Плунгяна при поддержке проектов ОИФН РАН «Формирование и метатекстовая разметка корпуса текстов второй половины XX и XXI вв.» (руководитель В. А. Плунгян), «Подготовка окончательного варианта корпуса современного русского языка: коррекция баланса и редактирование» (руководитель Е. В. Рахилина), проектов Федерального агентства по образованию «Электронный корпус русского языка: научно-исследовательский и обучающий Интернет-ресурс», «Информационное наполнение банка данных о русском языке, его истории и современном состоянии» (руководитель А. М. Молдован).
Разработка принципов морфологической и словообразовательно-семантической разметки для сбалансированного корпуса письменных текстов, разработка программного обеспечения и разметка корпусов. Эта задача решалась группой ИРЯ РАН при поддержке ОИФН РАН (проекты «Создание программного обеспечения для Национального корпуса текстов русского языка», руководители А. Я. Шайкевич и С. А. Шаров, «Программное обеспечение Национального корпуса русского языка XIX-XXI вв.», руководители они же, «Лексико-семантическая и таксономическая разметка подмассива сбалансированного корпуса», «Морфосемантическая разметка и снятие морфологической и лексической омонимии в Национальном корпусе русского языка», «Модель управления глагола и текст: теоретические и прикладные аспекты», — руководитель всех трёх Е. В. Падучева, «Процессы словообразования в текстовой динамике», руководитель О. Н. Ляшевская, «Конструкции и динамика текста», руководитель Е. В. Рахилина).
Общие принципы морфологической разметки текста были разработаны В. А. Плунгяном при участии
Г. И. Кустовой, А. Е. Полякова и Д. В. Сичинавы.
Программное обеспечение для морфологической разметки Корпуса разработано Д. В. Панкратовым,
А. Е. Поляковым и В. А. Титовым и в дальнейшем развивалось Т. А. Архангельским и А. И. Зобниным на базе программ автоматического морфологического
анализа русских письменных текстов
Mystem
(разработка компании Яндекс)
и Dialing
(коллектив авторов под руководством А. В. Сокирко).
Теоретической разработкой принципов морфологического анализа для этих программ занимались Л. Л. Иомдин
и В. З. Санников (Mystem) и Н. Н. Леонтьева (Dialing).
В создании и усовершенствовании программного обеспечения Национального корпуса
в целом (системы поиска, метатекстовой разметки, семантической разметки и др.)
принимали участие на различных этапах работы А. А. Аброскин, Т. А. Архангельский, Н. В. Григорьев, С. В. Давыдов, А. И. Зобнин, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов,
А. Е. Поляков, В. А. Титов, О. М. Урюпина и С. Ю. Шустрова.
В работах по морфологической разметке принимал участие большой коллектив специалистов, а также студентов и аспирантов лингвистических вузов Москвы. Наиболее значительный объем работ был выполнен О. Л. Бирюк, Д. С. Ганенковым, Е. А. Гришиной, О. В. Драгой, Г. И. Кустовой, Ю. А. Ландером, О. Н. Ляшевской, Т. А. Майсаком, Е. А. Пшехоцкой, Ю. Д. Семьяновой, Д. В. Сичинавой и С. В. Уляхиной.
В экспертизе результатов морфологической и акцентной разметки участвовали П. М. Аркадьев, А. В. Венцов, Д. С. Ганенков, Е. А. Гришина, Г. И. Кустова, О. Н. Ляшевская, Н. В. Перцов.
В разработке и внедрении в Корпус
словообразовательно-семантической разметки участвовали Е. Ю. Калинина, Г. И. Кустова, О. Н. Ляшевская, Е. В. Падучева, В. А. Плунгян, Е. В. Рахилина, С. Ю. Толдова, Е. Б. Чекменёва и О. Ю. Шеманаева (Подлесская). Программные средства для семантической разметки разработаны А. Е. Поляковым и А. И. Зобниным.
Разработка принципов метатекстовой разметки и отбора текстов. Общие принципы метатекстовой разметки и отбора текстов были разработаны С. О. Савчук и С. А. Шаровым, при участии Е. А. Гришиной, В. А. Плунгяна и Е. Г. Соколовой; программное обеспечение для метатекстовой разметки и поиска составлено С. А. Шаровыми А. Е. Поляковым. Координация работ по метатекстовой разметке текстов Национального корпуса
осуществлялась С. О. Савчук и Д. В. Сичинавой; значительный объем работ в этой
области (включая предварительный отбор и вычитку текстов) был выполнен, помимо названных лиц, также
А. В. Беляевой, И. А. Волковым, А. И. Дворкиной, М. А. Кожевниковой,
Н. А. Коротковой, Е. Н. Ловлей, В. С. Мальцевой, А. А. Маховой, Е. Н. Морозовой,
Т. И. Резниковой, М. М. Ровинской, М. И. Русановой, К. И. Самоходской, Н. В. Сердобольской,
Т. А. Фокиной, А. В. Файнвейц и А. В. Шипуновой. Обработка и метаразметка текстов
XIX века была выполнена Н. Л. Дич и С. А. Оскольской. В подготовке метаописаний текстов второй половины ХХ века
составителям Корпуса также оказали помощь М. А. Журинская и Г. Л. Юзефович.
Разработчики Корпуса приносят благодарность следующим издательским коллективам и фондам,
предоставившим для архива Корпуса электронные версии находящихся в их распоряжении текстов:
Корпус СМИ 1990-2000-х годов (газетный корпус)
Создание подкорпуса современных текстов средств массовой информации. Эта задача решается группой ИРЯ РАН под руководством С. О. Савчук; в работе участвуют также Л. А. Алексеевский и М. В. Кудинов. За предоставленные тексты разработчики корпуса приносят благодарность Д. В. Левоняну и С. С. Рубакову (Corpus Technologies).
Корпус устных текстов (корпус живой русской речи)
Создание подкорпуса записей устной речи. Эта задача решалась группой ИРЯ РАН под руководством Е. А. Гришиной при поддержке грантов РГНФ № 03-04-00226а (руководитель проекта Л. А. Вербицкая) и РФФИ № 06-06-80133а (руководитель проекта В. А. Плунгян), проекта Федерального агентства образования «Разработка и апробация информационного ресурса “Корпус живой русской речи”» (руководитель А. М. Молдован). Разработчики корпуса приносят благодарность М. В. Китайгородской, М. Л. Каленчук и Н. Н. Розановой (ИРЯ РАН), А. С. Герду и М. В. Русаковой (СПбГУ), О. Б. Сиротининой (Саратовский государственный университет), Исследовательскому коллективу филологического факультета СПбГУ под руководством А. С. Асиновского (А. С. Асиновский, Н. В. Богданова, С. Б. Степанова, Т. Ю. Шерстинова, И. В. Королева и др.; Мультимедийный корпус русского языка повседневного общения «Один речевой день»), предоставившим для Корпуса материалы записей устной речи.
Акцентологический корпус (корпус истории русского ударения)
Создание подкорпуса текстов, несущих информацию об истории русского ударения. Эта задача решалась группой под руководством Е. А. Гришиной при поддержке гранта РФФИ № 08-06-00371-а (руководитель проекта Е. А. Гришина). В работе над проектом участвовали Н. В. Перцов, С. В. Пискунова, А. Е. Поляков, С. О. Савчук, Д. В. Сичинава.
Мультимедийный корпус
Создание мультимедийного корпуса. Эта задача решалась группой под руководством Е. А. Гришиной при поддержке гранта РФФИ № 10-0600151-а (руководитель проекта С. О. Савчук) и программы ОИФН «Генезис и взаимодействие социальных, культурных и языковых общностей». См. также Список участников проекта.
Параллельные корпуса письменных текстов
Создание корпусов параллельных текстов. Разработку англо-русского, русско-английского и немецко-русского корпусов решали совместно группа ИРЯ РАН под руководством Д. О. Добровольского и группа Воронежского университета под руководством А. А. Кретова (Е. Н. Подтележникова, И. А. Меркулова, К. М. Шилихина, Ю. П. Плешкова, Ю. П. Суворова). На начальных этапах в работе принимала участие также группа СПбГУ под руководством В. Б. Касевича. Над параллельными французско-русским и русско-французским корпусами работала группа ИПИ РАН под руководством И. М. Зацмана и Анны А. Зализняк (Н. В. Бунтман, О. С. Кожунова, М. Г. Кружков). Испанско-русские и русско-испанские тексты выровнены В. С. Люсиной, итальянско-русские и русско-итальянские — Ф. Бьяджини и А. Бонолой (наряду с текстами, предоставленными А. Барентсеном). Параллельные польско-русский и русско-польский корпуса развивались совместно группой Варшавского университета под руководством М. Лазинского и группой РГГУ под руководством С. О. Минлос. Над параллельными украинско-русским и русско-украинским корпусами работал коллектив украинских специалистов (М. А. Шведова, О. А. Тищенко-Монастырская, А. Л. Кривенко), над белорусско-русским и русско-белорусским — коллектив Института языка и литературы НАНБ под руководством В. А. Кощенко (И. В. Глинник, О. В. Мицкевич, А. В. Зубов, И. Л. Копылов). В основе многоязычного корпуса лежат тексты, любезно предоставленные А. Барентсеном (Амстердам); ряд текстов привлечён разработчиками НКРЯ дополнительно, кроме того, выравнивание текстов полуавтоматически уточнено. Ряд английских, немецких и французских текстов совокупным объёмом 10 тыс. параллельных предложений любезно предоставлен компанией ABBYY (проект ABBYY Lingvo Pro). Общую координацию проектов параллельных корпусов осуществлял Д. В. Сичинава. В работе принимали участие программисты Т. А. Архангельский и А. П. Печёный. Работа велась при поддержке проектов ОИФН РАН «Программное обеспечение корпуса параллельных текстов: разработка методики выравнивания» (руководитель Д. О. Добровольский), «Пополнение и развитие корпуса параллельных текстов» (руководитель Д. О. Добровольский), проекта «Корпусная лингвистика» (руководитель Д. О. Добровольский), гранта РГНФ № 11-24-01004a/Bel «Корпусные сопоставительные исследования русского и белорусского языков и разработка параллельных электронных корпусов» (руководитель А. М. Молдован), гранта РФФИ № 12-06-33038 «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» (руководитель Д. В. Сичинава).
Корпус диалектных текстов
Работа по созданию корпуса русских диалектных текстов осуществлялась группой ИРЯ РАН под руководством А. Б. Летучего, а затем И. Б. Качинской, при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и грантов РФФИ № 06-04-03818в и РГНФ 09-04-12159в (руководитель проектов В. М. Живов). Принципы разметки были разработаны А. Б. Летучим при участии В. С. Мальцевой и В. А. Плунгяна, а затем доработаны И. Б. Качинской при участии Е. В. Моисеевой и Д. В. Сичинавы. Программные средства для разметки корпуса разработаны Т. А. Архангельским. Разработчки Корпуса приносят благодарность И. И. Исаеву, Л. Л. Касаткину и С. К. Пожарицкой за консультации по разработке принципов формата разметки и по отбору и представлению диалектных текстов, Л. Л. Касаткину и Р. Ф. Касаткиной (ИРЯ РАН), С. К. Пожарицкой (МГУ), В. Е. Гольдину (Саратовский государственный университет), С. П. Праведникову (Курский государственный педагогический университет), А. И. Рыко (Санкт-Петербургский государственный университет), предоставившим для Корпуса диалектные тексты.
Корпус поэтических текстов
Работа по созданию корпуса русских поэтических текстов осуществлялась группой ИРЯ РАН под руководством В А. Плунгяна при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и гранта РГНФ 08-04-12127в «Создание информационной системы «Корпус русской поэзии» в рамках Национального корпуса русского языка» (руководитель Н. В. Перцов). Принципы разметки поэтических текстов были разработаны В. А. Плунгяном при участии Е. А. Гришиной, К. М. Корчагина, Н. В. Перцова, А. Е. Полякова и Д. В. Сичинавы. Наиболее значительный объем работ по сбору и разметке поэтических текстов был выполнен Т. А. Архангельским, Д. А. Ивановой, К. М. Корчагиным и Д. В. Сичинавой; активное участие в работе над поэтическим корпусом принимали также Н. К. Богомолова, Е. А. Гришина, Е. Н. Ловля, Б. В. Орехов, Д. А. Эршлер. Координация работ и редактирование разметки поэтического подкорпуса осуществлялась В. А. Плунгяном и К. М. Корчагиным при участии Д. В. Сичинавы. За предоставленные тексты разработчики Корпуса благодарят П. М. Нерлера, издательство «Академический проект», а также сетевые проекты «Русская виртуальная библиотека» и «Фундаментальная электронная библиотека».
Обучающий корпус русского языка
Работа по созданию обучающего корпуса осуществляется группой ИРЯ РАН при поддержке проекта Федерального агентства по образованию «Разработка и апробация электронного ресурса "Обучающий корпус русского языка"» (руководитель А. М. Молдован).
Поисковая система
Поиск по корпусу осуществляется поисковой системой
Яндекс.Сервер. Для поиска грамматической и метатекстовой информации
задействованы способности Яндекс.Серввера по поиску скрытых
свойств (атрибутов) документов и фрагментов текста.
Поисковая выдача также формируется при помощи средств
Яндекс.Сервера.
Дизайн и поддержка сайта
Дизайн сайта Национального корпуса выполнен А. С. Зыковой (Интернет-лаборатория «Ксан»)
Поддержка сайта осуществляется компанией «Яндекс».
|