О проекте

  • Организация проекта

  • Основной корпус письменных и устных текстов

  • Параллельный корпус письменных текстов

  • Корпус диалектных текстов

  • Корпус поэтических текстов

  • Обучающий корпус русского языка

  • Поисковая система

  • Дизайн и поддержка сайта

  • Информация об участниках проекта

  • Организация проекта

    В создании Национального корпуса русского языка в настоящее время участвует большая группа лингвистов Москвы, Санкт-Петербурга, Казани, Воронежа, Саратова и других научных центров России, объединенная в Ассоциацию «Национальный корпус русского языка». В Ассоциацию может войти любой специалист (или научный коллектив), желающий внести вклад в создание Национального корпуса русского языка и согласный сделать результаты своей работы над корпусом общедоступными.

    Почтовый адрес администрации Корпуса: 119019 Москва, Г-19, Волхонка, 18/2, Институт русского языка им. В. В. Виноградова РАН, Отдел компьютерной лингвистики и лингвистической поэтики.

    В период 2003-2010 гг. проект создания Национального корпуса получил поддержку:

  • Отделения историко-филологических наук Российской академии наук в рамках программ «Филология и информатика» и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов»
  • Российского гуманитарного научного фонда (гранты РГНФ №№ 03-04-00226а, 06-04-03817в, 06-04-03818в);
  • Российского фонда фундаментальных исследований (грант РФФИ № 06-06-80133а).
  • федеральной целевой программы «Русский язык» Федерального агентства по образованию (госконтракты №№ 1028, 890).
  • В проекте участвуют специалисты Института русского языка им. В. В. Виноградова РАН [ИРЯ РАН], Института языкознания РАН [ИЯз РАН], Института проблем передачи информации РАН [ИППИ РАН], Всероссийского института научной и технической информации РАН [ВИНИТИ РАН] и Института лингвистических исследований РАН [ИЛИ РАН] в Санкт-Петербурге (совместно с Санкт-Петербургским государственным университетом [СПбГУ]). Подробная информация о сотрудниках проекта, на разных этапах принимавших участие в работе над Корпусом, размещена на странице «Участники».

    Подробнее об истории создания корпуса см. статью Д. В. Сичинавы «Национальный корпус русского языка: очерк предыстории» (2005).

    Основной корпус письменных и устных текстов

    Создание основного корпуса письменных и устных текстов. В этой работе выделяется ряд подзадач

    :
    1. Создание представительного корпуса письменных текстов XVIII века. Эта задача решается группой КГУ под руководством В. Д. Соловьёва.

    2. Создание представительного корпуса письменных текстов XIX — первой половины XX века. Эта задача решается группой ИЛИ РАН под руководством М. Д. Воейковой и Н. Н. Казанского при поддержке грантов РФФИ № 03-04-00226а (руководитель проекта Л. А. Вербицкая), № 06-04-03817в (руководитель проекта Е. В. Рахилина), программы ОИФН РАН (проект «Пополнение текстовых ресурсов корпуса (тексты первой половины ХХ в.)», руководитель С. О. Савчук).

    3. Создание представительного корпуса современных письменных текстов (середины XX — начала XXI века). Эта задача решается группой ИРЯ РАН (с участием сотрудников ряда других институтов) под руководством А. М. Молдована и В. А. Плунгяна при поддержке проектов ОИФН РАН «Формирование и метатекстовая разметка корпуса текстов второй половины XX и XXI вв.» (руководитель В. А. Плунгян), «Подготовка окончательного варианта корпуса современного русского языка: коррекция баланса и редактирование» (руководитель Е. В. Рахилина), проектов Федерального агентства по образованию «Электронный корпус русского языка: научно-исследовательский и обучающий Интернет-ресурс», «Информационное наполнение банка данных о русском языке, его истории и современном состоянии» (руководитель А. М. Молдован).

    4. Создание подкорпуса записей устной речи (включая тексты кинофильмов). Эта задача решается группой ИРЯ РАН под руководством Е. А. Гришиной при поддержке грантов РГНФ № 03-04-00226а (руководитель проекта Л. А. Вербицкая) и РФФИ № 06-06-80133а (руководитель проекта В. А. Плунгян), проекта Федерального агентства образования «Разработка и апробация информационного ресурса “Корпус живой русской речи”» (руководитель А. М. Молдован). Разработчики корпуса приносят благодарность М. В. Китайгородской, М. Л. Каленчук и Н. Н. Розановой (ИРЯ РАН), А. С. Асиновскому, А. С. Герду и М. В. Русаковой (СПбГУ), О. Б. Сиротининой (Саратовский государственный университет), предоставившим для Корпуса материалы записей устной речи.

    5. Разработка принципов морфологической и словообразовательно-семантической разметки для сбалансированного корпуса письменных текстов, разработка программного обеспечения и разметка корпусов. Эта задача решается группой ВИНИТИ РАН (с участием сотрудников ряда других институтов) под руководством Е. В. Падучевой при поддержке ОИФН РАН (проекты «Создание программного обеспечения для Национального корпуса текстов русского языка», руководители А. Я. Шайкевич и С. А. Шаров, «Программное обеспечение Национального корпуса русского языка XIX-XXI вв.», руководители они же, «Лексико-семантическая и таксономическая разметка подмассива сбалансированного корпуса», руководитель Е. В. Падучева, «Морфосемантическая разметка и снятие морфологической и лексической омонимии в Национальном корпусе русского языка», руководитель Е. В. Падучева).

      Общие принципы морфологической разметки текста были разработаны В. А. Плунгяном при участии Г. И. Кустовой, А. Е. Полякова и Д. В. Сичинавы. При разработке морфологической разметки для Национального корпуса был в значительной мере учтен опыт компьютерного словаря языка А. С. Грибоедова, составленного А. Е. Поляковым.

      Программное обеспечение для морфологической разметки Корпуса разработано Д. В. Панкратовым, А. Е. Поляковым и В. А. Титовым на базе программ автоматического морфологического анализа русских письменных текстов Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов морфологического анализа для этих программ занимались Л. Л. Иомдин и В. З. Санников (Mystem) и Н. Н. Леонтьева (Dialing). В создании и усовершенствовании программного обеспечения Национального корпуса в целом (системы поиска, метатекстовой разметки, семантической разметки и др.) принимали участие А. А. Аброскин,  Н. В. Григорьев,  Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов, О. М. Урюпина и С. Ю. Шустрова.

      Координация работ по морфологической разметке текстов с ручным снятием грамматической омонимии осуществлялась Д. В. Сичинавой. В работах по морфологической разметке принимал участие большой коллектив специалистов, а также студентов и аспирантов лингвистических вузов Москвы. Наиболее значительный объем работ был выполнен О. Л. Бирюк, Д. С. Ганенковым, Е. А. Гришиной, О. В. Драгой, Г. И. Кустовой, Ю. А. Ландером, О. Н. Ляшевской, Т. А. Майсаком, Ю. Д. Семьяновой, Д. В. Сичинавой и С. В. Уляхиной.

      В экспертизе результатов морфологической и акцентной разметки участвовали П. М. Аркадьев, А. В. Венцов, Д. С. Ганенков, Е. А. Гришина, Г. И. Кустова, О. Н. Ляшевская, Н. В. Перцов.

      В разработке и внедрении в Корпус словообразовательно-семантической разметки участвовали Е. Ю. Калинина, Г. И. Кустова, О. Н. Ляшевская, Е. В. Падучева, В. А. Плунгян, Е. В. Рахилина, С. Ю. Толдова, Е. Б. Чекменёва и О. Ю. Шеманаева. Программные средства для семантической разметки разработаны А. Е. Поляковым.

    6. Разработка принципов метатекстовой разметки и отбора текстов. Общие принципы метатекстовой разметки и отбора текстов были разработаны С. А. Шаровым, при участии Е. А. Гришиной, В. А. Плунгяна, С. О. Савчук и Е. Г. Соколовой; программное обеспечение для метатекстовой разметки и поиска составлено С. А. Шаровыми А. Е. Поляковым. Координация работ по метатекстовой разметке текстов Национального корпуса осуществлялась С. О. Савчук и Д. В. Сичинавой; значительный объем работ в этой области (включая предварительный отбор и вычитку текстов) был выполнен, помимо названных лиц, также А. В. Беляевой, И. А. Волковым, А. И. Дворкиной, М. А. Кожевниковой, Н. А. Коротковой, Е. Н. Ловлей, В. С. Мальцевой, А. А. Маховой, Е. Н. Морозовой, Т. И. Резниковой, М. М. Ровинской, М. И. Русановой, К. И. Самоходской, Т. А. Фокиной, А. В. Файнвейц и А. В. Шипуновой. Обработка и метаразметка текстов XIX века была выполнена Н. Л. Дич и С. А. Оскольской. В подготовке метаописаний текстов второй половины ХХ века составителям Корпуса также оказали помощь М. А. Журинская и Г. Л. Юзефович.

    Разработчики Корпуса приносят благодарность следующим издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии находящихся в их распоряжении текстов:

    Параллельный корпус письменных текстов

    Создание англо-русского корпуса параллельных текстов. Эту задачу решают совместно группа ИРЯ РАН под руководством Д. О. Добровольского и группа Воронежского университета под руководством А. А. Кретова; на начальных этапах в работе принимала участие также группа СПбГУ под руководством В. Б. Касевича. Работа велась при поддержке проектов ОИФН РАН «Программное обеспечение корпуса параллельных текстов: разработка методики выравнивания» (руководитель Д. О. Добровольский), «Пополнение и развитие корпуса параллельных текстов» (руководитель Д. О. Добровольский).

    Корпус диалектных текстов

    Работа по созданию корпуса русских диалектных текстов осуществляется группой ИРЯ РАН под руководством А. Б. Летучего при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и гранта РФФИ № 06-04-03818в (руководитель проекта В. М. Живов). Принципы разметки были разработаны А. Б. Летучим при участии В. С. Мальцевой и В. А. Плунгяна. Разработчки Корпуса приносят благодарность И. И. Исаеву, Л. Л. Касаткину и С. К. Пожарицкой за консультации по разработке принципов формата разметки и по отбору и представлению диалектных текстов, Л. Л. Касаткину и Р. Ф. Касаткиной (ИРЯ РАН), С. К. Пожарицкой (МГУ), В. Е. Гольдину (Саратовский государственный университет) и С. П. Праведникову (Курский государственный педагогический университет), предоставившим для Корпуса диалектные тексты.

    Корпус поэтических текстов

    Работа по созданию корпуса русских поэтических текстов осуществляется группой ИРЯ РАН под руководством В А. Плунгяна при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян). Принципы разметки поэтических текстов были разработаны В. А. Плунгяном при участии Е. А. Гришиной, К. М. Корчагина, Н. В. Перцова, А. Е. Полякова и Д. В. Сичинавы. Наиболее значительный объем работ по сбору и разметке поэтических текстов был выполнен Т. А. Архангельским, К. М. Корчагиным и Д. В. Сичинавой; активное участие в работе над поэтическим корпусом принимали также Н. К. Богомолова, Е. А. Гришина, Е. Н. Ловля, Б. В. Орехов, Д. А. Эршлер. Координация работ и редактирование разметки поэтического подкорпуса осуществлялась В. А. Плунгяном при участии К. М. Корчагина и Д. В. Сичинавы. За предоставленные тексты разработчики Корпуса благодарят П. М. Нерлера, издательство «Академический проект», а также сетевые проекты «Русская виртуальная библиотека» и «Фундаментальная электронная библиотека».

    Обучающий корпус русского языка

    Работа по созданию обучающего корпуса осуществляется группой ИРЯ РАН при поддержке проекта Федерального агентства по образованию «Разработка и апробация электронного ресурса "Обучающий корпус русского языка"» (руководитель А. М. Молдован).

    Поисковая система

    Поиск по корпусу осуществляется поисковой системой Яndex.Server 3.8 Professional. Для поиска грамматической и метатекстовой информации задействованы способности Яndex.Server по поиску скрытых свойств (атрибутов) документов и фрагментов текста. Поисковая выдача формируется при помощи средств Яndex.Server.

    Дизайн и поддержка сайта

    Дизайн сайта Национального корпуса выполнен А. С. Зыковой
    (Интернет-лаборатория «Ксан»)

    Поддержка сайта осуществляется компанией «Яндекс».

    Russian National Corpus
    © 2003–2017
    info@ruscorpora.ru