Корпус
  • 3067 текстов
  • 790 310 слов
мультимедийный, устный, омонимия снята
Корпус диалектных текстов

Диалектный корпус развивается с 2005 года. Он включает в себя записи диалектной речи из различных регионов России и зарубежных стран (Беларусь, Азербайджан), включая как говоры раннего образования (Север, Центр, Запад, Юг), так и позднего (Поволжье, Кавказ, Урал, Сибирь, Дальний Восток). Представлены как спонтанная речь и индивидуальные рассказы, так и фольклорные прозаические и поэтические тексты. Около трети текстов сопровождается аудио- и видеозаписями, соответствующими тексту целиком (не только доступному в выдаче фрагменту).

Диалектный корпус пополняется главным образом за счет уже изданных региональных диалектных хрестоматий, которые, как правило, выходили небольшим тиражом в качестве пособий по диалектологии для студентов местных вузов, а также за счет передаваемых в Корпус полевых экспедиционных материалов. Расшифровки полевых материалов принимаются как в транскрипции, так и в орфографизированном и даже орфографическом исполнении, желательно с сохранением ударений и особенностей грамматики. Поощряется подача текстов с аудиосопровождением.

Разметка и инструменты

Полностью сохранена морфологическая, синтаксическая и лексическая специфика текстов. Часть текстов представлена в фонологизированной записи с ударениями. Другие тексты даются в орфографии, приближенной к стандартной, но все же передающей многие диалектные особенности.  Для каждой словоформы размечена также ее нормализованная версия, соответствующая литературной орфографии и фонетике, в сферу нормализации могут входить также элементы морфологии, например, убегли в соответствии с убяɣли́, ребятишками в соответствии с ребятишкимя).

В Диалектном корпусе имеются специальные пометы для особенностей диалектной морфологии, в том числе явлений, отсутствующих в литературном языке (например, особенности рода — для употребления слова мышь в мужском роде или время в женском). Чисто диалектные лексемы снабжены толкованиями (поветь 'хозяйственная часть дома'). Для многих лексем указана связанная лексема — речь идет о словоизменительных связях (братец/брат) или синонимических отношениях (клюшечка/палка). 

Развернутая метаразметка учитывает базовые фонетические особенности, встретившиеся в каждом тексте (вокализм и консонантизм), его датировку, жанровую характеристику, тематику текста, время и место событий, о которых идет речь, социологические сведения об информанте, данные об административной принадлежности населенного пункта, где сделана запись, а также сведения о диалектологе, предоставившем текст, и о предыдущих публикациях текста.

В части текстов, готовившихся до 2008 г., метатекстовая разметка на всех уровнях не столь подробна и, в частности, не включает данных о фонетике.

Возможен выбор подкорпуса по большинству этих параметров, по наличию записей, по типу орфографии. В корпусе доступны основные инструменты поиска и визуализации — регулярные выражения (для лемм и словоформ), графики, частотность, статистика по базовым метапараметрам (в том числе разделению на окающие и акающие говоры), n-граммы, частотные словари, таблица парадигмы существительного (в Портрете слова). 

Ведётся работа по интеграции базы данных пунктов, охваченных корпусом, с цифровой базой данных Диалектологического атласа русского языка.

Публикации

Ознакомьтесь со списком научных публикаций о диалектном корпусе по ссылке: https://ruscorpora.ru/s/e9BmY. В разделе «‎Публикации»‎ используйте фильтры, чтобы найти другие типы публикаций о корпусе.

Создание корпуса

Работа по созданию корпуса русских диалектных текстов осуществлялась группой ИРЯ РАН, первоначально под руководством А. Б. Летучего, а с 2008 г. И. Б. Качинской, при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и грантов: РФФИ № 06-04-03818в,  РГНФ № 09-04-12159в, РГНФ № 14-04-12012, РФФИ № 18-012-00557 (руководители: первых двух проектов В. М. Живов, затем Д. В. Сичинава и А. В. Малышева). Новый импульс развитию Диалектного корпуса придал проект Министерства образования и науки № 075-15-2020-793 (2020—2023)

Принципы разметки были разработаны А. Б. Летучим при участии В. С. Мальцевой и В. А. Плунгяна, а затем доработаны И. Б. Качинской при участии Е. В. Моисеевой и Д. В. Сичинавы. Программные средства для разметки корпуса (включая рабочее место администратора) разработаны Т. А. Архангельским, конвертацию форматов осуществляли А. В. Панасюк и Е. М. Бирюкова. Работу над разметкой текстов под руководством И. Б. Качинской вели А. Н. Антонова, С. А. Афанасьева, М. С. Картышева, М. С. Нестерова, М. В. Новикова (Гашнева), А. И. Рыко, М. Г. Соломатина и другие.

 

Разработчки Корпуса приносят благодарность

И. И. Исаеву, Л. Л. Касаткину и С. К. Пожарицкой за консультации по разработке принципов формата разметки и по отбору и представлению диалектных текстов,

Е. П. Багировой (Тюменский государственный университет), Т. Е. Баженовой (Волгоградский государственный педагогический университет), Е. Н. Бекасовой (Оренбургский государственный педагогический университет), С. М. Беляковой (Тюменский государственный университет), Е. В. Грудевой, Н. А. Волковой, Н. Г. Мельниковой (Миховой) (все — Череповецкий государственный университет), В. М. Грязновой (Северо-Кавказский федеральный университет), З. П. Здобновой (Башкирский государственный университет), Т. Ф. Зибровой (Самарский государственный университет), Е. В. Иванцовой (Томский государственный университет), И. И. Исаеву (Российский государственный гуманитарный университет), Л. Л. Касаткину и Р. Ф. Касаткиной (ИРЯ РАН), Р. И. Кудряшовой (Волгоградский государственный педагогический университет), С. К. Пожарицкой (МГУ), В. Е. Гольдину и О. Ю. Крючковой (Саратовский государственный университет), Т. В. Махрачевой (Тамбовский государственный университет), С. А. Мызникову (ИЛИ РАН), Е. А. Нефёдовой (МГУ им. М. В. Ломоносова), С. П. Праведникову (Курский государственный педагогический университет), И. И. Русиновой (Пермский государственный университет), А. И. Рыко (Санкт-Петербургский государственный университет), З. В. Сметаниной (Вятский государственный университет), А. Д. Черенковой (Воронежский государственный педагогический университет), Т. Б. Юмсуновой-Моррис (Орегонский университет), предоставившим для Корпуса диалектные тексты.

Обновлено 23.02.2026