Корпус
  • 1 342 851 текст
  • 135 768 732 слова
устный
Корпус: Акцентологический
Акцентологический корпус

Акцентологический корпус (корпус истории русского ударения) (открылся в 2008 г.) включает тексты, несущие информацию об истории русского ударения. Во-первых, это все тексты поэтического корпуса, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая дополнительной интерпретации) о месте ударения в слове. Во-вторых, это акцентуированные (в соответствии с реально звучащим ударением) записи устной речи, в том числе кинофильмов. Эти тексты доступны для поиска по месту ударения и просодической структуре слова. В-третьих, это подкорпус наивной поэзии. Наивная поэзия — это стихотворные тексты, написанные поэтами-любителями, не публикующимися в признанной литературной периодике. Эстетические достоинства этих текстов не важны для исследования русской акцентологии, но регулярность чередований ударных и безударных слогов в русском стихе дает бесценный материал для уяснения множества вопросов, связанных с расстановкой ударений в словах современными носителями русского языка.

Ударения, представленные в корпусе, не обязательно соответствуют современной орфоэпической норме («как правильно»). По собранным текстам можно судить, прямо или косвенно, как люди реально говорили и говорят. В корпус входят тексты начиная с XVIII века, и по нему можно проследить эволюцию русского ударения: когда люди вместо вёрсту, приклеи́л, Гамле́т, а́нглийский стали говорить версту́, прикле́ил, Га́млет, англи́йский, у каких авторов и дикторов сосуществует несколько вариантов, какие используют более архаичное ударение или, напротив, опережают время.

Разметка

Разметка в разных частях акцентологического корпуса имеет разный уровень информативности с точки зрения реального ударения в тексте.

Наиболее точную информацию дают ударения из устных/мультимедийных текстов. Они опираются на аудиозаписи и должны соответствовать звучащей речи (для части текстов соответствующие аудио- и видеозаписи доступны в мультимедийном корпусе). Если ударение стоит не там, где звучит на записи, — это ошибка.

В текстах Поэтического корпуса размеченные слоги  (обозначенные иным, чем собственно ударения, знаком — диакритикой   ̀ гравис над гласной буквой) — это далеко не всегда именно ударные слоги в речи автора. Это так называемые сильные места, или икты, поэтического размера. Например, в стихе пушкинского «Евгения Онегина» (это так называемый «четырехстопный ямб») в каждой строке есть четыре сильных места, на которые могут приходиться ударения неодносложных слов, а реальных ударений обычно меньше (три или два). В строке Когда̀ не в шу̀тку за̀немо̀г четыре сильных места (из них два в одном слове), а ударений только три. Таким образом, обычно из стиховедческой разметки строки можно сделать косвенный вывод о том, с каким ударением слово произносил автор, но есть и случаи неоднозначности. Например, в строках Иосифа Уткина

«Славы, добытой когда-то,
Корпус твой не растерял
»

может быть ударение и до́бытой, и добыто́й, а вот ударения добы́той конкретно здесь быть не может (хотя оно тоже реальное и встречается у других поэтов).

В текстах коллекции «Наивная поэзия» ударения размечены при помощи машинного обучения. Предполагается, что это именно реальные ударения, но так как эта разметка полностью автоматическая и не проверялась человеком — а кроме того, недоступны и аудиозаписи, по которым можно было бы проверить неоднозначные случаи, — в ней возможны ошибки.

Популярное объяснение того, как и зачем сделан такой корпус, можно найти в статьях на сайте «Системный Блокъ»: 

 

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

 

Акцентуаторы. Памяти А.А. Зализняка

Публикации

Ознакомьтесь со списком научных публикаций об Акцентологическом корпусе по ссылке: https://ruscorpora.ru/s/bq5rk. Чтобы найти другие типы публикаций о корпусе, используйте фильтры в разделе «‎Публикации»‎.

Создание Корпуса

На начальном этапе задача создания акцентологического корпуса решалась группой под руководством Е. А. Гришиной при поддержке гранта РФФИ № 08-06-00371-а (руководитель проекта Е. А. Гришина). В работе над проектом участвовали Н. В. Перцов, С. В. Пискунова, А. Е. Поляков, С. О. Савчук, Д. В. Сичинава.

Дальнейшее развитие корпуса осуществлялось при поддержке программы «Корпусная лингвистика», в рамках которой были подготовлены и включены в состав корпуса уникальные материалы фонотеки ИРЯ им. В. В. Виноградова РАН.

В 2015 г. в акцентологический корпус включён подкорпус наивной поэзии — это акцентологически размеченные тексты непрофессиональных литераторов с сайта stihi.ru. За предоставление этих текстов НКРЯ благодарит команду Поиска Mail.Ru и лично Андрея Кутузова. Тексты размечены и загружены в корпус Б. В. Ореховым. Акцентуация произведена автоматически с помощью программы, написанной Ю. Г. Зеленковым. 

В состав акцентологического корпуса включена коллекция текстов, собранная студентами Казахстанского филиала МГУ им. М. В. Ломоносова в 2011-2015 гг. За предоставленные материалы приносим благодарность руководителю практики к. ф. н., доц. Казахстанского филиала МГУ С. М. Треблер и к. ф. н., доценту МГУ И. Б. Качинской.

За предоставленную коллекцию устных воспоминаний благодарим отдел устной истории Научной библиотеки МГУ, Фонд «Устная история» и лично Д. Б. Спорова и В. А. Иванова. 

Обновлено 17.10.2024