Корпус
  • 75 текстов
  • 4 408 536 слов
омонимия снята, синтаксически размечен
Корпус "От 2 до 15"

Корпус открыт в 2022 году и включает в себя литературу на русском языке, которую читают современные дети и подростки. Сейчас в корпус входят 75 прозаических произведений отечественных и зарубежных авторов. Тексты подобраны по результатам масштабных опросов детей, подростков, учителей и родителей. Каждый текст размечен в соответствии с возрастом, в котором его обычно наиболее интересно читать. Позже планируется добавить разметку трудных мест русской орфографии в помощь ученикам и учителям.

Разметка

Для автоматической разметки фрагментов текстов по минимальному возрасту, в котором они предположительно будут понятны читателям, была создана нейросетевая модель. Качество предсказаний модели достаточно высоко (в 92% случаев ее выводы совпадали с данными, полученными от экспертов), но она пока остаётся экспериментальной, и в разметке возможны ошибки. Кроме того, разумеется, скорость роста словарного запаса, уровень читательской подготовки и индивидуальное развитие детей может существенно варьировать; разметка корпуса предполагает лишь усредненные значения.

Создание корпуса

Работа по созданию корпуса началась в 2020 году. Над корпусом работали Б.Л. Иомдин, Д.А. Морозов, Н.Н. Буйлова, А.В. Глазкова.

Авторы выражают благодарность всем школьникам, которые участвовали в опросах и помогали собрать списки литературы для включения в корпус.

Публикации

Ознакомьтесь со списком научных публикаций о корпусе «От 2 до 15» по ссылке: https://ruscorpora.ru/s/enXPP. В разделе «‎Публикации»‎ используйте фильтры, чтобы найти другие типы публикаций о корпусе.

Обновлено 22.07.2024