Обучающий корпус русского языка (открылся в 2007 г.) предназначен прежде всего для использования в школьном преподавании русского языка и литературы. Помимо этого его можно использовать в вузовском преподавании (на непрофильных факультетах, например, факультете журналистики), а также для обучения иностранцев русскому языку и подготовки учителей-словесников в педагогических институтах.
Основу корпуса составляют произведения, входящие в российскую программу по литературе для основной и старшей школы, в том числе рекомендованные для внеклассного чтения. Нехудожественные тексты, включенные в корпус, относятся к тем функциональным стилям, которые изучаются в курсе русского языка и культуры речи (публицистический, официально-деловой, учебно-научный, разговорный стили). Жанровый состав текстов разнообразен и отражает требования школьного преподавания: заметка, статья, интервью, репортаж, закон, протокол, заявление, деловое письмо, научная и научно-популярная статья, рецензия, аннотация, реферат, бытовая переписка, повседневная устная речь и пр.
Основой лингвистической разметки в обучающем корпусе является морфологическая разметка, указывающая значения всех основных грамматических категорий русских слов, то есть, в школьных терминах, дающая «морфологический разбор» каждого слова. В текстах обучающего корпуса морфологическая разметка выполнена автоматически с помощью специальной программы, при этом в процессе обработки снята грамматическая омонимия. Слова в этом массиве текстов получили весь возможный набор разборов, из которых один разбор, определенный программой как наиболее предпочтительный, выделен как основной. Благодаря автоматическому снятию неоднозначности удается развести грамматические омонимы: словоформы с разным набором признаков получают разные разборы. Небольшая часть текстов обучающего корпуса представляет собой тексты со снятой вручную омонимией, разметка в них является эталонной.
Морфологическая разметка в обучающем корпусе адаптирована к стандартным нормативным пособиям по русскому языку и обеспечивает именно традиционный, упрощенный грамматический разбор. Кроме того, в целях соответствия задачам школьного преподавания в разметку были введены дополнительные морфологические признаки – словоизменительные типы имен и глаголов (склонения, спряжения) и лексико-грамматические разряды существительных, прилагательных, местоимений, наречий.
В обучающем корпусе представлен также разбор слов по составу (в их словарной форме), доступный в разделе «Портрет слова». Разбор по составу учитывает слова, входящие в «Морфемно-орфографический словарь» А. Н. Тихонова.(2002). Имена собственные и служебные слова не снабжены разбором по составу.
Современный облик обучающего корпуса определяют, несомненно, новейшие функциональные возможности. Это прежде всего новые виды выдачи результатов поиска («График по годам», «Статистика», «Частотность», «Н-граммы»), новые виды поиска («Поиск коллокаций»), а также новые инструменты анализа – «Портрет слова», включающий «Скетчи» и «Похожие слова», «Частотный словарь», «Портрет корпуса» и «Портрет подкорпуса», позволяющие пользователю анализировать особенности корпуса или подкорпуса и сравнивать их.
Обучающий корпус значительно облегчает составление заданий для контрольных и самостоятельных работ при изучении различных разделов русского языка, делает процесс преподавания русского языка более разнообразным и современным, предоставляет материал для небольших исследований, которые могут проводиться школьниками в качестве зачетных работ, написания рефератов и пр. Широкая представленность в корпусе текстов художественной литературы, изучаемой в школе, и новые инструменты исследования открывают перспективы использования обучающего корпуса в изучении языка и стиля писателя, в том числе в проведении сравнительных исследований, например, выразительно-изобразительных средств художественной прозы и поэзии и под.