Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки магнитофонных записей публичной и бытовой повседневной устной речи, а также транскрипты кинофильмов, театральных спектаклей и записей чтения художественной прозы в исполнении авторов и профессиональных чтецов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Материал представлен в виде транскриптов, соответствующий звучащий текст недоступен. Ценность этого корпуса для исследователей устной речи заключается прежде всего в его большом объеме (около 14 млн), большом временном диапазоне, отраженном в записях (1900—2020-е гг.), функциональном разнообразии текстов, региональном многообразии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.).
В корпусе используется стандартная для НКРЯ морфологическая, семантическая разметка, метатекстовая разметка, включающая регион записи текста, а также специфическая для устного корпуса социологическая аннотация. Каждой реплике приписаны сведения о говорящем (если они известны): пол, возраст или год рождения, род занятий. Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Пользователь может отобрать для изучения свой подкорпус более или менее однородных текстов по интересующим его признакам. Например, подкорпус устных научных текстов, спортивных комментариев или бытовых микродиалогов, подкорпус разговоров, записанных в Москве или других регионах России, подкорпус реплик только мужских или женских, представителей разных возрастных групп и пр.