← Вернуться к старой версии Вы находитесь в новой версии Сообщить об ошибке Подробнее

Национальный корпус русского языка


Внимание! Корпус переходит на новую версию поиска!

Временно на сайте будут действовать две версии корпуса: старая и новая. В дaльнейшем Новая версия будет активно развиваться, а старая поддерживаться больше не будет. Просим вас активно пользоваться новой версией и сообщать нам о всех замеченных ошибках.

Сообщить об ошибке Подробнее Как составить сообщение об ошибке


На этом сайте помещен корпус современного русского языка общим объёмом более 1 миллиарда слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

Развитие подкорпусов НКРЯ (синтаксического и корпуса берестяных грамот) в 2021 году осуществляется при поддержке РФФИ, проекты № 19-07-00842 «Разработка корпуса русских текстов, снабженного морфосинтаксической, лексико-функциональной, анафорической и темпоральной разметкой» и № 19-18-00352 «Некнижная письменность Древней Руси XI-XV вв. (берестяные грамоты и эпиграфика): новые источники и методы исследования». Развитие новой технологической платформы корпуса и специализированных подкорпусов осуществляется при поддержке гранта Министерства науки и высшего образования № 075-15-2020-793 «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования».

Корпус создан и поддерживается Институтом русского языка им. В. В. Виноградова РАН (ИРЯ РАН), Институтом проблем передачи информации им. А. А. Харкевича РАН (ИППИ РАН) и компанией «Яндекс».

Институт русского языка им. В. В. Виноградова Российской академии наук (ИРЯ РАН)

Институт проблем передачи информации им. А. А. Харкевича Российской академии наук (ИППИ РАН)

Компания «Яндекс»


Как пользоваться Корпусом (инструкция в формате PDF)

Как ссылаться на корпус

Подробнее о корпусе


Новости проекта

3 декабря 2021 года
В параллельном корпусе появилась возможность задать подкорпус в зависимости от страны языка или варианта литературной нормы (например, отобрать оригиналы или переводы на американском английском или латиноамериканском испанском).
В акцентологическом и поэтическом корпусах добавлена функция поиска слов в составе неоднословных лексических сочетаний: например, можно искать слово что в составе сложных союзов разве что, что касается и др. Эта функция доступна в поле «дополнительные признаки» лексико-грамматического поиска.
В поэтическом корпусе доступно задание подкорпуса по карте.
В основном корпусе доступен поиск по версиям, а также отображение дополнительных семантических признаков в информации о слове и поиск по ним.

4 ноября 2021 года
Дорогие родители и учителя!
Приглашаем детей 7–15 лет принять участие в олимпиаде "Что может корпус". Олимпиаду проводит Лаборатория чтения совместно со Школой лингвистики НИУ ВШЭ. Она состоится на сайте Верные слова vsrussian.com. Задания будут доступны с 1 декабря 2021 г. по 15 января 2022 г. Регистрироваться на сайте можно уже сейчас. Перед началом олимпиады советуем детям потренироваться работать в НКРЯ с помощью обучающих интерактивных заданий vsrussian.com/courses.

2 ноября 2021 года
Общий объем корпуса превысил 1 миллиард словоформ!
Параллельный корпус пополнен до 142 млн словоформ. Существенно расширены языковые пары со шведским, латышским, испанским, чешским и эстонским языками, пополнены также итальянско-русский и французско-русский корпус.
Синтаксический корпус пополнен до 1,35 млн словоформ. Как и в основном корпусе, в описании текста теперь показываются автор и источник, а структура предложений отображается также в версии с ударениями.
Русский Мультипарк пополнен до 229 тыс. словоформ. Добавлены новая постановка пьесы А.П. Чехова "Вишневый сад" и две постановки пьесы "Дядя Ваня".
В диалектном корпусе и корпусе берестяных грамот доступен показ всего текста из списка отобранных текстов. В меню дополнительных признаков в основном корпусе доступен поиск по оборотам.

2 октября 2021 года
Мультимедийный корпус пополнен до 5,4 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи, теле- и радиопублицистики, повседневной диалогической речи. Значительно вырос раздел художественного чтения, в котором представлены записи русской прозы в исполнении мастеров художественного слова.
В поэтическом корпусе появился отбор подкорпуса по формуле строки. Он позволяет отбирать только строки, соответствующие заданным параметрам: формула вида "метр + количество стоп/иктов/слогов + клаузула", а также схема расположения иктов. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках поиска на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

31 августа 2021 года
Корпус региональной и зарубежной прессы пополнен до 23 млн словоупотреблений. В него включены тексты 12 новых газет, как региональных, так и районных.
На странице с результатами выдачи стала доступна статистика по метапризнакам.
Поиск в корпусе по словарю оборотов теперь доступен в новой версии корпуса.
При сортировке выдачи по правому/левому контексту теперь можно просматривать случайную выборку из 1000 результатов поиска.

3 августа 2021 года
Основной корпус пополнен до 337 млн словоупотреблений. В пополнение входят: научные труды XVIII — начала XIX в.; художественная литература XIX — начала XX в., документы, научные работы, описания путешествий, подборки мемуаров, публицистика (в том числе из журналов «Сын отечества», «Московский наблюдатель»), детская хрестоматия К. Д. Ушинского; подборки текстов разных жанров XX в., включая лингвистические работы, дневники, периодику разных волн русской эмиграции; материалы современных СМИ и научной периодики; перевод Библии Российского библейского общества (2011).
В основном и газетном корпусах появилась возможность просмотра n-грамм со страницы выдачи результатов запроса. N-граммы показаны для исходного запроса с учетом отобранного подкорпуса. Для результатов выдачи больше 1 млн n-грамм показывается только процентное распределение n-грамм. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках n-грамм на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 июля 2021 года
Поэтический корпус пополнен до 12,8 млн словоупотреблений. Добавлен показ метрической разметки строки в версии с ударениями. Стал возможен постраничный просмотр всего текста стихотворения из списка отобранных текстов.
Акцентологический корпус пополнен до 133 млн словоупотреблений.
В синтаксическом корпусе при показе структуры предложения отображаются лексические функции. Синтаксическая структура предложения теперь открывается во всплывающем окне.
В основном и газетном корпусах восстановлена возможность сортировки результатов выдачи по правому/левому контексту. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках сортировки на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

1 июня 2021 года
Устный корпус пополнен до 13,4 млн словоупотреблений.
В синтаксическом корпусе добавлена версия с ударениями и поиск с ударениями.
Поддерживается выдача и выравнивание словосочетаний в формате kwic. Результаты поиска в формате kwic теперь скачиваются в Excel.
Обновлена общая статистика корпуса на сайте.

30 апреля 2021 года
В состав мультимедийного параллельного корпуса (англо-русского МультиПарка) включены две постановки пьесы А. П. Чехова "Дядя Ваня" (английская и русская).
В русском и англо-русском МультиПарках стал доступен отбор подкорпуса.
Во всех мультимедийных корпусах восстановлен показ расширенного контекста.
Синтаксический корпус пополнен до 1,25 млн словоупотреблений.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 апреля 2021 года
Газетный корпус пополнен текстами СМИ: «Газета.ру», «Коммерсант», «Лента.ру» и «Московский комсомолец» за 2019 год, РБК за 2015—2019 годы. Объём пополнения составил 27,3 млн словоупотреблений.
В состав мультимедийного параллельного корпуса (русского МультиПарка) включены две пьесы А. П. Чехова: три постановки пьесы «Вишневый сад» и одна постановка и две экранизации пьесы «Дядя Ваня». Доступен поиск по орфоэпической и вокалической структуре слова.

2 марта 2021 года
В многоязычном параллельном корпусе появилась возможность поиска по семантическим признакам и по полю «Перевод», а также информация о переводчике в метаинформации о тексте и возможность отбора текстов по переводчику. Созданы отдельные страницы отбора подкорпуса для двуязычных и многоязычного параллельных корпусов.
В выдаче корпуса доступны таблицы частот для параллельных и исторических корпусов.
Стал доступен расширенный контекст из формата KWIC.
Восстановлены ссылки на словари из описания слова на странице выдачи результатов поиска.

29 января 2021 года
Пополнен диалектный корпус, объём которого достиг 390 тыс. словоупотреблений со снятой омонимией. Добавлены тексты из различных регионов и диалектных зон: северные говоры (Архангельская область), среднерусские (Тверская область), южнорусские (Смоленская, Тамбовская области), говоры позднего формирования (Поволжье, Урал, Сибирь). Представлены разные фольклорные и бытовые жанры и тематики. 48 из этих новых текстов сопровождаются аудиозаписями, 3 — видеозаписями (они доступны через ссылку в метапризнаках документа). Работы по пополнению корпуса выполнены при поддержке проекта РФФИ № 18-012-00557.
В поэтическом корпусе стала доступна функция поиска по точному имени автора, расширены возможности отбора подкорпуса (теперь можно выбрать больше строфических вариантов и дополнительных признаков).

26 декабря 2020 года
Обновлена общая статистика корпуса на сайте.
Восстановлен показ количества найденных примеров по ссылке «Все примеры» на странице результатов поиска.
В ряде параллельных корпусов (китайский, бурятский, армянский) стал доступен поиск по полю «Перевод».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 декабря 2020 года
Мультимедийный корпус пополнен до 5,1 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи (доклады на конференциях, учебные и популярные лекции, теле- и радиопередачи), устной политической речи (интервью, пресс-конференции, выступления на митингах, собраниях и съездах, ток-шоу на радио и ТВ и мн. др.). Исправлен ряд ошибок поиска и выдачи.
В корпусе берестяных грамот создана отдельная страница отбора подкорпуса с возможностью построить подкорпус по городу, номеру грамоты, жанру, языку, материалу (при помощи этого параметра можно выбрать две свинцовые грамоты, традиционно рассматриваемые в одном ряду с берестяными) и датировке. Поисковую выдачу можно упорядочить по дате. Метаинформация каждой включенной в корпус грамоты связана гиперссылкой с соответствующей записью обновленной в 2018 г. базы данных gramoty.ru, что позволяет перейти от поисковой выдачи к изображению грамот и исследовательской литературе. Исправлен ряд ошибок поиска и выдачи в корпусе. Работа над корпусом берестяных грамот поддерживается проектом РНФ № 19–18–00352.
Улучшена выдача в Excel для всех корпусов.

1 ноября 2020 года
В составе старорусского корпуса стали доступны для поиска восточнославянские деловые тексты XIII—начала XVI вв. объёмом около 90 тыс. словоупотреблений из издания «Полоцкие грамоты» (2015) под редакцией А. Л. Хорошкевич. Работы выполнены по гранту РФФИ 18-512-18003. Тексты не снабжены грамматической разметкой. Планируется дальнейшее их включение в древнерусский корпус (тексты до 1400 г.) и в новый корпус «простой мовы» (тексты XV—начала XVI вв.).
В старорусском корпусе усовершенствован показ шрифтовых выделений в тексте.
В церковнославянском и старорусском корпусах поиск по трем видам орфографии теперь работает на всём массиве текстов.
Восстановлен показ расширенного контекста в параллельном корпусе.
Восстановлено сглаживание в графиках. Точки на графике со сглаживанием отражают точное значение в этот год.

1 октября 2020 года
Исправлен ряд ошибок, связанных с отбором и сбросом подкорпуса в диалектном, церковнославянском и параллельном корпусах.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 сентября 2020 года
Пополнен параллельный корпус. Совокупный объём двуязычных пар вырос на четверть и достиг цифры 134 миллиона словоупотреблений.
Англо-русская языковая пара (здесь и далее – в обоих направлениях перевода) достигла 34 млн словоупотреблений; в корпус включена коллекция научно-популярных и публицистических текстов, а также переводы русской художественной литературы на английский. Немецко-русский корпус вырос втрое и составляет 29 млн словоупотреблений: сюда входит немецкая проза XIX-XX веков, причем многие произведения представлены в нескольких русских переводах; добавлены также новости немецких СМИ и русская художественная проза разных периодов. Шведско-русский корпус составляет 12.2 млн слов и пополнен современными художественными и публицистическими текстами. Объём французско-русского корпуса – 5,6 млн слов. Пополнены также параллельные корпуса балтийских языков – латышского до 3,4 млн слов, литовского до 0,7 млн. Появились ранее не представленные в корпусе тексты, переведенные с болгарского на русский – 1,6 млн словоупотреблений (классика и проза XX в.).
Команда НКРЯ благодарит за предоставленные выровненные тексты М. А. Куниловскую (англо-русская языковая пара) и Д. Н. Шаповаленко (немецко-русская).
Китайско-русский параллельный корпус сделан доступным для поиска, а также значительно расширен – примерно до 2,4 миллионов словоформ.
Пополнен древнерусский корпус. В него теперь входит 27 текстов объёмом 570 тыс. словоупотреблений. Добавлены памятники XI-XIII веков – жития, хожения, поучения, законодательный свод «Русская Правда» и другие тексты. В разметку ряда текстов внесены исправления.

31 июля 2020 года
Восстановлена работа графиков на всём временном диапазоне в основном, газетном и поэтическом корпусах.
Поэтический корпус пополнен до 12,4 млн словоупотреблений. В него включены стихотворения поэтов XX – начала XXI в. (Юрий Домбровский, Ян Сатуновский, Олег Охапкин, Сергей Стратановский, Елена Шварц, Алексей Цветков, Григорий Дашевский).
Русская классика в немецких переводах объединена с немецким корпусом в составе параллельного корпуса.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 июля 2020 года
Газетный корпус пополнен до 305 млн словоупотреблений. Расширен список изданий: добавлены тексты СМИ за 2014-2018 гг. («Газета.ру», «Коммерсант», «Лента.ру», «Московский комсомолец», «Новая газета»). В корпус региональной и зарубежной прессы включены 10 новых газет, как региональных, так и районных.
Основной корпус пополнен до 322 млн словоупотреблений. Среди новых поступлений — периодика XVIII—XXI веков, в том числе периодические издания русской эмиграции, современные литературные журналы, большая коллекция дневников и мемуаров, художественные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Благодарим Центр изучения эго-документов «Прожито» за предоставленные материалы.
В основном и газетном корпусах теперь корректно показывается расширенный и нерасширенный контекст.
В старорусском корпусе добавлена возможность поиска по грамматическим признакам.
Появилась возможность скачивания результатов поиска в формате CSV.
Исправлен ряд ошибок, связанных с неправильным отбором подкорпуса. Работа с этим типом ошибок будет продолжаться.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

1 июня 2020 года
Акцентологический корпус пополнен до 132 млн словоупотреблений.
В акцентологическом корпусе теперь корректно показывается расширенный и нерасширенный контекст.
Исправлен ряд ошибок, возникающих при точном поиске: сложные запросы с использованием операторов “*”, “-”, а также запросы с кавычками, пробелами, запятыми и другими знаками препинания обрабатываются корректно.
Изменен формат показа запроса в верхней части страницы выдачи: теперь запрос показывается в том виде, как его интерпретирует поиск. Операторы выделены цветом.
В биграммах некоторое время назад стал доступен точный поиск без учета морфологии и пунктуации. Из результатов поиска теперь можно посмотреть примеры употребления биграммов по ссылке «Примеры».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

30 апреля 2020 года
В апреле в новой версии Корпуса произошли следующие изменения:
Исправлен ряд ошибок, возникающих при лексико-грамматическом поиске:
- сложные запросы с использованием операторов “*”, “|”, “-” теперь обрабатываются корректно
- запросы с кавычками, пробелами и операторами обрабатываются корректно
- запросы одновременно с грамматическими и семантическими признаками обрабатываются корректно
- поиск слов с е/ё производится корректно независимо от написания слова
В лексико-грамматическом поиске реализован поиск по нескольким последовательным словам с расстоянием между ними для случаев, когда одно из окон запроса пустое. Такие запросы теперь обрабатываются как словосочетания с любым словом на месте, соответствующем пустому окну.
В церковнославянском корпусе восстановлен поиск по сложным запросам в лексико-грамматическом поиске.
Обновлены данные об объёме параллельных корпусов.
Стало возможным копировать информацию из всплывающих окон с данными о слове или тексте.
Если вы заметите ошибки в лексико-грамматическом поиске – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу соответствующей функции.

3 апреля 2020 года
В марте в новой версии Корпуса были исправлены следующие ошибки:
В ряде параллельных корпусов восстановлен инфинитив в таблице грамматических признаков.
В поэтическом корпусе на странице выбора подкорпуса «сонет» убран из списка параметров «Жанр текста» и оставлен в списке параметров «Строфика».
При сбрасывании подкорпуса на одной из открытых станиц сайта поиск теперь производится по всему объёму корпуса на всех открытых страницах.
Ведутся работы по улучшению отображения нерасширенного и расширенного контекстов выдачи:
В устном корпусе сокращен размер нерасширенного контекста, по ссылке из выдачи открывается расширенный контекст.
В поэтическом корпусе по ссылке из выдачи открывается расширенный контекст (до 100 строк). В расширенном контексте подсвечиваются вхождения найденного. Исправлен формат выдачи метаданных. По ссылке из списка отобранных текстов на странице выбора подкорпуса открывается весь текст стихотворения (до 1000 строк).
Если вы заметите ошибки в формате выдачи расширенного и нерасширенного контекстов в устном и поэтическом корпусах – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу этих функций.

25 февраля 2020 года
В феврале в новой версии Корпуса были пополнены несколько корпусов:
Региональный корпус пополнен до 17 млн словоупотреблений.
Устный корпус пополнен до 13 млн словоупотреблений.
Синтаксический корпус пополнен до 1,1 млн словоупотреблений.
Восстановлены таблицы постраничных частот.
В устном корпусе восстановлен поиск искаженных форм.

27 января 2020 года
За декабрь-январь в новой версии Корпуса налажены следующие функции:
Восстановлена возможность поиска слов в зоне рифмовки в поэтическом корпусе.
Стал доступен экспорт результатов поиска в таблицу Excel в объёме 500 записей. Если вы заметите ошибки в таблице с результатами, сообщите, пожалуйста, о них при помощи кнопки «Сообщить об ошибке».
На главной странице сайта появилась ссылка на инструкцию по составлению сообщения об ошибке.

6 декабря 2019 года
Дорогие коллеги,
Начинаем вести регулярное (примерно раз в месяц) оповещение пользователей о том, что было исправлено в новой версии Корпуса за истекший период.
С момента временного отключения старой версии в сентябре в новой версии Корпуса налажены следующие функции:
Сортировка результатов выдачи:
Сортировка по дате – восстановлен прямой и обратный хронологический порядок сортировки выдачи (упорядочивание выдачи в настройках).
Исправлена еще одна ошибка в настройках сортировки выдачи – результат выдачи больше не пропадает при сортировке по дате и по другим признакам.
Восстановлена возможность отбора подкорпуса по дате создания и дате публикации.
Исправлены ошибки, которые возникали при вводе запроса в окно поиска:
Знаки препинания в запросе в окне точного поиска теперь не влияют на результат поиска.
Лишний пробел в начале или в конце запроса в окне точного и лексико-грамматического поиска теперь не влияет на результат поиска.
Стало возможным просматривать до 500 страниц выдачи.
Восстановлена возможность одновременного доступа к корпусу с многих компьютеров (актуальная, например, при работе группы студентов или школьников).
Расстояние между лексемами:
Восстановлена возможность задавать сложный поиск из нескольких лексем с расстоянием между лексемами в окне лексико-грамматического поиска.
Исправлен некорректный показ условий поиска в начале выдачи лексико-грамматического поиска с расстоянием между лексемами и в начале выдачи точного поиска при поиске словосочетания.
Если вы заметите, что что-то из перечисленного не работает или восстановлено не полностью – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке» на странице с неправильными результатами, мы обязательно постараемся это исправить.

3 апреля 2018 года
Объём латышско-русского и русско-латышского параллельного корпуса вырос более чем втрое и достиг 2,5 млн словоупотреблений. Объём бурятско-русско и русско-бурятского параллельного корпуса вырос более чем вдвое и достиг 270 тыс. словоупотреблений.

15 мая 2017 года
Опубликован список победителей олимпиады Школы лингвистики НИУ ВШЭ и образовательного сайта «Верные слова» «Что может корпус». Интервью с участниками олимпиады.

12 мая 2017 года
Пополнение параллельных корпусов, совокупный объём которых достиг 76,8 млн словоупотреблений.
Открыт новый параллельный шведско-русский корпус объёмом 400 тысяч словоупотреблений с морфологической разметкой.
Испанско-русский корпус преодолел пилотную стадию, вырос более чем вчетверо и насчитывает 1,3 млн словоупотреблений. В него включены тексты современных испаноязычных СМИ в русском переводе, а также художественная литература XIX—XX веков.
Существенно вырос объём и китайско-русского параллельного корпуса, насчитывающего теперь 180 тысяч слов.
Пополнились также французский (до 3,9 млн), белорусский (до 9,4 млн), бурятский (до 120 тысяч) и другие параллельные корпуса.

21 марта 2017 года
Появилась возможность задать в поэтическом корпусе подкорпус по месту написания стихотворения, указанному в авторской помете, с помощью интерактивной карты.

25 февраля 2017 года
Школа лингвистики НИУ ВШЭ и образовательный сайт «Верные слова» организуют онлайн-олимпиаду «Что может корпус». Олимпиада проходит с 20 марта по 20 апреля в трёх возрастных группах: дети 7—10 лет, 10—13 лет и 13—16 лет. Цель олимпиады — показать детям, родителям и учителям, какие сведения о языке и культуре они могут получить в Национальном корпусе русского языка и как эффективно работать с этим ресурсом дома и на уроках.

14 февраля 2017 года
Пополнены акцентологический корпус (до 31,7 млн словоупотреблений) и устный корпус (до 12 млн).
Пополнение в составе мультимедийного корпуса (более 4,6 млн словоупотреблений) и Мультимедийного параллельного корпуса, который теперь включает в себя 6 постановок и 3 экранизации пьесы Н. В. Гоголя «Ревизор».

13 февраля 2017 года
Пополнение основного корпуса. Объём корпуса вырос на 18 млн словоупотреблений и достиг 283 млн. Объём текстов в старой орфографии вырос вдвое (до 3,7 млн слов). В корпус вошли документы XVIII века, тексты первого русского научного журнала «Ежемесячные сочинения», мемуары XIX — XX в., дневники начала XX в., художественная литература разных периодов, современная детская, детективная, научная, философская проза и многие другие тексты. Впервые за долгое время пополнен корпус со снятой омонимией; в него включено 24 текста электронной коммуникации. Исправлена и унифицирована разметка корпуса на разных уровнях.

1 февраля 2017 года
Вышел первый сборник материалов к «Корпусной грамматике русского языка» — синхронного описания русской грамматики, опирающегося на данные Корпуса (проект rusgram.ru). Материалы к корпусной грамматике русского языка. Глагол. Часть 1. СПб.: Нестор-История, 2016.
Авторы: Н. Р. Добрушина, А. Б. Летучий, Е. В. Падучева, С. С. Сай.
Ответственный редактор: В. А. Плунгян.
Научные редакторы: Е. В. Рахилина, Е. Р. Добрушина, Н. М. Стойнова.

9 декабря 2016 года
Обновление диалектного корпуса, метатекстовая и грамматическая разметка которого значительно усовершенствованы. Совокупный объём корпуса достиг 285 тысяч словоупотреблений в 627 текстах из 22 регионов России. Для 15 текстов доступна аудиозапись (через паспорт текста), для 126 — неорфографизированная запись, для 431 — «глубокая» метатекстовая разметка с подробным указанием жанра, со сведениями об информанте и о фонетических особенностях говора.

30 сентября 2016 года
В составе параллельного латышско-русского корпуса доступна латышская морфологическая разметка (с элементами семантики) и поиск по ней. Объём корпуса достиг 727 тыс. словоупотреблений.

15 августа 2016 года
Пополнение параллельных корпусов: их совокупный объём составляет 72,2 млн слов. Среди пополненных параллельных корпусов: английский (текущий объём 24,6 млн), немецкий (9,1 млн), белорусский (8,1 млн), французский (2,8 млн), латышский (730 тыс.), испанский (320 тыс.), бурятский (75 тыс.)

13 августа 2016 года
Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

21 июля 2016 года
Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

13 мая 2016 года
В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

15 апреля 2016 года
Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объёмом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

23 марта 2016 года
Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

15 января 2016 года
В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объёмом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

30 декабря 2015 года
Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.

24 декабря 2015 года
Масштабное пополнение основного корпуса — его объём вырос на 36 млн словоупотреблений и превысил 265 млн. Добавлено 25 тысяч новых текстов с неснятой омонимией. Среди новых поступлений — периодика XVIII—XXI веков, художественные, мемуарные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Доступен для поиска подкорпус текстов в дореформенной орфографии (XVIII—середина XX в.) объёмом 1.9 млн словоупотреблений (сюда входят, в частности, журналы XVIII века, письма Пушкина, романы Набокова). Уточнены метаразметка и текст ранее добавленных документов, исправлено несколько тысяч ошибок и опечаток разного рода.

24 декабря 2015 года
Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.

23 декабря 2015 года
Пополнение параллельного корпуса. Размер английского корпуса вырос с 20,2 до 24,6 млн словоупотреблений; он пополнен переводами русской классики и представительным собранием сочинений В. В. Набокова как русского, так и американского периода, в том числе в авторских переводах. Объём белорусского корпуса увеличился вдвое — с 3.4 до 6.8 млн словоупотреблений. Включены переводы русской и белорусской классики и приключенческой литературы.
Итальянский корпус преодолел пилотную стадию (0,7 млн) и насчитывает 4 млн словоупотреблений. Он включает художественные, философские и публицистические тексты разных периодов.
Открыт новый эстонский корпус объёмом 400 тыс. словоупотреблений (художественные тексты). Тексты снабжены морфологической разметкой. Пополнен также ряд других параллельных корпусов.
Для каждого двуязычного подкорпуса теперь доступна форма грамматического запроса, учитывающая специфику грамматических помет для соответствующего языка.

22 декабря 2015 года
Пополнен старорусский корпус. Его объём вырос более чем вдвое — до 7 млн словоупотреблений. Добавлены новые тексты XIV–XVII веков: летописи, повести, деловые документы. Тексты доступны без морфологической разметки, при поиске слов и словосочетаний можно использовать символ *.

11 ноября 2015 года
Пополнен древнерусский корпус. Для поиска доступно ещё три памятника: "Житие Андрея Юродивого", "Повесть об Акире Премудром" и "Вопрошание Кириково". Всего в корпусе теперь более полумиллиона слов. В древнерусском корпусе доступен поиск по семантической разметке многозначных слов и омонимов (возможно отдельно искать, например, миръ "вселенная" и миръ "покой").

25 сентября 2015 года
Открыт подкорпус "Русская классика в немецких переводах", составленный при помощи Фонда поддержки Интернет. Объём подкорпуса 5 млн словоупотреблений, хронологический охват оригинальных текстов — от Пушкина до Горького, немецких переводов — от 1860-х до 1980-х годов.

Архив новостей

Национальный корпус русского языка
© 2003–2021
info@ruscorpora.ru