Национальный корпус русского языка


На этом сайте помещен корпус современного русского языка общим объемом более 500 млн слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

Как пользоваться Корпусом (инструкция в формате PDF)

Подробнее о корпусе


Новости проекта

11 апреля 2014 года
Обновлён синтаксический корпус, его объём теперь составляет более 860 тыс словоупотреблений.

18 января 2014 года
Пополнен акцентологический корпус, теперь в его составе 15 млн словоупотреблений.

18 января 2014 года
Пополнен устный корпус, его объём возрос до 11 млн словоупотреблений.

14 января 2014 года
Пополнен параллельный корпус: добавлены двуязычные армянский, болгарский и латышский корпуса, существенно расширены немецкий, английский и белорусский. В двуязычный французский корпус включены поливариантные русско-французские тексты (с несколькими альтернативными переводами). Общий объём корпуса теперь превышает 54 млн словоупотреблений.

14 января 2014 года
Пополнен поэтический корпус: общий объём составляет 9,6 млн словоупотреблений. Включены,в частности, произведения советских и эмигрантских поэтов второй половины XX в.

10 января 2014 года
Пополнен мультимедийный корпус, его объём возрос до 4 млн словоупотреблений.

27 июля 2013 года
Скончался Илья Валентинович Сегалович — один из основателей и главных вдохновителей Корпуса. Благодаря Илье Корпус смог возникнуть двенадцать лет назад и развиваться все эти годы. Команда Национального корпуса русского языка выражает глубокие соболезнования всем, кто знал и любил Илью Сегаловича.

25 июля 2013 года
Пополнен мультимедийный корпус, теперь его объём превышает 3 млн словоупотреблений.

25 июля 2013 года
Пополнен поэтический корпус, в его составе теперь более 9 млн словоупотреблений.

8 мая 2013 года
Исторические корпуса пополнились древнерусским корпусом и корпусом берестяных грамот.

15 апреля 2013 года
Часть корпуса со снятой омонимией объёмом около 1 млн словоупотреблений теперь доступна для оффлайн-использования.

17 января 2013 года
Пополнение основного корпуса на 20 млн словоупотреблений (полный объём 230 млн словоупотреблений). Включены новые тексты различных периодов, включая художественную прозу и мемуары XVIII — начала XXI в., а также тексты СМИ и электронной коммуникации.

17 января 2013 года
Открыт новый исторический корпус — корпус среднерусских текстов (XV — начало XVIII века). Объём корпуса — 3 миллиона словоупотреблений: литературные произведения, летописи, жития, деловые грамоты, бытовая переписка. Доступен поиск точных форм (без морфологической разметки), в том числе с использованием символа *, а также задание подкорпуса.

26 декабря 2012 года
Пополнение мультимедийного, устного и акцентологического корпусов.

26 декабря 2012 года
Обновление поэтического корпуса. Общий объём корпуса теперь составляет почти 8 млн словоупотреблений (50 тыс. документов).

26 декабря 2012 года
Обновление параллельного корпуса. Общий объём составляет 42,8 млн словоупотреблений (вырос на 80%). Пополнены двуязычные английский, немецкий, украинский и белорусский корпуса. Впервые доступны польский, французский, итальянский и испанский корпуса. Возможен поиск внутри предложений на заданном языке (язык задаётся в поле «Дополнительные признаки»).

8 августа 2012 года
Существенно пополнился газетный корпус (большой корпус СМИ 2000-х годов). Теперь его объем превышает 332 тыс. документов, 173 млн словоупотреблений. Напоминаем, что ограничиться поиском по предыдущей версии корпуса можно в разделе «Версии» в форме выбора подкорпуса.

3 августа 2012 года
Произошло очередное пополнение мультимедийного и устного корпусов.

10 июля 2012 года
Год назад был запущен сервис «Графики», аналогичный сервису Google Books Ngram Viewer: распределение найденных по точной форме слов и словосочетаний по годам. Теперь такой график можно построить по результатам произвольного запроса к основному корпусу (а не только по точным формам, как раньше). Для этого перейдите по ссылке «Распределение по годам» на странице с результатами поиска и дождитесь ответа. Кроме того, по соседней ссылке «Статистика» доступны таблицы с распределением найденных документам по авторам, жанрам, типам, тематике текста и т. д.

20 мая 2012 года
Для общего доступа открыт Церковнославянский корпус как первый из разделов Исторического корпуса. Основу церковнославянского корпуса составляют современные богослужебные тексты (XIX-XX век) (60%). Кроме того, в корпусе представлены тексты других периодов (XVII-XVIII век) и жанров: писание, святоотеческие и др. Общий объем корпуса – около 4,7 млн словоупотреблений. Тексты в корпусе снабжены морфологической разметкой, которая позволяет искать слова по лемме и грамматическим признакам. Пользователь может искать словоформы и леммы в трех орфографических системах: точной, упрощенной и модернизированной.

20 января 2012 года
1. Очередное обновление и пополнение ряда корпусов: основного, акцентологического, мультимедийного, параллельного, поэтического, устного. Объем основного корпуса превысил 209 млн словоупотреблений, а общий объем корпусов – 364 млн словоупотреблений.
2. На странице выбора подкорпуса основного корпуса теперь можно выбирать документы, добавленные или изменненные в определенных версиях корпуса.
3. Вкладки с корпусами теперь расположены слева в меню «поиск в корпусе».

13 июля 2011 года
В режиме бета-тестирования запущен новый сервис: распределение результатов поиска по точным формам в основном корпусе по годам.

В формах для ввода слов в лексико-грамматическом поиска появились «подсказки», позволяющие быстро выбрать наиболее частотную лемму.

Появилась возможность искать слова, расположенные в начале или в конце предложений. Включить эти параметры можно через форму выбора дополнительных признаков в лексико-грамматическом поиске

31 мая 2011 года
Произошло обновление и пополнение ряда корпусов: основного, параллельного, поэтического, акцентологического, устного. Общий объем корпусов превысил 340 млн словоупотреблений. Обновлена страница со статистикой.

24 февраля 2011 года
В результатах поиска во всплывающих окошках с информацией о слове появились гиперссылки на словарные статьи из коллекции Яндекс.Словарей.

22 февраля 2011 года
Для свободного пользования выложена случайная выборка предложений (с нарушенным порядком) из корпуса со снятой омонимией объёмом 180 тыс. словоупотреблений (90 тыс. – пресса, по 30 тыс. из художественных текстов, законодательства и научных текстов).

31 декабря 2010 года
Обновление поэтического корпуса. Добавлены произведения поэтов начала и середины XX в.: С. Дрожжина, В. Брюсова, А. Блока, Андрея Белого, М. Кузмина, В. Гофмана, Н. Гумилева, С. Городецкого, О. Мандельштама, Г. Иванова, Г. Адамовича, М. Моравской, В. Меркурьевой, Вс. Рождественского, А. Адалис, А. Ладинского. Общий объём новых текстов – более 800 тыс. словоупотреблений.

30 декабря 2010 года
Произошло обновление акцентологического и устного корпусов.

28 декабря 2010 года
Для общего доступа открыт Мультимедийный русский корпус (МУРКО).

9 октября 2010 года
Выложены материалы сборника «Национальный корпус русского языка: 2006 — 2008. Новые результаты и перспективы».

1 сентября 2010 года
На странице результатов поиска появилось несколько полезных инструментов:

  • — по ссылке «Посмотреть частотный словарь» можно перейти к списку самых частотных лемм и словоформ среди найденных документов;
  • — теперь можно сохранить результаты с текущей страницы выдачи в электронной таблице (Microsoft Excel, OpenOffice Calc);
  • — добавлена возможность случайного перемешивания результатов поиска (чтобы ее включить, перейдите в окно «Настройки» и выберите пункт «Сортировать случайно»).

Архив новостей

Национальный корпус русского языка
© 2003–2014
info@ruscorpora.ru