Новости НКРЯ

Общий объем корпуса превысил 1 миллиард словоформ!
Параллельный корпус пополнен до 142 млн словоформ. Существенно расширены языковые пары со шведским, латышским, испанским, чешским и эстонским языками, пополнены также итальянско-русский и французско-русский корпус.
Синтаксический корпус пополнен до 1,35 млн словоформ. Как и в основном корпусе, в описании текста теперь показываются автор и источник, а структура предложений отображается также в версии с ударениями.
Русский Мультипарк пополнен до 229 тыс. словоформ. Добавлены новая постановка пьесы А.П. Чехова "Вишневый сад" и две постановки пьесы "Дядя Ваня".
В диалектном корпусе и корпусе берестяных грамот доступен показ всего текста из списка отобранных текстов. В меню дополнительных признаков в основном корпусе доступен поиск по оборотам.

Мультимедийный корпус пополнен до 5,4 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи, теле- и радиопублицистики, повседневной диалогической речи. Значительно вырос раздел художественного чтения, в котором представлены записи русской прозы в исполнении мастеров художественного слова.
В поэтическом корпусе появился отбор подкорпуса по формуле строки. Он позволяет отбирать только строки, соответствующие заданным параметрам: формула вида "метр + количество стоп/иктов/слогов + клаузула", а также схема расположения иктов. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках поиска на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

 

Корпус региональной и зарубежной прессы пополнен до 23 млн словоупотреблений. В него включены тексты 12 новых газет, как региональных, так и районных.
На странице с результатами выдачи стала доступна статистика по метапризнакам. 
Поиск в корпусе по словарю оборотов теперь доступен в новой версии корпуса. 
При сортировке выдачи по правому/левому контексту теперь можно просматривать случайную выборку из 1000 результатов поиска.

Основной корпус пополнен до 337 млн словоупотреблений. В пополнение входят: научные труды XVIII — начала XIX в.; художественная литература XIX — начала XX в., документы, научные работы, описания путешествий, подборки мемуаров, публицистика (в том числе из журналов «Сын отечества», «Московский наблюдатель»), детская хрестоматия К. Д. Ушинского; подборки текстов разных жанров XX в., включая лингвистические работы, дневники, периодику разных волн русской эмиграции; материалы современных СМИ и научной периодики; перевод Библии Российского библейского общества (2011).
В основном и газетном корпусах появилась возможность просмотра n-грамм со страницы выдачи результатов запроса. N-граммы показаны для исходного запроса с учетом отобранного подкорпуса. Для результатов выдачи больше 1 млн n-грамм показывается только процентное распределение n-грамм. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках n-грамм на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Поэтический корпус пополнен до 12,8 млн словоупотреблений. Добавлен показ метрической разметки строки в версии с ударениями. Стал возможен постраничный просмотр всего текста стихотворения из списка отобранных текстов.
Акцентологический корпус пополнен до 133 млн словоупотреблений.
В синтаксическом корпусе при показе структуры предложения отображаются лексические функции. Синтаксическая структура предложения теперь открывается во всплывающем окне.
В основном и газетном корпусах восстановлена возможность сортировки результатов выдачи по правому/левому контексту. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках сортировки на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Устный корпус пополнен до 13,4 млн словоупотреблений.
В синтаксическом корпусе добавлена версия с ударениями и поиск с ударениями.
Поддерживается выдача и выравнивание словосочетаний в формате kwic. Результаты поиска в формате kwic теперь скачиваются в Excel.
Обновлена общая статистика корпуса на сайте.

В состав мультимедийного параллельного корпуса (англо-русского МультиПарка) включены две постановки пьесы А. П. Чехова "Дядя Ваня" (английская и русская).
В русском и англо-русском МультиПарках стал доступен отбор подкорпуса.
Во всех мультимедийных корпусах восстановлен показ расширенного контекста.
Синтаксический корпус пополнен до 1,25 млн словоупотреблений.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Газетный корпус пополнен текстами СМИ: «Газета.ру», «Коммерсант», «Лента.ру» и «Московский комсомолец» за 2019 год, РБК за 2015—2019 годы. Объём пополнения составил 27,3 млн словоупотреблений.
В состав мультимедийного параллельного корпуса (русского МультиПарка) включены две пьесы А. П. Чехова: три постановки пьесы «Вишневый сад» и одна постановка и две экранизации пьесы «Дядя Ваня». Доступен поиск по орфоэпической и вокалической структуре слова.

Пополнен диалектный корпус, объём которого достиг 390 тыс. словоупотреблений со снятой омонимией. Добавлены тексты из различных регионов и диалектных зон: северные говоры (Архангельская область), среднерусские (Тверская область), южнорусские (Смоленская, Тамбовская области), говоры позднего формирования (Поволжье, Урал, Сибирь). Представлены разные фольклорные и бытовые жанры и тематики. 48 из этих новых текстов сопровождаются аудиозаписями, 3 — видеозаписями (они доступны через ссылку в метапризнаках документа). Работы по пополнению корпуса выполнены при поддержке проекта РФФИ № 18-012-00557.
В поэтическом корпусе стала доступна функция поиска по точному имени автора, расширены возможности отбора подкорпуса (теперь можно выбрать больше строфических вариантов и дополнительных признаков).

 

Обновлена общая статистика корпуса на сайте.
Восстановлен показ количества найденных примеров по ссылке «Все примеры» на странице результатов поиска.
В ряде параллельных корпусов (китайскийбурятскийармянский) стал доступен поиск по полю «Перевод».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.