Новости НКРЯ

Основной корпус пополнен до 337 млн словоупотреблений. В пополнение входят: научные труды XVIII — начала XIX в.; художественная литература XIX — начала XX в., документы, научные работы, описания путешествий, подборки мемуаров, публицистика (в том числе из журналов «Сын отечества», «Московский наблюдатель»), детская хрестоматия К. Д. Ушинского; подборки текстов разных жанров XX в., включая лингвистические работы, дневники, периодику разных волн русской эмиграции; материалы современных СМИ и научной периодики; перевод Библии Российского библейского общества (2011).
В основном и газетном корпусах появилась возможность просмотра n-грамм со страницы выдачи результатов запроса. N-граммы показаны для исходного запроса с учетом отобранного подкорпуса. Для результатов выдачи больше 1 млн n-грамм показывается только процентное распределение n-грамм. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках n-грамм на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Поэтический корпус пополнен до 12,8 млн словоупотреблений. Добавлен показ метрической разметки строки в версии с ударениями. Стал возможен постраничный просмотр всего текста стихотворения из списка отобранных текстов.
Акцентологический корпус пополнен до 133 млн словоупотреблений.
В синтаксическом корпусе при показе структуры предложения отображаются лексические функции. Синтаксическая структура предложения теперь открывается во всплывающем окне.
В основном и газетном корпусах восстановлена возможность сортировки результатов выдачи по правому/левому контексту. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках сортировки на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Устный корпус пополнен до 13,4 млн словоупотреблений.
В синтаксическом корпусе добавлена версия с ударениями и поиск с ударениями.
Поддерживается выдача и выравнивание словосочетаний в формате kwic. Результаты поиска в формате kwic теперь скачиваются в Excel.
Обновлена общая статистика корпуса на сайте.

В состав мультимедийного параллельного корпуса (англо-русского МультиПарка) включены две постановки пьесы А. П. Чехова "Дядя Ваня" (английская и русская).
В русском и англо-русском МультиПарках стал доступен отбор подкорпуса.
Во всех мультимедийных корпусах восстановлен показ расширенного контекста.
Синтаксический корпус пополнен до 1,25 млн словоупотреблений.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Газетный корпус пополнен текстами СМИ: «Газета.ру», «Коммерсант», «Лента.ру» и «Московский комсомолец» за 2019 год, РБК за 2015—2019 годы. Объём пополнения составил 27,3 млн словоупотреблений.
В состав мультимедийного параллельного корпуса (русского МультиПарка) включены две пьесы А. П. Чехова: три постановки пьесы «Вишневый сад» и одна постановка и две экранизации пьесы «Дядя Ваня». Доступен поиск по орфоэпической и вокалической структуре слова.

Пополнен диалектный корпус, объём которого достиг 390 тыс. словоупотреблений со снятой омонимией. Добавлены тексты из различных регионов и диалектных зон: северные говоры (Архангельская область), среднерусские (Тверская область), южнорусские (Смоленская, Тамбовская области), говоры позднего формирования (Поволжье, Урал, Сибирь). Представлены разные фольклорные и бытовые жанры и тематики. 48 из этих новых текстов сопровождаются аудиозаписями, 3 — видеозаписями (они доступны через ссылку в метапризнаках документа). Работы по пополнению корпуса выполнены при поддержке проекта РФФИ № 18-012-00557.
В поэтическом корпусе стала доступна функция поиска по точному имени автора, расширены возможности отбора подкорпуса (теперь можно выбрать больше строфических вариантов и дополнительных признаков).

 

Обновлена общая статистика корпуса на сайте.
Восстановлен показ количества найденных примеров по ссылке «Все примеры» на странице результатов поиска.
В ряде параллельных корпусов (китайскийбурятскийармянский) стал доступен поиск по полю «Перевод».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Мультимедийный корпус пополнен до 5,1 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи (доклады на конференциях, учебные и популярные лекции, теле- и радиопередачи), устной политической речи (интервью, пресс-конференции, выступления на митингах, собраниях и съездах, ток-шоу на радио и ТВ и мн. др.). Исправлен ряд ошибок поиска и выдачи.
В корпусе берестяных грамот создана отдельная страница отбора подкорпуса с возможностью построить подкорпус по городу, номеру грамоты, жанру, языку, материалу (при помощи этого параметра можно выбрать две свинцовые грамоты, традиционно рассматриваемые в одном ряду с берестяными) и датировке. Поисковую выдачу можно упорядочить по дате. Метаинформация каждой включенной в корпус грамоты связана гиперссылкой с соответствующей записью обновленной в 2018 г. базы данных gramoty.ru, что позволяет перейти от поисковой выдачи к изображению грамот и исследовательской литературе. Исправлен ряд ошибок поиска и выдачи в корпусе. Работа над корпусом берестяных грамот поддерживается проектом РНФ № 19–18–00352.
Улучшена выдача в Excel для всех корпусов.

В составе старорусского корпуса стали доступны для поиска восточнославянские деловые тексты XIII—начала XVI вв. объёмом около 90 тыс. словоупотреблений из издания «Полоцкие грамоты» (2015) под редакцией А. Л. Хорошкевич. Работы выполнены по гранту РФФИ 18-512-18003. Тексты не снабжены грамматической разметкой. Планируется дальнейшее их включение в древнерусский корпус (тексты до 1400 г.) и в новый корпус «простой мовы» (тексты XV—начала XVI вв.).
В старорусском корпусе усовершенствован показ шрифтовых выделений в тексте.
В церковнославянском и старорусском корпусах поиск по трем видам орфографии теперь работает на всём массиве текстов.
Восстановлен показ расширенного контекста в параллельном корпусе.
Восстановлено сглаживание в графиках. Точки на графике со сглаживанием отражают точное значение в этот год.

Исправлен ряд ошибок, связанных с отбором и сбросом подкорпуса в диалектномцерковнославянском и параллельном корпусах.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.