Новости НКРЯ

В составе старорусского корпуса стали доступны для поиска восточнославянские деловые тексты XIII—начала XVI вв. объёмом около 90 тыс. словоупотреблений из издания «Полоцкие грамоты» (2015) под редакцией А. Л. Хорошкевич. Работы выполнены по гранту РФФИ 18-512-18003. Тексты не снабжены грамматической разметкой. Планируется дальнейшее их включение в древнерусский корпус (тексты до 1400 г.) и в новый корпус «простой мовы» (тексты XV—начала XVI вв.).
В старорусском корпусе усовершенствован показ шрифтовых выделений в тексте.
В церковнославянском и старорусском корпусах поиск по трем видам орфографии теперь работает на всём массиве текстов.
Восстановлен показ расширенного контекста в параллельном корпусе.
Восстановлено сглаживание в графиках. Точки на графике со сглаживанием отражают точное значение в этот год.

Исправлен ряд ошибок, связанных с отбором и сбросом подкорпуса в диалектномцерковнославянском и параллельном корпусах.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Пополнен параллельный корпус. Совокупный объём двуязычных пар вырос на четверть и достиг цифры 134 миллиона словоупотреблений.
Англо-русская языковая пара (здесь и далее – в обоих направлениях перевода) достигла 34 млн словоупотреблений; в корпус включена коллекция научно-популярных и публицистических текстов, а также переводы русской художественной литературы на английский. Немецко-русский корпус вырос втрое и составляет 29 млн словоупотреблений: сюда входит немецкая проза XIX-XX веков, причем многие произведения представлены в нескольких русских переводах; добавлены также новости немецких СМИ и русская художественная проза разных периодов. Шведско-русский корпус составляет 12.2 млн слов и пополнен современными художественными и публицистическими текстами. Объём французско-русского корпуса – 5,6 млн слов. Пополнены также параллельные корпуса балтийских языков – латышского до 3,4 млн слов, литовского до 0,7 млн. Появились ранее не представленные в корпусе тексты, переведенные с болгарского на русский – 1,6 млн словоупотреблений (классика и проза XX в.).
Команда НКРЯ благодарит за предоставленные выровненные тексты М. А. Куниловскую (англо-русская языковая пара) и Д. Н. Шаповаленко (немецко-русская).
Китайско-русский параллельный корпус сделан доступным для поиска, а также значительно расширен – примерно до 2,4 миллионов словоформ. 
Пополнен древнерусский корпус. В него теперь входит 27 текстов объёмом 570 тыс. словоупотреблений. Добавлены памятники XI-XIII веков – жития, хожения, поучения, законодательный свод «Русская Правда» и другие тексты. В разметку ряда текстов внесены исправления.

 

Восстановлена работа графиков на всём временном диапазоне в основномгазетном и поэтическом корпусах.
Поэтический корпус пополнен до 12,4 млн словоупотреблений. В него включены стихотворения поэтов XX – начала XXI в. (Юрий Домбровский, Ян Сатуновский, Олег Охапкин, Сергей Стратановский, Елена Шварц, Алексей Цветков, Григорий Дашевский).
Русская классика в немецких переводах объединена с немецким корпусом в составе параллельного корпуса.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Газетный корпус пополнен до 305 млн словоупотреблений. Расширен список изданий: добавлены тексты СМИ за 2014-2018 гг. («Газета.ру», «Коммерсант», «Лента.ру», «Московский комсомолец», «Новая газета»). В корпус региональной и зарубежной прессы включены 10 новых газет, как региональных, так и районных.
Основной корпус пополнен до 322 млн словоупотреблений. Среди новых поступлений — периодика XVIII—XXI веков, в том числе периодические издания русской эмиграции, современные литературные журналы, большая коллекция дневников и мемуаров, художественные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Благодарим Центр изучения эго-документов «Прожито» за предоставленные материалы.
В основном и газетном корпусах теперь корректно показывается расширенный и нерасширенный контекст.
В старорусском корпусе добавлена возможность поиска по грамматическим признакам.
Появилась возможность скачивания результатов поиска в формате CSV.
Исправлен ряд ошибок, связанных с неправильным отбором подкорпуса. Работа с этим типом ошибок будет продолжаться.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Акцентологический корпус пополнен до 132 млн словоупотреблений.
В акцентологическом корпусе теперь корректно показывается расширенный и нерасширенный контекст.
Исправлен ряд ошибок, возникающих при точном поиске: сложные запросы с использованием операторов “*”“-”, а также запросы с кавычками, пробелами, запятыми и другими знаками препинания обрабатываются корректно.
Изменен формат показа запроса в верхней части страницы выдачи: теперь запрос показывается в том виде, как его интерпретирует поиск. Операторы выделены цветом.
В биграммах некоторое время назад стал доступен точный поиск без учета морфологии и пунктуации. Из результатов поиска теперь можно посмотреть примеры употребления биграммов по ссылке «Примеры».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

В апреле в новой версии Корпуса произошли следующие изменения:
Исправлен ряд ошибок, возникающих при лексико-грамматическом поиске:
- сложные запросы с использованием операторов “*”, “|”, “-” теперь обрабатываются корректно
- запросы с кавычками, пробелами и операторами обрабатываются корректно
- запросы одновременно с грамматическими и семантическими признаками обрабатываются корректно
- поиск слов с е/ё производится корректно независимо от написания слова
В лексико-грамматическом поиске реализован поиск по нескольким последовательным словам с расстоянием между ними для случаев, когда одно из окон запроса пустое. Такие запросы теперь обрабатываются как словосочетания с любым словом на месте, соответствующем пустому окну.
В церковнославянском корпусе восстановлен поиск по сложным запросам в лексико-грамматическом поиске.
Обновлены данные об объёме параллельных корпусов
Стало возможным копировать информацию из всплывающих окон с данными о слове или тексте.
Если вы заметите ошибки в лексико-грамматическом поиске – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу соответствующей функции.

В марте в новой версии Корпуса были исправлены следующие ошибки:
В ряде параллельных корпусов восстановлен инфинитив в таблице грамматических признаков.
В поэтическом корпусе на странице выбора подкорпуса «сонет» убран из списка параметров «Жанр текста» и оставлен в списке параметров «Строфика».
При сбрасывании подкорпуса на одной из открытых станиц сайта поиск теперь производится по всему объёму корпуса на всех открытых страницах.
Ведутся работы по улучшению отображения нерасширенного и расширенного контекстов выдачи:
В устном корпусе сокращен размер нерасширенного контекста, по ссылке из выдачи открывается расширенный контекст.
В поэтическом корпусе по ссылке из выдачи открывается расширенный контекст (до 100 строк). В расширенном контексте подсвечиваются вхождения найденного. Исправлен формат выдачи метаданных. По ссылке из списка отобранных текстов на странице выбора подкорпуса открывается весь текст стихотворения (до 1000 строк).
Если вы заметите ошибки в формате выдачи расширенного и нерасширенного контекстов в устном и поэтическом корпусах – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу этих функций.

В многоязычном параллельном корпусе появилась возможность поиска по семантическим признакам и по полю «Перевод», а также информация о переводчике в метаинформации о тексте и возможность отбора текстов по переводчику. Созданы отдельные страницы отбора подкорпуса для двуязычных и многоязычного параллельных корпусов.
В выдаче корпуса доступны таблицы частот для параллельных и исторических корпусов.
Стал доступен расширенный контекст из формата KWIC.
Восстановлены ссылки на словари из описания слова на странице выдачи результатов поиска.

В феврале в новой версии Корпуса были пополнены несколько корпусов:
Региональный корпус пополнен до 17 млн словоупотреблений.
Устный корпус пополнен до 13 млн словоупотреблений.
Синтаксический корпус пополнен до 1,1 млн словоупотреблений.
Восстановлены таблицы постраничных частот.
В устном корпусе восстановлен поиск искаженных форм.