Новости НКРЯ

Исправлен ряд ошибок, связанных с отбором и сбросом подкорпуса в диалектномцерковнославянском и параллельном корпусах.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Пополнен параллельный корпус. Совокупный объём двуязычных пар вырос на четверть и достиг цифры 134 миллиона словоупотреблений.
Англо-русская языковая пара (здесь и далее – в обоих направлениях перевода) достигла 34 млн словоупотреблений; в корпус включена коллекция научно-популярных и публицистических текстов, а также переводы русской художественной литературы на английский. Немецко-русский корпус вырос втрое и составляет 29 млн словоупотреблений: сюда входит немецкая проза XIX-XX веков, причем многие произведения представлены в нескольких русских переводах; добавлены также новости немецких СМИ и русская художественная проза разных периодов. Шведско-русский корпус составляет 12.2 млн слов и пополнен современными художественными и публицистическими текстами. Объём французско-русского корпуса – 5,6 млн слов. Пополнены также параллельные корпуса балтийских языков – латышского до 3,4 млн слов, литовского до 0,7 млн. Появились ранее не представленные в корпусе тексты, переведенные с болгарского на русский – 1,6 млн словоупотреблений (классика и проза XX в.).
Команда НКРЯ благодарит за предоставленные выровненные тексты М. А. Куниловскую (англо-русская языковая пара) и Д. Н. Шаповаленко (немецко-русская).
Китайско-русский параллельный корпус сделан доступным для поиска, а также значительно расширен – примерно до 2,4 миллионов словоформ. 
Пополнен древнерусский корпус. В него теперь входит 27 текстов объёмом 570 тыс. словоупотреблений. Добавлены памятники XI-XIII веков – жития, хожения, поучения, законодательный свод «Русская Правда» и другие тексты. В разметку ряда текстов внесены исправления.

 

Восстановлена работа графиков на всём временном диапазоне в основномгазетном и поэтическом корпусах.
Поэтический корпус пополнен до 12,4 млн словоупотреблений. В него включены стихотворения поэтов XX – начала XXI в. (Юрий Домбровский, Ян Сатуновский, Олег Охапкин, Сергей Стратановский, Елена Шварц, Алексей Цветков, Григорий Дашевский).
Русская классика в немецких переводах объединена с немецким корпусом в составе параллельного корпуса.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Газетный корпус пополнен до 305 млн словоупотреблений. Расширен список изданий: добавлены тексты СМИ за 2014-2018 гг. («Газета.ру», «Коммерсант», «Лента.ру», «Московский комсомолец», «Новая газета»). В корпус региональной и зарубежной прессы включены 10 новых газет, как региональных, так и районных.
Основной корпус пополнен до 322 млн словоупотреблений. Среди новых поступлений — периодика XVIII—XXI веков, в том числе периодические издания русской эмиграции, современные литературные журналы, большая коллекция дневников и мемуаров, художественные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Благодарим Центр изучения эго-документов «Прожито» за предоставленные материалы.
В основном и газетном корпусах теперь корректно показывается расширенный и нерасширенный контекст.
В старорусском корпусе добавлена возможность поиска по грамматическим признакам.
Появилась возможность скачивания результатов поиска в формате CSV.
Исправлен ряд ошибок, связанных с неправильным отбором подкорпуса. Работа с этим типом ошибок будет продолжаться.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

Акцентологический корпус пополнен до 132 млн словоупотреблений.
В акцентологическом корпусе теперь корректно показывается расширенный и нерасширенный контекст.
Исправлен ряд ошибок, возникающих при точном поиске: сложные запросы с использованием операторов “*”“-”, а также запросы с кавычками, пробелами, запятыми и другими знаками препинания обрабатываются корректно.
Изменен формат показа запроса в верхней части страницы выдачи: теперь запрос показывается в том виде, как его интерпретирует поиск. Операторы выделены цветом.
В биграммах некоторое время назад стал доступен точный поиск без учета морфологии и пунктуации. Из результатов поиска теперь можно посмотреть примеры употребления биграммов по ссылке «Примеры».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

В апреле в новой версии Корпуса произошли следующие изменения:
Исправлен ряд ошибок, возникающих при лексико-грамматическом поиске:
- сложные запросы с использованием операторов “*”, “|”, “-” теперь обрабатываются корректно
- запросы с кавычками, пробелами и операторами обрабатываются корректно
- запросы одновременно с грамматическими и семантическими признаками обрабатываются корректно
- поиск слов с е/ё производится корректно независимо от написания слова
В лексико-грамматическом поиске реализован поиск по нескольким последовательным словам с расстоянием между ними для случаев, когда одно из окон запроса пустое. Такие запросы теперь обрабатываются как словосочетания с любым словом на месте, соответствующем пустому окну.
В церковнославянском корпусе восстановлен поиск по сложным запросам в лексико-грамматическом поиске.
Обновлены данные об объёме параллельных корпусов
Стало возможным копировать информацию из всплывающих окон с данными о слове или тексте.
Если вы заметите ошибки в лексико-грамматическом поиске – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу соответствующей функции.

В марте в новой версии Корпуса были исправлены следующие ошибки:
В ряде параллельных корпусов восстановлен инфинитив в таблице грамматических признаков.
В поэтическом корпусе на странице выбора подкорпуса «сонет» убран из списка параметров «Жанр текста» и оставлен в списке параметров «Строфика».
При сбрасывании подкорпуса на одной из открытых станиц сайта поиск теперь производится по всему объёму корпуса на всех открытых страницах.
Ведутся работы по улучшению отображения нерасширенного и расширенного контекстов выдачи:
В устном корпусе сокращен размер нерасширенного контекста, по ссылке из выдачи открывается расширенный контекст.
В поэтическом корпусе по ссылке из выдачи открывается расширенный контекст (до 100 строк). В расширенном контексте подсвечиваются вхождения найденного. Исправлен формат выдачи метаданных. По ссылке из списка отобранных текстов на странице выбора подкорпуса открывается весь текст стихотворения (до 1000 строк).
Если вы заметите ошибки в формате выдачи расширенного и нерасширенного контекстов в устном и поэтическом корпусах – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу этих функций.

В многоязычном параллельном корпусе появилась возможность поиска по семантическим признакам и по полю «Перевод», а также информация о переводчике в метаинформации о тексте и возможность отбора текстов по переводчику. Созданы отдельные страницы отбора подкорпуса для двуязычных и многоязычного параллельных корпусов.
В выдаче корпуса доступны таблицы частот для параллельных и исторических корпусов.
Стал доступен расширенный контекст из формата KWIC.
Восстановлены ссылки на словари из описания слова на странице выдачи результатов поиска.

В феврале в новой версии Корпуса были пополнены несколько корпусов:
Региональный корпус пополнен до 17 млн словоупотреблений.
Устный корпус пополнен до 13 млн словоупотреблений.
Синтаксический корпус пополнен до 1,1 млн словоупотреблений.
Восстановлены таблицы постраничных частот.
В устном корпусе восстановлен поиск искаженных форм.

За декабрь-январь в новой версии Корпуса налажены следующие функции:
Восстановлена возможность поиска слов в зоне рифмовки в поэтическом корпусе.
Стал доступен экспорт результатов поиска в таблицу Excel в объёме 500 записей. Если вы заметите ошибки в таблице с результатами, сообщите, пожалуйста, о них при помощи кнопки «Сообщить об ошибке».
На главной странице сайта появилась ссылка на инструкцию по составлению сообщения об ошибке.