Новости НКРЯ
Открыт новый исторический корпус — корпус среднерусских текстов (XV — начало XVIII века). Объём корпуса — 3 млн словоупотреблений: литературные произведения, летописи, жития, деловые грамоты, бытовая переписка. Доступен поиск точных форм (без морфологической разметки), в том числе с использованием символа *, а также задание подкорпуса.
Обновление параллельного корпуса. Общий объём составляет 42,8 млн словоупотреблений (вырос на 80%). Пополнены двуязычные английский, немецкий, украинский и белорусский корпуса. Впервые доступны польский, французский, итальянский и испанский корпуса. Возможен поиск внутри предложений на заданном языке (язык задаётся в поле «Дополнительные признаки»).
Пополнение мультимедийного, устного и акцентологического корпусов.
Обновление поэтического корпуса. Общий объём корпуса теперь составляет почти 8 млн словоупотреблений (50 тыс. документов).
Существенно пополнился газетный корпус (большой корпус СМИ 2000-х годов). Теперь его объем превышает 332 тыс. документов, 173 млн словоупотреблений. Напоминаем, что ограничиться поиском по предыдущей версии корпуса можно в разделе «Версии» в форме выбора подкорпуса.
Произошло очередное пополнение мультимедийного и устного корпусов.
Год назад был запущен сервис «Графики», аналогичный сервису Google Books Ngram Viewer: распределение найденных по точной форме слов и словосочетаний по годам. Теперь такой график можно построить по результатам произвольного запроса к основному корпусу (а не только по точным формам, как раньше). Для этого перейдите по ссылке «Распределение по годам» на странице с результатами поиска и дождитесь ответа. Кроме того, по соседней ссылке «Статистика» доступны таблицы с распределением найденных документам по авторам, жанрам, типам, тематике текста и т. д.
Для общего доступа открыт Церковнославянский корпус как первый из разделов Исторического корпуса. Основу церковнославянского корпуса составляют современные богослужебные тексты (XIX-XX век) (60%). Кроме того, в корпусе представлены тексты других периодов (XVII-XVIII век) и жанров: писание, святоотеческие и др. Общий объем корпуса – около 4,7 млн словоупотреблений. Тексты в корпусе снабжены морфологической разметкой, которая позволяет искать слова по лемме и грамматическим признакам. Пользователь может искать словоформы и леммы в трех орфографических системах: точной, упрощенной и модернизированной.
1. Очередное обновление и пополнение ряда корпусов: основного, акцентологического, мультимедийного, параллельного, поэтического, устного. Объем основного корпуса превысил 209 млн словоупотреблений, а общий объем корпусов – 364 млн словоупотреблений.
2. На странице выбора подкорпуса основного корпуса теперь можно выбирать документы, добавленные или изменненные в определенных версиях корпуса.
3. Вкладки с корпусами теперь расположены слева в меню «поиск в корпусе».
В режиме бета-тестирования запущен новый сервис: распределение результатов поиска по точным формам в основном корпусе по годам.
В формах для ввода слов в лексико-грамматическом поиска появились «подсказки», позволяющие быстро выбрать наиболее частотную лемму.
Появилась возможность искать слова, расположенные в начале или в конце предложений. Включить эти параметры можно через форму выбора дополнительных признаков в лексико-грамматическом поиске