Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 1,5 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Улучшен и дополнен функционал Портрет слова в основном корпусе:
Информация в новом разделе Скетчи позволяет пользователю понять, как слово взаимодействует с другими словами в языке. Такое взаимодействие определяется через сочетаемость (коллокации) со словами разных частей речи. При этом учтены различные синтаксические функции слова в предложении, которые покрывают основные зоны «работы» слова в языке.
Например, можно узнать, каким бывает уважение (глубочайшее, искреннее, должное, взаимное…) и что с ним можно делать (внушать, заслуживать, питать…). Хотя обычно в текстах приносят довольно абстрактные вещи (пользу, жертву, вред…), те, кто чаще всего что-то приносят, – вполне конкретны (почтальон, официант, ветерок…).
Для существительных, прилагательных, глаголов и наречий показано до 10 наиболее тесно связанных слов в каждом скетче. Для других частей речи скетчи не отображаются.
В разделе Похожие слова теперь используется собственная модель для поиска семантических ассоциатов, обученная на актуальных материалах основного корпуса НКРЯ. Новая модель позволила нам сократить количество ошибок. Но из-за того, что выделение похожих слов происходит полностью автоматически, ошибки (например, несуществующие формы слов) еще могут встречаться.
Чтобы увидеть в одном месте всё, что мы знаем об интересующем слове, теперь можно воспользоваться функционалом Портрет слова. На сегодняшний день в Портрет слова входят:
- грамматические и семантические свойства слова
- Похожие слова β (только в основном корпусе)
- примеры употребления слова в корпусе
- распределение примеров по годам и по видам текстов
Для быстрого доступа к Портрету слова и другим возможностям корпуса, а также к Руководству пользователя, теперь можно воспользоваться баннерами на главной странице ruscorpora.ru.
Вид выдачи Частотность усовершенствован:
- Добавлен столбец «Вхождения»
- По просьбе наших активных пользователей в столбцах со словами и с расстояниями теперь можно отключить группировку и получить частотность сочетания слов с любым расстоянием между ними (в пределах расстояния, заданного в исходном запросе). Кроме того, можно выставить группировку по лемме/словоформе/грамматическим признакам только для части слов, а данные по остальным словам получить без группировки. Например, по запросу красивый + существительное можно получить распределение частотности всех существительных, встречающихся в результатах поиска, а можно посмотреть общую частотность для сочетания с любым существительным
- Объем скачанной таблицы с «сырыми» данными может достигать 5000 строк
В частотном словаре подкорпуса добавлена возможность сортировки по разнице рангов леммы в корпусе и подкорпусе. Например, в корпусе текстов, написанных женщинами, при выборе этой сортировки можно получить сначала список слов, входящих в первые 500 только в подкорпусе (девочка, папа, сестра, помочь, стараться, страшный и др.), а потом представленные с повышенной частотностью по сравнению со всем корпусом (семья, муж, квартира, рядом, рассказать, проблема, искусство и др.)
В составе НКРЯ появился новый корпус текстов «Русская классика», включающий художественную прозу, публицистические и эпистолярные произведения из представительных академических собраний сочинений русских классических писателей XIX – начала XX вв.: Пушкина, Баратынского, Гоголя, Толстого, Тургенева, Чехова и других (значительная часть этих текстов входят и в Основной или Поэтический корпус). Сейчас корпус представлен в бета-версии («Русская классика β»), планируется его пополнение новыми авторами и произведениями. Объем корпуса – более 17,5 млн словоупотреблений.
Существенно обновлен интерфейс Корпуса берестяных грамот, корпус подключен к обзору возможностей. Для поиска доступна раннедревнерусская лемма (не только слати, но и сълати). Важное нововведение – оригинал и переводы теперь выводятся в две колонки, в правой колонке можно выбрать перевод – русский или один из двух английских.
Существенно улучшена функциональность основного корпуса: в нем появилась лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Теперь в основном корпусе разведены морфологические омонимы, а также появилась возможность задавать поиск по таким синтаксическим параметрам, как типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многим другим. Новая разметка сделала доступными в основном корпусе все новейшие функции, появившиеся ранее в корпусе региональных СМИ: Поиск коллокаций, Частотный словарь, Частотность выдачи.
Кроме того, в основном и газетных корпусах появилась возможность задавать поиск лемм и словоформ с использованием регулярных выражений (β-версия), а также статистика корпуса и подкорпуса в виде таблицы с объемом в текстах и словах, географической карты (только для корпуса региональных СМИ) и диаграммы значений метаатрибутов, что дает пользователям возможность сравнивать заданный подкорпус с корпусом, в том числе визуально.
Существенно обновлен интерфейс церковнославянского корпуса, корпус подключен к обзору возможностей.
Мультимедийный корпус пополнен до 5,7 млн словоупотреблений.
Параллельный корпус пополнен до 168 млн словоупотреблений. В нем появились новые языковые пары: сербско-русская и словенско-русская (по 2 млн словоупотреблений каждая), а также небольшие пилотные корейско-русская и хинди-русская языковые пары с транслитерацией и словарной поддержкой. Последние две пары впервые в истории параллельного корпуса включают выровненные поэтические тексты. Пополнены новыми текстами также чешско-русская и испанско-русская языковые пары.
Существенно обновлен интерфейс старорусского корпуса, корпус подключен к обзору возможностей.
В региональном корпусе появился новый вид выдачи — Частотность, с помощью которого можно проанализировать статистическое распределение результатов поиска по леммам, словоформам и набору грамматических признаков. Частотность рассчитывается на основе разборов с автоматически снятой омонимией по случайной подвыборке размером 1 млн результатов поиска. Пользователи могут управлять уровнем доверительной вероятности для сравнения доверительных интервалов частотности.
Диалектный корпус пополнен до 604 тыс. словоупотреблений.
Синтаксический корпус пополнен на 30 тыс. словоупотреблений.
В частотных словарях корпуса и подкорпуса теперь выводится 500 лемм вместо 100.