Новости НКРЯ
В феврале мы существенно усовершенствовали Газетный корпус.
Корпус пополнен более чем на 49,6 млн словоформ. В него добавлены периодические издания 1990-х годов («Независимая газета», в том числе еженедельные приложения, «Московский комсомолец», «Санкт-Петербургские ведомости»).
Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей (напомним, что поле запроса появляется начиная со второго слова после нажатия ссылки «добавить условие»). Это делает доступными в Газетном корпусе центральных СМИ те новейшие функции, которые уже есть в меньших по объему Основном корпусе и Корпусе региональных СМИ: поиск по синтаксическим отношениям и свойствам, поиск коллокаций, частотный словарь, частотность выдачи.
Газетный корпус НКРЯ — теперь самый объемный в мире онлайн-корпус русского языка с возможностью поиска по синтаксическим связям!
В форме подкорпуса появилась возможность отбирать тексты по тематике и типу. Для разметки этих полей использована модель RuRoBERTa, дообученная на данных Регионального корпуса. Поля в форме подкорпуса и информации о тексте, значения которых сгенерированы НейроКРЯ, помечены специальным значком. При автоматической разметке возможны ошибки. Во всплывающем окне информации о тексте есть кнопка «Сообщить об ошибке». Сообщайте нам о всех неточностях и ошибках в определении тематики и типов.