Новости НКРЯ

Для того, чтобы вы могли отбирать собственные подкорпуса и пользоваться нашими статистическими сервисами, нужна метаразметка. Количество текстов в корпусах НКРЯ уже превышает 6 млн и постоянно растет. Такие объемы материала все менее реально размечать вручную, поэтому мы развиваем сервисы нейроразметки (НейроКРЯ). Сегодня мы представляем новые результаты в этой области.

Ключевые слова в текстах корпуса Региональных СМИ размечены автоматически с помощью доработанной модели rutermextract. Одно ключевое слово может состоять из однословного ключа (праздник, переломы) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (католическая община).

В корпусе Социальные сети для основного массива текстов корпуса автоматически размечены жанры. Для разметки использована модель RuRoBERTa, дообученная на текстах корпуса. Один или несколько жанров можно выбрать из списка, например, рекомендации и советы.

В информации о тексте поля, значения которых заполняет НейроКРЯ, помечены специальным значком. В том же всплывающем окне есть кнопка “Сообщить об ошибке”. Сообщайте нам о всех неточностях и ошибках в определении ключевых слов и жанров.

Показать все