Новости НКРЯ

В Региональном корпусе обновлена разметка ключевых слов в текстах. Использование ключевых слов облегчает анализ узких тематических категорий и помогает ориентироваться в текстах разных тематик.

Для разметки использовалась модель T-lite-instruct-0.1, обученная на материалах корпуса. Новые ключевые слова содержат меньше ошибок нормализации и грамматических ошибок, а также более точно описывают тематику текста. Как и раньше, одно ключевое слово может состоять из однословного ключа (похолодание, гололед) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (сельская община). Для каждого текста сгенерировано от 5 до 10 ключевых слов, которые упорядочены по значимости.