Новости НКРЯ

В наших больших корпусах появились новые типы разметки с использованием нейросетевых методов — это лексико-грамматическая разметка с автоматическим разрешением омонимии и автоматическая синтаксическая разметка. Сегодня поиск по такой разметке открыт в Газетном корпусе региональных СМИ, на следующем этапе он станет доступен для основного и газетного корпусов. 
На всем объёме регионального корпуса автоматически разведены морфологические омонимы: например, существительное печь теперь размечено иначе, чем глагол печь, а дательный падеж — чем предложный. Можно искать такие синтаксические параметры, как разные типы сложных предложений, предикативных групп (клауз), дополнения, связки, обращения и многое другое. Синтаксическая разметка в региональном корпусе устроена иначе, чем в отдельном синтаксическом корпусе, и сильнее ориентирована на синтаксис составляющих.
Просим вас активно пользоваться новыми возможностями поиска и сообщать нам о всех замеченных ошибках.

В синтаксическом корпусе существенно пополнена информация о текстах: теперь пользователю показываются пол автора, сфера функционирования, тема и тип текста, издание и дата разметки. Для предложений с неоднословными оборотами (например, потому что или по меньшей мере) показывается два варианта структуры предложения: с пословным разбором и с разбором, где оборот представлен как одно слово. Объем корпуса вырос до 1,5 млн словоупотреблений.

Показать все