Новости

02.04.2024

На сайте НКРЯ доступны два новых параллельных корпуса. Японско-русская языковая пара насчитывает более 400 тысяч слов и включает переведенные с японского художественные тексты и новости. Хакасско-русские параллельные тексты, подготовленные для НКРЯ на базе Электронного корпуса хакасского языка, насчитывают более 1 млн словоупотреблений и охватывают и фольклор (включая записи XIX в.), и авторскую литературу, и публицистику.

Пополнены и уже имеющиеся параллельные корпуса. Существеннее всего выросли португальский (теперь 1.6 млн словоупотреблений) и чешский (4.3 млн) корпуса.

01.04.2024

В Портретах слова Газетного, Обучающего корпуса и корпуса «‎Русская классика»‎ появились новые виджеты.

В корпусе Центральных СМИ и корпусе «‎Русская классика»‎ появились виджеты Скетчи, Частотность слова и Похожие слова. Поскольку портрет слова строится на материале корпуса, то скетчи и похожие слова для одного и того же слова получаются разными в разных корпусах. Например, в текстах корпуса Центральных СМИ шутка чаще всего бывает злой и первоапрельской, а в произведениях русских классиков — колкой и забавной

Обновился виджет Статистика во всех трех корпусах. Переходите по ссылке, чтобы узнать, в каком типе текстов русских классиков чаще употребляется слово анекдот.

29.03.2024

В корпусе «Русская классика» внедрена автоматическая разметка при помощи нейросетевых механизмов. Теперь в нем доступны те же поисковые и статистические инструменты, что в Основном, Газетном и других «передовых» корпусах: частотность, н-граммы, статистика по метапризнакам, скетчи в портрете слова, поиск по синтаксическим отношениям, сравнение подкорпусов по частотным словникам и многое другое. Кроме того, корпус «Русская классика» — единственный из корпусов НКРЯ, где репрезентативно представлены и стих, и письменная проза, и можно отбирать эти типы текста отдельно. Благодаря всему этому мы можем сравнить, о чем писали русские классики. Например, можно говорить о «‎человекоцентричности»‎ русской классической литературы (см. иллюстрацию), а также заметить, что о душе поэты (В. А. ЖуковскийЕ. А. БаратынскийМ. Ю. Лермонтов), писали значительно чаще, чем прозаики (А. Н. РадищевН. В. ГогольИ. С. Тургенев).

29.03.2024

В марте была существенно улучшена работа Синтаксического корпуса. В СинТагРусе появились новые типы информации и поисковые поля. Начиная со Слова 2, можно задать кореферентную и темпоральную связь. В поле Дополнительные признаки теперь есть возможность искать эллидированные слова, т. е. такие слова, которые опущены (подвергнуты эллипсису) в предложении, но присутствуют в его синтаксической структуре.

Поиск по микросинтаксической разметке позволяет идентифицировать устойчивые выражения разных типов. Например, отобрав конструкции все равно 1все равно 2 и все равно 3 пользователь может увидеть особенности значения этого многозначного оборота (‘по-любому’, ‘безразлично’ и ‘эквивалентно’, соответственно) и особенности его употребления (например, все равно 2 и 3 выступают в функции сказуемого, а все равно 1 — нет).

В выдаче теперь доступна сортировка по дате создания, дате рождения автора, дате разметки и случайная сортировка. По умолчанию результаты сортируются по дате разметки текстов.

В меню синтаксических отношений, лексических функций и морфологических признаков появились подсказки. По клику на кнопку (?) в соседнем окне откроется соответствующее описание в Руководстве пользователя.