Новости

06.08.2024

Объем параллельных корпусов достиг 210 миллионов словоупотреблений. Появились четыре новых параллельных корпуса языков России: чувашский (24 млн слов), карельский (1,2 млн), вепсский (340 тысяч) и язык русских цыган (170 тысяч). Двуязычные пары подготовлены в сотрудничестве с разработчиками отдельных масштабных корпусных проектов для этих языков. В части языковых пар доступна расширенная метаразметка, включающая информацию об источнике, жанре, типе и тематике текста. Был также расширен объем существующих параллельных корпусов: английского (на 5 млн), испанского (на 700 тыс.) и чешского (на 15 тыс.).

Корпус «Социальные сети» пополнен на 3,5 млн словоупотреблений. В него включена коллекция текстов, подготовленная сотрудниками Воронежского государственного университета. В нее вошли материалы, собранные в Архангельской, Астраханской, Курской, Ростовской, Рязанской, Тамбовской областях и охватывающие период 2005—2023 годов, – записи известных блогеров, обсуждения в локальных сетях, в местных группах на популярных платформах VK, Telegram, LiveJournal, Дзен и др.

17.07.2024

Старорусский корпус пополнен на 500 тыс. словоупотреблений. В него добавлены тексты разных жанров и временных периодов — от дошедших в поздних копиях псковских грамот XIV—XV вв. до ранних документов Петра I и трактатов 1690-х годов по риторике. Кроме того, теперь для поиска доступны Комиссионный список Новгородской первой летописи, сборники крестьянских челобитных и дипломатической переписки Москвы с Германией и крымскими татарами. Существенно усовершенствован морфологический анализ текста — словарь корпуса вырос примерно на 40 тысяч лексем.

01.07.2024

В виде выдачи Частотность стало доступно больше результатов поиска, а еще больше можно скачать в виде электронной таблицы. Это очень важно для исследователя, которого интересуют не только самые распространенные варианты, но и более широкая картина. Теперь в таблице представлена 1000 самых частотных результатов запроса, а результаты выдачи с данными о частотности можно скачать в объеме до 5000 строк. Подробнее об этом и других видах выдачи читайте в Руководстве пользователя.

При выгрузке в формате Excel на вкладке Info теперь можно увидеть точное число не только найденных, но и скачанных документов и примеров. Пользователь сможет точнее оценить результаты выдачи и корректно их интерпретировать.

01.07.2024

В Основном и Региональном корпусах появилась диахроническая статистика подкорпуса. Теперь вы можете сравнивать графики, характеризующие объем и состав текстов подкорпуса, меняющийся во времени, с текстами всего корпуса. Например, можно увидеть, что женщины-авторы в XIX веке пишут чаще художественную литературу, чем тексты других жанров, а в XX веке положение выравнивается.

Чтобы увидеть графики диахронической статистики, нужно нажать на кнопку (i) в шапке подкорпуса, выбрать раздел Статистика и перейти во вкладку Распределение по времени.

Вы можете выбрать уровень детализации, задать диапазон дат и сглаживание. Как пользоваться новыми диаграммами и графиками и как интерпретировать полученные результаты, можно узнать в подсказке рядом с названием виджета.

Напомним, что в феврале пользователям стала доступна диахроническая статистика Основного и Регионального корпусов.