Новости НКРЯ
Параллельный корпус пополнен до 147 млн словоупотреблений. В поиске доступен обновленный китайско-русский корпус с новой частеречной разметкой и усовершенствованным алгоритмом словоделения. Добавлены тексты разных жанров (художественные, религиозные, новости, деловые письма, политические речи), в том числе представляющие разные варианты китайского литературного языка. Существенно пополнены также чешско-русская, шведско-русская и эстонско-русская языковые пары.
Газетный корпус пополнен до 394,5 млн словоупотреблений. В нем стал доступен поиск по версиям. В пополненный корпус включены издания «Ведомости», «Парламентская газета», «Аргументы и факты», а также тексты новостных интернет-изданий «NEWSru.com», «ВЕСТИ.RU» за 2010-2020 годы. Добавлены номера за 2020-2021 гг. тех изданий, которые представлены в корпусе, в том числе «Известия» за 2015-2020 гг.
Региональный корпус пополнен до 24,5 млн словоупотреблений. В него включены тексты 6 новых газет, как городских, так и районных. В региональном корпусе стала доступна сортировка результатов выдачи по правому/левому контексту.
В газетном региональном и параллельном корпусах стал возможен поиск по дополнительным семантическим признакам. Появились графики распределения вхождений по годам в региональном, старорусском, обучающем, диалектном и устном корпусах.
Обновлена статистика на сайте, а также страница статистики на английском языке.
Появилась возможность поиска по версиям и по дополнительным семантическим признакам в устном и мультимедийном корпусах. Поиск по дополнительным семантическим признакам появился также в обоих мультимедийных параллельных корпусах.
В мультимедийном корпусе стал доступен поиск и отбор подкорпуса по жестам и речевым действиям.
В обучающем корпусе стал доступен поиск по дополнительным грамматическим признакам – склонению и спряжению.
В параллельном корпусе появилась предварительная версия поиска по двум языкам одновременно. Теперь можно задавать условия поиска в предложении на русском языке и одновременно условия поиска в соответствующем ему иноязычном предложении (например, можно найти все выровненные пары из русских предложений со словом «чай» и английских со словом «tea»). Эта функция доступна по ссылке со страниц поиска в двуязычных языковых парах. Пожалуйста, присылайте свои замечания к её работе.
В основном корпусе стал доступен поиск по словообразовательной структуре слова и морфемам (так, можно найти слова с суффиксом «ств» или корнем «бав»).
Корпус берестяных грамот пополнен до 23 тыс. слов и включает все тексты берестяных грамот, известные к концу 2020 г. Корпус синхронизирован с базой данных gramoty.ru и учитывает предложенные за последние годы (начиная с 2004 г.) поправки к интерпретации найденных ранее грамот.
Поэтический корпус пополнен до 12,9 млн словоформ (в основном стихотворениями авторов 1960-1980-х годов). В нем стал доступен поиск по версиям и поиск по дополнительным семантическим признакам.
Диалектный корпус пополнен до 485 тыс. слов. Новые тексты представляют говоры Архангельской, Вологодской, Кировской, Томской и Тюменской областей и различные жанры диалектной речи, в том числе прозаический и поэтический фольклор. Ряд записей выполнен специально для Корпуса.
В параллельном корпусе появилась возможность задать подкорпус в зависимости от страны языка или варианта литературной нормы (например, отобрать оригиналы или переводы на американском английском или латиноамериканском испанском).
В акцентологическом и поэтическом корпусах добавлена функция поиска слов в составе неоднословных лексических сочетаний: например, можно искать слово что в составе сложных союзов разве что, что касается и др. Эта функция доступна в поле «дополнительные признаки» лексико-грамматического поиска.
В поэтическом корпусе доступно задание подкорпуса по карте.
В основном корпусе доступен поиск по версиям, а также отображение дополнительных семантических признаков в информации о слове и поиск по ним.
Дорогие родители и учителя!
Приглашаем детей 7–15 лет принять участие в олимпиаде "Что может корпус". Олимпиаду проводит Лаборатория чтения совместно со Школой лингвистики НИУ ВШЭ. Она состоится на сайте Верные слова vsrussian.com. Задания будут доступны с 1 декабря 2021 г. по 15 января 2022 г. Регистрироваться на сайте можно уже сейчас. Перед началом олимпиады советуем детям потренироваться работать в НКРЯ с помощью обучающих интерактивных заданий vsrussian.com/courses.
Общий объем корпуса превысил 1 миллиард словоформ!
Параллельный корпус пополнен до 142 млн словоформ. Существенно расширены языковые пары со шведским, латышским, испанским, чешским и эстонским языками, пополнены также итальянско-русский и французско-русский корпус.
Синтаксический корпус пополнен до 1,35 млн словоформ. Как и в основном корпусе, в описании текста теперь показываются автор и источник, а структура предложений отображается также в версии с ударениями.
Русский Мультипарк пополнен до 229 тыс. словоформ. Добавлены новая постановка пьесы А.П. Чехова "Вишневый сад" и две постановки пьесы "Дядя Ваня".
В диалектном корпусе и корпусе берестяных грамот доступен показ всего текста из списка отобранных текстов. В меню дополнительных признаков в основном корпусе доступен поиск по оборотам.
Мультимедийный корпус пополнен до 5,4 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи, теле- и радиопублицистики, повседневной диалогической речи. Значительно вырос раздел художественного чтения, в котором представлены записи русской прозы в исполнении мастеров художественного слова.
В поэтическом корпусе появился отбор подкорпуса по формуле строки. Он позволяет отбирать только строки, соответствующие заданным параметрам: формула вида "метр + количество стоп/иктов/слогов + клаузула", а также схема расположения иктов. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках поиска на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.
Корпус региональной и зарубежной прессы пополнен до 23 млн словоупотреблений. В него включены тексты 12 новых газет, как региональных, так и районных.
На странице с результатами выдачи стала доступна статистика по метапризнакам.
Поиск в корпусе по словарю оборотов теперь доступен в новой версии корпуса.
При сортировке выдачи по правому/левому контексту теперь можно просматривать случайную выборку из 1000 результатов поиска.
Основной корпус пополнен до 337 млн словоупотреблений. В пополнение входят: научные труды XVIII — начала XIX в.; художественная литература XIX — начала XX в., документы, научные работы, описания путешествий, подборки мемуаров, публицистика (в том числе из журналов «Сын отечества», «Московский наблюдатель»), детская хрестоматия К. Д. Ушинского; подборки текстов разных жанров XX в., включая лингвистические работы, дневники, периодику разных волн русской эмиграции; материалы современных СМИ и научной периодики; перевод Библии Российского библейского общества (2011).
В основном и газетном корпусах появилась возможность просмотра n-грамм со страницы выдачи результатов запроса. N-граммы показаны для исходного запроса с учетом отобранного подкорпуса. Для результатов выдачи больше 1 млн n-грамм показывается только процентное распределение n-грамм. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках n-грамм на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.
Поэтический корпус пополнен до 12,8 млн словоупотреблений. Добавлен показ метрической разметки строки в версии с ударениями. Стал возможен постраничный просмотр всего текста стихотворения из списка отобранных текстов.
Акцентологический корпус пополнен до 133 млн словоупотреблений.
В синтаксическом корпусе при показе структуры предложения отображаются лексические функции. Синтаксическая структура предложения теперь открывается во всплывающем окне.
В основном и газетном корпусах восстановлена возможность сортировки результатов выдачи по правому/левому контексту. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках сортировки на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.