Новости НКРЯ

В феврале в новой версии Корпуса были пополнены несколько корпусов:
Региональный корпус пополнен до 17 млн словоупотреблений.
Устный корпус пополнен до 13 млн словоупотреблений.
Синтаксический корпус пополнен до 1,1 млн словоупотреблений.
Восстановлены таблицы постраничных частот.
В устном корпусе восстановлен поиск искаженных форм.

За декабрь-январь в новой версии Корпуса налажены следующие функции:
Восстановлена возможность поиска слов в зоне рифмовки в поэтическом корпусе.
Стал доступен экспорт результатов поиска в таблицу Excel в объёме 500 записей. Если вы заметите ошибки в таблице с результатами, сообщите, пожалуйста, о них при помощи кнопки «Сообщить об ошибке».
На главной странице сайта появилась ссылка на инструкцию по составлению сообщения об ошибке.

Дорогие коллеги,
Начинаем вести регулярное (примерно раз в месяц) оповещение пользователей о том, что было исправлено в новой версии Корпуса за истекший период.
С момента временного отключения старой версии в сентябре в новой версии Корпуса налажены следующие функции:
Сортировка результатов выдачи:
Сортировка по дате – восстановлен прямой и обратный хронологический порядок сортировки выдачи (упорядочивание выдачи в настройках).
Исправлена еще одна ошибка в настройках сортировки выдачи – результат выдачи больше не пропадает при сортировке по дате и по другим признакам.
Восстановлена возможность отбора подкорпуса по дате создания и дате публикации.
Исправлены ошибки, которые возникали при вводе запроса в окно поиска:
Знаки препинания в запросе в окне точного поиска теперь не влияют на результат поиска.
Лишний пробел в начале или в конце запроса в окне точного и лексико-грамматического поиска теперь не влияет на результат поиска.
Стало возможным просматривать до 500 страниц выдачи.
Восстановлена возможность одновременного доступа к корпусу с многих компьютеров (актуальная, например, при работе группы студентов или школьников).
Расстояние между лексемами:
Восстановлена возможность задавать сложный поиск из нескольких лексем с расстоянием между лексемами в окне лексико-грамматического поиска.
Исправлен некорректный показ условий поиска в начале выдачи лексико-грамматического поиска с расстоянием между лексемами и в начале выдачи точного поиска при поиске словосочетания.
Если вы заметите, что что-то из перечисленного не работает или восстановлено не полностью – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке» на странице с неправильными результатами, мы обязательно постараемся это исправить.

Объём латышско-русского и русско-латышского параллельного корпуса вырос более чем втрое и достиг 2,5 млн словоупотреблений. Объём бурятско-русско и русско-бурятского параллельного корпуса вырос более чем вдвое и достиг 270 тыс. словоупотреблений.

Пополнение параллельных корпусов, совокупный объём которых достиг 76,8 млн словоупотреблений.
Открыт новый параллельный шведско-русский корпус объёмом 400 тысяч словоупотреблений с морфологической разметкой.
Испанско-русский корпус преодолел пилотную стадию, вырос более чем вчетверо и насчитывает 1,3 млн словоупотреблений. В него включены тексты современных испаноязычных СМИ в русском переводе, а также художественная литература XIX—XX веков.
Существенно вырос объём и китайско-русского параллельного корпуса, насчитывающего теперь 180 тысяч слов.
Пополнились также французский (до 3,9 млн), белорусский (до 9,4 млн), бурятский (до 120 тысяч) и другие параллельные корпуса.

Появилась возможность задать в поэтическом корпусе подкорпус по месту написания стихотворения, указанному в авторской помете, с помощью интерактивной карты.

Школа лингвистики НИУ ВШЭ и образовательный сайт «Верные слова» организуют онлайн-олимпиаду «Что может корпус». Олимпиада проходит с 20 марта по 20 апреля в трёх возрастных группах: дети 7—10 лет, 10—13 лет и 13—16 лет. Цель олимпиады — показать детям, родителям и учителям, какие сведения о языке и культуре они могут получить в Национальном корпусе русского языка и как эффективно работать с этим ресурсом дома и на уроках.

Пополнены акцентологический корпус (до 31,7 млн словоупотреблений) и устный корпус (до 12 млн).
Пополнение в составе мультимедийного корпуса (более 4,6 млн словоупотреблений) и Мультимедийного параллельного корпуса, который теперь включает в себя 6 постановок и 3 экранизации пьесы Н. В. Гоголя «Ревизор»

Пополнение основного корпуса. Объём корпуса вырос на 18 млн словоупотреблений и достиг 283 млн. Объём текстов в старой орфографии вырос вдвое (до 3,7 млн слов). В корпус вошли документы XVIII века, тексты первого русского научного журнала «Ежемесячные сочинения», мемуары XIX — XX в., дневники начала XX в., художественная литература разных периодов, современная детская, детективная, научная, философская проза и многие другие тексты. Впервые за долгое время пополнен корпус со снятой омонимией; в него включено 24 текста электронной коммуникации. Исправлена и унифицирована разметка корпуса на разных уровнях.