Новости НКРЯ

Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объёмом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

 

В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объёмом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.

Масштабное пополнение основного корпуса — его объём вырос на 36 млн словоупотреблений и превысил 265 млн. Добавлено 25 тысяч новых текстов с неснятой омонимией. Среди новых поступлений — периодика XVIII—XXI веков, художественные, мемуарные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Доступен для поиска подкорпус текстов в дореформенной орфографии (XVIII—середина XX в.) объёмом 1.9 млн словоупотреблений (сюда входят, в частности, журналы XVIII века, письма Пушкина, романы Набокова). Уточнены метаразметка и текст ранее добавленных документов, исправлено несколько тысяч ошибок и опечаток разного рода.

Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.

Пополнение параллельного корпуса. Размер английского корпуса вырос с 20,2 до 24,6 млн словоупотреблений; он пополнен переводами русской классики и представительным собранием сочинений В. В. Набокова как русского, так и американского периода, в том числе в авторских переводах. Объём белорусского корпуса увеличился вдвое — с 3.4 до 6.8 млн словоупотреблений. Включены переводы русской и белорусской классики и приключенческой литературы.
Итальянский корпус преодолел пилотную стадию (0,7 млн) и насчитывает 4 млн словоупотреблений. Он включает художественные, философские и публицистические тексты разных периодов.
Открыт новый эстонский корпус объёмом 400 тыс. словоупотреблений (художественные тексты). Тексты снабжены морфологической разметкой. Пополнен также ряд других параллельных корпусов.
Для каждого двуязычного подкорпуса теперь доступна форма грамматического запроса, учитывающая специфику грамматических помет для соответствующего языка.