Новости НКРЯ

Обновление диалектного корпуса, метатекстовая и грамматическая разметка которого значительно усовершенствованы. Совокупный объём корпуса достиг 285 тысяч словоупотреблений в 627 текстах из 22 регионов России. Для 15 текстов доступна аудиозапись (через паспорт текста), для 126 — неорфографизированная запись, для 431 — «глубокая» метатекстовая разметка с подробным указанием жанра, со сведениями об информанте и о фонетических особенностях говора.

В составе параллельного латышско-русского корпуса доступна латышская морфологическая разметка (с элементами семантики) и поиск по ней. Объём корпуса достиг 727 тыс. словоупотреблений.

Пополнение параллельных корпусов: их совокупный объём составляет 72,2 млн слов. Среди пополненных параллельных корпусов: английский (текущий объём 24,6 млн), немецкий(9,1 млн), белорусский (8,1 млн), французский (2,8 млн), латышский (730 тыс.), испанский (320 тыс.), бурятский (75 тыс.)

Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объёмом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

 

В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объёмом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.