Новости НКРЯ

В составе параллельного латышско-русского корпуса доступна латышская морфологическая разметка (с элементами семантики) и поиск по ней. Объём корпуса достиг 727 тыс. словоупотреблений.

Пополнение параллельных корпусов: их совокупный объём составляет 72,2 млн слов. Среди пополненных параллельных корпусов: английский (текущий объём 24,6 млн), немецкий(9,1 млн), белорусский (8,1 млн), французский (2,8 млн), латышский (730 тыс.), испанский (320 тыс.), бурятский (75 тыс.)

Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объёмом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

 

В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объёмом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.

Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.