Новости НКРЯ

Масштабное пополнение основного корпуса — его объём вырос на 36 млн словоупотреблений и превысил 265 млн. Добавлено 25 тысяч новых текстов с неснятой омонимией. Среди новых поступлений — периодика XVIII—XXI веков, художественные, мемуарные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Доступен для поиска подкорпус текстов в дореформенной орфографии (XVIII—середина XX в.) объёмом 1.9 млн словоупотреблений (сюда входят, в частности, журналы XVIII века, письма Пушкина, романы Набокова). Уточнены метаразметка и текст ранее добавленных документов, исправлено несколько тысяч ошибок и опечаток разного рода.

Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.

Пополнение параллельного корпуса. Размер английского корпуса вырос с 20,2 до 24,6 млн словоупотреблений; он пополнен переводами русской классики и представительным собранием сочинений В. В. Набокова как русского, так и американского периода, в том числе в авторских переводах. Объём белорусского корпуса увеличился вдвое — с 3.4 до 6.8 млн словоупотреблений. Включены переводы русской и белорусской классики и приключенческой литературы.
Итальянский корпус преодолел пилотную стадию (0,7 млн) и насчитывает 4 млн словоупотреблений. Он включает художественные, философские и публицистические тексты разных периодов.
Открыт новый эстонский корпус объёмом 400 тыс. словоупотреблений (художественные тексты). Тексты снабжены морфологической разметкой. Пополнен также ряд других параллельных корпусов.
Для каждого двуязычного подкорпуса теперь доступна форма грамматического запроса, учитывающая специфику грамматических помет для соответствующего языка.

Пополнен старорусский корпус. Его объём вырос более чем вдвое — до 7 млн словоупотреблений. Добавлены новые тексты XIV–XVII веков: летописи, повести, деловые документы. Тексты доступны без морфологической разметки, при поиске слов и словосочетаний можно использовать символ *.

Пополнен древнерусский корпус. Для поиска доступно ещё три памятника: "Житие Андрея Юродивого", "Повесть об Акире Премудром" и "Вопрошание Кириково". Всего в корпусе теперь более полумиллиона слов. В древнерусском корпусе доступен поиск по семантической разметке многозначных слов и омонимов (возможно отдельно искать, например, миръ"вселенная" и миръ "покой").

Открыт подкорпус "Русская классика в немецких переводах", составленный при помощи Фонда поддержки Интернет. Объём подкорпуса 5 млн словоупотреблений, хронологический охват оригинальных текстов — от Пушкина до Горького, немецких переводов — от 1860-х до 1980-х годов.

Открыт пилотный вариант Мультимедийного параллельного корпуса (МультиПАРК), включающий в себя две театральные постановки и одну экранизацию пьесы Н.В. Гоголя "Ревизор".

Пополнены устный корпус (до 11,3 млн словоупотреблений) и мультимедийный корпус (до 4,3 млн).

В составе акцентологического корпуса существенно увеличена коллекция публичной речи, а также современных поэтических текстов. Кроме того, организован новый подкорпус «наивной поэзии». Объём акцентологического корпуса увеличен до 30 млн словоупотреблений.

Для общего доступа открыт корпус региональной и зарубежной прессы. Объём корпуса — более 13 млн словоупотреблений, в его составе представлены издания регионов России и ближнего зарубежья. В создании корпуса принимали участие преподаватели кафедры общего и славянского языкознания Гродненского государственного университета имени Янки Купалы (www.grsu.by).