Новости НКРЯ

Масштабное обновление Корпуса:

  • 1. Открытие двух новых составляющих корпусов: корпуса поэтических текстов (ряд авторов первой половины XIX в.), снабжённого, помимо обычной морфологической и семантической, разметкой параметров стиха -- рифмы, строфики, метрики, -- и корпуса диалектных текстов, снабжённого лингвистической разметкой специфических диалектных форм.
  • 2. Открытие в составе главного корпуса особого подкорпуса живой русской речи: расширение массива устных публичных и непубличных текстов. добавления текстов мультимедиа (кинофильмов).
  • 3. Пополнение основного корпуса со снятой грамматической омонимией, в основном записями устной речи и текстами XVIII — первой половины XX в.
  • 4. Пополнение основного корпуса с неснятой грамматической омонимией: художественная литература, научные журналы, тексты 1750-1950 гг.

Расширен поиск по лексико-семантическим признакам. Теперь можно искать имена собственные: ФИО, топонимы и названия учреждений.

 

Пополнение корпуса с неснятой омонимией (до объёма 120 млн словоупотреблений): добавлены научные тексты, художественные произведения, тексты XIX века (разных жанров), советская пресса середины XX века, записи устной речи (публичных выступлений и непубличных микродиалогов). 
Доступен поиск по подкорпусу устной речи. 
Доступна лексико-семантическая разметка на корпусе с неснятой омонимией.

На сайте работает виртуальная клавиатура (кнопка  справа от поля ввода). Теперь, пользуясь только мышью, вы можете ввести в строку запроса русские лексемы и словоформы на компьютере, где нет русской клавиатуры.

Пополнение корпуса с неснятой грамматической омонимией. Добавлены тексты общим объёмом 20,5 млн словоупотреблений: специальные и региональные газеты и журналы, художественная литература XX в., тексты разных жанров (художественные, научные, религиозные) XVIII—XIX в.

Открыт корпус выровненных параллельных текстов (русско-английский и англо-русский); доступен лексико-грамматический поиск по оригинальным текстам (с неснятой грамматической омонимией).

Пополнение корпуса с неснятой грамматической омонимией — добавлены тексты общим объёмом 11 млн словоупотреблений, общий объём корпуса с неснятой грамматической омонимией превысил 65 млн слов. Среди новых текстов — драматические произведения, тексты XIX и начала XX веков, современная художественная литература, периодика, материалы Интернет-форумов.

Значительное пополнение корпуса со снятой грамматической омонимией, в котором теперь представлены также нехудожественные жанры (газетные, журнальные статьи, мемуары, научно-технические, церковно-богословские тексты; записи устной речи). Общий объём корпуса со снятой грамматической омонимией достиг 3,8 млн словоупотреблений в 1000 документах. Эти тексты акцентуированы и доступны для лексико-семантического поиска.

Реализована функция «расширение контекста». Пользователю, помимо выдаваемого по умолчанию контекста длиной в одно предложение, доступен также расширенный контекст длиной в 7 предложений (по 3 предложения слева и справа).

Значительное пополнение корпуса с неснятой грамматической омонимией. Добавлены и проиндексированы тексты общим объемом 15 млн словоупотреблений: художественная литература XIX — первой половины XX века; художественная литература 1960 — 1970-х гг. (включая фантастику и детскую литературу); учебно-научные тексты, специальные и региональные журналы и газеты 1990 — 2000-х гг., массовая литература (детективы, любовные романы) этого же периода. Общий объём корпуса превысил 50 млн словоупотреблений.