Скачиваемые корпуса

Все результаты интеллектуальной деятельности, используемые в НКРЯ и размещаемые в сети Интернет по адресу https://www.ruscorpora.ru/, доступны исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования: их можно использовать в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление. При цитировании примеров, полученных с помощью НКРЯ, необходимо ссылаться на НКРЯ как источник примеров, а также, в случае, если пример носит бесспорно авторский характер, указывать имена авторов текста и его название.

Для получения офлайновой версии корпуса, а также диахронических датасетов НКРЯ, нужно подписать соответствующее лицензионное соглашение и выслать заявку с заполненным отсканированным лицензионным соглашением по адресу np-rnc@yandex.ru. Пожалуйста, укажите в заявке цели использования данных.

Офлайновая версия основного корпуса со снятой морфологической омонимией

Корпус со снятой омонимией содержит тексты на современном русском языке (после 1950 года, большинство текстов относится к концу XX — началу XXI в.) объёмом 1 млн словоформ. Каждая словоформа снабжена проверенным вручную морфологическим анализом, включая указание лексемы (леммы, начальной формы) и набора грамматических характеристик. В ряде случаев даются альтернативные интерпретации словоформ. Корпус сбалансирован — примерно равным объёмом представлены художественные, научные, публицистические тексты, расшифровки устной речи и материалы Интернета (блоги).

 

Объём около 1 млн словоупотреблений

 

Лицензионное соглашение

 

Офлайновая версия Синтаксического корпуса СинТагРус

База данных «СинТагРус» – это корпус русских текстов, снабженных несколькими типами разметки. В состав БД входят художественные произведения, научно-популярные статьи и новостные сообщения. Тексты хранятся в виде файлов формата XML. Структура каждого файла определяется иерархически упорядоченным набором XML-элементов. В состав БД входит около 1300 текстов (почти 1,5 млн слов, свыше 100 тыс. фраз). Морфологическая разметка содержит начальную форму слова и его грамматические характеристики. Главной является синтаксическая разметка фразы, представленная древовидной структурой, узлами которой являются слова, а дугами – именованные синтаксические отношения. Лексико-функциональная разметка характеризует словосочетания, описываемые в терминах лексических функций модели «Смысл-Текст». В корпусе около 40 тыс. таких словосочетаний, представленных примерно в 28% всех фраз. Лексико-семантическая разметка идентифицирует многозначность: размечены значения у всех вхождений 3000 многозначных слов. Все тексты содержат метаинформацию (автор, заглавие, источник, и т.д.) в соответствии с форматом метаразметки, принятым в основном корпусе НКРЯ.

Объём около 1,5 млн словоупотреблений

 

Лицензионное соглашение

 

Диахронические датасеты НКРЯ

Диахронические наборы данных охватывают три периода (1700—1916, 1918—1991 и 1992—2016 годы) и соответствуют приблизительно трём историческим периодам развития общества и русского языка Нового времени («досоветскому», «советскому» — включая, разумеется, и тексты эмиграции, — и «постсоветскому»).
Каждый из этих периодов представлен большим текстовым файлом в кодировке UTF-8, где в произвольном порядке находятся предложения исходных текстов. Такое нарушение целостности текстов связано с требованиями защиты авторских прав. Тексты не снабжены морфологической либо метатекстовой разметкой.

Совокупный объём наборов данных — 250 миллионов словоупотреблений.


Лицензионное соглашение

 

Мультиязычный датасет НКРЯ

Мультиязычный датасет включает весь многоязычный подкорпус Параллельного корпуса НКРЯ по состоянию на осень 2021 года. Датасет содержит 12 художественных произведений и их переводы (каждому оригинальному произведению соответствует от 10 до 25 переводов на разные языки). В число документов входят произведения классики мировой литературы и современные бестселлеры, например, «Мастер и Маргарита», «Маленький принц» или «Код да Винчи». Датасет представляет собой единый файл формата json в кодировке UTF-8, содержащий кортежи предложений – выровненные абзацы на разных языках, собранные из оригинального текста и его переводов. С целью соблюдения авторских прав порядок кортежей абзацев был нарушен и рандомизирован. Датасет очищен от внутренней лингвистической разметки и метаразметки. Обозначения языков приведены в кодах ISO 639-1. Отличительной особенностью датасета является то, что он состоит из художественных текстов (нарративов, включающих диалоги), в то время как большинство других многоязычных датасетов содержит документы новостного, официально-делового стиля или субтитры.

Объем около 5 млн словоупотреблений.

 

Лицензионное соглашение

 

Обновлено 23.07.2024