|
English
В Национальный корпус русского языка включены прежде всего прозаические оригинальные тексты, представляющие русский литературный язык (с середины XVIII века), но также и (в меньшем объёме) переводные сочинения (параллельно с оригиналом), поэтические тексты, а также тексты, представляющие нелитературные формы современного русского языка: разговорную (записи устной речи, публичной и непубличной), диалектную.
Основной корпус текстов
Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на три главных массива, имеющих свои особенности: это современные письменные тексты (середина XX начало XXI века), корпус живой русской речи (записи устных текстов того же периода) и ранние тексты (середина XVIII середина XX века). По умолчанию поиск по этим трём массивам ведётся одновременно, выбрать один из них (и задать дополнительные параметры) можно на странице установки пользовательского подкорпуса.
Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа. В небольшой части основного корпуса (объемом 5 млн словоупотреблений; в дальнейшем эта цифра будет увеличена) произведено ручное снятие омонимии и дополнительная коррекция результатов работы программы автоматического морфологического анализа. Эта часть образует так называемый эталонный морфологический корпус, который может служить удобным полигоном для тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для исследований современной русской морфологии, требующих повышенной точности поиска. Примеры из этого подкорпуса снабжаются в выдаче пометой [омонимия снята]. Тексты со снятой омонимией снабжены автоматической (при помощи Грамматического словаря русского языка) акцентуацией. (В версии для сохранения/печати ударения могут быть сняты).
Современные письменные тексты
Представительный корпус современных текстов с морфологической разметкой является основным и самым объёмным из подкорпусов. Планируемый объем этого корпуса 100 млн. словоупотреблений. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:
-
современная художественная проза разных жанров и направлений
-
современная драматургия
-
мемуарно-биографическая литература
-
журнальная публицистика и литературная критика
-
газетная публицистика и новости
-
научные, научно-популярные и учебные тексты
-
религиозные и религиозно-философские тексты
-
производственно-технические тексты
-
официально-деловые и юридические тексты
-
бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)
Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.
Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей).
Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.
Тексты XVIII—середины XX вв. в Корпусе
Тексты XVIII—середины XX вв. в Корпусе представляют также различные жанры (художественная литература, научные тексты, частная переписка, публицистика), однако по причине доступности электронных версий и современных переизданий процент художественной литературы для этого периода гораздо выше, чем для второй половины XX в. Тексты, написанные до 1918 г., даются в послереформенной орфографии; те особенности оригинальной орфографии, которые сохраняются в научных переизданиях, сохраняются и в Корпусе.
Глубоко аннотированный корпус
Данный фрагмент Национального корпуса русского языка
содержит тексты, снабженные морфо-синтаксической разметкой. Это значит, что
помимо морфологической информации, приписанной каждому слову текста, для
каждого предложения задана его синтаксическая структура.
Синтаксическая структура предложения, используемая в
глубоко аннотированном корпусе (ГАК), представляет собой дерево
зависимостей, в узлах которого стоят слова предложения, а ветви помечены
именами синтаксических отношений. Такое представление о синтаксической
структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И.А.Мельчука и А.К.Жолковского. Окончательный
перечень синтаксических отношений, используемых в ГАК, а также целый ряд
конкретных лингвистических решений, связанных с представлением синтаксической
структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института
проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен
ГАК.
В отличие от морфологически размеченного фрагмента
Национального корпуса русского языка, ГАК целиком состоит из структур со
снятой морфологической и синтаксической омонимией.
Корпус параллельных текстов
Особым типом корпуса является так называемый параллельный корпус, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выровненными.
Выровненный параллельный корпус представляет собой важный инструмент для научных исследований (в том числе и для исследований по теории и практике перевода); он может также использоваться при обучении русскому и иностранным языкам.
В настоящее время на сайте Национального корпуса размещён небольшой выровненный параллельный русско-английский корпус.
Корпус диалектных текстов
Корпус диалектных текстов включает в себя записи диалектной речи (в орфографии, приближенной к стандартной) из различных регионов России. Задачи передать фонетическую информацию не ставится; при этом полностью сохранена морфологическая, синтаксическая и лексическая специфика текстов. В подкорпусе имеются специальные пометы для особенностей диалектной морфологии (в том числе явлений, отсутствующих в литературном языке), кроме того, толкованиями снабжаются чисто диалектные лексемы.
Корпус поэтических текстов
Корпус поэтических текстов включает стихотворные произведения. В настоящее время хронологический охват — примерно 1750-1850-е гг. (со включением нескольких авторов XX в.); в корпус пока не включены стихотворные драматические сочинения. Помимо обычной семантической и морфологической разметки (аналогичной той, что представлена в корпусе с неснятой омонимией), предусмотрена специальная стиховедческая разметка. Так, возможен поиск текстов, написанных амфибрахием, тоническими размерами, 5-стишиями, вольной рифмовкой, твёрдыми формами и т. п.
Обучающий корпус русского языка
Обучающий корпус русского языка — небольшой корпус со снятой омонимией, ориентированный на преподавание русского языка в школе (отобраны произведения из школьной программы, изучаемых в школьном курсе функциональных стилей, размечены словоизменительные типы и другие дополнительные морфологические признаки)
Корпус устной речи
Корпус устной речи включает в себя расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Включены тексты самых разных жанров и типов, разного происхождения с точки зрения географии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.). Хронологический охват корпуса 1930-2000-е гг.
|