English
В Национальный корпус русского языка включены прежде всего прозаические оригинальные тексты, представляющие русский литературный язык (с начала XVIII века), но также и (в меньшем объёме) переводные сочинения (параллельно с оригиналом), поэтические тексты, а также тексты, представляющие нелитературные формы современного русского языка: разговорную (записи устной речи, публичной и непубличной), диалектную.
Основной корпус текстов
Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX начало XXI века) и ранние тексты (середина XVIII середина XX века). По умолчанию поиск по этим массивам ведётся одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.
Все тексты, входящие в основной корпус, проходят процедуру метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа. В небольшой части основного корпуса (объемом 6 млн словоупотреблений; в дальнейшем эта цифра будет увеличена) произведено ручное снятие омонимии и дополнительная коррекция результатов работы программы автоматического морфологического анализа. Эта часть образует так называемый корпус со снятой омонимией, который может служить удобным полигоном для тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для исследований современной русской морфологии, требующих повышенной точности поиска. Примеры из этого подкорпуса снабжаются в выдаче пометой [омонимия снята]. Тексты со снятой омонимией снабжены автоматической (при помощи Грамматического словаря русского языка) акцентуацией. (В версии для сохранения/печати ударения по умолчанию сняты).
Современные письменные тексты
Представительный корпус современных текстов с морфологической разметкой является основным и самым объёмным из подкорпусов. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:
-
современная художественная проза разных жанров и направлений
-
современная драматургия
-
мемуарно-биографическая литература
-
журнальная публицистика и литературная критика
-
газетная публицистика и новости
-
научные, научно-популярные и учебные тексты
-
религиозные и религиозно-философские тексты
-
производственно-технические тексты
-
официально-деловые и юридические тексты
-
бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)
Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.
Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей).
Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.
Тексты XVIII—середины XX вв. в Корпусе
Тексты XVIII—середины XX вв. в Корпусе представляют также различные жанры (художественная литература, научные тексты, частная переписка, публицистика), однако по причине доступности электронных версий и современных переизданий процент художественной литературы для этого периода гораздо выше, чем для второй половины XX в. Тексты, написанные до 1918 г., даются в послереформенной орфографии; те особенности оригинальной орфографии, которые сохраняются в научных переизданиях, сохраняются и в Корпусе.
Подробнее см.:
Савчук С. О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 52—70.
Дич Н. Л. О текстах XIX века в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 89—93.
Оскольская С. А. Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 46—51.
Савчук С. О. Корпус текстов первой половины XX века: текущее состояние и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 27—45.
Глубоко аннотированный (синтаксический) корпус
Данный фрагмент Национального корпуса русского языка
содержит тексты, снабженные морфо-синтаксической разметкой. Это значит, что
помимо морфологической информации, приписанной каждому слову текста, для
каждого предложения задана его синтаксическая структура.
Синтаксическая структура предложения, используемая в
глубоко аннотированном корпусе (ГАК), представляет собой дерево
зависимостей, в узлах которого стоят слова предложения, а ветви помечены
именами синтаксических отношений. Такое представление о синтаксической
структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И. А. Мельчука и А. К. Жолковского. Окончательный
перечень синтаксических отношений, используемых в ГАК, а также целый ряд
конкретных лингвистических решений, связанных с представлением синтаксической
структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института
проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен
ГАК.
В отличие от морфологически размеченного фрагмента
Национального корпуса русского языка, ГАК целиком состоит из структур со
снятой морфологической и синтаксической омонимией.
Подробнее см.:
Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003—2005. М.:Индрик, 2005, 193—214.
Газетный корпус (корпус современных СМИ)
Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации 2000-х годов. Значительные объёмы текстов СМИ, доступные в электронном виде и предоставляющие большой интерес для изучения языковых изменений «в режиме реального времени», не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объёму он сопоставим с основным.
В корпус газетных текстов примерно в равном объёме включены тексты семи СМИ — как печатных газет ("Известия", "Советский спорт", "Труд", "Комсомольская правда"), так и электронных агентств (РИА "Новости", РБК, "Новый регион"). Предполагается постоянное пополнение корпуса; каждый год выпуска должен быть представлен одинаковым объёмом текстов в несколько десятков миллионов словоупотреблений.
Корпус региональной и зарубежной прессы
Корпус региональной и зарубежной прессы открыт для общего доступа в 2015 г. В нем представлены газеты нескольких уровней – региональные выпуски центральных газет, газеты регионального уровня и местные издания – районные и городские. Временные рамки текстов 1996—2013 годы. География печатных изданий широка и охватывает все федеральные округа России, а также страны СНГ (Беларусь, Молдова, Кыргызстан) и Балтии.
В текущей версии регионального газетного корпуса выделяются четыре относительно самостоятельные коллекции: тексты русскоязычных газет Гродненщины на русском и белорусском языке ("Лингвистический иллюстративный корпус СМИ Гродненщины"), две коллекции региональных газет России с дистанцией в 10 лет — газеты 1990—2000-х годов и СМИ 2010-х годов и коллекция региональных выпусков "Комсомольской правды". С ними можно работать как с единым массивом, так и с каждой коллекцией в отдельности. Эти и многие другие возможности обеспечиваются поиском по корпусу.
Корпус параллельных текстов
Особым типом корпуса является так называемый параллельный корпус, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выравненными.
Выравненный параллельный корпус представляет собой важный инструмент для научных исследований (в том числе и для исследований по теории и практике перевода); он может также использоваться при обучении русскому и иностранным языкам.
В настоящее время на сайте Национального корпуса размещены следующие параллельные выровненные корпуса: англо-русский, русско-английский, немецко-русский, русско-немецкий, французско-русский, русско-французский, испанско-русский, русско-испанский, итальянско-русский, русско-итальянский, польско-русский, русско-польский, украинско-русский, русско-украинский, белорусско-русский, русско-белорусский и многоязычный.
Подробнее см.:
Добровольский Д. О., Кретов А. А., Шаров С. А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 263—296.
Корпус диалектных текстов
Корпус диалектных текстов (открылся в 2005 г.) включает в себя записи диалектной речи (в орфографии, приближенной к стандартной) из различных регионов России. Полностью сохранена морфологическая, синтаксическая и лексическая специфика текстов. В подкорпусе имеются специальные пометы для особенностей диалектной морфологии (в том числе явлений, отсутствующих в литературном языке), кроме того, толкованиями снабжаются чисто диалектные лексемы.
Подробнее см.:
Летучий А. Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 215—232.
Летучий А. Б. Диалектный корпус: состав и особенности разметки // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, с. 114—128.
Корпус поэтических текстов
Корпус поэтических текстов (открылся в 2006 г.) включает стихотворные произведения. Планируемый временной диапазон — от XVIII в. до современности. В корпус пока не включены стихотворные драматические сочинения. Помимо обычной семантической и морфологической разметки (аналогичной той, что представлена в корпусе с неснятой омонимией), предусмотрена специальная стиховедческая разметка. Так, возможен поиск текстов, написанных амфибрахием, тоническими размерами, 5-стишиями, вольной рифмовкой, твёрдыми формами и т. п.
Подробнее см.:
Гришина Е. А., Корчагин К. М., Плунгян В. А., Сичинава Д. В. Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 71—113.
Обучающий корпус русского языка
Обучающий корпус русского языка (открылся в 2007 г.) — небольшой корпус со снятой омонимией, ориентированный на преподавание русского языка в школе (отобраны произведения из школьной программы, изучаемых в школьном курсе функциональных стилей, размечены словоизменительные типы и другие дополнительные морфологические признаки)
Подробнее см.:
Савчук С. О, Сичинава Д. В. Обучающий корпус русского языка и его использование в преподавательской практике // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 317—334.
Корпус устной речи
Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Включены тексты самых разных жанров и типов, разного происхождения с точки зрения географии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.). Хронологический охват корпуса 1900-2000-е гг.
Подробнее см.:
Гришина Е. А. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 94—110.
Гришина Е. А., Савчук С. О. Корпус устных текстов в НКРЯ: состав и структура // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 129—149.
Акцентологический корпус
Акцентологический корпус (корпус истории русского ударения) (открылся в 2008 г.) включает тексты, несущие информацию об истории русского ударения. Во-первых, это все тексты поэтического корпуса, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая дополнительной интерпретации) о месте ударения в слове. Во-вторых, это акцентуированные (в соответствии с реально звучащим ударением) записи устной речи, в том числе кинофильмов. Эти тексты доступны для поиска по месту ударения и просодической структуре слова. В-третьих, это подкорпус наивной поэзии. Наивная поэзия — это стихотворные тексты, написанные поэтами-любителями, не публикующимися в признанной литературной периодике. Эстетические достоинства этих текстов не важны для исследования русской акцентологии, но регулярность чередований ударных и безударных слогов в русском стихе дает бесценный материал для уяснения множества вопросов, связанных с расстановкой ударений в словах современными носителями русского языка.
Подробнее см.:
Гришина Е. А. Корпус «История русского ударения» // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 150—174.
Мультимедийный корпус
Мультимедийный русский корпус (МУРКО) (открылся в декабре 2010 г.) включает фрагменты кинофильмов 1930—2000-х годов. Они представлены в виде параллельных видеоряда, аудиоряда и текстовой расшифровки звучащей речи, а также наблюдаемых в кадре жестов. В мультимедийном корпусе. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.). В поисковой выдаче видеофрагменты доступны для просмотра и прослушивания.
Подробнее см.:
Гришина Е. А. Два новых проекта для Национального корпуса: мультимедийный подкорпус и подкорпус названий // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 233—250.
Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 175—214.
|