Что такое метаразметка текстов
Существенной частью поискового аппарата Корпуса является так называемая метаразметка (или метаописание) текстов, входящих в него. Под метаразметкой понимается приписывание тексту атрибутов, характеризующих обстоятельства его создания, автора, тематику, жанровые особенности и др. Метаразметка необходима прежде всего для того, чтобы исследователь, пользующийся Корпусом, мог составлять по своему желанию произвольные выборки текстов с заданными внешними параметрами: например, тексты мемуарного характера, тексты, написанные мужчинами, тексты, написанные авторами, родившимися между 1940 и 1960 гг., тексты автобиографий, тексты проповедей, тексты романов и повестей, и т. д., и т. п.
Учитывая объем и разнородность текстов Национального корпуса, такая дифференциация представляется абсолютно необходимой: большинство исследователей будут работать не с Корпусом в целом, а с какими-то наиболее значимыми для целей исследования подмассивами текстов (художественными, публицистическими, деловыми и т. п.). Кроме того, интересной задачей (которую метаразметка также позволяет решать) является установление статистически достоверных корреляций между теми или иными метатекстовыми параметрами (например, полом или возрастом автора) и языковыми особенностями текста.
Пользователь Корпуса может создать подмассив текстов для поиска на странице «Мой корпус» и в дальнейшем вести поиск уже только по выбранному множеству текстов. Ниже дается описание параметров текстов, используемое на странице «Мой корпус».
Метаразметка Национального корпуса
В Национальном корпусе используется сравнительно простая система метаразметки, предназначенная не для специалистов по корпусной лингвистике, работающих с универсальной международной классификацией, а для рядового пользователя (в том числе и для лингвиста, не знакомого с терминологией корпусных исследований). Именно этот тип метаразметки непосредственно отражается в интерфейсе, представленном сейчас на сайте Национального корпуса.
Интерфейс для упрощенного метатекстового поиска устроен так, что параметры текста объединяются в несколько блоков:
I. «Паспорт текста»
Автор текста: имя, пол, дата рождения (или примерный возраст)
Название текста
Время создания текста (может указываться точно или приблизительно; при поиске может использоваться формат «<не> раньше такой-то даты» или «<не> позже такой-то даты»).
Объем текста (в количестве слов; при поиске может использоваться формат «<не> более такого-то объема» или «<не> менее такого-то объема»). Дается пояснение: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.
II. 1. Художественные тексты
Жанр текста (включается также помета «нежанровая проза»): историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика, и т.п.
Тип текста (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке): анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т. п.
Хронотоп текста (приблизительное указание на место и время описываемых в тексте событий; включается также помета «хронотоп не определен»); в частности, различается доисторический период, античность, Средние века, Новое время, Россия: 19 век, Россия: 20 век (до 1914), Россия/СССР: война 1914–1918, революция, гражданская война, 20-е гг., 30-е гг., война 1941–1945, послевоенный период (до 1952), 50-е гг., 60–80 гг., перестройка, Россия: постсоветский период. Для художественных текстов указание на хронотоп дается вместо указания на тематику (как более информативное).
II. 2. Нехудожественные тексты
Сфера функционирования текста (параметр призван отражать в первую очередь языковые особенности): бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.
Тип текста (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке; включается также помета «тип не определен»): автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, и т.п.
Тематика текста (в принципе, у одного текста тем может быть несколько; список открытый): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т. п.