English

Параметры текстов

Что такое метаразметка текстов

Существенной частью поискового аппарата Корпуса является так называемая метаразметка (или метаописание) текстов, входящих в него. Под метаразметкой понимается приписывание тексту атрибутов, характеризующих обстоятельства его создания, автора, тематику, жанровые особенности и др. Метаразметка необходима прежде всего для того, чтобы исследователь, пользующийся Корпусом, мог составлять по своему желанию произвольные выборки текстов с заданными внешними параметрами: например, тексты мемуарного характера, тексты, написанные мужчинами, тексты, написанные авторами, родившимися между 1940 и 1960 гг., тексты автобиографий, тексты проповедей, тексты романов и повестей, и т. д., и т. п. 

Учитывая объем и разнородность текстов Национального корпуса, такая дифференциация представляется абсолютно необходимой: большинство исследователей будут работать не с Корпусом в целом, а с какими-то наиболее значимыми для целей исследования подмассивами текстов (художественными, публицистическими, деловыми и т. п.). Кроме того, интересной задачей (которую метаразметка также позволяет решать) является установление статистически достоверных корреляций между теми или иными метатекстовыми параметрами (например, полом или возрастом автора) и языковыми особенностями текста.

Пользователь Корпуса может создать подмассив текстов для поиска на странице «Мой корпус» и в дальнейшем вести поиск уже только по выбранному множеству текстов. Ниже дается описание параметров текстов, используемое на странице «Мой корпус».

Структура метаразметки Национального корпуса

В Национальном корпусе используется сравнительно простая система метаразметки, предназначенная не для специалистов по корпусной лингвистике, работающих с универсальной международной классификацией, а для рядового пользователя (в том числе и для лингвиста, не знакомого с терминологией корпусных исследований). Именно этот тип метаразметки непосредственно отражается в интерфейсе, представленном сейчас на сайте Национального корпуса.

Интерфейс для упрощенного метатекстового поиска устроен так, что параметры текста объединяются в несколько блоков:

    I. «Паспорт текста»

    Автор текста: имя, пол, дата рождения (или примерный возраст)

    Название текста

    Время создания текста (может указываться точно или приблизительно; при поиске может использоваться формат «<не> раньше такой-то даты» или «<не> позже такой-то даты»).

    Объем текста (в количестве слов; при поиске может использоваться формат «<не> более такого-то объема» или «<не> менее такого-то объема»). Дается пояснение: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.

Блок II состоит из трех поисковых массивов: «нехудожественная проза», «художественная проза», «драматургия». Первые два массива имеют несколько разные структуры параметров, поэтому оформляются по отдельности. (В будущем планируется добавить к этому также массивы устной речи и поэзии.)

    II.1. Художественные тексты

    Жанр текста (включается также помета «нежанровая проза»): историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика, и т.п.

    Тип текста (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке): анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т.п.

    Хронотоп текста (приблизительное указание на место и время описываемых в тексте событий; включается также помета «хронотоп не определен»); в частности, различается доисторический период, античность, Средние века, Новое время, Россия: 19 век, Россия: 20 век (до 1914), Россия/СССР: война 1914–1918, революция, гражданская война, 20-е гг., 30-е гг., война 1941–1945, послевоенный период (до 1952), 50-е гг., 60–80 гг., перестройка, Россия: постсоветский период. Для художественных текстов указание на хронотоп дается вместо указания на тематику (как более информативное).

    II.2. Нехудожественные тексты

    Сфера функционирования текста (параметр призван отражать в первую очередь языковые особенности): бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.

    Тип текста (при обозначении типа широко используется самоидентификация текста; список типов в принципе открытый и дается в окне поиска в алфавитном порядке; включается также помета «тип не определен»): автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, и т.п.

    Тематика текста (в принципе, у одного текста тем может быть несколько; список открытый): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.п.

При разработке параметров метатекстовой разметки составителями Национального корпуса был учтен мировой опыт, прежде всего опыт составителей Британского национального корпуса. В англоязычной литературе существует целый ряд предложений по классификации текстов для создания представительных корпусов, но было принято решение опираться в основном на рекомендации Дж. Синклера (так называемый стандарт EAGLES, принятый во многих современных системах автоматической обработки текстов). Эти рекомендации были адаптированы к русскому материалу С. А. Шаровым и составили первый вариант метаразметки (условно — «международный» вариант, или вариант Синклера-Шарова). В настоящее время ведется работа по внесению этой информации в настоящий Корпус. Их использование в корпусе облегчит сопоставимость результатов метаразметки в русском и других Национальных корпусах и будет наиболее удобно для специалистов по корпусной лингвистике разных стран (не обязательно славистов и русистов). Ниже дается описание этой классификации.*

Классификация Синклера-Шарова

Эта классификация основана преимущественно на логических свойствах коммуникации и поэтому может быть применена к описанию дискурса на любом языке. В ней различаются два класса факторов, влияющих на выбор текстов в корпусе: внешние (E), то есть внеязыковые факторы, которые могут повлиять на структуру или содержание текста, и внутренние (I), то есть факторы, отражающие свойства языка, используемого в тексте.

Выделяются три группы E-факторов:

E1 (origin) — факторы, относящиеся к созданию текста автором;
E2 (state) — факторы, относящиеся к внешним признакам текста;
E3 (aims) — факторы, относящиеся к целям создания текста и его влиянию на аудиторию.

Два основных I-фактора:

I1 (topic) — предметная область текста;
I2 (style) — стилистические особенности (частично зависящие от Е-факторов).

К группе Е1 (параметры создания текста) относятся, в первую очередь, время создания текста и возраст автора на этот момент, пол автора и регион происхождения автора. Для региона важна грубая классификация на столичный (Москва и Санкт-Петербург), европейский, сибирский и южный, для возраста на детский, молодежный, взрослый и пожилой.

Стремление отразить современный русский язык ограничивает хронологические параметры выборки. Активный исторический процесс в СССР и России достаточно радикально менял русский язык на протяжении 20-го века. В связи с этим выбор хронологических рамок для создания корпуса существенно влияет на результаты. Например, в частотном словаре Засориной слова советский, коммунистический, революция и товарищ, входят в первую сотню русских слов, опережая многие служебные слова, такие как ваш, лучше, здесь. При построении частотного списка на основе газетно-журнальных текстов второй половины 1990-х эти же слова оказываются относительно редки (особенно советский и товарищ, чья частота в современном корпусе сравнима с частотой слов греческий или сыр).

В связи с тем, что историческая ситуация по-разному влияет на разные виды функциональных жанров, для описываемого корпуса выбор временного интервала для взятия соответствующих текстов варьируется. В частности, художественная литература берется начиная с 1960 г., научные тексты с 1980 г., общественно-политические тексты с 1990 г. (это ограничение объяснимо и техническими причинами: более ранние тексты практические не доступны в электронном виде), а газеты и журналы берутся в основном с 1995 г.

Для описания текста по его внешним признакам (Е2) предлагается иерархия, отличающаяся от традиционной, в первую очередь, наличием четырех режимов речи: устной, письменной, письменной предназначенной для произнесения вслух, и электронной коммуникации. Последняя подобна устной речи спонтанностью порождения (аналогично телефонному звонку или очной дискуссии), но она всё равно остается письменной (в частности, в электронных текстах отсутствует просодическая информация).

Среди внешних признаков письменной речи выделяются печатные издания, подразделяемые, в свою очередь, на книги, периодику и брошюры, а также переписка разного рода и машинописные тексты (typed). Устную речь Синклер предлагает подразделять на записанную в естественных условиях, в студии и телефонные разговоры.

Группа факторов Е3 касается целей создания текста и его влияния на аудиторию. К параметрам аудитории, которые оказывают существенное влияние на текст, отнесены ее размер, близость аудитории говорящему и ограничения на пол, возраст и уровень образования аудитории. По размеру аудитории речь делится на публичную (более 50 читателей/слушателей, с подклассами в сотни, десятки тысяч и миллионы) и частную, в свою очередь подразделяемую на личную (2 участника), небольшую группу (до 5), группу средних размеров (до 20) и коллектив. По параметру близости в большинстве случаев публичная аудитория деперсонализована (то есть никак не знакома говорящему). Если же говорящий/пишущий может описать каждого участника коммуникации, их близость классифицируется по шкале: хорошее личное знакомство, личное знакомство, отсутствие личного знакомства.

Под целями создания текста понимается коммуникативная функция текста: обсуждение (аргументация, полемика, изложение позиции и т.п.), рекомендации (отчеты, предложения, законы и т.д.), развлечение (сюда входят различные жанры художественной литературы, а также биографические и автобиографические тексты, дневники и мемуары), обучение (в эту категорию входят как школьные или вузовские учебники, так и практические советы), информация (в эту категорию входят только те тексты, целью которых является предоставление информации и которые не могут быть включены в другие категории, например, энциклопедии и справочные пособия).

При построении корпуса глубина кодирования предметной области, затрагиваемой текстом (фактор I1), не слишком важна, поскольку корпус не является универсальной энциклопедией. Кроме того, общие классификации, подобные УДК, редко применимы к тексту и в еще меньшей степени применимы к устной речи, поскольку текст может затрагивать (и, как правило, затрагивает) несколько предметных областей одновременно. При построении корпуса можно иметь грубую классификацию, выделяющую, например, естественные и общественные науки, политику и экономику, искусство и досуг, и т.п.

* Подробнее об этой классификации можно прочесть в статье: С. А. Шаров. Представительный корпус русского языка в контексте мирового опыта // Научно-техническая информация, сер. 2, 2003, № 6, с. 9–18.

Национальный корпус русского языка
© 2003–2010
info@ruscorpora.ru