Микросинтаксическая разметка

Микросинтаксическая разметка доступна только в Синтаксическом корпусе (СинТагРус).

Микросинтаксическая разметка идентифицирует фразеологические и полуфразеологические выражения разных типов (именуемые микросинтаксическими единицами), содержащиеся в текстах Синтаксического корпуса и отличающиеся своеобразием синтаксического поведения. Примерами таких единиц могут быть обороты типа все равно (в разных значениях), составные союзы типа как будто бы, разве что, парные союзы типа не только … но и, не то … не то, составные предлоги типа со стороны, в качестве, адвербиалы типа с виду, на виду, про запас и многие другие.

Введение микросинтаксической разметки было обусловлено развитием теории микросинтаксиса [3, 4], предлагающей принципы описания широкого круга языковых явлений, лежащих на границе словаря и грамматики. Эта теория имеет много общего с Грамматикой конструкций Ч. Филлмора и его коллег [2], однако развивалась независимо от Грамматики конструкций, первоначально на материале русского языка. Следует добавить, что теория микросинтаксиса и создаваемые на ее основе ресурсы (микросинтаксическая разметка настоящего корпуса, Микросинтаксический словарь русского языка) имеют ряд общих черт с разрабатываемым лингвистическим ресурсом «Русский конструктикон» [1], однако и в данном случае соответствующие подходы и ресурсы развиваются независимо.

Микросинтаксическая разметка распространяется на весь Синтаксический корпус целиком. Число уникальных микросинтаксических единиц, отраженных в разметке Синтаксического корпуса, составляет сейчас 3 220. Меньшую часть этих единиц представляют нестандартные синтаксические конструкции (главным свойством которых является синтаксическая специфика и минимальное число конкретных лексических единиц).

Это, например, сформированные дательным падежом и инфинитивом инфинитивно-модальные конструкции — с отрицанием (Z-у не X-овать); ср.

Мне никогда не перечислить всех иркутских чудес (Ю. Нагибин, «Встань и иди») ≈ ‘Отсутствует перспектива, что я смогу перечислить …’

или без отрицания (Z-у X-овать); ср.

Неужели нам еще ночевать в этих опустелых палатах? (В. Ф. Лазурский, «История моей жизни») ≈ ‘Мы должны будем ночевать …’.

Другой подкласс нестандартных синтаксических конструкций представлен единицами, содержащими два вопросительных местоимения. Главным компонентом значения этой конструкции (ВОПР + ВОПР) является распределение элементов двух множественных объектов, участвующих в ситуации; например:

Важны были другие знания: кто что спрашивает, кому как отвечать (один любит сразу, другой — подумавши), как легче заучить наизусть формулы или формулировку (И. Грекова, «Кафедра»);

Ряд нестандартных синтаксических конструкций представляют собой единицы с лексическими повторами и с весьма нетривиальным значением; например, X не X:

Работай не работай, а денежки идут (Л. Радзиховский, «Вызов и ответ»).

В некоторых случаях лексические повторы требуют присутствия в контексте других конкретных слов. Таково, например, слово рознь в единице X X-у рознь:

Ошибки практически неизбежно сопровождают любое научное исследование, но ошибки ошибкам рознь (Е. Александров, Ю. Ефремов, «Как воевать с лженаукой»). 

Большинство микросинтаксических единиц относится к классу синтаксических фразем. Среди разрядов таких единиц можно выделить, в частности,

  • отдельные неоднословные выражения, более или менее эквивалентные словам, в том числе многозначные, типа все равно (в некоторых значениях), через раз, на ночь глядя и десятки других;

  • составные союзы, наречия и предлоги типа как только, потому что, тогда как; пока что; со стороны, в качестве, по поводу;

  • предложно-именные слабокомпозициональные или некомпозициональные словосочетания типа с виду, на вид, на виду, под видом, в бытность, в возрасте, в миру, под рукой, в духе (в разных значениях: (а) ‘на принципах’, как в воспитывать в духе толерантности и (б) ‘в определенном настроении’, как в Он сегодня совершенно не в духе) и т. д.;

  • некомпозициональные словосочетания, принципиально не сводимые к единому слову, такие как то и дело, то ли дело, в том числе, в упор не видеть и сотни других.

Многие синтаксические фраземы характеризуются индивидуальными особенностями, которые весьма ограниченно поддаются обобщению.

Скажем, единица в отношении обычно ведет себя как составной неделимый предлог, управляющий родительным падежом (ср. принять меры в отношении детской преступности), но, кроме того, допускает внутреннее определение к элементу отношении, заменяющее родительный падеж (ср. ситуация в этом <каком-то, некотором> отношении изменилась). В то же время синонимичная этой единице синтаксическая фразема по отношению к такой замены не допускает.

Предложно-именное сочетание в возрасте может выступать с зависимым (в возрасте моего сына, в возрасте сорока лет, в раннем возрасте), а может не иметь зависимого (человек в возрасте), при этом приобретая самостоятельное значение (≈ ‘в пожилом возрасте'). Похожее же предложно-именное сочетание в размере всегда требует зависимого (гонорар в размере тысячи рублей, доход в крупном размере, но не *доход в размере).

Материал микросинтаксической разметки адекватно отражает такие особенности.

Следует отметить, что в ряде ситуаций данный тип разметки в Синтаксическом корпусе показывается упрощенно. В частности, если некоторая микросинтаксическая единица содержит внутри себя слова, непосредственно в нее не входящие, то все эти слова отражаются в поисковой выдаче. Например, МЕ потому, что в предложении Не потому ли, что там, высоко в небе, гораздо холоднее, чем на земле? отражается в поисковой выдаче последовательностью из трех слов: потому, ли, и что, хотя ли, строго говоря, составляет контекст МЕ и непосредственно в нее не входит. Кроме того, иногда последовательность слов, образующих МЕ, расходится с порядком слов, формирующих имя этой МЕ. Например, ср. МЕ может быть и содержащее эту МЕ предложение Быть может, ей пришла мысль вить там гнездо (М. А. Булгаков, «Мастер и Маргарита»).

Стоит также иметь в виду, что во многих случаях МЕ оказываются вложенными друг в друга. Так, в предложении

Если учесть, что рядом с каждым таким олигархом стоит как минимум один высокий властный покровитель, то число супербогачей можно смело увеличивать вдвое (Д. Прокофьев, «Суперколхоз»-2030)

внутрь МЕ если ... то попадает МЕ как минимум.

Микросинтаксическая разметка Синтаксического корпуса осуществляется почти исключительно вручную, что обеспечивает ее высокое качество.

Общее число микросинтаксических единиц, составляющих микросинтаксическую разметку, составляет немногим более 47 000. При этом число предложений, содержащих хотя бы одну микросинтаксическую единицу, составляет около 35 200. Разница между двумя последними цифрами естественно объясняется тем, что многие предложения содержат по несколько микросинтаксических единиц. Доля предложений корпуса, в которых присутствует хотя бы один микросинтаксический элемент, превышает 32 %. Этот факт свидетельствует о высокой степени базовой (нефразеологической, легкой) идиоматичности русского текста.

Библиография
  1. Endresen A. A., Zhukova V. A., Mordashova D. D., Rakhilina E. V., Lyashevskaya O. N. The Russian Constructicon: A New Linguistic Resource, Its Design and Key Characteristics // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue” (2020). Issue 19(26). pp. 241—255.

  2. Fillmore Charles J., Kay Paul, O'Connor Mary Catherine. Regularity and Idiomaticity in Grammatical Constructions: The Case of Let Alone // Language, Vol. 64, No. 3 (Sep., 1988). pp. 501—538.

  3. Iomdin L. Microsyntactic Phenomena as a Computational Linguistics Issue // Grammar and Lexicon: Interactions and Interfaces. Proc. of the Workshop. Osaka, 2016, pp. 8—18. Available at: http://aclweb.org/anthology/W/W16/W16-38.pdf.

  4. Иомдин Л. Л. В глубинах микросинтаксиса: один лексический класс синтаксических фразем // Компьютерная лингвистика и интеллектуальные технологии (Диалог’2008). Труды Международной конференции. Бекасово, 4-8 июня 2008 г. М.: РГГУ, 2008. Вып. 7(14). С. 178-184. ISBN 978-5-7281-1022-4.

Обновлено