Семантическая разметка
О лексико-семантической информации в Корпусе

В настоящее время в Корпусе реализована система поиска по лексико-семантическим признакам, основанная на частичной семантической разметке текстов.

При такой разметке большинству слов в тексте приписывается один или несколько семантических и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т. п. Используется фасетная классификация, при которой одно слово может попадать в несколько классов. На первом этапе поиск осуществляется по части имеющихся в словаре признаков.

Разметка текстов осуществляется автоматически с помощью программы Semmarkup (автор А. Е. Поляков) в соответствии с Семантическим словарем Корпуса. Поскольку ручная обработка семантически размеченных текстов очень трудоемка, семантическая омонимия в Корпусе не снимается: многозначным словам приписывается несколько альтернативных наборов семантических признаков.

В основу семантической разметки положена система классификации русской лексики, принятая в базе данных "Лексикограф", которая разрабатывалась с 1992 г. в Отделе лингвистических исследований ВИНИТИ РАН под рук. Е. В. Падучевой и Е. В. Рахилиной. Для нужд Корпуса был существенно увеличен словник, расширен состав и усовершенствована структура семантических классов, добавлены словообразовательные признаки.

Словник семантического словаря базируется на морфологическом словаре системы DIALING (общим объемом порядка 120 тыс. слов), представляющим собой расширение Грамматического словаря русского языка А. А. Зализняка. Текущая версия семантического словаря включает слова знаменательных частей речи: существительные, прилагательные, числительные, местоимения, глаголы и наречия.

При работе над семантической разметкой использовались сведения о значении слов и структуре семантических классов из следующих источников:

  • Словарь русского языка под ред. С. И. Ожегова
  • Словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой
  • Словарь русского языка в 4-х тт. под ред. А. П. Евгеньевой (МАС)
  • Словарь русского языка в 17-ти тт. (БАС)
  • Толковый словарь русского языка Д. Н. Ушакова
  • Русский семантический словарь под ред. Н. Ю. Шведовой, тт. 1-3
  • Толковый словарь русских глаголов под ред. Л. Г. Бабенко
  • Системный семантический словарь русского языка Л. М. Васильева
  • Новый объяснительный словарь синонимов русского языка под общим рук. акад. Ю. Д. Апресяна (НОСС)
Структура лексико-семантической информации
Лексико-семантическая информация, приписываемая произвольному слову в тексте, состоит из трех групп помет:
  1. разряд (например, имя собственное, возвратное местоимение);
  2. собственно лексико-семантические характеристики (например, тематический класс лексемы, признаки каузативности, оценки);
  3. деривационные (словообразовательные) характеристики (например, «диминутив», «отадъективное наречие»).

Лексико-семантическая информация имеет различную структуру для разных частей речи. Кроме того, каждый из разрядов существительных - имена предметные, непредметные и собственные - имеет свою структуру помет.

Собственно лексико-семантические пометы сгруппированы по следующим полям:

  1. таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий;
  2. мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен;
  3. топология (топологический статус обозначаемого объекта) — для предметных имен;
  4. каузация — для глаголов;
  5. служебный статус — для глаголов;
  6. оценка — для предметных и непредметных имен, прилагательных и наречий

Словообразовательные характеристики включают несколько типов:

  1. морфо-семантические словообразовательные признаки (например, «диминутив», «каритив», «семельфактив»);
  2. разряд производящего слова (например, отглагольное существительное или отадъективное наречие);
  3. лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера);
  4. морфологический тип словообразования (субстантивация, сложное слово).

В основу метаязыка лексико-семантических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе англоязычной нотации. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «семантические признаки»). Ниже приводится инвентарь всех доступных в настоящее время для поиска в Корпусе семантических помет. Для пояснения в скобках даются примеры.

Имена существительные (S)

Разряды

r:concr предметные имена (девочка, стол, молоко)
r:abstr непредметные имена (вождение, яркость, время)
r:propn имена собственные (Иван, Эйнштейн, Петроград)

Предметные имена

Лексико-семантические пометы

Таксономия

t:hum лица (человек, учитель)
t:hum:etn этнонимы (эфиоп, итальянка)
t:hum:kin имена родства (брат, бабушка)
t:hum:supernat сверхъестественные существа (русалка, инопланетянин)
t:animal животные (корова, жираф, сорока, ящерица, муравей)
t:plant растения (береза, роза, трава)
t:stuff вещества и материалы (вода, песок, тесто, жесть, шелк)
t:space пространство и место (космос, город, тайга, овраг, вход)
t:constr здания и сооружения (дом, шалаш, мост)
t:tool инструменты и приспособления (молоток, палка, пуговица, машина)
t:tool:instr инструменты (молоток, штопор, игла, карандаш)
t:tool:device механизмы и приборы (телефон, сеялка, градусник)
t:tool:transp транспортные средства (автобус, поезд, сани)
t:tool:weapon оружие (сабля, пистолет, гаубица)
t:tool:mus музыкальные инструменты (рояль, скрипка, колокол)
t:tool:furn мебель (стол, диван, шкаф)
t:tool:dish посуда (чашка, кастрюля, фляжка)
t:tool:cloth одежда и обувь (платье, шляпа, ботинки)
t:food еда и напитки (пирог, каша, молоко)
t:text тексты (рассказ, книга, афиша)

 

Мереология

 

pt:part части (верхушка, кончик, половина)
pt:partb & pc:hum части тела и органы человека (голова, сердце, ноготь)
pt:partb & pc:animal части тела и органы животных (хвост, жало)
pt:part & pc:plant части растений (лист, ветка, корень)
pt:part & pc:constr части зданий и сооружений (комната, дверь, арка)
pt:part & pc:tool части приспособлений (деталь, лопасть, крышка)
pt:part & pc:tool:instr части инструментов (топорище, лезвие)
pt:part & pc:tool:device части механизмов и приборов (дисплей, корпус, кнопка)
pt:part & pc:tool:transp части транспортных средств (руль, колесо, капот)
pt:part & pc:tool:weapon части оружия (дуло, курок, эфес)
pt:part & pc:tool:mus части музыкальных инструментов (струна, гриф)
pt:part & pc:tool:furn части предметов мебели (сиденье, подлокотник)
pt:part & pc:tool:dish части предметов посуды (носик, горлышко)
pt:part & pc:tool:cloth части одежды и обуви (рукав, каблук)
pt:qtm кванты и порции вещества (капля, комок, порция)
pt:set | pt:aggr множества и совокупности объектов (набор, букет, мебель, человечество)
hi:class имена классов (животное, ягода, инструмент)

 

Топология

top:contain вместилища (кошелек, комната, озеро, ниша)
top:horiz горизонтальные поверхности (пол, площадка)

Оценка

ev оценка (неопределенная по признаку «положительная/отрицательная») (озорник, махина)
ev:posit положительная (умница, светило)
ev:neg отрицательная (негодяй, вертихвостка)

Словообразовательные пометы

d:dim диминутивы (зайчик, коробочка)
d:aug аугментативы (детина, домище)
d:sing сингулятивы (пылинка, изюминка)
d:nag nomina agentis (писатель, создатель, докладчик)
d:fem nomina feminina (немка, генеральша, доярка)

 

Непредметные имена

Лексико-семантические пометы

Таксономия (тематический класс)

t:move движение (беготня, вынос, качка)
t:move:body изменение положения тела, части тела (поклон)
t:put помещение объекта (размещение, расстановка, погрузка, намотка)
t:impact физическое воздействие (удар, втирание, обмолот)
t:impact:creat создание физического объекта (лепка, отливка, плетение, сооружение, строительство)
t:impact:destr уничтожение (слом, сожжение)
t:changest изменение состояния или признака (укрепление, затвердение, осушение, конденсация, осложнение)
t:be бытийная сфера
t:be:exist существование (жизнь, наличие, бытие)
t:be:appear начало существования (возникновение, рождение, формирование, учреждение, творение)
t:be:disapp прекращение существования (смерть, казнь, ликвидация)
t:loc местонахождение (местоположение)
t:loc:body положение тела в пространстве (лежание)
t:contact контакт и опора (прикосновение, объятие)
t:poss посессивная сфера (обладание, приобретение, покупка, потеря, лишение)
t:ment ментальная сфера (знание, абстракция, воображение, воспоминание, догадка)
t:perc восприятие (осязание, слух, видимость, взгляд, зрелище)
t:psych психическая сфера (апатия, безумие, вдохновение, спокойствие)
t:psych:emot эмоция (восторг, раскаяние, печаль)
t:psych:volit воля (намерение, решение)
t:speech речь (дискуссия, молва, ахинея, реплика, подковырка)
t:physiol физиологическая сфера (жажда, кровоизлияние, судорога, утомление, икота)
t:weather природное явление (зарница, вьюга, зной)
t:sound звук (шум, перезвон, хлопок, аплодисменты, диссонанс)
t:color цвет (окраска, колорит, желтизна, прозелень)
t:light свет (луч, полумрак, светлынь, иллюминация)
t:taste вкус (вкуснота, горчинка, кислятина)
t:smell запах (аромат, перегар)
t:temper температура (прохлада, стужа, нагрев)
t:time время (весна, годовщина, минута, современность)
t:time:period период (межсезонье, путина, сенокос, стаж)
t:time:moment момент (миг, мгновение)
t:time:week день недели (понедельник)
t:time:month месяц (январь)
t:time:age возраст (детство, молодость, двадцатилетие)
t:humq свойство человека (порядочность, безволие, остроумие)
t:behav поведение и поступки человека (разгильдяйство, подхалимаж, неповиновение, ребячество, предательство)
t:inter взаимодействие и взаимоотношение (взаимопомощь, вражда, схватка, драка)
t:action мероприятие (аукцион, вернисаж, вечеринка, выборы, именины, заседание, культпоход)
t:disease болезнь (ангина, диабет)
t:game игра (жмурки, покер, домино, волейбол)
t:sport спорт (спартакиада, акробатика, баскетбол)
t:param параметр (высота, грузоподъемность)
t:unit единица измерения (балл, килограмм, метр, минута)

Мереология

 

pt:part часть (начало, финал)
pt:qtm квант (оборот, прыжок, кивок)
pt:set множество (система, выборка, алгоритм)

Оценка

ev оценка (озорник, махина)
ev:posit положительная (благоухание, загляденье, изюминка)
ev:neg отрицательная (безвкусица, ахинея)
   

Словообразовательные пометы

 

der:v отглагольные имена (выбор, демонстрация)
der:a отадъективные имена (краснота, жадность)

 

Имена собственные

Лексико-семантические пометы

Таксономия

 

t:hum | t:hum:supernat лица (Людмила, Черномор)
t:persn имена (Александр)
t:patrn отчества (Сергеевич)
t:famn фамилии (Пушкин)
t:topon топонимы (Европа, Волга, Эльбрус, Москва, Преображенка)

Словообразовательные пометы

d:dim диминутивы (Саша, Женечка, Николаич)
Имена прилагательные (A)

Разряды

r:qual качественные (хороший, большой)
r:rel относительные (деревянный, лунный)
r:poss притяжательные (божий, отцов, мужнин)
r:invar неизменяемые (беж, джерси)

 

Лексико-семантические пометы

 

t:size размер (высокий, короткий)
t:size:max большой (высокий, длинный)
t:size:min малый (низкий, короткий)
t:size:abs абсолютный (двухэтажный)
t:dist расстояние (далекий, соседний)
t:dist:max большое (дальний, отдаленный)
t:dist:min малое (близкий, недалекий)
t:quant количество (большой, достаточный, трехкратный)
t:quant:max большое (обильный, многочисленный)
t:quant:min малое (ничтожный, малочисленный)
t:quant:abs абсолютное (двухтысячный, восьмимилионный)
t:place место (левый, придорожный, теменной)
t:dir направление (обратный, подветренный)
t:time время (прошлый, ночной)
t:time:dur длительность (долгий, краткий)
t:time:dur:max большая (долгий, продолжительный)
t:time:dur:min малая (краткий, кратковременный)
t:time:dur:abs абсолютная (восьмичасовой)
t:time:age возраст (зрелый)
t:time:age:max большой (старый, древний)
t:time:age:min малый (молодой, малолетний)
t:time:age:abs абсолютный (трехлетний)
t:speed скорость (проворный)
t:speed:max большая (скорый, быстрый)
t:speed:min малая (медленный, тягучий)
t:physq физические свойства (мягкий, вязкий)
t:physq:form форма (кривой, круглый)
t:physq:color цвет (красный, бесцветный)
t:physq:taste вкус (кислый, приторный)
t:physq:smell запах (ароматный, тухлый)
t:physq:temper температура (горячий, ледяной)
t:physq:weight вес (тяжелый, легкий)
t:humq качества человека (умный, верный, ловкий)

 

Оценка

 

ev оценка (толковый, мешковатый)
ev:posit положительная (везучий, ладный)
ev:neg отрицательная (продажный, сварливый)

 

Словообразовательные пометы

 

d:dim диминутивы (тихонький, крохотный)
d:aug аугментативы (здоровенный, злющий)
d:atten аттенуативы (угловатый, жуликоватый)
d:habit хабитивы (глазастый, пузатый)
d:carit каритивы (безглазый, бездыханный)
d:potent | d:impot потенциальные (плавучий, недееспособный)
d:potent поссибилитивы (плавучий, плодородный, занимательный)
d:impot импоссибилитивы (несоизмеримый, недееспособный)
der:s отыменные прилагательные (домашний, железный)
der:v отглагольные прилагательные (ковкий, навязчивый, кочевой)
der:adv отадвербиальные прилагательные (поздний, здешний)
Имена числительные (NUM, A-NUM)
Разряды

 

r:card количественные (два, пять, десять)
r:card:pauc числительные малого количества (два, три, четыре, оба, пол, полтора)
r:ord порядковые (первый, второй, десятый)
Местоимения, в том числе
S-PRO местоимения-существительные (он, кто)
A-PRO местоимения-прилагательные (его, какой)
ADV-PRO местоимения-наречия (где, как)

 

Разряды

 

r:pers личные (я, он)
r:ref возвратные (себя)
r:poss притяжательные (мой, его, свой)
r:rel вопросительные/относительные (кто, который, когда)
r:dem указательные (этот, такой)
r:indet неопределенные (некоторый, некогда)
r:neg отрицательные (никакой, ничей)
r:spec кванторные (определительные) (всякий, каждый, любой)
Глаголы (V)

Лексико-семантические пометы

 

t:move движение (бежать, дергаться, бросить, нести)
t:move:body изменение положения тела, части тела (согнуть, нагнуться, примоститься)
t:put помещение объекта (положить, вложить, спрятать)
t:impact физическое воздействие (бить, колоть, вытирать)
t:impact:creat создание физического объекта (выковать, смастерить, сшить)
t:impact:destr уничтожение (взорвать, сжечь, зарезать)
t:changest изменение состояния или признака (взрослеть, богатеть, расширить, испачкать)
t:be бытийная сфера (жить, возникнуть, убить)
t:be:exist существование (жить, происходить)
t:be:appear начало существования (возникнуть, родиться, сформировать, создать)
t:be:disapp прекращение существования (умереть, убить, улетучиться, ликвидировать, искоренить)
t:loc местонахождение (лежать, стоять, положить)
t:loc:body положение тела в пространстве (сидеть)
t:contact контакт и опора (касаться, обнимать, облокотиться)
t:poss посессивная сфера (иметь, дать, подарить, приобрести, лишиться)
t:ment ментальная сфера (знать, верить, догадаться, помнить, считать)
t:perc восприятие (смотреть, слышать, нюхать, чуять)
t:psych психическая сфера (гипнотизировать, сочувствовать, настроиться, терпеть)
t:psych:emot эмоция (радоваться, обидеть)
t:psych:volit воля (решить)
t:speech речь (говорить, советовать, спорить, каламбурить)
t:behav поведение человека (куролесить, привередничать)
t:physiol физиологическая сфера (кашлять, икать)
t:weather природное явление (бушевать, вьюжить)
t:sound звук (гудеть, шелестеть)
t:light свет (гаснуть, лучиться)
t:smell запах (пахнуть, благоухать)

 

Каузация

 

ca:caus каузативные глаголы (показать, вертеть)
ca:noncaus некаузативные глаголы (видеть, вертеться)

 

Служебные глаголы

 

aux:phase фазовые (начать, продолжать, прекратить)
aux:caus служебные каузативные (вызвать, привести (к))

 

Словообразовательные пометы

 

d:pref приставочные глаголы (забегать, оглядеть)
d:semelf семельфактивы (кивнуть, чихнуть, боднуть, качнуться)
d:impf вторичные имперфективы (-ива-, -ва-, -а-) (выпивать, вбивать, прогонять)
Наречия (ADV)

Лексико-семантические пометы

 

t:place место (здесь, посередине)
t:dir направление (туда, наверх)
t:dist расстояние (далеко, близко)
t:dist:max большое (далеко, вдали, вдалеке)
t:dist:min малое (близко, вблизи)
t:time время (тогда, поздно)
t:time:dur длительность (вечно, недолго)
t:time:dur:max большая (вечно, подолгу, всегда)
t:time:dur:min малая (временно, недолго)
t:speed скорость (быстро, медленно)
t:speed:max большая (быстро, мигом)
t:speed:min малая (медленно, неторопливо)
t:quant количество (столько, достаточно)
t:quant:max большое (много, навалом)
t:quant:min малое (мало, чуть-чуть)

 

Оценка

 

ev оценка (беспечно, бойко)
ev:posit положительная (бойко, безупречно)
ev:neg отрицательная (бездарно, неловко)

 

Словообразовательные пометы

d:dim диминутивы (немножко, быстренько)
d:atten аттенуативы (рановато, суховато)
der:s отыменные наречия (вверху, дома)
der:v отглагольные наречия (отродясь, стоймя)
der:a отадъективные наречия (быстро, обычно)

 

Таксономия производящего слова-прилагательного

 

der:a & dt:size размер (высоко, коротко)
der:a & dt:size:max большой (высоко, бесконечно)
der:a & dt:size:min малый (коротко, низко)
der:a & dt:physq физические свойства (твердо, плотно)
der:a & dt:physq:form форма (плоско, прямо)
der:a & dt:physq:color цвет (красно, добела)
der:a & dt:physq:taste вкус (горько, вкусно)
der:a & dt:physq:smell запах (смрадно, зловонно)
der:a & dt:physq:temper температура (тепло, прохладно)
der:a & dt:physq:weight вес (тяжело, легко)
der:a & dt:humq качества человека (внимательно, грубо)

Обновлено 28.11.2022