Семантическая разметка
О лексико-семантической информации в Корпусе

В настоящее время в Корпусе реализована система поиска по лексико-семантическим признакам, основанная на частичной семантической разметке текстов.

При такой разметке большинству слов в тексте приписывается один или несколько семантических и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т. п. Используется фасетная классификация, при которой одно слово может попадать в несколько классов. На первом этапе поиск осуществляется по части имеющихся в словаре признаков.

Разметка текстов осуществляется автоматически с помощью программы Semmarkup (автор А. Е. Поляков) в соответствии с Семантическим словарем Корпуса. Поскольку ручная обработка семантически размеченных текстов очень трудоемка, семантическая омонимия в Корпусе не снимается: многозначным словам приписывается несколько альтернативных наборов семантических признаков.

В основу семантической разметки положена система классификации русской лексики, принятая в базе данных "Лексикограф", которая разрабатывалась с 1992 г. в Отделе лингвистических исследований ВИНИТИ РАН под рук. Е. В. Падучевой и Е. В. Рахилиной. Для нужд Корпуса был существенно увеличен словник, расширен состав и усовершенствована структура семантических классов, добавлены словообразовательные признаки.

Словник семантического словаря базируется на морфологическом словаре системы DIALING (общим объемом порядка 120 тыс. слов), представляющим собой расширение Грамматического словаря русского языка А. А. Зализняка. Текущая версия семантического словаря включает слова знаменательных частей речи: существительные, прилагательные, числительные, местоимения, глаголы и наречия.

При работе над семантической разметкой использовались сведения о значении слов и структуре семантических классов из следующих источников:

  • Словарь русского языка под ред. С. И. Ожегова
  • Словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой
  • Словарь русского языка в 4-х тт. под ред. А. П. Евгеньевой (МАС)
  • Словарь русского языка в 17-ти тт. (БАС)
  • Толковый словарь русского языка Д. Н. Ушакова
  • Русский семантический словарь под ред. Н. Ю. Шведовой, тт. 1-3
  • Толковый словарь русских глаголов под ред. Л. Г. Бабенко
  • Системный семантический словарь русского языка Л. М. Васильева
  • Новый объяснительный словарь синонимов русского языка под общим рук. акад. Ю. Д. Апресяна (НОСС)

 

Структура лексико-семантической информации

Лексико-семантическая информация, приписываемая произвольному слову в тексте, состоит из трех групп помет:

  1. разряд (например, имя собственное, возвратное местоимение);
  2. собственно лексико-семантические характеристики (например, тематический класс лексемы, признаки каузативности, оценки);
  3. деривационные (словообразовательные) характеристики (например, «диминутив», «отадъективное наречие»).

Лексико-семантическая информация имеет различную структуру для разных частей речи. Кроме того, каждый из разрядов существительных - имена предметные, непредметные и собственные - имеет свою структуру помет.

 

Собственно лексико-семантические пометы сгруппированы по следующим полям:

 

  1. таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий;
  2. мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен;
  3. топология (топологический статус обозначаемого объекта) — для предметных имен;
  4. каузация — для глаголов;
  5. служебный статус — для глаголов;
  6. оценка — для предметных и непредметных имен, прилагательных и наречий

 

Словообразовательные характеристики включают несколько типов:

 

  1. морфо-семантические словообразовательные признаки (например, «диминутив», «каритив», «семельфактив»);
  2. разряд производящего слова (например, отглагольное существительное или отадъективное наречие);
  3. лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера);
  4. морфологический тип словообразования (субстантивация, сложное слово).

В основу метаязыка лексико-семантических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе англоязычной нотации. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «семантические признаки»). Ниже приводится инвентарь всех доступных в настоящее время для поиска в Корпусе семантических помет. Для пояснения в скобках даются примеры.

 

Имена существительные (S)

 

Разряды

 

r:concrпредметные имена (девочка, стол, молоко)
r:abstrнепредметные имена (вождение, яркость, время)
r:propnимена собственные (Иван, Эйнштейн, Петроград)

 

Предметные имена

 

 

 

 

Лексико-семантические пометы

 

 

 

 

 

 

Таксономия

 

 

 

t:humлица (человек, учитель)
t:hum:etnэтнонимы (эфиоп, итальянка)
t:hum:kinимена родства (брат, бабушка)
t:hum:supernatсверхъестественные существа (русалка, инопланетянин)
t:animalживотные (корова, жираф, сорока, ящерица, муравей)
t:plantрастения (береза, роза, трава)
t:stuffвещества и материалы (вода, песок, тесто, жесть, шелк)
t:spaceпространство и место (космос, город, тайга, овраг, вход)
t:constrздания и сооружения (дом, шалаш, мост)
t:toolинструменты и приспособления (молоток, палка, пуговица, машина)
t:tool:instrинструменты (молоток, штопор, игла, карандаш)
t:tool:deviceмеханизмы и приборы (телефон, сеялка, градусник)
t:tool:transpтранспортные средства (автобус, поезд, сани)
t:tool:weaponоружие (сабля, пистолет, гаубица)
t:tool:musмузыкальные инструменты (рояль, скрипка, колокол)
t:tool:furnмебель (стол, диван, шкаф)
t:tool:dishпосуда (чашка, кастрюля, фляжка)
t:tool:clothодежда и обувь (платье, шляпа, ботинки)
t:foodеда и напитки (пирог, каша, молоко)
t:textтексты (рассказ, книга, афиша)

 

 

 

Мереология

 

 

 

pt:partчасти (верхушка, кончик, половина)
pt:partb & pc:humчасти тела и органы человека (голова, сердце, ноготь)
pt:partb & pc:animalчасти тела и органы животных (хвост, жало)
pt:part & pc:plantчасти растений (лист, ветка, корень)
pt:part & pc:constrчасти зданий и сооружений (комната, дверь, арка)
pt:part & pc:toolчасти приспособлений (деталь, лопасть, крышка)
pt:part & pc:tool:instrчасти инструментов (топорище, лезвие)
pt:part & pc:tool:deviceчасти механизмов и приборов (дисплей, корпус, кнопка)
pt:part & pc:tool:transpчасти транспортных средств (руль, колесо, капот)
pt:part & pc:tool:weaponчасти оружия (дуло, курок, эфес)
pt:part & pc:tool:musчасти музыкальных инструментов (струна, гриф)
pt:part & pc:tool:furnчасти предметов мебели (сиденье, подлокотник)
pt:part & pc:tool:dishчасти предметов посуды (носик, горлышко)
pt:part & pc:tool:clothчасти одежды и обуви (рукав, каблук)
pt:qtmкванты и порции вещества (капля, комок, порция)
pt:set | pt:aggrмножества и совокупности объектов (набор, букет, мебель, человечество)
hi:classимена классов (животное, ягода, инструмент)

 

 

 

Топология

 

 

 

top:containвместилища (кошелек, комната, озеро, ниша)
top:horizгоризонтальные поверхности (пол, площадка)

 

 

 

Оценка

 

 

 

evоценка (неопределенная по признаку «положительная/отрицательная») (озорник, махина)
ev:positположительная (умница, светило)
ev:negотрицательная (негодяй, вертихвостка)

 

 

 

Словообразовательные пометы

 

 

 

d:dimдиминутивы (зайчик, коробочка)
d:augаугментативы (детина, домище)
d:singсингулятивы (пылинка, изюминка)
d:nagnomina agentis (писатель, создатель, докладчик)
d:femnomina feminina (немка, генеральша, доярка)

 

 

 

Непредметные имена

 

 

 

 

 

 

Лексико-семантические пометы

 

 

 

 

 

 

Таксономия (тематический класс)

 

 

 

t:moveдвижение (беготня, вынос, качка)
t:move:bodyизменение положения тела, части тела (поклон)
t:putпомещение объекта (размещение, расстановка, погрузка, намотка)
t:impactфизическое воздействие (удар, втирание, обмолот)
t:impact:creatсоздание физического объекта (лепка, отливка, плетение, сооружение, строительство)
t:impact:destrуничтожение (слом, сожжение)
t:changestизменение состояния или признака (укрепление, затвердение, осушение, конденсация, осложнение)
t:beбытийная сфера
t:be:existсуществование (жизнь, наличие, бытие)
t:be:appearначало существования (возникновение, рождение, формирование, учреждение, творение)
t:be:disappпрекращение существования (смерть, казнь, ликвидация)
t:locместонахождение (местоположение)
t:loc:bodyположение тела в пространстве (лежание)
t:contactконтакт и опора (прикосновение, объятие)
t:possпосессивная сфера (обладание, приобретение, покупка, потеря, лишение)
t:mentментальная сфера (знание, абстракция, воображение, воспоминание, догадка)
t:percвосприятие (осязание, слух, видимость, взгляд, зрелище)
t:psychпсихическая сфера (апатия, безумие, вдохновение, спокойствие)
t:psych:emotэмоция (восторг, раскаяние, печаль)
t:psych:volitволя (намерение, решение)
t:speechречь (дискуссия, молва, ахинея, реплика, подковырка)
t:physiolфизиологическая сфера (жажда, кровоизлияние, судорога, утомление, икота)
t:weatherприродное явление (зарница, вьюга, зной)
t:soundзвук (шум, перезвон, хлопок, аплодисменты, диссонанс)
t:colorцвет (окраска, колорит, желтизна, прозелень)
t:lightсвет (луч, полумрак, светлынь, иллюминация)
t:tasteвкус (вкуснота, горчинка, кислятина)
t:smellзапах (аромат, перегар)
t:temperтемпература (прохлада, стужа, нагрев)
t:timeвремя (весна, годовщина, минута, современность)
t:time:periodпериод (межсезонье, путина, сенокос, стаж)
t:time:momentмомент (миг, мгновение)
t:time:weekдень недели (понедельник)
t:time:monthмесяц (январь)
t:time:ageвозраст (детство, молодость, двадцатилетие)
t:humqсвойство человека (порядочность, безволие, остроумие)
t:behavповедение и поступки человека (разгильдяйство, подхалимаж, неповиновение, ребячество, предательство)
t:interвзаимодействие и взаимоотношение (взаимопомощь, вражда, схватка, драка)
t:actionмероприятие (аукцион, вернисаж, вечеринка, выборы, именины, заседание, культпоход)
t:diseaseболезнь (ангина, диабет)
t:gameигра (жмурки, покер, домино, волейбол)
t:sportспорт (спартакиада, акробатика, баскетбол)
t:paramпараметр (высота, грузоподъемность)
t:unitединица измерения (балл, килограмм, метр, минута)

 

 

 

Мереология

 

 

 

pt:partчасть (начало, финал)
pt:qtmквант (оборот, прыжок, кивок)
pt:setмножество (система, выборка, алгоритм)

 

 

 

Оценка

 

 

 

evоценка (озорник, махина)
ev:positположительная (благоухание, загляденье, изюминка)
ev:negотрицательная (безвкусица, ахинея)
  

 

 

 

Словообразовательные пометы

 

 

 

der:vотглагольные имена (выбор, демонстрация)
der:aотадъективные имена (краснота, жадность)

 

 

 

Имена собственные

 

 

 

 

 

 

Лексико-семантические пометы

 

 

 

 

 

 

Таксономия

 

 

 

t:hum | t:hum:supernatлица (Людмила, Черномор)
t:persnимена (Александр)
t:patrnотчества (Сергеевич)
t:famnфамилии (Пушкин)
t:toponтопонимы (Европа, Волга, Эльбрус, Москва, Преображенка)

 

 

 

Словообразовательные пометы

 

 

 

d:dimдиминутивы (Саша, Женечка, Николаич)
Имена прилагательные (A)

 

 

 

Разряды

 

 

 

r:qualкачественные (хороший, большой)
r:relотносительные (деревянный, лунный)
r:possпритяжательные (божий, отцов, мужнин)
r:invarнеизменяемые (беж, джерси)

 

 

 

Лексико-семантические пометы

 

 

 

t:sizeразмер (высокий, короткий)
t:size:maxбольшой (высокий, длинный)
t:size:minмалый (низкий, короткий)
t:size:absабсолютный (двухэтажный)
t:distрасстояние (далекий, соседний)
t:dist:maxбольшое (дальний, отдаленный)
t:dist:minмалое (близкий, недалекий)
t:quantколичество (большой, достаточный, трехкратный)
t:quant:maxбольшое (обильный, многочисленный)
t:quant:minмалое (ничтожный, малочисленный)
t:quant:absабсолютное (двухтысячный, восьмимилионный)
t:placeместо (левый, придорожный, теменной)
t:dirнаправление (обратный, подветренный)
t:timeвремя (прошлый, ночной)
t:time:durдлительность (долгий, краткий)
t:time:dur:maxбольшая (долгий, продолжительный)
t:time:dur:minмалая (краткий, кратковременный)
t:time:dur:absабсолютная (восьмичасовой)
t:time:ageвозраст (зрелый)
t:time:age:maxбольшой (старый, древний)
t:time:age:minмалый (молодой, малолетний)
t:time:age:absабсолютный (трехлетний)
t:speedскорость (проворный)
t:speed:maxбольшая (скорый, быстрый)
t:speed:minмалая (медленный, тягучий)
t:physqфизические свойства (мягкий, вязкий)
t:physq:formформа (кривой, круглый)
t:physq:colorцвет (красный, бесцветный)
t:physq:tasteвкус (кислый, приторный)
t:physq:smellзапах (ароматный, тухлый)
t:physq:temperтемпература (горячий, ледяной)
t:physq:weightвес (тяжелый, легкий)
t:humqкачества человека (умный, верный, ловкий)

 

 

 

Оценка

 

 

 

evоценка (толковый, мешковатый)
ev:positположительная (везучий, ладный)
ev:negотрицательная (продажный, сварливый)

 

 

 

Словообразовательные пометы

 

 

 

d:dimдиминутивы (тихонький, крохотный)
d:augаугментативы (здоровенный, злющий)
d:attenаттенуативы (угловатый, жуликоватый)
d:habitхабитивы (глазастый, пузатый)
d:caritкаритивы (безглазый, бездыханный)
d:potent | d:impotпотенциальные (плавучий, недееспособный)
d:potentпоссибилитивы (плавучий, плодородный, занимательный)
d:impotимпоссибилитивы (несоизмеримый, недееспособный)
der:sотыменные прилагательные (домашний, железный)
der:vотглагольные прилагательные (ковкий, навязчивый, кочевой)
der:advотадвербиальные прилагательные (поздний, здешний)
Имена числительные (NUM, A-NUM)

 

 

 

Разряды

 

 

 

r:cardколичественные (два, пять, десять)
r:card:paucчислительные малого количества (два, три, четыре, оба, пол, полтора)
r:ordпорядковые (первый, второй, десятый)
Местоимения, в том числе
S-PROместоимения-существительные (он, кто)
A-PROместоимения-прилагательные (его, какой)
ADV-PROместоимения-наречия (где, как)

 

 

 

Разряды

 

 

 

r:persличные (я, он)
r:refвозвратные (себя)
r:possпритяжательные (мой, его, свой)
r:relвопросительные/относительные (кто, который, когда)
r:demуказательные (этот, такой)
r:indetнеопределенные (некоторый, некогда)
r:negотрицательные (никакой, ничей)
r:specкванторные (определительные) (всякий, каждый, любой)
Глаголы (V)

 

 

 

Лексико-семантические пометы

 

 

 

t:moveдвижение (бежать, дергаться, бросить, нести)
t:move:bodyизменение положения тела, части тела (согнуть, нагнуться, примоститься)
t:putпомещение объекта (положить, вложить, спрятать)
t:impactфизическое воздействие (бить, колоть, вытирать)
t:impact:creatсоздание физического объекта (выковать, смастерить, сшить)
t:impact:destrуничтожение (взорвать, сжечь, зарезать)
t:changestизменение состояния или признака (взрослеть, богатеть, расширить, испачкать)
t:beбытийная сфера (жить, возникнуть, убить)
t:be:existсуществование (жить, происходить)
t:be:appearначало существования (возникнуть, родиться, сформировать, создать)
t:be:disappпрекращение существования (умереть, убить, улетучиться, ликвидировать, искоренить)
t:locместонахождение (лежать, стоять, положить)
t:loc:bodyположение тела в пространстве (сидеть)
t:contactконтакт и опора (касаться, обнимать, облокотиться)
t:possпосессивная сфера (иметь, дать, подарить, приобрести, лишиться)
t:mentментальная сфера (знать, верить, догадаться, помнить, считать)
t:percвосприятие (смотреть, слышать, нюхать, чуять)
t:psychпсихическая сфера (гипнотизировать, сочувствовать, настроиться, терпеть)
t:psych:emotэмоция (радоваться, обидеть)
t:psych:volitволя (решить)
t:speechречь (говорить, советовать, спорить, каламбурить)
t:behavповедение человека (куролесить, привередничать)
t:physiolфизиологическая сфера (кашлять, икать)
t:weatherприродное явление (бушевать, вьюжить)
t:soundзвук (гудеть, шелестеть)
t:lightсвет (гаснуть, лучиться)
t:smellзапах (пахнуть, благоухать)

 

 

 

Каузация

 

 

 

ca:causкаузативные глаголы (показать, вертеть)
ca:noncausнекаузативные глаголы (видеть, вертеться)

 

 

 

Служебные глаголы

 

 

 

aux:phaseфазовые (начать, продолжать, прекратить)
aux:causслужебные каузативные (вызвать, привести (к))

 

 

 

Словообразовательные пометы

 

 

 

d:prefприставочные глаголы (забегать, оглядеть)
d:semelfсемельфактивы (кивнуть, чихнуть, боднуть, качнуться)
d:impfвторичные имперфективы (-ива-, -ва-, -а-) (выпивать, вбивать, прогонять)
Наречия (ADV)

 

 

 

Лексико-семантические пометы

 

 

 

t:placeместо (здесь, посередине)
t:dirнаправление (туда, наверх)
t:distрасстояние (далеко, близко)
t:dist:maxбольшое (далеко, вдали, вдалеке)
t:dist:minмалое (близко, вблизи)
t:timeвремя (тогда, поздно)
t:time:durдлительность (вечно, недолго)
t:time:dur:maxбольшая (вечно, подолгу, всегда)
t:time:dur:minмалая (временно, недолго)
t:speedскорость (быстро, медленно)
t:speed:maxбольшая (быстро, мигом)
t:speed:minмалая (медленно, неторопливо)
t:quantколичество (столько, достаточно)
t:quant:maxбольшое (много, навалом)
t:quant:minмалое (мало, чуть-чуть)

 

 

 

Оценка

 

 

 

evоценка (беспечно, бойко)
ev:positположительная (бойко, безупречно)
ev:negотрицательная (бездарно, неловко)

 

 

 

Словообразовательные пометы

 

 

 

d:dimдиминутивы (немножко, быстренько)
d:attenаттенуативы (рановато, суховато)
der:sотыменные наречия (вверху, дома)
der:vотглагольные наречия (отродясь, стоймя)
der:aотадъективные наречия (быстро, обычно)

 

 

 

Таксономия производящего слова-прилагательного

 

 

 

der:a & dt:sizeразмер (высоко, коротко)
der:a & dt:size:maxбольшой (высоко, бесконечно)
der:a & dt:size:minмалый (коротко, низко)
der:a & dt:physqфизические свойства (твердо, плотно)
der:a & dt:physq:formформа (плоско, прямо)
der:a & dt:physq:colorцвет (красно, добела)
der:a & dt:physq:tasteвкус (горько, вкусно)
der:a & dt:physq:smellзапах (смрадно, зловонно)
der:a & dt:physq:temperтемпература (тепло, прохладно)
der:a & dt:physq:weightвес (тяжело, легко)
der:a & dt:humqкачества человека (внимательно, грубо)

Обновлено