Semantics
Representation of lexical and semantic information

Currently, the Corpus facilitates searches for lexical and semantic characteristics of words as the texts are semantically tagged.

Most words in a text are tagged with a number of semantic and derivational parameters such as 'person', 'substance', 'space', 'movement', 'diminutive', 'verbal noun', etc. It is possible for a word to be assigned characteristics along several different parameters. The texts are tagged by the Semmarkup program (by A. E. Poliakov) which uses the Semantic dictionary of the Corpus. Semantic homonymy is not disambiguated because such a process would have to be done by hand and would be extremely time-consuming; homonyms are assigned multiple semantic analyses. The semantic tagging is based on the classification system which was developed for the database Lexicograph beginning from 1992 under the leadership of E. V. Paducheva and E. V. Rakhilina at the Department of Linguistic Research at the All-Russian Institute of Scientific and Technical Information of the Russian Academy of Sciences. Since then the dictionary was essentially expanded, several new semantic classes and the derivational parameters were added for the needs of the Corpus.

The Semantic dictionary is based on the morphological dictionary of the DIALING system (120 thousand words) which in its turn is an expansion of the Zalizniak’s Grammatical dictionary of Russian .

 

The structure of semantic and lexical information

There are three groups of tags assigned to words to reflect lexical and semantic information:

  1. Class (a name, a reflexive pronoun, etc.)
  2. Lexical and semantic features (a lexeme's thematic class, indications of causality or assessment, etc.)
  3. Derivational features (a diminutive, an adjectival adverb, etc.).

The set of semantic and lexical parameters is different for different parts of speech. Moreover, nouns are divided into three subclasses (concrete nouns, abstract nouns, and proper names), each with its own hierarchy of tags.

 

Lexical and semantic tags are grouped as follows:

  1. taxonomy (a lexeme's thematic class) – for nouns, verbs, adjectives and adverbs;
  2. mereology (“part – whole” and “element – aggregate” relationships) – for concrete and abstract nouns;
  3. topology – for concrete names;
  4. causation – for verbs;
  5. auxiliary status – for verbs;
  6. evaluation – for abstract and concrete nouns, adjectives and adverbs.

A word in the semantic dictionary is assigned a set of characteristics along the following parameters:

  • taxonomic class; for example: ‘persons’, ‘spaces’, ‘texts’ (for nouns); ‘motion’, ‘location’, ‘emotion’ (for verbs); ‘speed’, ‘duration’, ‘place’ (for adjectives and adverbs);
  • mereological class (for nouns): ‘parts’, ‘sets’ etc.;
  • topological class (for nouns): ‘containers’, ‘horizontal surfaces’, etc.;
  • causative / non-causative (for verbs);
  • positive and negative evaluation (for all parts of speech);
  • derivational features.
  1. Morpho-semantic features, for example: diminutive, caritive, semelfactive, etc.;
  2. Class of the motivating word, for example: verbal noun, adjectival adverb;
  3. Taxonomic type of the motivating word, for example: adverb derived from adjective of size;
  4. Morphological type of derivation (substantivization, compound word, etc.).

The meta-language of tags is based on English notation; it is, however, possible to make a search using traditional Russian category names in the “semantic features” form. The following is an inventory of all currently available tags with examples in parenthesis.

 

Nouns (S)

 

Categories

 

r:concr concrete nouns (девочка, стол, молоко)
r:abstr нabstract nouns (вождение, яркость, время)
r:propn proper names (Иван, Эйнштейн, Петроград)

 

Concrete nouns

Taxonomy

t:hum person (человек, учитель)
t:hum:etn ethnonyms (эфиоп, итальянка)
t:hum:kin kinship terms (брат, бабушка)
t:hum:supernat supernatural creatures (русалка, инопланетянин)
t:animal animals (корова, жираф, сорока, ящерица, муравей)
t:plant plants (береза, роза, трава)
t:stuff substances and materials (вода, песок, тесто, жесть, шелк)
t:space space and places (космос, город, тайга, овраг, вход)
t:constr buildings and constructions (дом, шалаш, мост)
t:tool tools and appliances (молоток, палка, пуговица, машина)
t:tool:instr tools (штопор, игла, карандаш)
t:tool:device machinery and devices (телефон, сеялка, градусник)
t:tool:transp vehicles (автобус, поезд, сани)
t:tool:weapon weapons (сабля, пистолет, гаубица)
t:tool:mus musical instruments (рояль, скрипка, колокол)
t:tool:furn furniture (стол, диван, шкаф)
t:tool:dish kitchen utensils (чашка, кастрюля, фляжка)
t:tool:cloth clothes and footwear (платье, шляпа, ботинки)
t:food food and drinks (пирог, каша, молоко)
t:text texts (рассказ, книга, афиша)

Mereology:

pt:part parts (верхушка, кончик, половина)
pt:partb & pc:hum human body parts and organs (голова, сердце, ноготь))
pt:partb & pc:animal animal body parts and organs (хвост, жало)
pt:part & pc:plant parts of plants (лист, ветка, корень)
pt:part & pc:constr parts of buildings and constructions (комната, дверь, арка)
pt:part & pc:tool parts of tools (деталь, лопасть, крышка)
pt:part & pc:tool:instr parts of instruments (топорище, лезвие)
pt:part & pc:tool:device parts of machinery and devices (дисплей, корпус, кнопка)
pt:part & pc:tool:transp parts of vehicles (руль, колесо, капот)
pt:part & pc:tool:weapon parts of weapons (дуло, курок, эфес)
pt:part & pc:tool:mus parts of musical instruments (струна, гриф)
pt:part & pc:tool:furn parts of furniture (сиденье, подлокотник)
pt:part & pc:tool:dish parts of kitchen utensils (носик, горлышко)
pt:part & pc:tool:cloth parts of clothes and footwear (рукав, каблук)
pt:qtm quanta and portions (капля, комок, порция)
pt:set | pt:aggr sets and aggregates (набор, букет, мебель, человечество)
hi:class classes (животное, ягода, инструмент))

Topology

top:contain containers (кошелек, комната, озеро, ниша)
top:horiz horizontal surfaces (пол, площадка)

Evaluation:

ev evaluation (neither positive nor negative) (озорник, махина)
ev:posit positive evaluation (умница, светило)
ev:neg negative evaluation (негодяй, вертихвостка)

Derivational tags

d:dim diminutives (зайчик, коробочка)
d:aug augmentatives (детина, домище)
d:sing singulatives (пылинка, изюминка)
d:nag nomina agentis (писатель, создатель, докладчик)
d:fem nomina feminina (немка, генеральша, доярка)

Abstract nouns

Taxonomy

t:move movement (беготня, вынос, качка)
t:move:body body movement (поклон))
t:put placement of objects (размещение, расстановка, погрузка, намотка)
t:impact physical impact (удар, втирание, обмолот)
t:impact:creat creation of physical objects (лепка, отливка, плетение, сооружение, строительство)
t:impact:destr destruction (слом, сожжение)
t:changest change of state or features (укрепление, затвердение, осушение, конденсация, осложнение))
t:be sphere of being
t:be:exist existence (жизнь, наличие, бытие)
t:be:appear start of existence (возникновение, рождение, формирование, учреждение, творение)
t:be:disapp end of existence (смерть, казнь, ликвидация
t:loc location (местоположение)
t:loc:body body location (лежание)
t:contact contact and support (прикосновение, объятие)
t:poss sphere of possession (обладание, приобретение, покупка, потеря, лишение)
t:ment mental sphere (знание, абстракция, воображение, воспоминание, догадка)
t:perc perception (осязание, слух, видимость, взгляд, зрелище)
t:psych psychological states (апатия, безумие, вдохновение, спокойствие))
t:psych:emot emotions (восторг, раскаяние, печаль)
t:psych:volit volition (намерение, решение)
t:speech speech (дискуссия, молва, ахинея, реплика, подковырка)
t:physiol physiology (жажда, кровоизлияние, судорога, утомление, икота)
t:weather natural phenomena (зарница, вьюга, зной)
t:sound sounds (шум, перезвон, хлопок, аплодисменты, диссонанс)
t:color colours (окраска, колорит, желтизна, прозелень)
t:light light (луч, полумрак, светлынь, иллюминация)
t:taste taste (вкуснота, горчинка, кислятина)
t:smell smells (аромат, перегар)
t:temper temperature (прохлада, стужа, нагрев)
t:time time (весна, годовщина, минута, современность)
t:time:period period of time (межсезонье, путина, сенокос, стаж)
t:time:moment moment of time (миг, мгновение)
t:time:week day of week (понедельник)
t:time:month month (январь)
t:time:age age (детство, молодость, двадцатилетие)
t:humq human qualities (порядочность, безволие, остроумие)
t:behav human behaviour (разгильдяйство, подхалимаж, неповиновение, ребячество, предательство)
t:inter interaction and interrelation (взаимопомощь, вражда, схватка, драка)
t:action social events (аукцион, вернисаж, вечеринка, выборы, именины, заседание, культпоход)
t:disease diseases (ангина, диабет)
t:game games (жмурки, покер, домино, волейбол
t:sport sport (спартакиада, акробатика, баскетбол))
t:param parameters (высота, грузоподъемность)
t:unit units of measurement (балл, килограмм, метр, минута)

Mereology

pt:part part (начало, финал)
pt:qtm quantum (оборот, прыжок, кивок)
pt:set set (система, выборка, алгоритм)

Evaluation

ev evaluation (озорник, махина)
ev:posit positive evaluation (благоухание, загляденье, изюминка))
ev:neg negative evaluation (безвкусица, ахинея)
   

Derivational tags

der:v verbal nouns (выбор, демонстрация)
der:a adjectival nouns (краснота, жадность)

Proper names

Taxonomy

t:hum | t:hum:supernat people (Людмила, Черномор)
t:persn personal names (Александр)
t:patrn patronymics (Сергеевич)
t:famn surnames (Пушкин)
t:topon toponyms (Европа, Волга, Эльбрус, Москва, Преображенка)

Derivational tags

d:dim diminutives (Саша, Женечка, Николаич)
Adjectives (A)

Categories

r:qual qualitative (хороший, большой)
r:rel relative (деревянный, лунный))
r:poss possessive (божий, отцов, мужнин)
r:invar non-inflectable (беж, джерси)

Semantic tags

t:size size (высокий, короткий)td>
t:size:max large size (высокий, длинный)
t:size:min small size (низкий, короткий)
t:size:abs absolute size (двухэтажный)
t:dist distance (далекий, соседний)
t:dist:max long distance (дальний, отдаленный)
t:dist:min short distance (близкий, недалекий)
t:quant quantity (большой, достаточный, трехкратный)
t:quant:max large quantity (обильный, многочисленный)
t:quant:min small quantity (ничтожный, малочисленный)
t:quant:abs absolute quantity (двухтысячный, восьмимилионный)
t:place place (левый, придорожный, теменной)
t:dir direction (обратный, подветренный)
t:time time (прошлый, ночной)
t:time:dur duration (долгий, краткий)
t:time:dur:max long duration (долгий, продолжительный)
t:time:dur:min short duration (краткий, кратковременный)
t:time:dur:abs absolute duration (восьмичасовой)
t:time:age age (зрелый)
t:time:age:max old age (старый, древний)
t:time:age:min young age (молодой, малолетний)
t:time:age:abs absolute age (трехлетний)
t:speed speed (проворный)
t:speed:max high speed (скорый, быстрый)
t:speed:min low speed (медленный, тягучий)
t:physq physical qualities (мягкий, вязкий)
t:physq:form form (кривой, круглый)
t:physq:color colour (красный, бесцветный)
t:physq:taste taste (кислый, приторный)
t:physq:smell smell (ароматный, тухлый)
t:physq:temper temperature (горячий, ледяной)
t:physq:weight weight (тяжелый, легкий)
t:humq human qualities (умный, верный, ловкий)

Evaluation

ev evaluation (толковый, мешковатый)
ev:posit positive evaluation (везучий, ладный)
ev:neg negative evaluation (продажный, сварливый)

Derivational tags

d:dim diminutives (тихонький, крохотный)
d:aug augmentatives (здоровенный, злющий)
d:atten attenuatives (угловатый, жуликоватый)
d:habit habitives (глазастый, пузатый)
d:carit caritives (безглазый, бездыханный)
d:potent | d:impot potentials (плавучий, недееспособный)
d:potent possibilitives (плавучий, плодородный, занимательный)
d:impot impossibilitives (несоизмеримый, недееспособный)
der:s denominal adjectives (домашний, железный)
der:v derverbal adjectives (ковкий, навязчивый, кочевой)
der:adv eadverbial adjectives (поздний, здешний)
Numerals (NUM, A-NUM)

Categories

r:card cardinal (два, пять, десять)
r:card:pauc paucal numerals (два, три, четыре, оба, пол, полтора)
r:ord ordinal (первый, второй, десятый)
Pronouns, including:
S-PRO personal pronouns (он, кто)
A-PRO adjectival pronouns (его, какой)
ADV-PRO adverbial pronouns (где, как))

Categories

r:pers personal (я, он)
r:ref reflexive (себя)
r:poss possessive (мой, его, свой)
r:rel interrogative/relative (кто, который, когда)
r:dem demonstrative (этот, такой)
r:indet indefinite (некоторый, некогда))
r:neg negative (никакой, ничей)
r:spec quantifiers (всякий, каждый, любой)
Verbs (V)

Semantic tags

t:move movement (бежать, дергаться, бросить, нести)
t:move:body spatial configuration (согнуть, нагнуться, примоститься)
t:put placement (положить, вложить, спрятать)
t:impact physical impact (бить, колоть, вытирать)
t:impact:creat creation of a physical object (выковать, смастерить, сшить)
t:impact:destr destruction of a physical object (взорвать, сжечь, зарезать)
t:changest change of state or property (взрослеть, богатеть, расширить, испачкать)
t:be sphere of existence (жить, возникнуть, убить)
t:be:exist existence (жить, происходить)
t:be:appear start of existence (возникнуть, родиться, сформировать, создать)
t:be:disapp end of existence (умереть, убить, улетучиться, ликвидировать, искоренить)
t:loc location (лежать, стоять, положить)
t:loc:body spatial configuration сидеть)
t:contact contact and support (касаться, обнимать, облокотиться)
t:poss sphere of possession (иметь дать, подарить, приобрести, лишиться)
t:ment mental sphere (знать, верить, догадаться, помнить, считать)
t:perc perception (смотреть, слышать, нюхать, чуять)
t:psych psychological sphere (гипнотизировать, сочувствовать, настроиться, терпеть)
t:psych:emot emotion (радоваться, обидеть)
t:psych:volit volition (решить)
t:speech speech (говорить, советовать, спорить, каламбурить
t:behav human behaviour (куролесить, привередничать
t:physiol sphere of physiology (кашлять, икать)
t:weather natural phenomena (бушевать, вьюжить)
t:sound sounds (гудеть, шелестеть)
t:light light (гаснуть, лучиться)
t:smell smell (пахнуть, благоухать)

Causativity

ca:caus causative verbs (показать, вертеть)
ca:noncaus non-causative verbs (видеть, вертеться)

Auxiliary verbs

aux:phase phasal verbs (начать, продолжать, прекратить)
aux:caus verbs of causation (вызвать, привести <к>)

Derivational tags

d:pref prefixal verb (забегать, оглядеть)
d:semelf semelfactive (кивнуть, чихнуть, боднуть, качнуться)
d:impf secondary imperfectives (with -ива-, -ва-, -а-) (выпивать, вбивать, прогонять)
Adverbs (ADV)

Semantic tags

t:place place (здесь, посередине)
t:dir direction (туда, наверх)
t:dist distance (далеко, близко)
t:dist:max long distance (далеко, вдали, вдалеке))
t:dist:min short distance (близко, вблизи)
t:time time (тогда, поздно)
t:time:dur duration (вечно, недолго)
t:time:dur:max long duration (вечно, подолгу, всегда)
t:time:dur:min short duration (временно, недолго)
t:speed speed (быстро, медленно)
t:speed:max fast (быстро, мигом)
t:speed:min slow (медленно, неторопливо)
t:quant quantity (столько, достаточно)
t:quant:max large quantity (много, навалом)
t:quant:min small quantity (мало, чуть-чуть)

Evaluation

ev evaluation (беспечно, бойко)
ev:posit positive evaluation (бойко, безупречно))
ev:neg negative (бездарно, неловко)

Derivational tags

d:dim diminutive (немножко, быстренько))
d:atten attenuative (рановато, суховато)
der:s denominal adverbs (вверху, дома)
der:v deverbal adverbs (отродясь, стоймя)
der:a deadjectival adverbs (быстро, обычно)

Taxonomy of motivating adjectives

der:a & dt:size size (высоко, коротко)
der:a & dt:size:max large size (высоко, бесконечно)
der:a & dt:size:min small size (коротко, низко)
der:a & dt:physq physical qualities (твердо, плотно)
der:a & dt:physq:form form (плоско, прямо))
der:a & dt:physq:color colour (красно, добела)
der:a & dt:physq:taste taste (горько, вкусно)
der:a & dt:physq:smell smell (смрадно, зловонно)
der:a & dt:physq:temper temperature (тепло, прохладно)
der:a & dt:physq:weight weight (тяжело, легко)
der:a & dt:humq human qualities (внимательно, грубо)

Updated on 28.11.2022