Representation of lexical and semantic information

Currently, the Corpus facilitates searches for lexical and semantic characteristics of words as the texts are semantically tagged.

Most words in a text are tagged with a number of semantic and derivational parameters such as “person”, “substance”, “space”, “movement”, “diminutive”, “verbal noun”, etc. It is possible for a word to be assigned characteristics along several different parameters. The texts are tagged by the Semmarkup program (by A. E. Poliakov) which uses the Semantic dictionary of the Corpus. Semantic homonymy is not disambiguated because such a process would have to be done by hand and would be extremely time-consuming; homonyms are assigned multiple semantic analyses. The semantic tagging is based on the classification system which was developed for the database Lexicograph beginning from 1992 under the leadership of E. V. Paducheva and E. V. Rakhilina at the Department of Linguistic Research at the All-Russian Institute of Scientific and Technical Information of the Russian Academy of Sciences. Since then the dictionary was essentially expanded, several new semantic classes and the derivational parameters were added for the needs of the Corpus.

The Semantic dictionary is based on the morphological dictionary of the DIALING system (120 thousand words) which in its turn is an expansion of the Zalizniak’s Grammatical dictionary of Russian .

The structure of semantic and lexical information

There are three groups of tags assigned to words to reflect lexical and semantic information:

  1. Class (a name, a reflexive pronoun, etc.)
  2. Lexical and semantic features (a lexeme's thematic class, indications of causality or assessment, etc.)
  3. Derivational features (a diminutive, an adjectival adverb, etc.)

The set of semantic and lexical parameters is different for different parts of speech. Moreover, nouns are divided into three subclasses (concrete nouns, abstract nouns, and proper names), each with its own hierarchy of tags.

Lexical and semantic tags are grouped as follows:

  1. Taxonomy (a lexeme's thematic class) – for nouns, verbs, adjectives and adverbs.
  2. Mereology (“part – whole” and “element – aggregate” relationships) – for concrete and abstract nouns
  3. Topology – for concrete names
  4. Causation – for verbs
  5. Auxiliary status – for verbs
  6. Evaluation – for abstract and concrete nouns, adjectives and adverbs

A word in the semantic dictionary is assigned a set of characteristics along the following parameters:

taxonomic class; for example: ‘persons’, ‘spaces’, ‘texts’ (for nouns); ‘motion’, ‘location’, ‘emotion’ (for verbs); ‘speed’, ‘duration’, ‘place’ (for adjectives and adverbs);

mereological class (for nouns): ‘parts’, ‘sets’ etc.;

topological class (for nouns): ‘containers’, ‘horizontal surfaces’, etc.;

causative / non-causative (for verbs);

positive and negative evaluation (for all parts of speech);

• derivational features.

  1. Morpho-semantic features, for example: diminutive, caritive, semelfactive, etc.;
  2. Class of the motivating word, for example: verbal noun, adjectival adverb;
  3. Taxonomic type of the motivating word, for example: adverb derived from adjective of size;
  4. Morphological type of derivation (substantivization, compound word, etc.)

The meta-language of tags is based on English notation; it is, however, possible to make a search using traditional Russian category names in the “semantic features” form. The following is an inventory of all currently available tags with examples in parenthesis.

Nouns (S)


r:concr — concrete nouns (девочка, стол, молоко)

r:abstr — abstract nouns (вождение, яркость, время)

r:propn — proper names (Иван, Эйнштейн, Петроград)

Concrete nouns


t:hum — person (человек, учитель)

t:hum:etn — ethnonyms (эфиоп, итальянка)

t:hum:kin — kinship terms (брат, бабушка)

t:hum:supernat — supernatural creatures (русалка, инопланетянин)

t:animal — animals (корова, жираф, сорока, ящерица, муравей)

t:plant — plants (береза, роза, трава)

t:stuff — substances and materials (вода, песок, тесто, жесть, шелк)

t:space — space and places (космос, город, тайга, овраг, вход)

t:constr — buildings and constructions (дом, шалаш, мост)

t:tool — tools and appliances (молоток, палка, пуговица, машина)

t:tool:instr — tools (штопор, игла, карандаш)

t:tool:device — machinery and devices (телефон, сеялка, градусник)

t:tool:transp — vehicles (автобус, поезд, сани)

t:tool:weapon — weapons (сабля, пистолет, гаубица)

t:tool:mus — musical instruments (рояль, скрипка, колокол)

t:tool:furn — furniture (стол, диван, шкаф)

t:tool:dish — kitchen utensils (чашка, кастрюля, фляжка)

t:tool:cloth — clothes and footwear (платье, шляпа, ботинки)

t:food — food and drinks (пирог, каша, молоко)

t:text — texts (рассказ, книга, афиша)


pt:part — parts (верхушка, кончик, половина)

pt:partb& pc:hum — human body parts and organs (голова, сердце, ноготь)

pt:partb& pc:animal — animal body parts and organs (хвост, жало)

pt:part& pc:plant — parts of plants (лист, ветка, корень)

pt:part& pc:constr — parts of buildings and constructions (комната, дверь, арка)

pt:part& pc:tool — parts of tools (деталь, лопасть, крышка)

pt:part& pc:tool:instr — parts of instruments (топорище, лезвие)

pt:part& pc:tool:device — parts of machinery and devices (дисплей, корпус, кнопка)

pt:part& pc:tool:transp — parts of vehicles (руль, колесо, капот)

pt:part& pc:tool:weapon — parts of weapons (дуло, курок, эфес)

pt:part& pc:tool:mus — parts of musical instruments (струна, гриф)

pt:part& pc:tool:furn — parts of furniture (сиденье, подлокотник)

pt:part& pc:tool:dish — parts of kitchen utensils (носик, горлышко)

pt:part& pc:tool:cloth — parts of clothes and footwear (рукав, каблук)

pt:qtm — quanta and portions (капля, комок, порция)

pt:set/ pt:aggr — sets and aggregates (набор, букет, мебель, человечество)

hi:class — classes (животное, ягода, инструмент)


top:contain — containers (кошелек, комната, озеро, ниша)

top:horiz — horizontal surfaces (пол, площадка)


ev — evaluation (neither positive nor negative) (озорник, махина)

ev:posit — positive evaluation (умница, светило)

ev:neg — negative evaluation (негодяй, вертихвостка)

Derivational tags

d:dim — diminutives (зайчик, коробочка)

d:aug — augmentatives (детина, домище)

d:sing — singulatives (пылинка, изюминка)

d:nag — nomina agentis (писатель, создатель, докладчик)

d:fem — nomina feminina (немка, генеральша, доярка)

Abstract nouns


t:move — movement (беготня, вынос, качка)

t:move:body — body movement (поклон)

t:put — placement of objects (размещение, расстановка, погрузка, намотка)

t:impact — physical impact (удар, втирание, обмолот)

t:impact:creat — creation of physical objects (лепка, отливка, плетение, сооружение, строительство)

t:impact:destr — destruction (слом, сожжение)

t:changest — change of state or features (укрепление, затвердение, осушение, конденсация, осложнение)

t:be — sphere of being

t:be:exist — existence (жизнь, наличие, бытие)

t:be:appear — start of existence (возникновение, рождение, формирование, учреждение, творение)

t:be:disapp — end of existence (смерть, казнь, ликвидация)

t:loc — location (местоположение)

t:loc:body — body location (лежание)

t:contact — contact and support (прикосновение, объятие)

t:poss — sphere of possession (обладание, приобретение, покупка, потеря, лишение)

t:ment — mental sphere (знание, абстракция, воображение, воспоминание, догадка)

t:perc — perception (осязание, слух, видимость, взгляд, зрелище)

t:psych — psychological states (апатия, безумие, вдохновение, спокойствие)

t:psych:emot — emotions (восторг, раскаяние, печаль)

t:psych:volit — volition (намерение, решение)

t:speech — speech (дискуссия, молва, ахинея, реплика, подковырка)

t:physiol — physiology (жажда, кровоизлияние, судорога, утомление, икота)

t:weather — natural phenomena (зарница, вьюга, зной)

t:sound — sounds (шум, перезвон, хлопок, аплодисменты, диссонанс)

t:color — colours (окраска, колорит, желтизна, прозелень)

t:light — light (луч, полумрак, светлынь, иллюминация)

t:taste — taste (вкуснота, горчинка, кислятина)

t:smell — smells (аромат, перегар)

t:temper — temperature (прохлада, стужа, нагрев)

t:time — time (весна, годовщина, минута, современность)

t:time:period — period of time (межсезонье, путина, сенокос, стаж)

t:time:moment — moment of time (миг, мгновение)

t:time:week — day of week (понедельник)

t:time:month — month (январь)

t:time:age — age (детство, молодость, двадцатилетие)

t:humq — human qualities (порядочность, безволие, остроумие)

t:behav — human behaviour (разгильдяйство, подхалимаж, неповиновение, ребячество, предательство)

t:inter — interaction and interrelation (взаимопомощь, вражда, схватка, драка)

t:action — social events (аукцион, вернисаж, вечеринка, выборы, именины, заседание, культпоход)

t:disease — diseases (ангина, диабет)

t:game — games (жмурки, покер, домино, волейбол)

t:sport — sport (спартакиада, акробатика, баскетбол)

t:param — parameters (высота, грузоподъемность)

t:unit — units of measurement (балл, килограмм, метр, минута)


pt:part — part (начало, финал)

pt:qtm — quantum (оборот, прыжок, кивок)

pt:set — set (система, выборка, алгоритм)


ev — evaluation (озорник, махина)

ev:posit — positive evaluation (благоухание, загляденье, изюминка)

ev:neg — negative evaluation (безвкусица, ахинея)

Derivational tags

der:v — verbal nouns (выбор, демонстрация)

der:a — adjectival nouns (краснота, жадность)

Proper names


t:hum| t:hum:supernat — people (Людмила, Черномор)

t:persn — personal names (Александр)

t:patrn — patronymics (Сергеевич)

t:famn — surnames (Пушкин)

t:topon — toponyms (Европа, Волга, Эльбрус, Москва, Преображенка)

Derivational tags

d:dim — diminutives (Саша, Женечка, Николаич)

Adjectives (A)


r:qual — qualitative (хороший, большой)

r:rel — relative (деревянный, лунный)

r:poss — possessive (божий, отцов, мужнин)

r:invar — non-inflectable (беж, джерси)

Semantic tags

t:size — size (высокий, короткий)

t:size:max — large size (высокий, длинный)

t:size:min — small size (низкий, короткий)

t:size:abs — absolute size (двухэтажный)

t:dist — distance (далекий, соседний)

t:dist:max — long distance (дальний, отдаленный)

t:dist:min — short distance (близкий, недалекий)

t:quant — quantity (большой, достаточный, трехкратный)

t:quant:max — large quantity (обильный, многочисленный)

t:quant:min — small quantity (ничтожный, малочисленный)

t:quant:abs — absolute quantity (двухтысячный, восьмимилионный)

t:place — place (левый, придорожный, теменной)

t:dir — direction (обратный, подветренный)

t:time — time (прошлый, ночной)

t:time:dur — duration (долгий, краткий)

t:time:dur:max — long duration (долгий, продолжительный)

t:time:dur:min — short duration (краткий, кратковременный)

t:time:dur:abs — absolute duration (восьмичасовой)

t:time:age — age (зрелый)

t:time:age:max — old age (старый, древний)

t:time:age:min — young age (молодой, малолетний)

t:time:age:abs — absolute age (трехлетний)

t:speed — speed (проворный)

t:speed:max — high speed (скорый, быстрый)

t:speed:min — low speed (медленный, тягучий)

t:physq — physical qualities (мягкий, вязкий)

t:physq:form — form (кривой, круглый)

t:physq:color — colour (красный, бесцветный)

t:physq:taste — taste (кислый, приторный)

t:physq:smell — smell (ароматный, тухлый)

t:physq:temper — temperature (горячий, ледяной)

t:physq:weight — weight (тяжелый, легкий)

t:humq — human qualities (умный, верный, ловкий)


ev — evaluation (толковый, мешковатый)

ev:posit — positive evaluation (везучий, ладный)

ev:neg — negative evaluation (продажный, сварливый)

Derivational tags

d:dim — diminutives (тихонький, крохотный)

d:aug — augmentatives (здоровенный, злющий)

d:atten — attenuatives (угловатый, жуликоватый)

d:habit — habitives (глазастый, пузатый)

d:carit — caritives (безглазый, бездыханный)

d:potent/ d:impot — potentials (плавучий, недееспособный)

d:potent — possibilitives (плавучий, плодородный, занимательный)

d:impot — impossibilitives (несоизмеримый, недееспособный)

der:s — denominal adjectives (домашний, железный)

der:v — derverbal adjectives (ковкий, навязчивый, кочевой)

der:adv — deadverbial adjectives (поздний, здешний)

Numerals (NUM, A-NUM)


r:card — cardinal (два, пять, десять)

r:card:pauc — paucal numerals (два, три, четыре, оба, пол, полтора)

r:ord — ordinal (первый, второй, десятый)

Pronouns, including:

S-PRO — personal pronouns (он, кто)

A-PRO — adjectival pronouns (его, какой)

ADV-PRO — adverbial pronouns (где, как)


r:pers — personal (я, он)

r:ref — reflexive (себя)

r:poss — possessive (мой, его, свой)

r:rel — interrogative/relative (кто, который, когда)

r:dem — demonstrative (этот, такой)

r:indet — indefinite (некоторый, некогда)

r:neg — negative (никакой, ничей)

r:spec — quantifiers (всякий, каждый, любой)

Verbs (V)

Semantic tags

t:move — movement (бежать, дергаться, бросить, нести)

t:move:body — spatial configuration (согнуть, нагнуться, примоститься)

t:put — placement (положить, вложить, спрятать)

t:impact — physical impact (бить, колоть, вытирать)

t:impact:creat — creation of a physical object (выковать, смастерить, сшить)

t:impact:destr — destruction of a physical object (взорвать, сжечь, зарезать)

t:changest — change of state or property (взрослеть, богатеть, расширить, испачкать)

t:be — sphere of existence (жить, возникнуть, убить)

t:be:exist — existence (жить, происходить)

t:be:appear — start of existence (возникнуть, родиться, сформировать, создать)

t:be:disapp — end of existence (умереть, убить, улетучиться, ликвидировать, искоренить)

t:loc — location (лежать, стоять, положить)

t:loc:body — spatial configuration сидеть)

t:contact — contact and support (касаться, обнимать, облокотиться)

t:poss — sphere of possession (иметь дать, подарить, приобрести, лишиться)

t:ment — mental sphere (знать, верить, догадаться, помнить, считать)

t:perc — perception (смотреть, слышать, нюхать, чуять)

t:psych — psychological sphere (гипнотизировать, сочувствовать, настроиться, терпеть)

t:psych:emot — emotion (радоваться, обидеть)

t:psych:volit — volition (решить)

t:speech — speech (говорить, советовать, спорить, каламбурить)

t:behav — human behaviour (куролесить, привередничать)

t:physiol — sphere of physiology (кашлять, икать)

t:weather — natural phenomena (бушевать, вьюжить)

t:sound — sounds (гудеть, шелестеть)

t:light — light (гаснуть, лучиться)

t:smell — smell (пахнуть, благоухать)

Auxiliary verbs

aux:phase — phasal verbs (начать, продолжать, прекратить)

aux:caus —verbs of causation (вызвать, привести <к>)


ca:caus — causative verbs (показать, вертеть)

ca:noncaus — non-causative verbs (видеть, вертеться)

Derivational tags

d:pref — prefixal verb (забегать, оглядеть)

d:semelf — semelfactive (кивнуть, чихнуть, боднуть, качнуться)

d:impf — secondary imperfectives (with -ива-, -ва-, -а-) (выпивать, вбивать, прогонять)

Adverbs (ADV)

Semantic tags

t:place — place (здесь, посередине)

t:dir — direction (туда, наверх)

t:dist — distance (далеко, близко)

t:dist:max — long distance (далеко, вдали, вдалеке)

t:dist:min — short distance (близко, вблизи)

t:time — time (тогда, поздно)

t:time:dur — duration (вечно, недолго)

t:time:dur:max — long duration (вечно, подолгу, всегда)

t:time:dur:min — short duration (временно, недолго)

t:speed — speed (быстро, медленно)

t:speed:max — fast (быстро, мигом)

t:speed:min — slow (медленно, неторопливо)

t:quant — quantity (столько, достаточно)

t:quant:max — large quantity (много, навалом)

t:quant:min — small quantity (мало, чуть-чуть)


ev — evaluation (беспечно, бойко)

ev:posit — positive evaluation (бойко, безупречно)

ev:neg — negative (бездарно, неловко)

Derivational tags

d:dim — diminutive (немножко, быстренько)

d:atten — attenuative (рановато, суховато)

der:s — denominal adverbs (вверху, дома)

der:v — deverbal adverbs (отродясь, стоймя)

der:a — deadjectival adverbs (быстро, обычно)

Taxonomy of motivating adjectives

der:a& dt:size — size (высоко, коротко)

der:a& dt:size:max — large size (высоко, бесконечно)

der:a& dt:size:min — small size (коротко, низко)

der:a& dt:physq — physical qualities (твердо, плотно)

der:a& dt:physq:form — form (плоско, прямо)

der:a& dt:physq:color — colour (красно, добела)

der:a& dt:physq:taste — taste (горько, вкусно)

der:a& dt:physq:smell — smell (смрадно, зловонно)

der:a& dt:physq:temper — temperature (тепло, прохладно)

der:a& dt:physq:weight — weight (тяжело, легко)

der:a& dt:humq — human qualities (внимательно, грубо)

