Корпусной словарь редких слов

Задача и целевая аудитория словаря

Словарь редких слов является вспомогательным ресурсом «Обучающего корпуса русского языка»; словарь опирается на лексический материал этого корпуса и предназначен прежде всего для тех, кто работает с Обучающим корпусом (школьников, преподавателей, методистов, иностранцев, изучающих русский язык), но при этом может использоваться самой широкой аудиторией.

Задача словаря — разрешить лексические трудности, возникающие при чтении текстов, дать представление о грамматических и стилистических особенностях редких слов, приучить к вдумчивому чтению литературы.

Обучающий корпус объединяет в себе представительный массив документов. Он включает не только классические художественные произведения, которые изучаются на уроках литературы, но и характерные примеры публицистического, делового и научного стиля. Таким образом, словарный ресурс, созданный с опорой на словник этого корпуса, позволит решить как задачу поддержания в активном состоянии устаревающих, уходящих из современного языка слов, так и задачу активизации новых, только что утвердившихся слов и будет способствовать расширению словарного запаса и развитию культуры речи школьников.

Словарь рекомендуется для составления учебных материалов по лексикологии и стилистике русского языка.

Источники словаря

1. Первым и главным источником для построения словаря редких слов явились лексические базы данных Обучающего корпуса. По состоянию на 2008 год тексты корпуса составляют около 1 млн словоупотреблений, а в его лексической базе чуть более 36 тыс. словарных единиц. Это тексты разнообразной тематики, представляющие как классические произведения, которые входят в школьный курс уроков литературы, так и тексты, представляющие разные типы современного дискурса. Например, в массив входят произведения XVIII и XIX веков, такие как «Барышня-крестьянка» А.С. Пушкина, «Обломов» И.А. Гончарова, «Преступление и наказание» Ф.М. Достоевского и др., пьесы «Недоросль» Д.И. Фонвизина, «Горе от ума» А.С. Грибоедова, «Гроза» А.Н. Островского, а также публицистические статьи В.Г. Белинского, И.А. Гончарова; произведения первой половины XX века «Мастер и Маргарита» М.А. Булгакова, «Вишневый сад» А.П. Чехова, рассказы И.А. Бунина, Л.Н. Андреева, А.И. Куприна и др. С другой стороны, в Обучающий корпус включены образцы научно-популярной и мемуарной литературы, газетные и журнальные тексты, образцы деловых документов. Такой компактный и в то же время представительный электронный ресурс удобен для оценки лексического запаса современного школьника.

2. Вспомогательным источником построения словаря явился частотный словарь Национального корпуса русского языка, который составлен на базе Основного корпуса ruscorpora.ru объемом в 100 млн словоупотреблений —в 100 раз больше, чем в Обучающем. Этот ресурс, баланс которого научно выверен и выстроен в соответствии с принятыми в современной прикладной лингвистике нормами, отражает объективные данные о частотности русских слов в настоящее время. Он нужен для коррекции статистики, которую представляет гораздо менее сбалансированный, решающий другие задачи Обучающий корпус.

3. Помимо этих источников для коррекции привлекались данные других словарей редких слов, в частности, Словаря редких и забытых слов В.П. Сомова (М., 1996), словаря «Редкие слова в произведениях авторов XIX в.» под ред. Р.П. Рогожниковой (2-ое изд. М., 2003) и др.

4. Важным источником при создании словаря послужили анкетные материалы, полученные в процессе работы непосредственно со школьниками. Анкетирование проводилось при содействии учителей тех школ, в практику преподавания которых уже вошел Национальный корпус русского языка, и прежде всего Обучающий корпус. Анкеты, которые заполнялись школьниками для оценки степени знакомства с тем или иным словом, включали наряду с редкими и непонятными школьнику и вполне освоенные слова —для сопоставления.

5. В качестве источников толкований использовались также толковые и нормативные словари русского языка, включённые в базу данных Яндекс.Словари, включая Толковый словарь русского языка под ред. Д.Н. Ушакова.

Исторические процессы в языке и необходимость создания словарных информационных ресурсов

Изменения языка во времени в первую очередь касаются его лексического состава: зримым эффектом смены эпох является обновление лексики. Отчасти оно объясняется тем, что уходят в прошлое одни реалии и появляются совершенно другие; это касается названий артефактов —предметов быта, одежды, инструментов и приспособлений, т.е. существительных, ср. капор VS. бейсболка, ледник VS. холодильник, ридикюль или кошелка VS. полиэтиленовый пакет. Отчасти это объясняется более сложными внутренними процессами изменения лексического состава языка, которые еще не до конца изучены в теоретическом плане. Действительно, почему-то в обыденной речи стряпать с течением времени поменялось на готовить, являть собой на представлять собой, постепенно исчезают такие оценочные слова, как щеголиха, — скорее скажут модница, — и даже местоимения и частицы, такие как экий или эвон. Результатом этих естественных и неизбежных языковых процессов является то, что следующие поколения носителей языка испытывают значительные трудности при чтении классических текстов: англоязычным школьникам становится трудно читать Шекспира, немецкоязычным — Гете, а русскоязычным — Пушкина и даже Толстого. Между тем культурная преемственность требует сохранения набора таких текстов как основы гуманитарного знания.

Другая сторона того же процесса —приток новых слов, прежде всего, заимствований, которые сначала начинают широко употребляться в прессе, публицистической и научной литературе общего характера и постепенно входят в обыденный язык, но еще трудны для восприятия учащихся, —ср. такие слова, как тривиальный, конъюнктура, схоластический и др.: не всякий школьник может объяснить их значение и правильно их употребить в устной речи или в письменном тексте. Предлагаемый информационный ресурс призван облегчить учащимся знакомство с малоизвестными словами и их освоение.

Статистические и содержательные принципы отбора лексики для словаря

Состав и конечный объем словника словаря редких и непонятных (требующих пояснений) слов, вообще говоря, зависит от целевой аудитории. Если для школьников младших классов могут оказаться незнакомыми такие слова, как амплуа, генотип, дебют, дифференциальный, декларация, ландшафт, трансформация, фактор и под., то абсолютному большинству учащихся старших классов эти слова знакомы. Мы исходили из того, что на данный момент в Обучающий корпус включены, в основном, произведения XVIII-XX веков, изучаемые в старших классах. Кроме того, школьники старших классов в большей степени освоили современные информационные ресурсы и технологии и больше используют Обучающий корпус на занятиях и при подготовке домашних заданий. Поэтому словарь ориентирован прежде всего на эту аудиторию.

Дополнительным критерием служила частотность данного слова в большом Корпусе. Однако учет этого фактора осуществлялся совместно с качественными критериями. Слово должно быть не просто редким в большом Корпусе, но и релевантным с точки зрения общекультурных или обучающих требований. Поэтому включались слова, важные с точки зрения общеобразовательных критериев (мизантроп: 1 —0,7) или необходимые для понимания текстов и реалий прошлых веков (околоток: 5 —0,4), но не включались узкоспециальные термины (афферентация, асбопластик и под.). И наоборот, включались слова, которые имеют в большом Корпусе достаточно высокую частоту, но усвоение которых является важным для социализации и формирования языковой личности школьника (аксессуар, бренд, легализация, маркетинговый, мониторинг, пикетирование, эзотерический и под.).

Состав и объем словника словаря редких слов

Словник словаря составляет более 500 единиц. Словарь включает два типа редких (малочастотных) слов, которые могут быть непонятны школьникам и вызывать трудности при освоении. Первый тип можно назвать «старыми» словами, второй —«новыми» словами.

(1) «Старые» слова

В эту группу входит, в частности, устаревшая лексика, в которой основное место занимают два традиционно выделяемых типа необщеупотребительной лексики —архаизмы и историзмы. В обоих типах присутствуют как исконно русские, так и заимствованные слова. Первый тип —архаизмы —включает устаревшие слова, которые имеют эквиваленты в современном языке (вельми, втуне, присно, реприманд, манкировать). Второй тип —историзмы —включает слова, обозначающие исчезнувшие реалии и устаревшие понятия: армяк, ассигнация, бурнусик, зипун, кринолин, ливрея, постромки, онучи, камердинер, исправник, околоток; ср. также историзмы, означающие иностранные явления (экзотизмы): корсар, эдикт. В группе старых слов есть слова советского периода, связанные с ушедшими реалиями (рабфаковец), с которыми современные школьники могут быть незнакомы, а также слова, отражающие важные моменты и аспекты социально-политической и культурной жизни советской эпохи (реалибитация, разверстка).

В группу «старых» слов входят не только устаревшие слова. Значительную подгруппу, имеющую важную обучающую функцию, составляют слова, которые можно назвать общекультурными, или «гимназическими». Это слова и термины, обозначающие традиционные понятия культуры, прежде всего европейской. Такие слова составляют, так сказать, культурный минимум образованного человека. Эти слова связаны с гуманитарным образованием: пантеон, паноптикум, химера, барельеф, апологет, нарциссизм, пиетет и т.п. К этой подгруппе примыкает лексика, связанная с религией и культом: благовест, клирос, фимиам, лютеранский. Такие слова встречаются не только в текстах художественной литературы XVIII-XIX веков, но и в научных и научно-популярных работах и учебных пособиях по истории, культуре, литературе и искусству, а также в прессе.

(2) «Новые» слова

Распространение новых слов и их укоренение в языковом обиходе определяется современными социальными, культурными и информационными процессами.

Группа «новых» слов связана с современными научно-популярными, публицистическими и деловыми текстами, размещенными в Обучающем корпусе, и также неоднородна по своему составу. Сюда включены не только те слова иностранного происхождения —например, аффилировать, инвестировать, коррупция, фрустрированный, офшор, менталитет, эксклюзивный и под., —которые вошли в активное употребление и в язык общенациональных СМИ в последние десятилетия, хотя в качестве специальных терминов существовали и раньше, но и те слова —например, адаптироваться, апеллировать, анахронизм, корреляция, номенклатура, номинальный, референт, экстракт и под., —которые давно заимствованы и освоены русским языком, являются достаточно распространенными и активными в разных сферах речевой деятельности, но могут быть недостаточно освоены школьниками в силу того, что они мало читают прессу, мало слушают общенациональное радио и смотрят основные телеканалы, предпочитая молодежную прессу, молодежные радио- и телепрограммы, музыкальные каналы, блоги и форумы в сети Интернет.

Большое внимание в словаре уделено паронимической лексике, т.е. словам, которые имеют близкие аналоги как по звучанию, так и по значению и относительно которых существует опасность смешения, ср.: симпатический и симпатичный, эспаньолка и испанка, эдикт и вердикт, реквизит и реквизиция, модистка и модница и под. Усвоение таких слов вызывает трудности, и при их употреблении школьники традиционно делают ошибки. Кроме того, паронимическая лексика включается в экзаменационные тесты, и ее усвоение поможет успешному выполнению экзаменационных заданий.

Таким образом, при составлении словника словаря редких слов для школьников эксперты исходили из того, что знание этой лексики должно помочь, с одной стороны, более глубокому усвоению и пониманию текстов XVIII-XIX века, а с другой стороны, более свободному ориентированию в реалиях и событиях современной жизни.

Типы предоставляемой информации

Словарь предоставляет пользователю информацию трех типов:

а) Грамматическая характеристика слова.

б) Толкование слова.

в) Примеры употребления слова в Обучающем и Основном корпусе.

С каждого слова (заголовка словарной статьи) ссылки ведут на толкования в «Яндекс.Словарях», куда включены словари Даля и Ушакова, 3-е издание БСЭ, ряд современных лингвистических и отраслевых энциклопедических справочников, а также переводные словари. Выдача может содержать незначительный «шум» за счёт омонимов, в том числе имён собственных (например, название города Златоуст), узкоспециальных терминов и т. п. При определении значения рекомендуется обращаться к словарю Ушакова, БСЭ и современным отраслевым словарям (философскому, экономическому, техническому и т. п.) В ряде случаев толкование отсылает не к той форме слова, которая встретилась в Корпусе, а к однокоренному слову, на которое в словарях даётся основной материал (такие случаи обозначены при помощи символа ~, например, дефектолог~дефектология) или орфографическому/фонетическому варианту (обозначается при помощи знака равенства; китч=кич).

Для каждого слова сокращённо указаны грамматические характеристики (часть речи, для существительных — род, для глаголов — вид) и частотность в Обучающем корпусе. С этой цифры ссылка ведёт на список контекстов Обучающего корпуса с этим словом.

Дополнительно для каждого слова даётся ссылка на контексты с ним в основном (большом) 160-миллионном корпусе; эти примеры, более многочисленные и разнообразные, служат дополнительным материалом для изучения сочетаемости и употребительности слова.

Методические рекомендации по использованию электронного ресурса «Словарь редких слов» в учебном процессе

При изучении редких слов, встречающихся в текстах художественной литературы, целесообразно заранее ознакомить учащихся с этими словами, чтобы облегчить чтение и усвоение соответствующих произведений.

Многие слова встречаются в Обучающем корпусе у разных авторов. Можно сравнить эти употребления с точки зрения семантики. Другой вариант — слово в Обучающем корпусе встречается у одного автора, но можно получить из большого корпуса употребления этого слова в текстах других авторов и сравнить их. Например, неглижировать в Обучающем корпусе встречается только у М.Е. Салтыкова-Щедрина. Между тем поиск в большом Корпусе показывает, что это слово, хотя оно, конечно, не является частотным, тем не менее встречается в произведениях разных авторов (Ф.М. Достоевского, И.С. Тургенева, И.А. Гончарова), причем употребляется не только в XIX веке, но и на рубеже XIX-го XX-го вв. (у А.И. Куприна, В.В. Вересаева, В. Гиляровского) и даже во 2-й половине XX-го (у Е. Гинзбург).

Некоторые слова могут оказаться многозначными. Тогда учащиеся, выяснив их значения по словарю, могут обратиться к текстам и определить, в каком именно значении употреблено слово в том или ином тексте. Например, слово оказия имеет в словаре Ушакова 2 значения, причем в 1-ом различаются 2 подзначения. Т.е. в словарной статье имеется 3 толкования. Целесообразно получить все контексты употреблений этого слова в Обучающем корпусе и установить, в каком значении оно употребляется в каждом случае. Желательно также сравнить употребление этого слова у авторов XIX века (А.С. Грибоедов, М.Ю. Лермонтов, А.Н. Островский) и XX века (М.А. Булгаков).

Для «старых» слов целесообразно проверять по НКРЯ, имеются ли их употребления в современных текстах и не изменилось ли их значение. Для «новых» слов тем более целесообразно обращаться к большому корпусу, т.к. их сфера и частота употребления в большом корпусе существенно больше.

Вообще, размещение «Словаря редких слов» на сайте НКРЯ дает преподавателям и учащимся большое преимущество. «Словарь редких слов» создавался на базе небольшого по объему «Обучающего корпуса русского языка», в то время как НКРЯ уже сейчас включает 140 млн. словоупотреблений и постоянно пополняется. Для выполнения многих заданий по лексике и развитию речи полезно обращаться к текстам разных периодов. Работая со «Словарем редких слов», можно сразу же сделать запрос в НКРЯ и получить необходимую информацию из большого корпуса.

Так, можно проследить историю жизни слова в языке. Все тексты НКРЯ датированы, и, соответственно, примеры употреблений выдаются с датой создания соответствующего текста. Для устаревших слов можно проследить, в какой период они встречались более часто и когда начали выходить из употребления. Для новых слов можно, наоборот, установить, когда они появились в языке (в том числе, дату первого употребления – из зафиксированных Национальным корпусом). Можно также проанализировать, всегда ли слово употреблялось в современном значении или претерпевало семантические изменения.

В качестве развивающих заданий можно предложить школьникам составлять предложения или тексты, в которых употреблялось бы не одно, а целая группа слов из словаря. При этом учащиеся сами должны решить, какие слова могут встретиться в одном тексте с большой вероятностью, а для каких это маловероятно. Например, вряд ли можно ожидать, что в одном тексте встретятся слова бурнусик и поп-арт или онучи и мониторинг; в то же время такие слова, как парадоксальный, мизантропический и под., вполне сочетаются как со «старой», так и с «новой» лексикой.

Вернуться в текст словаря

Национальный корпус русского языка
© 2003–2017
info@ruscorpora.ru