Поиск по n-граммам
Что это такое?
Это бета-версия поиска по словосочетаниям из 2, 3, 4 и 5 слов из подкорпуса с неснятой омонимией основного корпуса.
Поиск можно вести как по точным формам, так и по леммам, с учетом грамматических признаков и пунктуации или без.
Вот, например, биграммы, содержащие форму «красная». Каждой из них приписано количество вхождений в корпус и число содержащих её документов.
А если я хочу найти биграммы с леммой «красный»?
Введите эту лемму в окошко лексико-грамматического поиска. Вот что получится.
Но тут лемма «красный» появляется в разных местах словосочетаний. Как найти биграммы, в которых эта лемма первая?
Укажите дополнительный признак first, означающий, что слово находится в начале. Результаты будут такими.
Но я хочу, чтобы второе слово было существительным. А тут в выдаче встречаются и другие части речи.
Нет проблем. Укажите грамматику второго слова.
Здесь встречаются одни и те же словосочетания, но в разных падежах. Например, «красной армии», «красная армия». Можно ли их «склеить»?
К сожалению, в этой версии поиска это сделать нельзя. Объектом поиска является последовательность словоформ, а не лемм.
Могу я посмотреть на статистику сочетаемости различных частей речи?
Да. Вот, например, наречия, за которыми следует глагол в прошедшем времени.
Я смотрю на тройки прилагательных. Откуда тут «российские железные дороги»?
Это все из-за омонимии. «Дороги» – краткая форма прилагательного «дорогой».
Как учитывать пунктуацию при поиске?
Не забудьте включить галочку «учитывать пунктуацию».
Вот пример словосочетаний со словом «эх», за которым следует знак препинания.
Сколько результатов я получаю? Можно ли скачать их в формате Excel?
По умолчанию поиск возвращает 100 результатов. При этом дополнительно возвращаются все n-граммы с той же частотой и с тем же количеством документов, что и 100-я.
Возможность скачать все n-граммы для оффлайн-обработки появится в следующих версиях.
Приведите ещё примеры запросов.
Например, можно узнать, какие существительные сочетаются с прилагательным «приличный»,
какие наречия часто употребляются в составе вводных оборотов типа
«честно говоря», «строго говоря» и т.п.,
какие глаголы управляют предлогом «про» чаще, чем предлогом
«о».
Национальный корпус русского языка © 2003–2024 |
Поиск осуществляется системой Яндекс.Поиск |
|