Поиск по n-граммам


Что это такое?
Это бета-версия поиска по словосочетаниям из 2, 3, 4 и 5 слов из подкорпуса с неснятой омонимией основного корпуса. Поиск можно вести как по точным формам, так и по леммам, с учетом грамматических признаков и пунктуации или без. Вот, например, биграммы, содержащие форму «красная». Каждой из них приписано количество вхождений в корпус и число содержащих её документов.

А если я хочу найти биграммы с леммой «красный»?
Введите эту лемму в окошко лексико-грамматического поиска. Вот что получится.

Но тут лемма «красный» появляется в разных местах словосочетаний. Как найти биграммы, в которых эта лемма первая?
Укажите дополнительный признак first, означающий, что слово находится в начале. Результаты будут такими.

Но я хочу, чтобы второе слово было существительным. А тут в выдаче встречаются и другие части речи.
Нет проблем. Укажите грамматику второго слова.

Здесь встречаются одни и те же словосочетания, но в разных падежах. Например, «красной армии», «красная армия». Можно ли их «склеить»?
К сожалению, в этой версии поиска это сделать нельзя. Объектом поиска является последовательность словоформ, а не лемм.

Могу я посмотреть на статистику сочетаемости различных частей речи?
Да. Вот, например, наречия, за которыми следует глагол в прошедшем времени.

Я смотрю на тройки прилагательных. Откуда тут «российские железные дороги»?
Это все из-за омонимии. «Дороги» – краткая форма прилагательного «дорогой».

Как учитывать пунктуацию при поиске?
Не забудьте включить галочку «учитывать пунктуацию». Вот пример словосочетаний со словом «эх», за которым следует знак препинания.

Сколько результатов я получаю? Можно ли скачать их в формате Excel?
По умолчанию поиск возвращает 100 результатов. При этом дополнительно возвращаются все n-граммы с той же частотой и с тем же количеством документов, что и 100-я. Возможность скачать все n-граммы для оффлайн-обработки появится в следующих версиях.

Приведите ещё примеры запросов.
Например, можно узнать, какие существительные сочетаются с прилагательным «приличный», какие наречия часто употребляются в составе вводных оборотов типа «честно говоря», «строго говоря» и т.п., какие глаголы управляют предлогом «про» чаще, чем предлогом «о».

Национальный корпус русского языка
© 2003–2017
Поиск осуществляется системой Яндекс.Сервер