Поиск коллокаций

Коллокациями называют слова, которые часто встречаются вместе. 

Для поиска коллокаций в корпусе используется статистический подход, то есть коллокациями считаются такие сочетания слов, которые встречаются совместно чаще, чем случайно. Для подсчета коллокаций используются несколько статистических метрик (T-score, Dice, MI3, Loglikelihood). Агрегированная мера показывает геометрическое среднее мер t-score и MI3.

Все формулы подсчетов коллокаций были взяты из онлайн ресурса С.Эверта, посвященного калькуляции ассоциативных мер слов.

Выдача коллокаций ранжирована: в топ списка попадают слова, наиболее тесно связанные друг с другом.  

Форма поиска коллокаций

Для поиска коллокаций нужно задать свойства ключа и коллоката.

Ключ –  это то слово, для которого нужно найти наиболее частотные сочетания. Ключ можно задать с помощью конкретной леммы или словоформы или при помощи набора грамматических и/или семантических признаков. Любой ключ можно задать с помощью * в поле лемма.

Коллокат –  это слово, образующее вместе с ключом коллокацию. Коллокат также может быть задан леммой, словоформой или сочетанием грамматических и/или семантических признаков, в том числе с помощью * в поле лемма.
Между ключом и коллокатом можно задать расстояние, но не более пяти слов. Это значит, что мы ищем коллокаты, которые чаще, чем случайно, встречаются от ключа на заданном расстоянии. Если мы хотим найти коллокаты, которые предшествуют слову в предложении, то расстояние нужно задавать с помощью отрицательного числа.

Например, определение в русском языке, как правило, стоит до определяемого слова. Чтобы найти все определения для слова  дерево,  следует в поисковом запросе задать лемму дерево  как ключ, выбрать грамматический признак прилагательного как коллокат, а расстояние задать, например,  от -1 до -1.

Поиск коллокаций производится только для разборов с автоматически снятой омонимией. 

Подсчет коллокаций

Каждая из метрик коллокаций вычисляется по-разному и дает свое ранжирование коллокатов. Так, при использовании метрики MI3 наибольшие значения получают редкие коллокации, а при использовании t-score ранжирование получается в существенной степени сходным с простым ранжированием по частотам. 

Для расчетов каждой из метрик используются 4 значения:

w1 – количество вхождений ключа в корпус или подкорпус

w2 – количество вхождений слова-кандидата в коллокаты в корпус или подкорпус

w1w2 – количество вхождений сочетания (ключ + коллокат) в корпусе или подкорпусе 

N – объем корпуса или подкорпуса

Выдача коллокаций

Полученное значение каждой из метрик показано в таблице в соответствующем столбце. Коллокации в таблице отображаются в виде двух лемм.

Выдача коллокаций ранжирована: в топ списка попадают слова, наиболее тесно связанные друг с другом.  

Пользователь может самостоятельно выбрать столбец для ранжирования, например, столбец одной из метрик или столбец агрегированной меры.

На экране пользователю показывается не более 100 коллокаций.

Коллокации также можно выгрузить в форматах Excel и CSV, в этом случае объем выгружаемых коллокаций составляет не более 5000 единиц.

Настройки

Пользователь может задавать порог совместного вхождения ключа и коллоката через меню Настройки. По умолчанию этот порог равен 5. Это значит, что в списке коллокаций отображаются только те сочетания слов, которые встретились в корпусе или подкорпусе не менее 5 раз. Такой подход позволяет отфильтровать совсем случайные словосочетания из выдачи. Однако, если результатов слишком мало или заданные коллокации вообще не находятся, можно понизить порог, чтобы в выдачу вошли более редкие словосочетания. 

При работе с пользовательским подкорпусом поиск коллокаций не будет работать, если объем подкорпуса составляет менее 1 млн слов. Такой объем данных недостаточен для того, чтобы получить адекватные коллокации.

В настоящий момент поиск коллокаций доступен в корпусе региональных СМИ. В дальнейшем список таких корпусов будет расширяться.

Обновлено