Удаление неявных дублей

Лемматизация (MyStem), группировка без учёта порядка слов. Эталон по умолчанию — первая фраза в группе; при ручной частотности — фраза с максимальной частотой (ТЗ). Стоп-слова не учитываются.

Ручная частотность: эталон по максимуму (max_frequency)

Если включено, каждая строка: фраза, затем табуляция или последняя ; и число (как в Wordstat). Пример: заказ пиццы в спб 1200 или заказ пиццы в спб; 1200.

Фразы (по одной на строку)

Пустые строки игнорируются. API: POST /api/v1/deduplicate с полями canonicalMode, frequencies.

Группы дублей

По каждой фразе

#	Исходная фраза	Частота	Леммы	Эталон

Сырой JSON ответа