Удаление неявных дублей

Лемматизация (MyStem), группировка без учёта порядка слов. Эталон по умолчанию — первая фраза в группе; при ручной частотности — фраза с максимальной частотой (ТЗ). Стоп-слова не учитываются.

Если включено, каждая строка: фраза, затем табуляция или последняя ; и число (как в Wordstat). Пример: заказ пиццы в спб 1200 или заказ пиццы в спб; 1200.

Пустые строки игнорируются. API: POST /api/v1/deduplicate с полями canonicalMode, frequencies.

Группы дублей

По каждой фразе

# Исходная фраза Частота Леммы Эталон
Сырой JSON ответа