Сервис кластеризации ответов для опросных исследований

Кто заказчик:

Проект «AI-кодировщик» для компаний OMI

Сегмент / отрасль:

B2B / маркетинговая аналитика и исследовательские услуги

Краткие бизнес-характеристики:

OMI (ООО «ОуЭмАй Аналитикс») — российская компания, специализирующаяся на маркетинговых исследованиях, сборе и обработке данных через онлайн-панели и аналитические платформы. Компания проектирует и проводит исследования, обеспечивает обработку и визуализацию результатов, а также предоставляет инфраструктуру для хостинга опросов и аналитики — одним из известных продуктов является сервис «МоёМнение» для проведения онлайн-опросов и визуализации данных.

Зачем заказчик обратился

OMI столкнулись с проблемой обработки открытых вопросов в маркетинговых исследованиях.

Ручное кодирование ответов респондентов занимало от нескольких часов, требовало участия аналитиков и кодировщиков, а при росте объёмов данных — время кодировки увеличивалось в разы и требовало больших ресурсов.

Заказчику требовалось предоставить универсальное решение, которое позволило бы значительно ускорить кодирование открытых вопросов и сократить затраты на ручную кодировку.

Проблема (боль клиента)

Ручная разметка: Открытые вопросы требовали ручной кластеризации и присвоения кодов, что замедляло выпуск отчётов.
Высокая стоимость обработки данных: Каждый проект требовал вовлечения кодировщиков и аналитиков, что увеличивало себестоимость исследований.
Масштабируемость ограничена человеческим ресурсом: При росте объёма ответов время обработки сильно увеличивалось.

Цель проекта

Что заказчик ожидал получить:

AI-сервис кодирования открытых вопросов
Возможность загрузки Excel-файлов и получения размеченного Excel на выходе
Поддержку сценариев:
генерация категорий,
загрузка готового кодификатора,
дополнение категориями готового кодификатора,
классификации категорий по брендам и ответам на открытые вопросы
Интерфейс для личного кабинета, с возможностями:
добавлять компании своих клиентов
создавать пользователей
смотреть статистику по обработанным ответам
скачивать обработанные файлы, их кодификатор и исходный файл

Условия успеха / KPI:

Точность классификации не ниже 96% на сопоставимых типах задач
Обработка файлов на 10 000 ответов и более
Формирование единого итогового файла с двумя листами: разметка + список категорий
Снижение времени обработки в 10 и стоимости обработки данных в 50 раз.

Решение

1) Анализ бизнес-процесса.

Детально проанализирован процесс кодирования открытых вопросов в маркетинговых исследованиях.
Формализованы два пайплайна:

с генерацией категорий,
с загрузкой готового кодификатора.

Определены обязательные технические категории (другое, нерелевантный ответ, ненормативная лексика и др.).
Учтены требования к биллингу, лимитам действий и промышленной эксплуатации.

2) Разработка моделей/алгоритмов.

Реализовано ML-ядро на базе моделей семейства GPT (основная модель — gpt-4.1).
Разработаны алгоритмы:
предкластеризации ответов,
генерации категорий батчами,
LLM-merge для схлопывания близких категорий,
гибридной классификации (классический матчинг + LLM),
повторной генерации категорий для ответов из «Другое».
Настроена батчевая обработка и контроль параметров temperature/top_p.
Добавлен функционал пропуска пустых ячеек без отправки в LLM (оптимизация себестоимости)

3) Интерфейс сервиса.

Реализован web-интерфейс сервиса:
загрузка и валидация файла,
выбор вопроса,
выбор сценария (генерация / загрузка категорий),
просмотр и редактирование категорий,
отображение прогресса,
скачивание итогового файла.
Реализован личный кабинет с разделами:
управление пользователями
управление компаниями
статистика системы
просмотр профиля

Технологии и инструменты

Архитектура:

сервис на Python, структура по шаблону BACKEND (директории apps, core, models, managers, agents, database, templates и отдельные файлы scheduler.py , utils.py )

Транспорт и очереди:

Redis + Celery (broker и backend на Redis, worker pool gevent)

Веб/ASGI‑слой:

FastAPI + Uvicorn

Хранилище:

PostgreSQL 12.2-alpine (основное) + Redis (Celery и кеши)

ML‑ядро:

gpt-4.1 через OpenAI API используется для генерации категорий и классификации ответов в задачах разметки

Инфраструктура:

Docker и docker-compose (dev/prod варианты), Traefik для роутинга

Результаты

Разработан и внедрён промышленный AI-кодировщик открытых вопросов, который:

классифицирует ответы по одной или нескольким категориям,
обрабатывает файлы на 10 000 ответов и более,
возвращает единый Excel-файл с разметкой и списком категорий.

Влияние на бизнес

В 10 раз сократилось время обработки результатов исследований
До 96% выросла точность кластеризации
В 50 раз стала дешевле обработка данных

Отзыв клиента

«Вместе с ИИ-помощником мы сократили стоимость обработки данных исследований в 50 раз, а время работы с ними — в 10. Точность кластеризации повысилась до 96%. Теперь мы можем довольно быстро анализировать опросы и группировать ответы, в то время как ИИ не упустит ни одну важную деталь. Если боитесь больших массивов данных — вам к Metamentor».