Кейсы

Сервис кластеризации ответов для опросных исследований

Маркетинг Реклама

Кто заказчик:

Проект «AI-кодировщик» для компаний OMI

Сегмент / отрасль:

B2B / маркетинговая аналитика и исследовательские услуги

Краткие бизнес-характеристики:

OMI (ООО «ОуЭмАй Аналитикс») — российская компания, специализирующаяся на маркетинговых исследованиях, сборе и обработке данных через онлайн-панели и аналитические платформы. Компания проектирует и проводит исследования, обеспечивает обработку и визуализацию результатов, а также предоставляет инфраструктуру для хостинга опросов и аналитики — одним из известных продуктов является сервис «МоёМнение» для проведения онлайн-опросов и визуализации данных.

Зачем заказчик обратился

OMI столкнулись с проблемой обработки открытых вопросов в маркетинговых исследованиях.

Ручное кодирование ответов респондентов занимало от нескольких часов, требовало участия аналитиков и кодировщиков, а при росте объёмов данных — время кодировки увеличивалось в разы и требовало больших ресурсов.

Заказчику требовалось предоставить универсальное решение, которое позволило бы значительно ускорить кодирование открытых вопросов и сократить затраты на ручную кодировку.

Проблема (боль клиента)

  • Ручная разметка: Открытые вопросы требовали ручной кластеризации и присвоения кодов, что замедляло выпуск отчётов.
  • Высокая стоимость обработки данных: Каждый проект требовал вовлечения кодировщиков и аналитиков, что увеличивало себестоимость исследований.
  • Масштабируемость ограничена человеческим ресурсом: При росте объёма ответов время обработки сильно увеличивалось.

Цель проекта

Что заказчик ожидал получить:

  • AI-сервис кодирования открытых вопросов
  • Возможность загрузки Excel-файлов и получения размеченного Excel на выходе
  • Поддержку сценариев:
  • генерация категорий,
  • загрузка готового кодификатора,
  • дополнение категориями готового кодификатора,
  • классификации категорий по брендам и ответам на открытые вопросы
  • Интерфейс для личного кабинета, с возможностями:
  • добавлять компании своих клиентов
  • создавать пользователей
  • смотреть статистику по обработанным ответам
  • скачивать обработанные файлы, их кодификатор и исходный файл

Условия успеха / KPI:

  • Точность классификации не ниже 96% на сопоставимых типах задач
  • Обработка файлов на 10 000 ответов и более
  • Формирование единого итогового файла с двумя листами: разметка + список категорий
  • Снижение времени обработки в 10 и стоимости обработки данных в 50 раз.

Решение

1) Анализ бизнес-процесса.

  • Детально проанализирован процесс кодирования открытых вопросов в маркетинговых исследованиях.
  • Формализованы два пайплайна:

  1. с генерацией категорий,
  2. с загрузкой готового кодификатора.

  • Определены обязательные технические категории (другое, нерелевантный ответ, ненормативная лексика и др.).
  • Учтены требования к биллингу, лимитам действий и промышленной эксплуатации.

2) Разработка моделей/алгоритмов.

  • Реализовано ML-ядро на базе моделей семейства GPT (основная модель — gpt-4.1).
  • Разработаны алгоритмы:
  • предкластеризации ответов,
  • генерации категорий батчами,
  • LLM-merge для схлопывания близких категорий,
  • гибридной классификации (классический матчинг + LLM),
  • повторной генерации категорий для ответов из «Другое».
  • Настроена батчевая обработка и контроль параметров temperature/top_p.
  • Добавлен функционал пропуска пустых ячеек без отправки в LLM (оптимизация себестоимости)

3) Интерфейс сервиса.

  • Реализован web-интерфейс сервиса:
  • загрузка и валидация файла,
  • выбор вопроса,
  • выбор сценария (генерация / загрузка категорий),
  • просмотр и редактирование категорий,
  • отображение прогресса,
  • скачивание итогового файла.
  • Реализован личный кабинет с разделами:
  • управление пользователями
  • управление компаниями
  • статистика системы
  • просмотр профиля

Технологии и инструменты

Архитектура:

сервис на Python, структура по шаблону BACKEND (директории apps, core, models, managers, agents, database, templates и отдельные файлы scheduler.py , utils.py )

Транспорт и очереди:

Redis + Celery (broker и backend на Redis, worker pool gevent)

Веб/ASGI‑слой:

FastAPI + Uvicorn

Хранилище:

PostgreSQL 12.2-alpine (основное) + Redis (Celery и кеши)

ML‑ядро:

gpt-4.1 через OpenAI API используется для генерации категорий и классификации ответов в задачах разметки

Инфраструктура:

Docker и docker-compose (dev/prod варианты), Traefik для роутинга

Результаты

Разработан и внедрён промышленный AI-кодировщик открытых вопросов, который:
  • классифицирует ответы по одной или нескольким категориям,
  • обрабатывает файлы на 10 000 ответов и более,
  • возвращает единый Excel-файл с разметкой и списком категорий.

Влияние на бизнес

  • В 10 раз сократилось время обработки результатов исследований
  • До 96% выросла точность кластеризации
  • В 50 раз стала дешевле обработка данных

Отзыв клиента

«Вместе с ИИ-помощником мы сократили стоимость обработки данных исследований в 50 раз, а время работы с ними — в 10. Точность кластеризации повысилась до 96%. Теперь мы можем довольно быстро анализировать опросы и группировать ответы, в то время как ИИ не упустит ни одну важную деталь. Если боитесь больших массивов данных — вам к Metamentor».