Кто заказчик:
Проект «AI-кодировщик» для компаний OMI
Сегмент / отрасль:
B2B / маркетинговая аналитика и исследовательские услуги
Краткие бизнес-характеристики:
OMI (ООО «ОуЭмАй Аналитикс») — российская компания, специализирующаяся на маркетинговых исследованиях, сборе и обработке данных через онлайн-панели и аналитические платформы. Компания проектирует и проводит исследования, обеспечивает обработку и визуализацию результатов, а также предоставляет инфраструктуру для хостинга опросов и аналитики — одним из известных продуктов является сервис «МоёМнение» для проведения онлайн-опросов и визуализации данных.
Зачем заказчик обратился
OMI столкнулись с проблемой обработки открытых вопросов в маркетинговых исследованиях.
Ручное кодирование ответов респондентов занимало от нескольких часов, требовало участия аналитиков и кодировщиков, а при росте объёмов данных — время кодировки увеличивалось в разы и требовало больших ресурсов.
Заказчику требовалось предоставить универсальное решение, которое позволило бы значительно ускорить кодирование открытых вопросов и сократить затраты на ручную кодировку.
Ручное кодирование ответов респондентов занимало от нескольких часов, требовало участия аналитиков и кодировщиков, а при росте объёмов данных — время кодировки увеличивалось в разы и требовало больших ресурсов.
Заказчику требовалось предоставить универсальное решение, которое позволило бы значительно ускорить кодирование открытых вопросов и сократить затраты на ручную кодировку.
Проблема (боль клиента)
- Ручная разметка: Открытые вопросы требовали ручной кластеризации и присвоения кодов, что замедляло выпуск отчётов.
- Высокая стоимость обработки данных: Каждый проект требовал вовлечения кодировщиков и аналитиков, что увеличивало себестоимость исследований.
- Масштабируемость ограничена человеческим ресурсом: При росте объёма ответов время обработки сильно увеличивалось.
Цель проекта
Что заказчик ожидал получить:
- AI-сервис кодирования открытых вопросов
- Возможность загрузки Excel-файлов и получения размеченного Excel на выходе
- Поддержку сценариев:
- генерация категорий,
- загрузка готового кодификатора,
- дополнение категориями готового кодификатора,
- классификации категорий по брендам и ответам на открытые вопросы
- Интерфейс для личного кабинета, с возможностями:
- добавлять компании своих клиентов
- создавать пользователей
- смотреть статистику по обработанным ответам
- скачивать обработанные файлы, их кодификатор и исходный файл
Условия успеха / KPI:
- Точность классификации не ниже 96% на сопоставимых типах задач
- Обработка файлов на 10 000 ответов и более
- Формирование единого итогового файла с двумя листами: разметка + список категорий
- Снижение времени обработки в 10 и стоимости обработки данных в 50 раз.
Решение
1) Анализ бизнес-процесса.
- Детально проанализирован процесс кодирования открытых вопросов в маркетинговых исследованиях.
- Формализованы два пайплайна:
- с генерацией категорий,
- с загрузкой готового кодификатора.
- Определены обязательные технические категории (другое, нерелевантный ответ, ненормативная лексика и др.).
- Учтены требования к биллингу, лимитам действий и промышленной эксплуатации.
2) Разработка моделей/алгоритмов.
- Реализовано ML-ядро на базе моделей семейства GPT (основная модель — gpt-4.1).
- Разработаны алгоритмы:
- предкластеризации ответов,
- генерации категорий батчами,
- LLM-merge для схлопывания близких категорий,
- гибридной классификации (классический матчинг + LLM),
- повторной генерации категорий для ответов из «Другое».
- Настроена батчевая обработка и контроль параметров temperature/top_p.
- Добавлен функционал пропуска пустых ячеек без отправки в LLM (оптимизация себестоимости)
3) Интерфейс сервиса.
- Реализован web-интерфейс сервиса:
- загрузка и валидация файла,
- выбор вопроса,
- выбор сценария (генерация / загрузка категорий),
- просмотр и редактирование категорий,
- отображение прогресса,
- скачивание итогового файла.
- Реализован личный кабинет с разделами:
- управление пользователями
- управление компаниями
- статистика системы
- просмотр профиля
Технологии и инструменты
Архитектура:
сервис на Python, структура по шаблону BACKEND (директории apps, core, models, managers, agents, database, templates и отдельные файлы scheduler.py , utils.py )
Транспорт и очереди:
Redis + Celery (broker и backend на Redis, worker pool gevent)
Веб/ASGI‑слой:
FastAPI + Uvicorn
Хранилище:
PostgreSQL 12.2-alpine (основное) + Redis (Celery и кеши)
ML‑ядро:
gpt-4.1 через OpenAI API используется для генерации категорий и классификации ответов в задачах разметки
Инфраструктура:
Docker и docker-compose (dev/prod варианты), Traefik для роутинга
Результаты
Разработан и внедрён промышленный AI-кодировщик открытых вопросов, который:
- классифицирует ответы по одной или нескольким категориям,
- обрабатывает файлы на 10 000 ответов и более,
- возвращает единый Excel-файл с разметкой и списком категорий.
Влияние на бизнес
- В 10 раз сократилось время обработки результатов исследований
- До 96% выросла точность кластеризации
- В 50 раз стала дешевле обработка данных
Отзыв клиента
«Вместе с ИИ-помощником мы сократили стоимость обработки данных исследований в 50 раз, а время работы с ними — в 10. Точность кластеризации повысилась до 96%. Теперь мы можем довольно быстро анализировать опросы и группировать ответы, в то время как ИИ не упустит ни одну важную деталь. Если боитесь больших массивов данных — вам к Metamentor».