Кейсы

Проект «Теги» для компании Росэлторг

Тендеры

Кто заказчик:

Сегмент / отрасль:

B2G / B2B электронная коммерция, национальный оператор электронных торгов.

Краткие бизнес-характеристики:

АО «Единая электронная торговая площадка» (Росэлторг) — крупнейший в России оператор электронных торгов для государственных заказчиков и госкомпаний. Обслуживает сотни тысяч процедур ежегодно с многомиллиардным оборотом.

Зачем заказчик обратился

В условиях огромного объема закупок (от канцелярии до сложного промышленного оборудования) критически важно, чтобы поставщик и заказчик «нашли друг друга». Текущие механизмы поиска по названию или кодам ОКПД2 часто не отражают реальную суть закупки, спрятанную внутри документации. Поставщики тратят кучу времени на просмотр закупочной документации, чтобы найти и проверить что конкретно требуется поставить.

Проблема (боль клиента)

Информационный шум: Названия процедур могут быть общими (например, «Поставка расходных материалов»), что заставляет поставщика вручную открывать десятки вложений для поиска конкретного товара.
«Скрытые» данные: Суть закупки часто зашита в неструктурированных файлах (PDF, Excel-таблицы, спецификации), которые не индексируются стандартным поиском.

Потеря конверсии: Поставщики тратят слишком много времени на пре-скрининг и могут пропускать релевантные торги, что снижает конкуренцию в процедурах.


Цель проекта

Что заказчик ожидал получить:

  • Систему автоматической генерации меток (тегов), которые визуализируют ключевые параметры закупки и лотов прямо в поисковой выдаче.

Условия успеха / KPI:

  • Сокращение времени поставщика на поиск нужной закупки
  • Повышение точности поисковых фильтров
  • Увеличение среднего количества заявок на лот.

Решение

1) Анализ текущих данных и построение бизнес-логики

Проведен аудит структуры данных: выделены ключевые формализованные поля (регионы, суммы, коды классификаторов) и определены типы вложений, содержащие наиболее ценную информацию (технические задания, спецификации, сметы).

2) Разработка моделей/алгоритмов

Создан гибридный алгоритм экстракции данных:
  • Для формализованных полей — логические фильтры и нормализаторы.
  • Для неструктурированных файлов — система парсинга табличных данных в текстовых документах (OCR для сканов, извлечение сущностей через NLP). Алгоритм «выцепляет» конкретные наименования товаров и их характеристики, превращая их в компактные теги.

3) Интеграция в рабочие процессы/инструменты

  • Разработано API для автоматического обогащения каждой новой процедуры тегами в отложенном режиме.
  • Настроено отображение тегов в интерфейсе карточки процедуры и лота на витрине закупок «Росэлторг».

4) Тестирование и приемочные этапы.

Проведена валидация точности извлечения данных на контрольной выборке процедур.

Технологии и инструменты

Архитектура:

Микросервис на Python, оформленный по шаблону BACKEND (директории apps, core, models, utils, logs, schedulers).

Транспорт и очереди:

RabbitMQ

Веб/ASGI‑слой:

FastStream + FastAPI/Starlette

Хранилище:

Redis для вспомогательных задач и кешей

Интеграции:

  • Jira (создание тикетов);
  • Grafana (дашборды);
  • Внутренние корпоративные сервисы.

ML‑ядро:

Qwen3‑4B + gpt 5 + T5

Инфраструктура:

Docker и docker‑compose

Результаты

  • Технологический охват: Автоматизирована обработка 100% входящего потока закупочных процедур. Система извлекает данные из спецификаций, которые ранее были «невидимы» для поисковых алгоритмов.
  • Качество данных: Достигнута высокая точность распознавания (Precision) ключевых атрибутов из неструктурированных таблиц (Excel/PDF) на уровне 90%+, что минимизирует количество «мусорных» тегов.
  • Обогащение поискового индекса: Количество доступных для фильтрации и поиска атрибутов по каждой процедуре увеличилось в среднем в 3–5 раз за счёт извлечения данных из вложений.
  • Масштабируемость: Система спроектирована с учетом пиковых нагрузок площадки, обеспечивая генерацию тегов в течение нескольких секунд после публикации процедуры заказчиком.

Влияние на бизнес

  • Снижение барьера входа: Поставщикам (особенно представителям МСП) теперь не нужно вручную просматривать сотни страниц документации, чтобы понять, подходит ли им лот. Это напрямую влияет на лояльность пользователей к площадке.
  • Рост конкуренции в торгах: За счет более точного мэтчинга (совпадения) интересов поставщика и специфики закупки, на «сложные» лоты со скрытыми параметрами начинает приходить больше участников.
  • Цифровизация документации: Площадка перешла от модели «хранилище файлов» к модели «база структурированных данных», что закладывает фундамент для внедрения рекомендательных систем и умных ассистентов.