Система хранения изображений с дедупликацией
Сокращение затрат на дисковое пространство при помощи эффективного алгоритма поиска попиксельных дубликатов изображений
Задачи
- Разработка системы дедупликации изображений на уровне пиксельных данных
- Реализация веб-сервиса хранения и обработки изображений
- Интеграция в CI/CD пайплайн формирования отчетов
- Автоматическая генерация превью и оптимизация изображений для отображения в веб-отчетах
- Внедрение алгоритмов сравнения с эталонными изображениями на базе Computer Vision с настройкой порогов чувствительности

О проекте
При тестировании 3D-рендеринг движков генерируется большое количество изображений, многие из которых совпадают попиксельно между разными версиями продукта. Это приводило к чрезмерному потреблению дискового пространства и росту затрат на инфраструктуру.
Мы разработали систему хранения изображений с дедупликацией, которая позволила существенно сократить объем хранимых данных и ускорить процессы верификации.
Результаты

Вызовы и решения
- Дедупликация изображений
- Для повышения точности мы реализовали сравнение изображений по пиксельному содержимому с учетом допустимого порога отличий. Это позволило избавиться от ложных дубликатов и сохранить только действительно уникальные изображения.
- Интеграция в отчеты
- Система автоматически формирует ссылки на изображения в отчетах, создаёт превью и адаптирует размер изображений для оптимального отображения в браузере.
- Производительность и масштабируемость
- Система обрабатывает десятки тысяч изображений в месяц, не снижая скорости CI/CD процессов. Были реализованы очереди на загрузку, кэширование и оптимизация преобразования изображений.
Подробнее
Для борьбы с избыточным потреблением ресурсов при хранении отчетов и результатов тестирования 3D-рендеринга была реализована система хранения изображений с дедупликацией. Мы отказались от традиционных подходов на уровне файлов, так как одинаковые изображения могли иметь разное кодирование.
Была внедрена система, сравнивающая изображения на уровне пиксельных данных и вычисляющая хеши, устойчивые к различиям в кодировании. Это позволило достигать высокой точности при обнаружении дубликатов, сохранив производительность при загрузке новых данных.
Веб-интерфейс системы позволяет удобно просматривать изображения, сравнивать их с эталонными, и отслеживать изменения между версиями продукта.
Связанные сервисы
Обсудить проект
Опишите вашу задачу, мы проведём исследование и ответим вам как можно скорее.