Журнал "Системы Безопасности" № 1‘2025
В Ц Е Н Т Р Е В Н И М А Н И Я 122 О сновная сложность заключается в принци- пиальных различиях структуры и содержа- ния этих документов. Сметы фокусируются на номенклатурных позициях – материалах и обо- рудовании с указанием их стоимости, норм расхода и единиц измерения (например, "Кир- пич, 1 000 шт., 50 руб/шт"). Ведомости же акцентируют внимание на описании видов и этапов работ, часто без детализации до уровня конкретных ресурсов (например, "Кладка стен, 500 кв. м"). Это создает парадокс: объемы работ в ведомостях необходимо соотнести с расходными материалами в сметах, что требует знания нормативов и умения преобразовывать единицы измерения. Дополнительные вопросы возникают из-за тер- минологической несовместимости. Одна и та же операция может быть описана по-разному: например, "Устройство фундамента" в про- ектной документации и "Бетонирование ленточ- ного основания" в смете. Такая разница в фор- мулировках затрудняет автоматическое сопо- ставление данных без применения методов нечеткого поиска или машинного обучения. Еще одной проблемой становятся разночтения в уровнях детализации. Сметы часто дробят работы на подэтапы ("Прокладка кабеля", "Уста- новка розеток"), тогда как ведомости объеди- няют их в общие категории ("Монтаж электро- проводки"). Это требует либо агрегирования данных, либо их дезагрегирования, что может привести к погрешностям. Единицы измерения и нормативные базы добавляют еще один уровень сложности. Если ведомости оперируют квадратными или куби- ческими метрами, то сметы фиксируют объемы в штуках, тоннах или погонных метрах. Напри- мер, 1 кв. м кладки стен предполагает исполь- зование определенного количества кирпичей, но для точного расчета требуется интеграция данных из нормативных справочников. При этом нормы расхода материалов могут менять- ся в зависимости от технологий или регламен- тов, что делает актуализацию данных непре- рывным процессом. Техническая сторона автоматизации сравнения также вызывает определенные трудности. Доку- менты поступают в различных форматах, от таб- лиц Excel до сканов PDF, что требует разработки гибких парсеров и ETL-процессов. Даже исполь- зование API "Гранд-Смета" не решает проблему, если ведомости предоставлены в неструктури- рованном виде. Кроме того, человеческий фак- тор (опечатки, субъективные интерпретации или ошибки ввода) может существенно иска- жать результаты. Подход к разработке системы сравнения: алгоритм Рэтклиффа – Обершелпа и гештальт-анализ Разработка программы для сопоставления смет- ной документации и ведомостей объемов работ требовала отказа от традиционных методов в пользу решения, способного обрабатывать неструктурированные данные с высокой вариа- тивностью формулировок. В основе системы лежит алгоритм Рэтклиффа – Обершелпа, известный также как гештальт-сопоставление, – метод, изначально разработанный для сравне- ния строк на основе их "общей формы", а не буквального совпадения. Онд идеально подхо- дит для задачи, где ключевой проблемой является терминологическая несовместимость и разночтения в описаниях работ. Архитектура системы Система состоит из трех основных модулей (см. рис. 1). На первом этапе производится извлечение данных из документов смет и ведомостей, на втором – анализ хешируе- мых данных, на третьем – формирование отче- та для эксперта. Извлечение и нормализация данных Документы из "Гранд-Смета" и ведомости объе- мов работ парсятся с учетом их форматов (Excel, PDF, XML). Данные структурируются в единую таблицу, где каждая позиция содер- жит описание работы, объем, единицы измере- ния и номенклатурные коды для смет. На этом этапе применяются правила валидации: про- верка корректности единиц измерения, диапа- зонов значений и отсутствия дубликатов. Сопоставление гештальт-шаблонов Здесь в действие вступает алгоритм Рэтклиффа – Обершелпа. Каждая строка описания работы преобразуется в числовой хеш, учитывающий не только буквенный состав, но и семантическую "форму" фразы. Например, строки "Кладка стен" и "Монтаж стеновых конструкций" получают близкие хеши, несмотря на различия в форму- лировках. Алгоритм анализирует последователь- ности символов, их длину и позиции, вычисляя коэффициент схожести от 0 до 100%. Порог совпадения настраивается: для строгих сметных позиций он выше, для описательных ведомо- стей – ниже. Анализ расхождений и визуализация Сопоставленные позиции проверяются на соот- ветствие объемов с учетом конвертации единиц (например, кв. м в штуки кирпичей через нор- мативные базы). Система выявляет три типа расхождений: 1. Структурные. Работы, отсутствующие в одном из документов. 2. Количественные. Отклонения в объемах более заданного порога. 3. Семантические. Неоднозначные формули- ровки, требующие ручной проверки. Результаты выводятся в виде интерактивного отчета с цветовой индикацией и пояснениями, почему та или иная позиция была сопоставлена. Почему не нейросети? Отказ от машинного обучения обусловлен спе- цификой задачи. Нейросети требуют больших объемов размеченных данных для обучения, которых часто нет в уникальных проектах. Кроме того, семантические нюансы строитель- ных терминов могут варьироваться между заказчиками, что делает универсальную модель неприменимой. Гештальт-алгоритм, напротив, работает "из коробки", не требуя обучения, и легко адаптируется к новым стан- дартам через настройку хеш-функций и слова- рей синонимов. февраль – март 2025 www.secuteck.ru Авторы статьи: руководитель практики продуктов видеоаналитики Дмитрий Зуев, главный разработчик Валерий Зайцев. Центр разработки нейросетевых решений ООО "Газпром- нефть – Цифровые решения" Автоматизация процесса сопоставления документов. Искусственный интеллект БЕЗ нейронок Сопоставление смет, подготовленных в программе "Гранд-Смета", с ведомостями объемов работ, поступающих из проектных институтов, представляет собой много- уровневую задачу, требующую учета множества факторов. Рассмотрим сложности этого вопроса и пути их преодоления.
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzk4NzYw