Журнал "Системы Безопасности" № 4‘2025
Ц И Ф Р О В А Я Т Р А Н С Ф О Р М А Ц И Я , И И , И Н Т Е Р Н Е Т В Е Щ Е Й 130 О дной из неприятностей для всех тех, кто использует реальные данные, является гипо- теза "независимости". Мы вынуждены применять эту гипотезу на малых выборках или вообще при отсутствии данных. Классика начинает "хромать" на задачах размерности 16 и более. Если осозна- ешь свою "хромоту", то нужно искать какой-то костыль. Пускай он будет не очень ортопедич- ным, главное, чтобы он помогал идти к постав- ленной цели. В этой статье рассматривается вари- ант энтропийно-корреляционного костыля, кото- рый помогает обойти "тупик" гипотезы "незави- симости" при вычислении энтропии по Шеннону для длинных чисел с зависимыми разрядами. Гипотезой независимости данных имеют право пользоваться только криптографы! Каждая система имеет собственную размер- ность, которая может быть заранее оценена. Наиболее глубоко этот вопрос проработан в криптографии. В ее приложениях длина бинар- ного ключа симметричного алгоритма крипто- графических приложений является размер- ностью задачи. Криптографические приложения специально построены так, чтобы уничтожить существующие корреляционные связи естествен- ного языка между битами в шифротекстах. Если применен алгоритм шифрования с ключом дли- ной 256 бит, то попытки оценить корреляции между разрядами шифротекста должны приво- дить к малым значениям коэффициентов парной корреляции между разрядами. Формально этот эффект может быть оценен построением корреляционной матрицы раз- мерности [256*256]. При формировании такой корреляционной матрицы, например, может быть использовано скользящее по шифротексту окно шириной 256 бит. Фрагмент шифротекста, на котором строится корреляционная матрица, должен быть примерно в 3-:-4 раза длиннее ширины скользящего окна. То есть в нашем слу- чае достаточно фрагмента шифротекста длиной 999 бит. Сами коэффициенты парной корреля- ции оцениваются по классической формуле: (1), где Е(.) – оператор вычисления математическо- го ожидания; σ (.) – оператор вычисления стан- дартного отклонения; кавычками "." помечены дискретные переменные (так обычно выделяют текстовые переменные при программирова- нии). Внутри скользящего окна процедуры вычисле- ния коэффициентов корреляции между разря- дами описываются полносвязным графом, структура которого приведена на рис. 1. На рисунке вершинами графа являются 256 состояний разрядов бинарного кода в скользя- щем окне по шифротексту. Матрица условных вероятностей и матрица коэффициентов пар- ной корреляции существенно зависят от того, насколько анализируемые данные близки к идеальному белому шуму. Так, для идеального белого шума все диагональные коэффициенты корреляции должны быть единичными, а нахо- дящиеся вне диагонали коэффициенты корре- ляции должны быть малы: (2). Более того, любая корреляционная матрица симметрична, а матрица для действительно белого шума размерностью [256*256] допол- нительно обязана иметь нормальное распреде- ление коэффициентов корреляции, размещен- ных вне диагонали с нулевым математическим ожиданием E(r) = 0,00 и стандартным отклоне- нием σ (r) ≈ 0,061. Таким образом, даже идеальный белый шум (полный хаос) не может иметь идеальную еди- ничную корреляционную матрицу (правая часть формулы (2). Любая корреляционная матрица размерности [256*256] вне диагонали имеет малые, случайные значения коэффициентов корреляции. Ситуация, когда все коэффициен- ты корреляции вне диагонали являются нулевы- ми, маловероятна. Таким образом, распространенной гипотезой "полностью" независимых данных могут поль- зоваться только криптографы, убедившись в том, что при шифровании использованы крип- тографические механизмы, реализованные без ошибок. август – сентябрь 2025 www.secuteck.ru Рис. 1. Полносвязный граф, соответствующий вычислению условных вероятностей P("х i "/"х k ") Байеса [1] или коэффициентов корреляционной матрицы R["х i ","х k "] Корреляционная энтропия как метрика расстояния от идеального белого шума (только хаос, нет порядка) до практически полностью упорядоченных данных (нет шума, остался только порядок) Автор рассматривает проблему гипотезы "независимости" при анализе данных, осо- бенно в задачах с размерностью 16 и выше, когда эта гипотеза становится ненадеж- ной, и для ее обхода предлагается использовать энтропийно-корреляционный метод. Он позволяет вычислять энтропию по Шеннону для длинных чисел с зависимыми раз- рядами, обеспечивая более точные результаты. Александр Иванов Научный консультант АО "Пензенский научно-исследовательский электротехнический институт", д.т.н., профессор
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzk4NzYw