Вадим Грибунин - Цифровая стеганография
Визуальная атака целиком основана на способности зрительной системы человека анализировать зрительные образы и выявлять существенные различия в сопоставляемых изображениях. Визуальная атака эффективна при полном заполнении контейнера, но по мере уменьшения степени его заполнения глазу человека все труднее заметить следы вложения среди сохраненных элементов контейнера.
В ряде стеганографических систем элементы скрываемого сообщения вкладываются в младшие биты коэффициентов преобразования Фурье контейнера-изображения. Например, 8 × 8 пикселов блока изображения сначала преобразовываются в 64 коэффициента дискретного косинусного преобразования (ДКП) по правилу
,
где и когда u и v равны нулю и в других случаях. Полученные коэффициенты квантуются с округлением до целого:
,
где есть таблица квантования из 64 элементов.
Наименьшие значащие биты квантования ДКП коэффициентов, за исключением и , в стегосистеме являются избыточными битами и вместо них внедряются биты скрываемого сообщения.
Против таких методов скрытия визуальная атака малопригодна, так как изменение любого коэффициента преобразования приводит к изменению множества пикселов изображения. Например, в программе Jsteg преобразование выполняется над матрицей 16 × 16 пикселов контейнера. Следовательно, вложение скрываемого сообщения в младшие биты коэффициентов преобразования приведет к сравнительно небольшим изменениям каждого из 256 пикселов, что визуально малозаметно.
Поэтому рассмотрим второй класс практических стегоатак с целью обнаружения скрытого канала передачи информации, основанный на анализе различий между статистическими характеристиками естественных контейнеров и сформированных из них стего.
4.4.3. Статистические атаки на стегосистемы с изображениями-контейнерами
Одним из наиболее перспективных подходов для выявления факта существования скрытого канала передачи информации является подход, представляющий введение в файл скрываемой информации как нарушение статистических закономерностей естественных контейнеров. При данном подходе анализируются статистические характеристики исследуемой последовательности и устанавливается, похожи ли они на характеристики естественных контейнеров (если да, то скрытой передачи информации нет), или они похожи на характеристики стего (если да, то выявлен факт существования скрытого канала передачи информации). Этот класс стегоатак является вероятностным, то есть они не дают однозначного ответа, а формируют оценки типа «данная исследуемая последовательность с вероятностью 90 % содержит скрываемое сообщение». Вероятностный характер статистических методов стегоанализа не является существенным недостатком, так как на практике эти методы часто выдают оценки вероятности существования стегоканала, отличающиеся от единицы или нуля на бесконечно малые величины.
Класс статистических методов стегоанализа использует множество статистических характеристик, таких как оценка энтропии, коэффициенты корреляции, вероятности появления и зависимости между элементами последовательностей, условные распределения, различимость распределений по критерию Хи-квадрат и многие другие. Самые простые тесты оценивают корреляционные зависимости элементов контейнеров, в которые могут внедряться скрываемые сообщения. Для выявления следов канала скрытой передачи информации можно оценить величину энтропию элементов контейнеров. Стего, содержащие вложение скрываемых данных, имеют большую энтропию, чем пустые естественные контейнеры. Для оценки энтропии целесообразно использовать универсальный статистический тест Маурера [18].
Рассмотрим атаку на основе анализа статистики Хи-квадрат. В программе EzStego младший бит цветовой компоненты каждого пиксела контейнера-изображения заменяется битом скрываемого сообщения. Исследуем закономерности в вероятностях появления значений цветовой компоненты в естественных контейнерах и сформированных программой EzStego стего. При замене младшего бита цветовой компоненты очередного пиксела контейнера на очередной бит предварительно зашифрованного или сжатого сообщения номер цвета пиксела стего или равен номеру цвета пиксела контейнера, или изменяется на единицу. В работе [14] для поиска следов вложения предложен метод анализа закономерностей в вероятностях появления соседних номеров цвета пикселов. Номер цвета, двоичное представление которого заканчивается нулевым битом, назовем левым (L), а соседний с ним номер цвета, двоичное представление которого заканчивается единичным битом — правым (R). Пусть цветовая гамма исходного контейнера включает 8 цветов. Следовательно, при встраивании сообщения в НЗБ цветовой компоненты пикселов необходимо исследовать статистические характеристики в 4 парах номеров цвета. На рис. 4.5 слева показана одна из типичных гистограмм вероятностей появления левых и правых номеров цвета в естественных контейнерах. Справа показана гистограмма вероятностей появления левых и правых номеров цвета в стего, сформированного из этого контейнера программой EzStego. Видно, что вероятности появления левых и правых номеров цвета в естественных контейнерах существенно различаются между собой во всех парах, а в стего эти вероятности выровнялись. Это является явным демаскирующим признаком наличия скрываемой информации. Заметим, что среднее значение вероятностей для каждой пары в стего не изменилось по сравнению с контейнером (показано на рис. 4.5 пунктирной линией).
Рис. 4.5. Гистограмма частот появления левых и правых номеров цвета, слева — до встраивания, справа — после
При замещении битами внедряемого сообщения младших битов яркостной компоненты пикселов контейнера-изображения проявляются аналогичные статистические различия.
Степень различия между вероятностными распределениями элементов естественных контейнеров и полученных из них стего может быть использована для оценки вероятности существования стегоканала. Данную вероятность удобно определить с использованием критерия согласия Хи-квадрат [19]. По критерию Хи-квадрат сравнивается, насколько распределение исследуемой последовательности близко к характерному для стегограмм распределению. В исследуемой последовательности подсчитывается сколько раз ее элемент принял рассматриваемые значения, где всего k элементов. Например, в гистограмме левых и правых номеров цвета в левой части рис. 4.5 номер цвета 000 появился 2 раза (n0* = 2), а номер 001 — 5 раз (n1* = 5). При встраивании очередных битов скрываемого сообщения в НЗБ этой пары номер цвета 000 должен появляться в среднем n0 раз
.
Зная общее число n появления всех элементов исследуемой последовательности, легко подсчитать ожидаемую вероятность появления этих элементов в стего по правилу: . Соответственно, для исследуемой последовательности вероятности равны: .
Величина Хи-квадрат для сравниваемых распределения исследуемой последовательности и ожидаемого распределения стего равна
,
где v есть число степеней свободы. Число степеней свободы равно числу k минус число независимых условий, наложенных на вероятности . Наложим одно условие вида
.
Вероятность p того, что два распределения одинаковы, определяется как
p,
где Г есть гамма-функция Эйлера.
Чем больше значение p, тем выше вероятность встраивания скрываемой информации в исследуемую последовательность.
Рассмотрим использование критерия Хи-квадрат для отыскания следов стегоканала, образованного с использованием программы EzStego. Пусть в контейнерное изображение «Мельница», показанное в левой части рис. 4.3, в НЗБ спектральных коэффициентов изображения, начиная с его верхнего края до его середины, последовательно внедрено 3600 байт скрываемого сообщения. На рис. 4.6 показана вероятность встраивания скрываемой информации в зависимости от размера исследуемой последовательности. Начало графика получено при анализе первого фрагмента стего, составляющего одну сотую часть всего стего. Значение p составило 0,8826. Затем к анализируемому фрагменту была добавлена еще одна сотая часть стего, и так далее. На втором шаге вероятность составила 0,9808 и далее при анализе стего не опускалась ниже 0,77. При переходе к анализу нижней части части изображения, не содержащей скрываемой информации, величина p скачком уменьшилась до нуля.