KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Программирование » Е. Миркес - Учебное пособие по курсу «Нейроинформатика»

Е. Миркес - Учебное пособие по курсу «Нейроинформатика»

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Е. Миркес, "Учебное пособие по курсу «Нейроинформатика»" бесплатно, без регистрации.
Перейти на страницу:

Используя это выражение, можно записать константу Липшица для умножителя:

(8)

Если входные сигналы умножителя принадлежат интервалу [a,b], то константа Липшица для умножителя может быть записана в следующем виде:

(9)

Точка ветвления

Поскольку в точке ветвления не происходит преобразования сигнала, то константа Липшица для нее равна единице.

Сумматор

Производная суммы по любому из слагаемых равна единице. В соответствии с (6) получаем:

(10)

поскольку максимум суммы при ограничении на сумму квадратов достигается при одинаковых слагаемых.

Нелинейный Паде преобразователь

Нелинейный Паде преобразователь или Паде элемент имеет два входных сигнала и один выходной. Обозначим входные сигналы через x1, x2. Используя (6) можно записать константу Липшица в следующем виде:

Знаменатель выражения под знаком модуля не зависит от направления, а числитель можно преобразовать так же, как и для умножителя. После преобразования получаем:

(11)

Нелинейный сигмоидный преобразователь

Нелинейный сигмоидный преобразователь, как и любой другой нелинейный преобразователь, имеющий один входной сигнал x, имеет константу Липшица равную максимуму модуля производной:

(12)

Адаптивный сумматор

Для адаптивного сумматора на n входов оценка константы Липшица, получаемая через представление его в виде суперпозиции слоя синапсов и простого сумматора, вычисляется следующим образом. Используя формулу (7) для синапсов и правило (5) для вектор-функции получаем следующую оценку константы Липшица слоя синапсов:

.

Используя правило (4) для суперпозиции функций и оценку константы Липшица для простого сумматора (10) получаем:

ΛA ≤ ΛΣΛL = √n||α||. (13)

Однако, если оценить константу Липшица адаптивного сумматора напрямую, то, используя (6) и тот факт, что при фиксированных длинах векторов скалярное произведение достигает максимума для сонаправленных векторов получаем:

(14)

Очевидно, что оценка (14) точнее, чем оценка (13).

Константа Липшица сигмоидной сети

Рассмотрим слоистую сигмоидную сеть со следующими свойствами:

1. Число входных сигналов — n0.

2. Число нейронов в i-м слое — ni.

3. Каждый нейрон первого слоя получает все входные сигналы, а каждый нейрон любого другого слоя получает сигналы всех нейронов предыдущего слоя.

4. Все нейроны всех слоев имеют вид, приведенный на рис. 1 и имеют одинаковую характеристику.

5. Все синаптические веса ограничены по модулю единицей.

6. В сети m слоев.

В этом случае, учитывая формулы (4), (5), (12) и (14) константу Липшица i-го слоя можно оценить следующей величиной:

Используя формулу (4) получаем оценку константы Липшица всей сети:

Если используется нейроны типа S1, то ΛP=c и оценка константы Липшица сети равна:

Для нейронов типа S2, то ΛP=1/- и оценка константы Липшица сети равна:

Обе формулы подтверждают экспериментально установленный факт, что чем круче характеристическая функция нейрона, тем более сложные функции (функции с большей константой Липшица) может аппроксимировать сеть с такими нейронами.

Предобработка, облегчающая обучение

При обучении нейронных сетей иногда возникают ситуации, когда дальнейшее обучение нейронной сети невозможно. В этом случае необходимо проанализировать причины. Возможно несколько видов анализа. Одной из возможных причин является высокая сложность задачи, определяемая как выборочная оценка константы Липшица.

Для упрощения задачи необходимо уменьшить выборочную оценку константы Липшица. Наиболее простой способ добиться этого — увеличить расстояние между входными сигналами. Рассмотрим пару примеров — xi, xj — таких, что

Определим среди координат векторов xi и xj координату, в которой достигает минимума величина |xil-xjl|, исключив из рассмотрения совпадающие координаты. Очевидно, что эта координата является «узким местом», определяющим сложность задачи. Следовательно, для уменьшения сложности задачи требуется увеличить расстояние между векторами xi и xj, а наиболее перспективной координатой для этого является l-я. Однако увеличение расстояние между xil и xjl не всегда осмыслено. Дело в том, что все параметры, как правило, измеряются с конечной точностью. Поэтому, если величина |xil-xjl| меньше чем точность измерения l-го параметра, значения xil и xjl можно считать совпадающими. Таким образом, для изменения масштаба надо выбирать тот из входных параметров, для которого значение |xil-xjl| минимально, но превышает точность измерения этого параметра.


Таблица 7. Кодирование параметра после разбиения на два сигнала

Предположим, что все входные параметры предобработаны в соответствии с формулой (1). Перенумеруем примеры обучающего множества так, чтобы были верны следующие неравенства: xl1<xl2<,…,xlN, где N — число примеров в обучающем множестве. При этом, возможно, придется исключить ряд пар параметр-ответ с совпадающими значениями параметра. Если в какой-либо из таких пар значения ответов различаются, то это снижает возможную полезность данной процедуры.

Наиболее простой путь — разбить диапазон l-го параметра на два. Зададимся точкой x. Будем кодировать l-й параметр двумя входными сигналами в соответствии с табл. 7. При таком кодировании критерий Липшица, очевидно, уменьшится. Вопрос о выборе точки x может решаться по-разному. Простейший путь — положить x=(a-b)/2. Более сложный, но часто более эффективный — подбор x исходя из требования минимальности критерия Липшица.

Приведенный выше способ уменьшения критерия Липшица не единственный. В следующем разделе рассмотрен ряд способов предобработки, решающих ту же задачу.

Другие способы предобработки числовых признаков

В данном разделе будет рассмотрено три вида предобработки числовых признаков — модулярный, позиционный и функциональный. Основная идея этих методов предобработки состоит в том, чтобы сделать значимыми малые отличия больших величин. Действительно, пусть для ответа существенно изменение величины признака на единицу при значении признака порядка миллиона. Очевидно, что простейшая предобработка (1) сделает отличие в единицу неразличимым для нейронной сети при абсолютных значениях порядка миллиона.

Все эти виды предобработки обладают одним общим свойством — за счет кодирования входного признака несколькими сигналами они уменьшают сложность задачи (критерий Липшица).

Модулярная предобработка

Зададимся некоторым набором положительных чисел y1, …, yk. Определим сравнение по модулю для действительных чисел следующим образом:

x mod y = x-y·Int(x/y), (15)

где Int(x) — функция, вычисляющая целую часть величины x путем отбрасывания дробной части. Очевидно, что величина x mod y лежит в интервале (-y, y).

Кодирование входного признака x при модулярной предобработке вектором Z производится по следующей формуле:

(16)


Таблица 8. Пример сигналов при модулярном вводе

x x mod 3 x mod 5 x mod 7 x mod 11 5 2 0 5 5 10 1 0 3 10 15 0 0 1 3

Однако модулярная предобработка обладает одним отрицательным свойством — во всех случаях, когда yiyr1, при целом r, разрушается отношение предшествования чисел. В табл. 8 приведен пример векторов. Поэтому, модульная предобработка пригодна при предобработке тех признаков, у которых важна не абсолютная величина, а взаимоотношение этой величины с величинами y1, …, yk.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*