Е. Миркес - Учебное пособие по курсу «Нейроинформатика»
Теорема. При k<n в множестве {x⊗k} линейно независимыми являются
векторов.
Для доказательства этой теоремы потребуется следующая интуитивно очевидная, но не встреченная в литературе лемма.
Лемма. Пусть дана последовательность векторов
a1,a2=a¹2+a²2,a3=a¹3+a²3,…,am=a¹m+a²m
таких, что (ai,a²j)=0 при всех i<j и (a¹i,a²i)=0, a²i≠0 при всех i, тогда все вектора множества {ai} линейно независимы.
Доказательство. Известно, что процедура ортогонализации Грама приводит к построению ортонормированного множества векторов, а все вектора линейно зависящие от предыдущих векторов последовательности обращаются в нулевые. Проведем процедуру ортогонализации для заданной последовательности векторов.
1. b1=a1/||a1||
2. b2=(a2-(a2,b2))/||a2-(a2,b1)b1||. Причем a2-(a2,b1)b1 ≠ 0, так как (a1, a²2)=0, (a¹2-((a2,b1)b1,a²2)=0 и a²2≠0.
…
j.
Причем , так как (ai, a²j)=0, при всех i<j,
и a²j≠0.
…
Доказательство теоремы. Произведем линейное преобразование векторов множества x с матрицей
Легко заметить, что при этом преобразовании все единичные координаты переходят в единичные, а координаты со значением –1 в нулевые. Таким образом .
По пятому свойству заключаем, что число линейно независимых векторов в множествах X и Y совпадает. Пусть 1≤m≤k. Докажем, что yI⊗k при |I|=m содержит компоненту, ортогональную всем yJ⊗k, |J|≤m, J≠I.
Из предложения 1 имеем
(17)
Представим (17) в виде двух слагаемых:
(18)
Обозначим первую сумму в (18) через yI0⊗k. Докажем, что yI0⊗k ортогонален ко всем yJ⊗k, |J|≤m, J≠I, и второй сумме в (18). Так как I≠J, I⊄J, существует q∈I, q∉J.
Из свойств сюръективного мультииндекса следует, что все слагаемые, входящие в yI0⊗k содержат в качестве тензорного сомножителя eq, не входящий ни в одно тензорное произведение, составляющие в сумме yJ⊗k. Из свойства 2 получаем, что (yJ⊗k, yI0⊗k) = 0. Аналогично, из того, что в каждом слагаемом второй суммы L≠I, I⊄L следует ортогональность yI0⊗k каждому слагаемому второй суммы в (18) и, следовательно, всей сумме.
Таким образом yI⊗k содержит компоненту yI0⊗k ортогональную ко всем yJ⊗k, |J|≤m, J≠I и (yJ⊗k-yI0⊗k). Множество тензоров Yk={yI⊗k, |I|≤k} удовлетворяет условиям леммы, и следовательно все тензоры в Yk линейно независимы. Таким образом, число линейно независимых тензоров в множестве не меньше чем
Для того, чтобы показать, что число линейно независимых тензоров в множестве {x⊗k} не превосходит этой величины достаточно показать, что добавление любого тензора из Y к Yk приводит к появлению линейной зависимости. Покажем, что любой yI⊗k при |I|>k может быть представлен в виде линейной комбинации тензоров из Yk. Ранее было показано, что любой тензор yI⊗k может быть представлен в виде (17). Разобьем (17) на три суммы:
(19)
Рассмотрим первое слагаемое в (19) отдельно.
Заменим в последнем равенстве внутреннюю сумму в первом слагаемом на тензоры из Yk:
(20)
Преобразуем второе слагаемое в (19).
(21)
Преобразуя аналогично (21) второе слагаемое в (20) и подставив результаты преобразований в (19) получим
(22)
В (22) все не замененные на тензоры из Yk слагаемые содержат суммы по подмножествам множеств мощностью меньше k. Проводя аналогичную замену получим выражение, содержащее суммы по подмножествам множеств мощностью меньше k-1 и так далее. После завершения процедуры в выражении останутся только суммы содержащие вектора из Yk, то есть yI⊗k будет представлен в виде линейной комбинации векторов из Yk. Теорема доказана.
Лекция 7.1. Двойственные сети
Начиная с этой лекции и до конца курса будем рассматривать сети, решающие задачу аппроксимации функции.
Многолетние усилия многих исследовательских групп привели к тому, что к настоящему моменту накоплено большое число различных «правил обучения» и архитектур нейронных сетей, способов оценивать и интерпретировать их работу, приемов использования нейронных сетей для решения прикладных задач.
До сих пор эти правила, архитектуры, системы оценки и интерпретации, приемы использования и другие интеллектуальные находки существуют в виде «зоопарка» сетей. Каждая сеть из нейросетевого зоопарка имеет свою архитектуру, правило обучения и решает конкретный набор задач, аналогично тому, как каждое животное в обычном зоопарке имеет свои голову, лапы, хвост и питается определенной пищей. В данном курсе проводится систематизация «зоопарка» и превращение его в «технопарк». То есть переход от разнообразия организмов к разнообразию деталей — это и эффективнее, и экономнее. Процесс накопления зоопарка и последующего преобразования его в технопарк вполне закономерен при возникновении всего нового. Хорошим примером может послужить процесс развития персональных компьютеров. В семидесятых годах, когда они только появились, происходил процесс накопления зоопарка. В то время существовало множество абсолютно несовместимых друг с другом персональных компьютеров (IBM PC, Apple, PDP, HP и др.). В восьмидесятых и начале девяностых годов происходил процесс систематизации и преобразования зоопарка персональных компьютеров в технопарк. Сейчас, придя в хороший магазин, торгующий компьютерами, вы можете из имеющейся в наличии комплектации собрать такой персональный компьютер, какой вам нужен. Вы можете сами выбрать процессор, память, принтер, аудио и видео карты и т. д.
Для представления всего разнообразия нейрокомпьютеров в виде небольшого набора деталей полезен такой подход: каждая нейронная сеть из зоопарка должна быть представлена как реализованная на идеальном нейрокомпьютере, имеющем заданную структуру. В пределах данной структуры вы можете сами выбирать комплектующие — архитектуру сети, предобработчик, интерпретатор ответа и другие компоненты. Несомненно, структура этого идеального нейрокомпьютера со временем будет эволюционировать. Однако преимущества даже от первых шагов стандартизации несомненны.
Эта глава посвящена выделению функциональных компонентов, составляющих универсальный нейрокомпьютер. Основные компоненты нейрокомпьютера выделяются по следующим признакам:
1. Относительная функциональная обособленность: каждый компонент имеет четкий набор функций. Его взаимодействие с другими компонентами может быть описано в виде небольшого числа запросов.
2. Возможность реализации большинства используемых алгоритмов.