Академический Документы
Профессиональный Документы
Культура Документы
Биологический нейрон.
Центральная нервная система имеет клеточное строение. Единица – нервная
клетка, нейрон. Нейрон имеет следующие основные свойства:
1. Участвует в обмене веществ и рассеивает энергию. Меняет внутреннее
состояние с течением времени, реагирует на входные сигналы и формирует
выходные воздействия и поэтому является активной динамической системой.
2. Имеет множество синапсов – контактов для передачи информации.
3. Нейрон взаимодействует путем обмена электрохимическими сигналами двух
видов: электротоническими (с затуханием) и нервными импульсами (спайками),
распространяющимися без затухания.
Биологический нейрон содержит следующие структурные единицы:
Тело клетки (т) — сома: содержит ядро (я), митохондрии (обеспечивают клетку
энергией), другие органеллы, поддерживающие жизнедеятельность клетки.
Дендриты (д) – входные волокна, собирают информацию от других нейронов.
Активность в дендритах меняется плавно. Длина их обычно не больше 1 мм.
Мембрана – поддерживает постоянный состав цитоплазмы внутри клетки,
обеспечивает проведение нервных импульсов.
Цитоплазма — внутренняя среда клетки. Отличается концентрацией ионов
K+, Na+, Ca++ и других веществ по сравнению с внеклеточной средой.
Аксон (а), один или ни одного у каждой клетки, – длинное, иногда больше
метра, выходное нервное волокно клетки. Импульс генерируется
в аксонном холмике (а.х.). Аксон обеспечивает проведение импульса и передачу
воздействия на другие нейроны или мышечные волокна (мв). Ближе к концу
аксон часто ветвится.
Синапс (с) – место контакта нервных волокон — передает возбуждение от
клетки к клетке. Передача через синапс почти всегда однонаправленная.
Различают пресинаптические и постсинаптические клетки — по направлению
передачи импульса.
Шванновские клетки (шв.кл). Специфические клетки, почти целиком состоящие
из миелина, органического изолирующего вещества. Плотно "обматывают"
нервное волокно 250 слоями миелина. Неизолированные места нервного
волокна между шванновскими клетками называются перехватами Ранвье (пР).
За счет миелиновой изоляции скорость распространения нервных импульсов
возрастает в 5*10 раз и уменьшаются затраты энергии на проведение
импульсов. Миелинизированные волокна встречаются только у высших
животных. В центральной нервной системе человека насчитывается от 100 до
1000 типов нервных клеток, в зависимости выбранной степени детализации.
Они отличаются картиной дендритов, наличием и длиной аксона и
распределением синапсов около клетки. Клетки сильно связаны между собой. У
нейрона может быть больше 1000 синапсов. Близкие по функциям клетки
образуют скопления, шаровидные или параллельные слоистые. В мозгу
выделены сотни скоплений. Кора головного мозга – тоже скопление. Толщина
коры — 2 мм, площадь — около квадратного фута.
Нервный импульс (спайк) – процесс распространения возбуждения по аксону от
тела клетки (аксонного холмика) до окончания аксона. Это основная единица
информации, передаваемая по волокну, поэтому модель генерации и
распространения нервных импульсов (НИ) — одна из важнейших в теории НС.
Импульсы по волокну передаются в виде скачков потенциала внутриклеточной
среды по отношению к внешней среде, окружающей клетку. Скорость передачи
– от 1 до 100 м/с. Для миелинизированных волокон скорость передачи примерно
в 5 – 10 раз выше, чем для немиелинизированных. При распространении форма
спайка не меняется. Импульсы не затухают. Форма спайка фиксирована,
определяется свойствами волокна и не зависит от того, каким способом создан
импульс.
Персептрон
Рассмотрим формальный нейрон – простейший элемент теории
нейронных сетей. По структуре и принципу работы – это, по сути Персептрон
Розенблатта, первой нейросетевой архитектуры.
Функция:
Многослойный персептрон
Формальные нейроны могут объединяться в сети различными способами.
Рассмотрим простейшее объединение – многослойный персептрон.
[2]
(3)
4. Рассчитать ошибки и изменения весов (формула 3) для всех
остальных слоев по формулам:
Расписание обучения
Веса и пороговые уровни инициализируются случайными значениями.
Созданная таким образом сеть абсолютно неадекватна решаемой задаче и
может генерировать на выходе только шум. Поэтому ошибка в начале
обучения очень велика, и есть смысл вводить большие коррекции
параметров. Ближе к концу обучения ошибка значительно снижается, и
коррекции должны быть малыми. Чтобы менять длину шагов по параметрам,
используют расписание обучения (learning schedule). Выберем скорость
обучения зависящей от времени обучения: ( ) t ε . Обычно скорость
монотонно убывает с ростом времени. Для сходимости алгоритма
необходимо:
[1]
Возможны различные варианты суммирования – как по всем образцам, так и только по валидационной
выборке.
[2]
В случае гиперболического тангенса , в случае сигмоиды
Лекция 4
Локальные минимумы
Расчет длины шага обучения через градиент ошибки очень затратное дело.
Поэтому обычно длину шага берут равной константе и либо оставляют в
течении времени, либо пропорционально меняют в ходе обучения. При этом
неудачный выбор шага приводит к:
1) к неточности обучения: оказавшись в окрестности локального минимума,
когда требуются малые длины шага для точной настройки параметров,
алгоритм с большим шагом даст неточные значения параметров;
2) к медленному обучению: если шаг слишком малый, обучение может стать
недопустимо медленным;
3) к отсутствию сходимости, параличу сети и другим проблемам при очень
большой длине шага.
Алгоритм RProp
Рассмотрим модификацию алгоритма обратного распространения
ошибки – алгоритм Rprop (Resilent Propogation – «упругое
распространение»). В этом алгоритме устранен основной
недостаток BackProp - скорость обучения. Rprop использует знаки частных
производных для подстройки весовых коэффициентов. Для определения
величины коррекции используется следующее правило:
где
Сеть Кохонена
В сети Кохонена происходит решение задачи нахождения кластеров в пространстве
входных образов. Сеть Кохонена обучается без учителя на основе самоорганизации. В
течении обучения вектора весов нейронов стремятся к центрам кластеров – групп
векторов обучающей выборки. После обучения сеть сопоставляет предъявляемый образ к
одному из кластеров, то есть к одному из выходов. В общем случае задача кластеризации
представляется следующим образом:
- есть объекты, характеризуемые вектором параметров , имеющих
компонент ;
- есть введенное множество классов в пространстве классов
(обычно , в случае , задача сводится к тривиальной);
Необходимо определить ядра классов в пространстве классов , так что
бы меры близости были минимальны, то есть:
Обычно есть евклидова мера .
Функция , определяющая номер класса по индексу множества объектов { } ,
задает разбиение на классы и является решением задачи классификации.
Например, для задачи разбиения учеников на группы {отличник, хорошист, троечник,
двоечник} по предметам, центрами групп будут , и так далее.
Сеть Кохонена выглядит, как показано на рисунке:
Звезды Гроссберга
Лекция 6
Сеть Хопфилда
Структурная схема сети Хопфилда представлена на рисунке. Сеть состоит из
единственного слоя нейронов, число которых одновременно равно количеству
входов и количеству выходов. Каждый нейрон связан синапсами остальными
нейронами и имеет один вход. Выходные сигналы формируются как обычно на
аксонах.
, j=0...n-1
и новое состояние аксонов
Сеть Хемминга
Если в задаче ассоциативной памяти нет необходимости в том, чтобы нейросеть
выдавала эталонный образец, а достаточно только номера образца, то для этих
целей используется сеть Хемминга. Структурная схема сети Хемминга
представлена на рисунке 2.
, i=0...n-1, k=0...m-1
Tk = n / 2, k = 0...m-1
k
где xi – i-ый элемент k-ого образца.
Весовые коэффициенты тормозящих синапсов во втором слое берут
равными некоторой величине 0 < < 1/m. Синапс нейрона, связанный с его же
аксоном имеет вес +1.
Алгоритм работы сети Хэмминга следующий:
1. На входы сети подается неизвестный вектор X = {xi:i=0...n-1}, исходя из
которого рассчитываются состояния нейронов первого слоя (верхний индекс в
скобках указывает номер слоя):
, j=0...m-1
После этого полученными значениями инициализируются значения
аксонов второго слоя:
yj(2) = yj(1), j = 0...m-
1
2. Вычислить новые состояния нейронов второго слоя:
и значения их аксонов:
Генетические алгоритмы
Обучение с подкреплением
Метод обучения с подкреплением – это самостоятельное и уже вполне
сформировавшееся направление кибернетических исследований. Обучение с
подкреплением используется в различных областях науки: нейронных сетях, психологии,
искусственном интеллекте, управлении, исследовании операций и т. д. Главное
достоинство этого метода – его сравнительная простота, но не реализация: наблюдаются
действия обучаемого объекта и в зависимости от результата поощряют, либо наказывают
данный объект, не объясняя обучаемому объекту, как именно нужно действовать. Роль
учителя может играть внешняя среда. В данном методе большое внимание уделяется
поощрению/наказанию не только текущих действий, которые непосредственно привели к
положительному/отрицательному результату, но и тех действий, которые предшествовали
текущим. Основные принципы обучения с подкреплением:
обучение через взаимодействие;
целенаправленное обучение;
обучение через взаимодействие с окружающей средой.
Функция оценки – показывает, что есть хорошо в продолжительный период, тогда
как функция подкрепления показывает, что есть хорошо в текущий момент. Оценка
состояния это итоговое подкрепление агента, которое предположительно может быть
накоплено при последующих стартах из этого состояния. В то время как подкрепление
определяет прямую, характерную желательность состояния окружения, оценки
показывают долгосрочную желательность состояний после принятия во внимания
состояний, которые последуют за текущим, и подкреплений, соответствующих этим
состояниям. Например, состояние может повлечь низкое непосредственное подкрепление,
но иметь высокую оценку, потому как за ним регулярно следуют другие состояние,
которые приносят высокие подкрепления.
Функция подкрепления - определяет цель в процессе обучения с подкреплением.
Это соответствие между воспринимаемыми состояниями среды и числом, подкреплением,
показывающим присущую желательность состояния. Единственная цель агента состоит в
максимизации итогового подкрепления, которое тот получает в процессе длительной
работы. Функция отражает и определяет существо проблемы управления для агента. Она
может быть использована как базис для изменения правил. Например, если выбранное
действие повлекло за собой низкое подкрепление, правила могут быть изменены для того,
чтобы в следующий раз выбрать другое действие. В общем случае, функция подкрепления
может быть стохастической.
При обучении с подкреплением запоминается соответствие между ситуациями и
действиями, которые объект управления должен выполнить в той или иной ситуации. При
обучении с учителем необходима выборка для обучения, в случае обучения с
подкреплением начальная выборка зачастую не нужна – она появляется в ходе работы
объекта. В результате проб и ошибок накапливается база знаний объекта об окружающей
среде. Обучающая выборка генерируются автоматически в фазе, называемой
«исследование» (разведка). Обычно - это случайный поиск в пространстве состояний
(естественно, если пространство большое, то покрыть полностью его не возможно, но для
этого обычно используют универсальный аппроксиматор – нейронную сеть). Обычно
генерация обучающей выборки идет параллельно исследованию, поэтому обучение –
возрастающее. Общая схема обучения с подкреплением показана на рисунке 4.
Агент и среда взаимодействуют на каждом из последовательности дискретных
временных шагов, t = 0, 1, 2, 3, … . На каждом временном шаге, t, агент получает
некоторое представление о состоянии среды, , где S это множество всех возможных
состояний. На основе состояния агент выбирает действие, , где это
множество действий, возможных в состоянии . Во время следующего шага, как часть
ответа на действие, агент получает числовое подкрепление, , и переводит себя в
состояние .
где - коэффициент забывания, то есть чем дальше агент смотрит в «будущее», тем
менее он уверен в оценке.
Ошибка оценки равна [134]:
В каждый такт времени происходит как выбор действия, так и обучение агента. Выбор
действия происходит следующим образом – в момент времени t с вероятностью
выбирается действие с максимальном значением
. .
где
Блок Модель предназначена для прогнозирования изменения курса акции и для этого
вполне подходит обычный многослойный персептрон и метод обучения обратного
распространения ошибки.
[1]
“Оптимальная стратегия обладает следующим свойством, каким бы не было
начальное состояние управления, последующие управления должны определять
оптимальную стратегию относительно состояния полученного в результате 1-го решения”
[7]
Лекция 9
а)
б)
в) За исключением первой (время 0), контрольные точки не могут появиться
перед тем, как хотя бы один ПАО не будет выполнен после того, как
выполнено хотя бы одно СМП-изменение после последней контрольной
точки.
обозначает последовательность СМП-изменений (ПСМ), рассчитанных
ПАО обучения между состояниями и . Так как вероятность выполнения
ПАО зависит от СМП, СМП могут, теоретически, изменять способ, которым
они изменяют сами себя. Однако, на данный момент данное правило не
опубликовано.
, (1.12)
(2.1)
2.2.1 Сенсоры
Сенсоры – это компонента получения информации от среды.
Посредством сенсоров система считывает информацию о состоянии среды и
о состоянии объекта. На базе этих сведений принимается решение об
управлении, подсчитывается коэффициент эффективности.
Сенсоры могут реализоваться как на базе нейронных сетей, так и на
традиционных алгоритмах, так как в этой компоненте реализуются
простейшие функциональные зависимости. Вообще говоря, какие будут
использоваться сенсоры или что под ними будет пониматься – зависит от
задачи.
2.2.2 Решатель
В качестве решателя может быть нейронная сеть. Тип и метод
обучения зависят от решаемой задачи. Цель решателя – получить входной
вектор, пропустить его через себя и выдать результат. На рисунке 9 показан
решатель на основе послойно - полносвязной нейронной сети прямого
распространения.
2.2.3 Учитель
Внутренним устройством учителя может быть послойно - полносвязная
нейронная сеть прямого распространения, с одним скрытым слоем (хотя не
исключены случаи, когда может потребоваться несколько скрытых слоев).
Входы учителя – изменение коэффициента эффективности за последний
период времени (или за несколько последних), плюс адаптационные
параметры (один или несколько) за предыдущий период времени. Выход
учителя показывает, как изменить правила управления (рисунок 10).
В данной компоненте оценивается состояние среды с точки зрения
изменения тактики и стратегии поведения, и здесь формируются измененные
правила поведения системы.
Учитель реализует политику самообучения . Для реализации
принципа обучения самообучению введем общий вид функций
вычисляющих АП и КЭ:
(2.2)
(2.3)
главным образом от .
Нейросеть учителя обучается при первом запуске системы.
2.2.4 Коэффициент эффективности
Блок коэффициента эффективности хранит историю изменения
коэффициента эффективности. В истории сохраняется определенное
количество последних значений коэффициента, которые получила система
управления. На базе этой истории вычисляется коэффициент эффективности
за один или несколько одинаковых по продолжительности периода времени.
Это необходимо для вычисления динамики изменения коэффициента
эффективности. На каждом из нескольких периодов вычисляются средние
величины коэффициента эффективности, и сравниваются для соседних
периодов. Причем для каждой динамики могут быть 3 значения:
коэффициент эффективности снизился;
коэффициент эффективности вырос;
коэффициент эффективности не изменился.
Далее эти показателя поступают на вход учителя, который, согласно
правилам самообучения, определяет, необходима ли модификация правил
управления и модифицирует их в случае необходимости.
Длина истории, а также параметры подсчета среднего КЭ должны быть
модифицируемыми, и подстраиваться в зависимости от среды и объекта.
Для подсчета коэффициента эффективности предлагается использовать
шаблон:
(2.5),
где – период времени, для которого вычисляем коэффициент
эффективности;
(2.35)
где - количество резолюций на шаге;
- количество правил на шаге.
Следует отметить, что переобучение учителя после каждого
сокращения правил может занимать значительное время.
2.2.6 Моторики
Моторики непосредственно управляют объектом. Управляющий
сигнал с решателя поступает в моторики, а затем подается на
исполнительные средства. Моторики при этом занимаются преобразованием
сигнала решателя на «доступный» исполнительным устройствам язык.
Моторики могут реализовываться произвольным образом. В моториках
реализуются простейшие функциональные зависимости, такие как
денормализация сигнала и т.п.
2.3.1 Планирование
Планирование подразумевает, что система должна не просто
реагировать на текущие события, но и прогнозировать последовательность
действий или событий, которые должны привести ее к намеченной цели.
В идеале система могла бы строить модели внешнего мира, проводить
"мысленные эксперименты" и планировать действия в соответствии с
результатами этих "экспериментов".
Но мы только отметим возможность построения моделей внешнего
мира в "сознании" системы. Можно отметить модель мотивационного
поведения MonaLysa (теория аниматов) [124,156]. В данной работе
воплощена простая схемы планирования. В приведенной там схеме
планирования конечная цель действий разбивается на подцели, и система
"планирует" выполнение последовательности действий, каждое из которых
соответствует текущей ситуации и текущей подцели. При этом выполнение
всей последовательности приводит к достижению намеченной конечной
цели.
Существуют ситуации, когда системе необходимо подсказывать
(наталкивать), что она должна делать[2]. К таким ситуациям относятся,
например:
увеличение уровня продаж в канун праздников;
увеличение пассажиропотока на этаж при проведении на нем
мероприятия (конференции);
Можно вводить расписание применения правил самообучения или
управления в необходимые циклы управления, как показано на рисунке 16.
Рисунок 16 - Планирование
2.3.5 Пластичность
Пластичность нейронной сети можно рассчитать, например, с
помощью константы Липшица [37]. Рассмотрим послойно - полносвязную
нейронную сеть прямого распространения, а именно этот тип нейронных
сетей использовался для решателя и учителя в экспериментах, со
следующими свойствами:
(2.36)
Оценка константы Липшица всей сети:
(2.37)
Если используется функция активации гиперболический тангенс,
то и оценка константы Липшица сети равна:
(2.38
)
Если заменить всю область определения функций D на конечное
множество (задачник), то условие, определяющее требуемый объем
нейронной сети можно получить, сравнивая с оценкой константы
Липшица для обучающей выборки:
. (2.39
)
1. Если и и ,
то
(
2.42)
2. Если и и ,
то
(
2.43)
3. Если и и ,
то
(2.44)
4. Если и и ,
то
(2.45)
5. Если и и ,
то
(2.46)
6. Если и и ,
то
(2.47)
7. Если и и ,
то
(2.48)
8. Если и и ,
то
(2.49)
9. Если и и ,
то
(2.50)
10. Если и и ,
то
(2.51)
11. Если и и ,
то
(2.52)
12. Если и и ,
то
(2.53)
13. Если и и ,
то
(2.54)
14. Если и и ,
то
(2.55)
15. Если и и ,
то
(2.56)
16. Если и и ,
то
(2.57)
17. Если и и ,
то
(2.58
)
18. Если и и ,
то
(2.59)
19. Если и и ,
то
(2.60)
20. Если и и ,
то
(2.61)
21. Если и и ,
то
(2.62)
22. Если и и ,
то
(2.63)
23. Если и и ,
то
(2.6
4)
24. Если и и ,
то
(2.65)
25. Если и и ,
то
(2.66)
26. Если и и ,
то
(2.67)
27. Если и и ,
то
(2.68)
Правила самообучения учителя можно представить графически, как
показано на рисунке 17.
(2.6
9),
где через « » обозначена операция логического минимума. Затем
находятся усеченные функции принадлежности:
(2.7
0)
3. Композиция: с использованием операции max (обозначено, как «
») производится объединение найденных усеченных функций,
что приводит к получению итогового нечеткого подмножества
для переменной вывода с функцией принадлежности:
(2.71
)
4. Приведение к четкости можно производит, например,
центроидным методом.
(2.73)
3. На третьем этапе определяется четкое значение переменной вывода:
(2.74),
где . В данном алгоритме необходимо подбирать
коэффициенты и , что является трудной задачей, но в тоже время
изменение этих параметров (изменение поверхности правил учителя) в
процессе работы объекта, управляемого с помощью топологии «внутренний
учитель», значительно повышает адаптационные свойства объекта, что
является несомненным преимуществом использования модели Сугэно над
моделью Мадмани.