Алфимцев А. Н. - Мультиагентное обучение с подкреплением: учебное пособие [2021, PDF, RUS]

Страницы:  1
Ответить
 

tsurijin

Стаж: 4 года 6 месяцев

Сообщений: 2612


tsurijin · 19-Авг-24 11:25 (8 месяцев назад)

Мультиагентное обучение с подкреплением: учебное пособие
Год издания: 2021
Автор: Алфимцев А. Н.
Издательство: Издательство МГТУ им. Н. Э. Баумана
ISBN: 978-5-7038-5616-1
Язык: Русский
Формат: PDF
Качество: Отсканированные страницы + слой распознанного текста
Количество страниц: 225
Описание: Рассмотрены современные и классические алгоритмы одновременного машинного обучения множества агентов, основанные на теории игр, табличных, нейросетевых, эволюционных и роевых технологиях. Представлено последовательное развитие теоретической модели алгоритмов, базирующееся на марковских процессах принятия решений. Реализация алгоритмов выполнена на языке программирования Python с использованием библиотеки глубокого обучения PyTorch. Средой машинного обучения является компьютерная игра StarCraft II с интерфейсом кооперативного мультиагентного обучения SMAC.
Для магистрантов и аспирантов направления подготовки «Информатика и вычислительная техника».
Примеры страниц (скриншоты)
Оглавление
Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Глава 1. Независимое табличное обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1 .1. Классификация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4. Карта . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5. Технология . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6. Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6.1. Алгоритм независимого табличного Q-обучения . . . . . . . . . . . . . . . 23
1.6.2. Тестирование Q-таблицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.7. Эксперимент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.8. Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.9. Задачи для самоконтроля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Глава 2. Обучение в матричных и стохастических играх . . . . . . . . . . . . . . . . . 34
2.1. Классификация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2. Модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.1. Матричные игры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.2. Стохастические игры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3. Алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1. Поиск экстремума стратегий (РНС) . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.2. <<Выигрывай или учись быстро>> (WoLF-PHC) . . . . . . . . . . . . . . . . . 44
2.3.3. Q-обучение Нэша (Nash-Q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4. Карта . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.5. Технология . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.6. Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.6.1. Алгоритм WoLF-PHC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.6.2. Алгоритм Nash-Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2. 7. Эксперимент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2. 7 .1. Матричные игры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.7.2. Стохастические игры... .... ............ .. . ...... ........... 69
2.8. Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.9. Задачи для самоконтроля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Глава З. Нейросетевое обучение .. . .......................... . ...... .
3 .1. Классификация ........ . .......... . ........................ . .. .
3.2. Модель ...... . .... . ... . ............................ . ... . ..... .
3.2.1. Глубокое Q-обучение ................................... . . . .
3.2.2. Децентрализованные частично наблюдаемые марковские
процессы принятия решений (Dec-POMDP) . . ... . ...... . . . . ... . . . .
3.2.3. Двойная декомпозиция Q-значений . ... .. . .... . ... . ........ .
3.2.4. Глубокий детерминированный градиент стратегий ......... . .. .
3.3. Алгоритмы . . .. . . .... . .. .. .................................... .
3.3.1. Независимое глубокое обучение с использованием полно-
связной нейронной сети (IQN) ............................... . . . .
3.3.2. Централизованное обучение с использованием сверточной
нейронной сети (CDQN) ... . ............ . ................ . . .. . . .
3.3.3. Декомпозиция Q-значений с использованием рекуррентной
нейронной сети (VDN) ...................... . .................. .
3.3.4. Мул ьтиагентный глубокий детерминированный градиент
стратегий (МADDPG) ...... . ........... . ..................... . . .
3.4. Карта .. . ........................... . .. . .... . .......... . . . ... . .
3. 5. Технология . . .. . . . ............... . ...... . . . . .. . . .. . ... ... . . . . . .
3.6. Код . . .. .... . ............ . . . ... .. .... . ...................... . .
3.6.1. Алгоритм IQN .......... . .. ... . . . . .. .. . .. ................. .
3.6.2. Алгоритм VDN ................................ . .......... .
3.6.3. Алгоритм МADDPG .................... . . .. . . . . .......... .
3.7. Эксперимент ... .. .............. . ... . . .. ... .. ................. .
3.7.1. Алгоритм IQN ......................... . . . ................ .
3.7.2. Алгоритм CDQN . ..... . . ... . ............ . ............... . .
3.7.3. Алгоритм VDN .......................... . . .. .. . .......... .
3.7.4. Алгоритм МADDPG ............... . . . . . . . . ........... . ... .
3.8. Выводы . . ... . ... .. .............. . ............... ... ......... . .
3.9. Задачи для самоконтроля ............... .... .................. . .
Глава 4. Эволюционное обучение .............. . . . ................ .. .
4.1. Классификация . . . . . . . . ........... . ........... . ..... . ......... .
4.2. Модель ..... .. . . .... .. .. . . .... . ....... . ...................... .
4.2.1. Нейроэволюция . .................... . .. . ................. .
4.2.2. Коэволюция .. . ... . ............... . ... . .................. .
4.3. Алгоритмы .. . ........................ .. .................... .. .
4.3.1. Независимый генетический алгоритм (InGA) .. . ............ . .
4.3.2. Коэволюционный алгоритм (СоЕ) .. . ... .. . . . . .. ..... .... . . . .
4.4. Карта ... . . .. . .... . .... .. . . . .. . ..... . . . . .................... . . .
4.5. Технология ................ . ... . ... . . ....... . ... . .. ........... .
4.6. Код ... . .. . . . .. .. . ... .... .. . . .... . . .. . . . .. .. ................ . .
4.6.1. Алгоритм lnGA .......... . .. . ............................ .
4.6.2. Алгоритм СоЕ .. . .. . ........ . .... . .... . ............ . . . . . .. .
4. 7. Эксперимент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.7.1. Алгоритм InGA...... . ................. . ... ....... ......... 171
4.7.2. Алгоритм СоЕ...... . . ..... ............ . .... ..... .. ........ 173
4.8. Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.9. Задачи для самоконтроля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Глава 5. Роевое обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.1. Классификация. ... ..... . .. ... ............ . .................... 179
5.2. Модель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.2.1 . Комбинаторная оптимизация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.2.2. Роевая марковская модель принятия решений . . . . . . . . . . . . . . . . . 186
5.3. Алгоритм . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
5.4. Карта . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
5.5. Технология . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
5.6. Код . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.7. Эксперимент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
5.8. Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
5.9. Задачи для самоконтроля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
К главе 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
К главе 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
К главе 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
К главе 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
К главе 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Download
Rutracker.org не распространяет и не хранит электронные версии произведений, а лишь предоставляет доступ к создаваемому пользователями каталогу ссылок на торрент-файлы, которые содержат только списки хеш-сумм
Как скачивать? (для скачивания .torrent файлов необходима регистрация)
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error