Мэрфи К. П. - Вероятностное машинное обучение: введение [2022, PDF, RUS]

Страницы:  1
Ответить
 

tsurijin

Стаж: 3 года 6 месяцев

Сообщений: 1680


tsurijin · 12-Янв-23 03:40 (1 год 4 месяца назад, ред. 12-Янв-23 03:46)

Вероятностное машинное обучение: введение
Год издания: 2022
Автор: Мэрфи К. П.
Переводчик: Слинкина А. А.
Жанр или тематика: Программирование
Издательство: ДМК Пресс
ISBN: 978-5-93700-119-1
Язык: Русский
Формат: PDF
Качество: Издательский макет или текст (eBook)
Интерактивное оглавление: Да
Количество страниц: 940
Описание: Данный классический труд содержит современное введение в машинное
обучение, рассматриваемое сквозь призму вероятностного моделирования
и байесовской теории принятия решений. Включен базовый математический
аппарат (в том числе элементы линейной алгебры и теории оптимизации), основы
обучения с учителем (включая линейную и логистическую регрессию и глубокие
нейронные сети), а также более глубокие темы (в частности, перенос обучения
и обучение без учителя).
Упражнения в конце глав помогут читателям применить полученные знания.
В приложении приводится сводка используемых обозначений.
Книга будет полезна специалистам в области машинного обучения и студентам
профильных специальностей.
Примеры страниц
Содержание
Предисловие...........................................................................................................31
Глава 1. Введение.................................................................................................34
1.1. Что такое машинное обучение?.........................................................................34
1.2. Обучение с учителем...........................................................................................35
1.2.1. Классификация..............................................................................................35
1.2.1.1. Пример: классификация ирисов.........................................................35
1.2.1.2. Разведочный анализ данных...............................................................37
1.2.1.3. Обучение классификатора...................................................................38
1.2.1.4. Минимизация эмпирического риска.................................................39
1.2.1.5. Неопределенность.................................................................................41
1.2.1.6. Оценка максимального правдоподобия............................................42
1.2.2. Регрессия........................................................................................................43
1.2.2.1. Линейная регрессия..............................................................................44
1.2.2.2. Полиномиальная регрессия.................................................................45
1.2.2.3. Глубокие нейронные сети....................................................................46
1.2.3. Переобучение и обобщаемость..................................................................47
1.2.4. Теорема об отсутствии бесплатных завтраков........................................48
1.3. Обучение без учителя..........................................................................................48
1.3.1. Кластеризация...............................................................................................49
1.3.2. Обнаружение латентных «факторов изменчивости»..............................50
1.3.3. Самостоятельное обучение.........................................................................51
1.3.4. Оценка обучения без учителя.....................................................................52
1.4. Обучение с подкреплением................................................................................53
1.5. Данные...................................................................................................................55
1.5.1. Некоторые широко известные наборы изображений.............................55
1.5.1.1. Небольшие наборы изображений.......................................................55
1.5.1.2. ImageNet.................................................................................................56
1.5.2. Некоторые широко известные наборы текстовых данных....................57
1.5.2.1. Классификация текста..........................................................................58
1.5.2.2. Машинный перевод..............................................................................59
1.5.2.3. Другие задачи типа seq2seq.................................................................59
1.5.2.4. Языковое моделирование....................................................................59
1.5.3. Предобработка дискретных входных данных..........................................60
1.5.3.1. Унитарное кодирование.......................................................................60
1.5.3.2. Перекрестные произведения признаков...........................................60
1.5.4. Предобработка текстовых данных.............................................................61
1.5.4.1. Модель мешка слов...............................................................................61
1.5.4.2 TF-IDF.......................................................................................................62
1.5.4.3. Погружения слов....................................................................................63
1.5.4.4. Обработка новых слов..........................................................................63
1.5.5. Обработка отсутствующих данных............................................................64
1.6. Обсуждение...........................................................................................................65
1.6.1. Связь МО с другими дисциплинами..........................................................65
1.6.2. Структура книги............................................................................................66
1.6.3. Подводные камни.........................................................................................66
Часть I. ОСНОВАНИЯ........................................................................................68
Глава 2. Вероятность: одномерные модели...........................................69
2.1. Введение................................................................................................................69
2.1.1. Что такое вероятность?................................................................................69
2.1.2. Типы неопределенности..............................................................................70
2.1.3. Вероятность как обобщение логики..........................................................70
2.1.3.1. Вероятность события............................................................................70
2.1.3.2. Вероятность конъюнкции двух событий...........................................71
2.1.3.3. Вероятность объединения двух событий...........................................71
2.1.3.4. Условная вероятность одного события при условии другого.........71
2.1.3.5. Независимость событий.......................................................................72
2.1.3.6. Условная независимость событий......................................................72
2.2. Случайные величины..........................................................................................72
2.2.1. Дискретные случайные величины.............................................................72
2.2.2. Непрерывные случайные величины..........................................................73
2.2.2.1. Функция распределения.......................................................................73
2.2.2.2. Функция плотности распределения...................................................74
2.2.2.3. Квантили.................................................................................................75
2.2.3. Множества связанных случайных величин..............................................75
2.2.4. Независимость и условная независимость...............................................76
2.2.5. Моменты распределения.............................................................................77
2.2.5.1. Среднее распределения........................................................................78
2.2.5.2. Дисперсия распределения...................................................................78
2.2.5.3. Мода распределения.............................................................................79
2.2.5.4. Условные моменты................................................................................80
2.2.6. Ограничения сводных статистик*.............................................................81
2.3. Формула Байеса....................................................................................................83
2.3.1. Пример: тестирование на COVID-19..........................................................84
2.3.2. Пример: парадокс Монти Холла.................................................................86
2.3.3. Обратные задачи*.........................................................................................88
2.4. Распределение Бернулли и биномиальное распределение...........................89
2.4.1. Определение..................................................................................................89
2.4.2. Сигмоидная (логистическая) функция......................................................90
2.4.3. Бинарная логистическая регрессия...........................................................92
2.5. Категориальное и мультиномиальное распределение..................................93
2.5.1. Определение..................................................................................................93
2.5.2. Функция softmax...........................................................................................94
2.5.3. Многоклассовая логистическая регрессия................................................95
2.5.4. Логарифмирование, суммирование, потенцирование...........................96
2.6. Одномерное гауссово (нормальное) распределение......................................97
2.6.1. Функция распределения..............................................................................98
2.6.2. Функция плотности вероятности...............................................................99
2.6.3. Регрессия......................................................................................................100
2.6.4. Почему гауссово распределение так широко используется?...............101
2.6.5. Дельта-функция Дирака как предельный случай..................................102
2.7. Другие часто встречающиеся одномерные распределения*.......................102
2.7.1. Распределение Стьюдента.........................................................................102
2.7.2. Распределение Коши..................................................................................104
2.7.3. Распределение Лапласа..............................................................................105
2.7.4. Бета-распределение....................................................................................105
2.7.5. Гамма-распределение................................................................................106
2.7.6. Эмпирическое распределение..................................................................107
2.8. Преобразования случайных величин*............................................................108
2.8.1. Дискретный случай....................................................................................109
2.8.2. Непрерывный случай.................................................................................109
2.8.3. Обратимые преобразования (биекции)..................................................109
2.8.3.1. Замена переменных: скалярный случай.........................................109
2.8.3.2. Замена переменных: многомерный случай....................................110
2.8.4. Моменты линейного преобразования.....................................................112
2.8.5. Теорема о свертке.......................................................................................113
2.8.6. Центральная предельная теорема...........................................................115
2.8.7. Аппроксимация Монте-Карло..................................................................115
2.9. Упражнения.........................................................................................................116
Глава 3. Вероятность: многомерные модели.......................................120
3.1. Совместные распределения нескольких случайных величин....................120
3.1.1. Ковариация..................................................................................................120
3.1.2. Корреляция..................................................................................................121
3.1.3. Некоррелированные не значит независимые........................................122
3.1.4. Из коррелированности не следует наличие
причинно-следственной связи...........................................................................122
3.1.5. Парадокс Симпсона....................................................................................123
3.2. Многомерное гауссово (нормальное) распределение..................................126
3.2.1. Определение................................................................................................126
3.2.2. Расстояние Махаланобиса.........................................................................127
3.2.3. Маргинальные и условные распределения для многомерного
нормального распределения*.............................................................................129
3.2.4. Пример: обусловливание двумерного гауссова распределения..........130
3.2.5. Пример: подстановка отсутствующих значений*.................................131
3.3. Линейные гауссовы системы*..........................................................................132
3.3.1. Формула Байеса для гауссовых распределений.....................................132
3.3.2. Вывод*..........................................................................................................133
3.3.3. Пример: вывод неизвестного скаляра.....................................................134
3.3.4. Пример: вывод неизвестного вектора.....................................................136
3.3.5. Пример: слияние показаний датчиков...................................................137
3.4. Экспоненциальное семейство распределений*............................................139
3.4.1. Определение................................................................................................139
3.4.2. Пример.........................................................................................................140
3.4.3. Логарифмическая функция разбиения является производящей
функцией полуинвариантов...............................................................................141
3.4.4. Вывод максимальной энтропии экспоненциального семейства........141
3.5. Смесовые модели...............................................................................................142
3.5.1. Модель гауссовой смеси.............................................................................143
3.5.2. Модели бернуллиевой смеси....................................................................145
3.6. Графовые вероятностные модели*..................................................................146
3.6.1. Представление............................................................................................146
3.6.1.1. Пример: оросительная система........................................................147
3.6.1.2. Пример: марковская цепь..................................................................148
3.6.2. Вывод............................................................................................................149
3.6.3. Обучение......................................................................................................149
3.6.3.1. Блочная нотация..................................................................................150
3.7. Упражнения.........................................................................................................151
Глава 4. Статистика.............................................................................................153
4.1. Введение..............................................................................................................153
4.2. Оценка максимального правдоподобия (MLE).............................................153
4.2.1. Определение................................................................................................154
4.2.2. Обоснование MLE.......................................................................................155
4.2.3. Пример: MLE для распределения Бернулли...........................................156
4.2.4. Пример: MLE для категориального распределения..............................157
4.2.5. Пример: MLE для одномерного гауссова распределения.....................158
4.2.6. Пример: MLE для многомерного гауссова распределения...................159
4.2.6.1. MLE среднего........................................................................................159
4.2.6.2. MLE ковариационной матрицы........................................................160
4.2.7. Пример: MLE для линейной регрессии....................................................161
4.3. Минимизация эмпирического риска (ERM)..................................................162
4.3.1. Пример: минимизации частоты неправильной классификации........163
4.3.2. Суррогатная потеря....................................................................................163
4.4. Другие методы оценивания*............................................................................165
4.4.1. Метод моментов.........................................................................................165
4.4.1.1. Пример: MOM для одномерного гауссова распределения............165
4.4.1.2. Пример: MOM для равномерного распределения..........................166
4.4.2. Онлайновое (рекурсивное) оценивание.................................................167
4.4.2.1. Пример: рекурсивная MLE среднего гауссова распределения.....167
4.4.2.2. Экспоненциально взвешенное скользящее среднее.....................167
4.5. Регуляризация....................................................................................................169
4.5.1. Пример: оценка MAP для распределения Бернулли.............................170
4.5.2. Пример: оценка MAP для многомерного гауссова распределения*....171
4.5.2.1. Оценка усадки......................................................................................171
4.5.3. Пример: уменьшение весов......................................................................172
4.5.4. Подбор регуляризатора с помощью контрольного набора..................173
4.5.5. Перекрестная проверка.............................................................................174
4.5.5.1. Правило одной стандартной ошибки...............................................175
4.5.5.2. Пример: гребневая регрессия............................................................176
4.5.6. Ранняя остановка........................................................................................176
4.5.7. Больше данных............................................................................................177
4.6. Байесовские статистики*..................................................................................178
4.6.1. Сопряженные априорные распределения..............................................179
4.6.2. Бета-биномиальная модель......................................................................180
4.6.2.1. Правдоподобие Бернулли..................................................................180
4.6.2.2. Биномиальное правдоподобие.........................................................180
4.6.2.3. Априорное распределение.................................................................181
4.6.2.4. Апостериорное распределение.........................................................181
4.6.2.5. Пример..................................................................................................181
4.6.2.6. Апостериорная мода (оценка MAP)..................................................182
4.6.2.7. Апостериорное среднее......................................................................183
4.6.2.8. Апостериорная дисперсия.................................................................183
4.6.2.9. Апостериорное прогнозное распределение....................................184
4.6.2.10. Маргинальное правдоподобие........................................................187
4.6.2.11. Смеси сопряженных априорных распределений.........................187
4.6.3. Дирихле-мультиномиальная модель.......................................................189
4.6.3.1. Правдоподобие....................................................................................189
4.6.3.2. Априорное распределение.................................................................189
4.6.3.3. Апостериорное распределение.........................................................191
4.6.3.4. Апостериорное прогнозное распределение....................................192
4.6.3.5. Маргинальное правдоподобие..........................................................192
4.6.4. Гауссова-гауссова модель..........................................................................193
4.6.4.1. Одномерный случай............................................................................193
4.6.4.2. Многомерный случай.........................................................................195
4.6.5. За пределами сопряженных априорных распределений.....................196
4.6.5.1. Неинформативные априорные распределения.............................197
4.6.5.2. Иерархические априорные распределения....................................197
4.6.5.3. Эмпирические априорные распределения.....................................197
4.6.6. Байесовские доверительные интервалы.................................................198
4.6.7. Байесовское машинное обучение.............................................................200
4.6.7.1. Подстановочная аппроксимация......................................................201
4.6.7.2. Пример: скалярный вход, бинарный выход....................................201
4.6.7.3. Пример: бинарный вход, скалярный выход....................................203
4.6.7.4. Вертикальное масштабирование......................................................205
4.6.8. Вычислительные трудности......................................................................205
4.6.8.1. Сеточная аппроксимация..................................................................206
4.6.8.2. Квадратичная аппроксимация (Лапласа)........................................206
4.6.8.3. Вариационная аппроксимация.........................................................207
4.6.8.4. Аппроксимация методом Монте-Карло по схеме
марковских цепей............................................................................................208
4.7. Частотная статистика*.......................................................................................208
4.7.1. Выборочное распределение......................................................................209
4.7.2. Гауссова аппроксимация выборочного распределения MLE...............210
4.7.3. Бутстрэпная аппроксимация выборочного распределения
любого оценивателя.............................................................................................211
4.7.3.1. Бутстрэп – апостериорное распределение «для бедных»..............211
4.7.4. Доверительные интервалы........................................................................212
4.7.5. Предостережения: доверительные интервалы и байесовские
доверительные интервалы не одно и то же......................................................214
4.7.6. Компромисс между смещением и дисперсией......................................215
4.7.6.1. Смещение оценки................................................................................215
4.7.6.2. Дисперсия оценки...............................................................................216
4.7.6.3. Компромисс между смещением и дисперсией...............................216
4.7.6.4. Пример: оценка MAP среднего гауссова распределения...............217
4.7.6.5. Пример: оценка MAP для линейной регрессии..............................218
4.7.6.6. Применение компромисса между смещением и дисперсией
для классификации..........................................................................................220
4.8. Упражнения.........................................................................................................220
Глава 5. Теория принятия решений...........................................................225
5.1. Байесовская теория принятия решений.........................................................225
5.1.1. Основы..........................................................................................................225
5.1.2. Проблемы классификации........................................................................227
5.1.2.1. Бинарная потеря..................................................................................228
5.1.2.2. Классификация с учетом стоимости................................................228
5.1.2.3. Классификация с возможностью отклонения примера................229
5.1.3. ROC-кривые.................................................................................................230
5.1.3.1. Матрицы неточностей классификации...........................................230
5.1.3.2. Обобщение ROC-кривой в виде скаляра..........................................233
5.1.3.3. Несбалансированность классов.........................................................233
5.1.4. Кривые точность–полнота........................................................................233
5.1.4.1. Вычисление точности и полноты......................................................234
5.1.4.2. Обобщение кривых точность–полнота в виде скаляра.................234
5.1.4.3. F-мера....................................................................................................235
5.1.4.4. Несбалансированность классов.........................................................235
5.1.5. Задачи регрессии........................................................................................236
5.1.5.1. 𝓁2-потеря...............................................................................................236
5.1.5.2 𝓁1-потеря................................................................................................237
5.1.5.3. Функция потерь Хьюбера...................................................................237
5.1.6. Задачи вероятностного предсказания....................................................238
5.1.6.1. Расхождение КЛ, перекрестная энтропия
и логарифмическая потеря.............................................................................238
5.1.6.2. Правила верной оценки.....................................................................239
5.2. Байесовская проверка гипотез.........................................................................240
5.2.1. Пример: проверка симметричности монеты.........................................241
5.2.2. Байесовский выбор модели.......................................................................242
5.2.2.1. Пример: полиномиальная регрессия...............................................243
5.2.3. Бритва Оккама............................................................................................244
5.2.4. Связь между перекрестной проверкой и маргинальным
правдоподобием...................................................................................................246
5.2.5. Информационные критерии.....................................................................246
5.2.5.1. Байесовский информационный критерий (BIC)............................247
5.2.5.2. Информационный критерий Акаике...............................................247
5.2.5.3. Минимальная длина описания (MDL)..............................................248
5.3. Частотная теория принятий решений............................................................248
5.3.1. Вычисление риска оценки.........................................................................248
5.3.1.1. Пример..................................................................................................249
5.3.1.2. Байесовский риск................................................................................250
5.3.1.3. Максимальный риск...........................................................................251
5.3.2. Состоятельные оценки...............................................................................251
5.3.3. Допустимые оценки...................................................................................252
5.4. Минимизация эмпирического риска..............................................................253
5.4.1. Эмпирический риск...................................................................................253
5.4.1.1. Ошибка аппроксимации и ошибка оценивания............................254
5.4.1.2. Регуляризированный риск.................................................................255
5.4.2. Структурный риск.......................................................................................255
5.4.3. Перекрестная проверка.............................................................................256
5.4.4. Статистическая теория обучения*...........................................................257
5.4.4.1. Нахождение границы ошибки обобщения......................................257
5.4.4.2. VC-размерность...................................................................................258
5.5. Частотная проверка гипотез*...........................................................................258
5.5.1. Критерий отношения правдоподобия.....................................................259
5.5.1.1. Пример: сравнение гауссовых средних...........................................259
5.5.1.2. Простые и сложные гипотезы............................................................260
5.5.2. Проверка значимости нулевой гипотезы...............................................260
5.5.3. p-значения...................................................................................................261
5.5.4. О вреде p-значений....................................................................................261
5.5.5. Почему же не все исповедуют байесовский подход?............................264
5.6. Упражнения.........................................................................................................266
Глава 6. Теория информации........................................................................268
6.1. Энтропия.............................................................................................................268
6.1.1. Энтропия дискретных случайных величин............................................268
6.1.2. Перекрестная энтропия.............................................................................271
6.1.3. Совместная энтропия.................................................................................271
6.1.4. Условная энтропия.....................................................................................272
6.1.5. Перплексия..................................................................................................273
6.1.6. Дифференциальная энтропия непрерывных случайных
величин*.................................................................................................................274
6.1.6.1. Пример: энтропия гауссова распределения....................................274
6.1.6.2. Связь с дисперсией.............................................................................275
6.1.6.3. Дискретизация.....................................................................................275
6.2. Относительная энтропия (расхождение KL)*................................................275
6.2.1. Определение................................................................................................276
6.2.2. Интерпретация............................................................................................276
6.2.3. Пример: расхождение КЛ между двумя гауссовыми
распределениями..................................................................................................276
6.2.4. Неотрицательность расхождения КЛ.......................................................277
6.2.5. Расхождение КЛ и оценка максимального правдоподобия.................278
6.2.6. Прямое и обратное расхождение КЛ.......................................................279
6.3. Взаимная информация*....................................................................................280
6.3.1. Определение................................................................................................280
6.3.2. Интерпретация............................................................................................280
6.3.3. Пример.........................................................................................................282
6.3.4. Условная взаимная информация..............................................................282
6.3.5. Взаимная информация как «обобщенный коэффициент
корреляции»..........................................................................................................283
6.3.6. Нормированная взаимная информация.................................................284
6.3.7. Максимальный коэффициент информации...........................................285
6.3.8. Неравенство обработки данных...............................................................287
6.3.9. Достаточные статистики...........................................................................288
6.3.10. Неравенство Фано*...................................................................................288
6.4. Упражнения.........................................................................................................289
Глава 7. Линейная алгебра.............................................................................292
7.1. Введение..............................................................................................................292
7.1.1. Обозначения................................................................................................292
7.1.1.1. Векторы.................................................................................................292
7.1.1.2. Матрицы................................................................................................293
7.1.1.3. Тензоры.................................................................................................294
7.1.2. Векторные пространства...........................................................................295
7.1.2.1. Сложение векторов и умножение вектора на скаляр.....................295
7.1.2.2. Линейная независимость, линейная оболочка и базисы...............296
7.1.2.3. Линейные отображения и матрицы..................................................296
7.1.2.4. Образ и ядро матрицы........................................................................297
7.1.2.5. Линейная проекция.............................................................................297
7.1.3. Нормы вектора и матрицы........................................................................298
7.1.3.1. Нормы вектора.....................................................................................298
7.1.3.2. Нормы матрицы...................................................................................299
7.1.4. Свойства матриц.........................................................................................300
7.1.4.1. След квадратной матрицы.................................................................300
7.1.4.2. Определитель квадратной матрицы.................................................300
7.1.4.3. Ранг матрицы.......................................................................................301
7.1.4.4. Числа обусловленности.......................................................................301
7.1.5. Специальные типы матриц.......................................................................303
7.1.5.1. Диагональная матрица.......................................................................303
7.1.5.2. Треугольные матрицы.........................................................................304
7.1.5.3. Положительно определенные матрицы...........................................304
7.1.5.4. Ортогональные матрицы....................................................................305
7.2. Умножение матриц............................................................................................306
7.2.1. Умножение векторов..................................................................................307
7.2.2. Произведение матрицы на вектор...........................................................307
7.2.3. Произведение матриц................................................................................308
7.2.4. Приложение: манипулирование матрицами данных...........................310
7.2.4.1. Суммирование срезов матрицы........................................................310
7.2.4.2. Масштабирование строк и столбцов матрицы...............................311
7.2.4.3. Матрица сумм квадратов и матрица рассеяния.............................311
7.2.4.4. Матрица Грама.....................................................................................312
7.2.4.5. Матрица расстояний...........................................................................313
7.2.5. Произведения Кронекера*.........................................................................313
7.2.6. Суммирование Эйнштейна*......................................................................314
7.3. Обращение матриц............................................................................................315
7.3.1. Обращение квадратной матрицы............................................................315
7.3.2. Дополнения Шура*......................................................................................316
7.3.3. Лемма об обращении матрицы*...............................................................317
7.3.4. Лемма об определителе матрицы*...........................................................318
7.3.5. Приложение: вывод условных распределений
для многомерного гауссова распределения.....................................................319
7.4. Спектральное разложение................................................................................320
7.4.1. Основные сведения.....................................................................................320
7.4.2. Диагонализация..........................................................................................321
7.4.3. Собственные значения и собственные векторы симметричных
матриц....................................................................................................................322
7.4.3.1. Проверка на положительную определенность................................322
7.4.4. Геометрия квадратичных форм................................................................323
7.4.5. Стандартизация и отбеливание данных..................................................323
7.4.6. Степенной метод.........................................................................................324
7.4.7. Понижение порядка....................................................................................326
7.4.8. Собственные векторы оптимизируют квадратичные формы..............326
7.5. Сингулярное разложение (SVD).......................................................................327
7.5.1. Основные сведения.....................................................................................327
7.5.2. Связь между сингулярным и спектральным разложением..................328
7.5.3. Псевдообратная матрица...........................................................................329
7.5.4. SVD и образ и ядро матрицы*...................................................................330
7.5.5. Усеченное сингулярное разложение........................................................331
7.6. Другие матричные разложения*......................................................................332
7.6.1. LU-разложение............................................................................................332
7.6.2. QR-разложение............................................................................................333
7.6.3. Разложение Холески...................................................................................334
7.6.3.1. Приложение: выборка из многомерного гауссова
распределения..................................................................................................334
7.7. Решение систем линейных уравнений*..........................................................335
7.7.1. Решение квадратных систем.....................................................................336
7.7.2. Решение недоопределенных систем (оценка по наименьшей
норме).....................................................................................................................336
7.7.3. Решение переопределенных систем (оценка по методу
наименьших квадратов)......................................................................................338
7.8. Матричное исчисление......................................................................................339
7.8.1. Производные...............................................................................................339
7.8.2. Градиенты....................................................................................................340
7.8.3. Производная по направлению..................................................................340
7.8.4. Полная производная*.................................................................................341
7.8.5. Якобиан.........................................................................................................341
7.8.5.1. Умножение якобиана на вектор........................................................342
7.8.5.2. Якобиан композиции..........................................................................342
7.8.6. Гессиан..........................................................................................................342
7.8.7. Градиенты часто встречающихся функций.............................................343
7.8.7.1. Функции, отображающие скаляры в скаляры.................................343
7.8.7.2. Функции, отображающие векторы в скаляры.................................343
7.8.7.3. Функции, отображающие матрицы в скаляры................................344
7.9. Упражнения.........................................................................................................345
Глава 8. Оптимизация.......................................................................................346
8.1. Введение..............................................................................................................346
8.1.1. Локальная и глобальная оптимизация....................................................346
8.1.1.1. Условия оптимальности для локальных и глобальных
оптимумов.........................................................................................................347
8.1.2. Условная и безусловная оптимизация.....................................................348
8.1.3. Выпуклая и невыпуклая оптимизация....................................................349
8.1.3.1. Выпуклые множества..........................................................................349
8.1.3.2. Выпуклые функции.............................................................................350
8.1.3.3. Характеристика выпуклых функций................................................351
8.1.3.4. Сильно выпуклые функции...............................................................352
8.1.4. Гладкая и негладкая оптимизация...........................................................353
8.1.4.1. Субградиенты.......................................................................................354
8.2. Методы первого порядка..................................................................................355
8.2.1. Направление спуска...................................................................................356
8.2.2. Размер шага (скорость обучения).............................................................356
8.2.2.1. Постоянный размер шага...................................................................356
8.2.2.2. Линейный поиск..................................................................................358
8.2.3. Скорость сходимости.................................................................................359
8.2.4. Метод имульса.............................................................................................360
8.2.4.1. Импульс.................................................................................................360
8.2.4.2. Момент Нестерова...............................................................................361
8.3. Методы второго порядка..................................................................................362
8.3.1. Метод Ньютона...........................................................................................362
8.3.2. BFGS и другие квазиньютоновские методы...........................................364
8.3.3. Методы на основе доверительных областей..........................................365
8.4. Стохастический градиентный спуск...............................................................366
8.4.1. Приложение к задачам с конечной суммой...........................................367
8.4.2. Пример: СГС для обучения модели линейной регрессии.....................368
8.4.3. Выбор размера шага (скорости обучения)..............................................369
8.4.4. Итеративное усреднение...........................................................................371
8.4.5. Уменьшение дисперсии*...........................................................................372
8.4.5.1. SVRG......................................................................................................372
8.4.5.2. SAGA......................................................................................................373
8.4.5.3. Применение в глубоком обучении...................................................373
8.4.6. Предобусловленный СГС...........................................................................374
8.4.6.1. AdaGrad.................................................................................................374
8.4.6.2. RMSProp и AdaDelta.............................................................................375
8.4.6.3. Adam......................................................................................................376
8.4.6.4. Проблемы, связанные с адаптивной скоростью обучения...........376
8.4.6.5. Недиагональные матрицы предобусловливания...........................377
8.5. Условная оптимизация......................................................................................377
8.5.1. Множители Лагранжа.................................................................................378
8.5.1.1. Пример: двумерная квадратичная целевая функция
с одним линейным ограничением в виде равенства..................................379
8.5.2. Условия Каруша–Куна–Таккера................................................................380
8.5.3. Линейное программирование..................................................................381
8.5.3.1. Симплекс-метод..................................................................................382
8.5.3.2. Приложения.........................................................................................382
8.5.4. Квадратичное программирование...........................................................382
8.5.4.1. Пример: квадратичная целевая функция в двумерном
случае с линейными ограничениями в виде равенств...............................383
8.5.4.2. Приложения.........................................................................................384
8.5.5. Смешанно-целочисленное программирование*...................................384
8.6. Проксимальный градиентный метод*............................................................384
8.6.1. Спроецированный градиентный спуск...................................................385
8.6.2. Проксимальный оператор для регуляризатора по норме 𝓁1................387
8.6.3. Применение проксимального оператора в случае квантования........388
8.6.4. Инкрементные (онлайновые) проксимальные методы.......................389
8.7. Граничная оптимизация*..................................................................................389
8.7.1. Общий алгоритм.........................................................................................389
8.7.2. EM-алгоритм................................................................................................391
8.7.2.1. Нижняя граница...................................................................................392
8.7.2.2. E-шаг......................................................................................................392
8.7.2.3. M-шаг.....................................................................................................393
8.7.3. Пример: EM-алгоритм для смеси гауссовых распределений...............394
8.7.3.1. E-шаг......................................................................................................394
8.7.3.2. M-шаг.....................................................................................................394
8.7.3.3. Пример..................................................................................................395
8.7.3.4. Оценка MAP..........................................................................................395
8.7.3.5. Невыпуклость NLL...............................................................................398
8.8. Оптимизация черного ящика и оптимизация без использования
производных..............................................................................................................399
8.9. Упражнения.........................................................................................................399
Часть II. ЛИНЕЙНЫЕ МОДЕЛИ................................................................400
Глава 9. Линейный дискриминантный анализ.....................................401
9.1. Введение..............................................................................................................401
9.2. Гауссов дискриминантный анализ..................................................................401
9.2.1. Квадратичные решающие границы.........................................................402
9.2.2. Линейные решающие границы................................................................403
9.2.3. Связь между ЛДА и логистической регрессией......................................403
9.2.4. Обучение модели........................................................................................405
9.2.4.1. Связанные ковариационные матрицы............................................406
9.2.4.2. Диагональные ковариационные матрицы......................................406
9.2.4.3. Оценка MAP..........................................................................................406
9.2.5. Классификатор по ближайшему центроиду...........................................407
9.2.6. Линейный дискриминантный анализ Фишера*....................................407
9.2.6.1. Нахождение оптимального одномерного направления...............409
9.2.6.2. Обобщение на большую размерность и несколько классов.........411
9.3. Наивные байесовские классификаторы.........................................................412
9.3.1. Примеры моделей.......................................................................................413
9.3.2. Обучение модели........................................................................................413
9.3.3. Байесовская интерпретация наивной байесовской модели................415
9.3.4. Связь между наивной байесовской моделью и логистической
регрессией..............................................................................................................416
9.4. Порождающие и дискриминантные классификаторы.................................417
9.4.1. Преимущества дискриминантных классификаторов...........................417
9.4.2. Преимущества порождающих классификаторов..................................418
9.4.3. Обработка отсутствующих признаков.....................................................419
9.5. Упражнения.........................................................................................................419
Глава 10. Логистическая регрессия...........................................................420
10.1. Введение............................................................................................................420
10.2. Бинарная логистическая регрессия...............................................................420
10.2.1. Линейные классификаторы....................................................................421
10.2.2. Нелинейные классификаторы................................................................422
10.2.3. Оценка максимального правдоподобия...............................................423
10.2.3.1. Целевая функция...............................................................................423
10.2.3.2. Оптимизация целевой функции.....................................................424
10.2.3.3. Вывод градиента................................................................................425
10.2.3.4. Вывод гессиана..................................................................................426
10.2.4. Стохастический градиентный спуск......................................................427
10.2.5. Алгоритм перцептрона............................................................................427
10.2.6. Метод наименьших квадратов с итеративным пересчетом
весов........................................................................................................................428
10.2.7. Оценка MAP...............................................................................................430
10.2.8. Стандартизация........................................................................................431
10.3. Мультиномиальная логистическая регрессия.............................................432
10.3.1. Линейные и нелинейные классификаторы..........................................433
10.3.2. Оценка максимального правдоподобия...............................................433
10.3.2.1. Целевая функция...............................................................................434
10.3.2.2. Оптимизация целевой функции.....................................................434
10.3.2.3. Вывод градиента................................................................................434
10.3.2.4. Вывод гессиана..................................................................................435
10.3.3. Градиентная оптимизация......................................................................436
10.3.4. Граничная оптимизация..........................................................................436
10.3.5. Оценка MAP...............................................................................................438
10.3.6. Классификаторы максимальной энтропии..........................................439
10.3.7. Иерархическая классификация...............................................................440
10.3.8. Работа с большим числом классов.........................................................440
10.3.8.1. Иерархическая softmax-модель.......................................................441
10.3.8.2. Несбалансированность классов и длинный хвост........................441
10.4. Робастная логистическая регрессия*............................................................443
10.4.1. Смесовая модель правдоподобия...........................................................443
10.4.2. Дважды смягченная потеря....................................................................444
10.5. Байесовская логистическая регрессия*........................................................447
10.5.1. Аппроксимация Лапласа.........................................................................447
10.5.2. Аппроксимация апостериорного прогнозного распределения........449
10.5.2.1. Аппроксимация Монте-Карло.........................................................451
10.5.2.2. Пробит-аппроксимация...................................................................451
10.6. Упражнения.......................................................................................................452
Глава 11. Линейная регрессия.....................................................................455
11.1. Введение............................................................................................................455
11.2. Линейная регрессия по методу наименьших квадратов...........................455
11.2.1. Терминология............................................................................................455
11.2.2. Оценивание по методу наименьших квадратов..................................457
11.2.2.1. Обыкновенный метод наименьших квадратов............................457
11.2.2.2. Геометрическая интерпретация метода наименьших
квадратов...........................................................................................................458
11.2.2.3. Алгоритмические проблемы...........................................................460
11.2.2.4. Метод взвешенных наименьших квадратов.................................461
11.2.3. Другие подходы к вычислению MLE......................................................461
11.2.3.1. Нахождение смещения и углового коэффициента
по отдельности..................................................................................................461
11.2.3.2. Простая линейная регрессия (одномерные входные
данные)..............................................................................................................462
11.2.3.3. Частная регрессия.............................................................................462
11.2.3.4. Рекурсивное вычисление MLE.........................................................462
11.2.3.5. Вывод MLE с порождающей точки зрения....................................464
11.2.3.6. Вывод MLE для σ2.................................................................................................................. 465
11.2.4. Измерение степени согласия оценки....................................................465
11.2.4.1. Графики невязок................................................................................465
11.2.4.2. Точность предсказания и R2.............................................................466
11.3. Гребневая регрессия....................................................................................467
11.3.1. Вычисление оценки MAP.........................................................................467
11.3.1.1. Решение с использованием QR-разложения.................................468
11.3.1.2. Решение с использованием сингулярного разложения..............469
11.3.2. Связь между гребневой регрессией и PCA............................................469
11.3.3. Выбор силы регуляризатора...................................................................471
11.4. Регрессия lasso..................................................................................................471
11.4.1. Оценка MAP с априорным распределением Лапласа
(𝓁1-регуляризация)................................................................................................472
11.4.2. Почему 𝓁1-регуляризация дает разреженные решения?....................473
11.4.3. Жесткие и мягкие пороги........................................................................474
11.4.4. Путь регуляризации.................................................................................476
11.4.5. Сравнение методов наименьших квадратов, lasso, гребневой
регрессии и выбора подмножеств......................................................................478
11.4.6. Согласованность выбора переменных..................................................479
11.4.7. Групповое lasso..........................................................................................481
11.4.7.1. Приложения........................................................................................481
11.4.7.2. Штрафование по норме 𝓁2................................................................482
11.4.7.3. Штрафование по норме 𝓁¥...............................................................482
11.4.7.4. Пример................................................................................................483
11.4.8. Эластичная сеть (комбинация гребневой регрессии и lasso).............484
11.4.9. Алгоритмы оптимизации........................................................................485
11.4.9.1. Покоординатный спуск....................................................................485
11.4.9.2. Спроецированный градиентный спуск.........................................486
11.4.9.3. Проксимальный градиентный спуск..............................................486
11.4.9.4. LARS.....................................................................................................486
11.5. Регрессионные сплайны*................................................................................487
11.5.1. B-сплайны в качестве базисных функций............................................488
11.5.2. Обучение линейно модели с помощью сплайнового базиса.............489
11.5.3. Сглаживающие сплайны..........................................................................490
11.5.4. Обобщенные аддитивные модели.........................................................490
11.6. Робастная линейная регрессия*.....................................................................491
11.6.1. Правдоподобие Лапласа..........................................................................491
11.6.1.1. Вычисление MLE методами линейного программирования......492
11.6.2. t-правдоподобие Стьюдента...................................................................493
11.6.3. Функция потерь Хьюбера........................................................................493
11.6.4. RANSAC.......................................................................................................494
11.7. Байесовская линейная регрессия*.................................................................494
11.7.1. Априорные распределения......................................................................494
11.7.2. Апостериорные распределения..............................................................495
11.7.3. Пример........................................................................................................495
11.7.4. Вычисление апостериорного прогнозного распределения................497
11.7.5. Преимущество центрирования...............................................................498
11.7.6. Мультиколлинеарность............................................................................499
11.7.7. Автоматическое определение релевантности (ARD)*.........................501
11.8. Упражнения.......................................................................................................502
Глава 12. Обобщенные линейные модели*..........................................505
12.1. Введение............................................................................................................505
12.2. Примеры............................................................................................................506
12.2.1. Линейная регрессия.................................................................................506
12.2.2. Биномиальная регрессия.........................................................................506
12.2.3. Регрессия Пуассона...................................................................................507
12.3. GLM с неканоническими функциями связи................................................508
12.4. Оценка максимального правдоподобия.......................................................509
12.5. Рабочий пример: предсказание обращений за страховыми
выплатами..................................................................................................................510
Часть III. ГЛУБОКИЕ НЕЙРОННЫЕ СЕТИ.........................................513
Глава 13. Нейронные сети для структурированных данных.......514
13.1. Введение............................................................................................................514
13.2. Многослойные перцептроны (МСП).............................................................516
13.2.1. Задача XOR.................................................................................................516
13.2.2. Дифференцируемые МСП.......................................................................517
13.2.3. Функции активации.................................................................................518
13.2.4. Примеры моделей.....................................................................................519
13.2.4.1. МСП для классификации двумерных данных
по двум категориям.........................................................................................519
13.2.4.2. МСП для классификации изображений.........................................520
13.2.4.3. МСП для классификации текстов....................................................522
13.2.4.4. МСП для гетероскедастической регрессии....................................523
13.2.5. Важность глубины.....................................................................................524
13.2.6. Революция глубокого обучения..............................................................525
13.2.7. Связи с биологией.....................................................................................526
13.3. Обратное распространение............................................................................529
13.3.1. Прямой и обратный режим дифференцирования...............................530
13.3.2. Дифференцирование в обратном режиме для многослойных
перцептронов........................................................................................................531
13.3.3. Произведение вектора на якобиан для типичных слоев....................533
13.3.3.1. Слой перекрестной энтропии..........................................................533
13.3.3.2. Поэлементная нелинейность...........................................................534
13.3.3.3. Линейный слой..................................................................................535
13.3.3.4. Соберем все вместе...........................................................................536
13.3.4. Графы вычислений...................................................................................536
13.4. Обучение нейронных сетей............................................................................538
13.4.1. Настройка скорости обучения................................................................539
13.4.2. Исчезающие и взрывные градиенты.....................................................539
13.4.3. Функции активации без насыщения.....................................................540
13.4.3.1. ReLU.....................................................................................................542
13.4.3.2. ReLU без насыщения.........................................................................542
13.4.3.3. Другие варианты...............................................................................543
13.4.4. Остаточные связи.....................................................................................544
13.4.5. Инициализация параметров...................................................................545
13.4.5.1. Эвристические схемы инициализации..........................................545
13.4.5.2. Инициализации, управляемые данными......................................546
13.4.6. Параллельное обучение...........................................................................546
13.5. Регуляризация..................................................................................................548
13.5.1. Ранняя остановка......................................................................................548
13.5.2. Уменьшение весов....................................................................................548
13.5.3. Разреженные ГНС.....................................................................................548
13.5.4. Прореживание...........................................................................................549
13.5.5. Байесовские нейронные сети.................................................................551
13.5.6. Эффекты регуляризации, порождаемые стохастическим
градиентным спуском*........................................................................................551
13.6. Другие виды сетей прямого распространения*..........................................553
13.6.1. Сети радиально-базисных функций......................................................553
13.6.1.1. RBF-сеть для регрессии....................................................................554
13.6.1.2. RBF-сеть для классификации...........................................................554
13.6.2. Смесь экспертов........................................................................................555
13.6.2.1. Смесь линейных экспертов..............................................................558
13.6.2.2. Глубокие сети экспертов..................................................................558
13.6.2.3. Иерархические смеси экспертов.....................................................559
13.7. Упражнения.......................................................................................................559
Глава 14. Нейронные сети для изображений......................................561
14.1. Введение............................................................................................................561
14.2. Наиболее употребительные слои...................................................................563
14.2.1. Сверточные слои.......................................................................................563
14.2.1.1. Свертка в одномерном случае.........................................................563
14.2.1.2. Свертка в двумерном случае...........................................................564
14.2.1.3. Свертка как умножение матрицы на вектор.................................565
14.2.1.4. Граничные условия и дополнение..................................................566
14.2.1.5. Свертка с шагом.................................................................................568
14.2.1.6. Несколько входных и выходных каналов......................................568
14.2.1.7. Свертка 1´1 (поточечная)................................................................569
14.2.2. Пулинговые слои.......................................................................................569
14.2.3. Соберем все вместе...................................................................................571
14.2.4. Слои нормировки.....................................................................................571
14.2.4.1. Пакетная нормировка.......................................................................572
14.2.4.2. Другие виды слоя нормировки........................................................573
14.2.4.3. Сети без нормировки........................................................................575
14.3. Распространенные архитектуры классификации изображений..............575
14.3.1. LeNet...........................................................................................................575
14.3.2. AlexNet........................................................................................................577
14.3.3. GoogLeNet..................................................................................................578
14.3.4. ResNet.........................................................................................................579
14.3.5. DenseNet.....................................................................................................581
14.3.6. Поиск архитектуры нейронной сети.....................................................581
14.4. Другие формы свертки*..................................................................................582
14.4.1. Дырявая свертка.......................................................................................582
14.4.2. Транспонированная свертка...................................................................583
14.4.3. Пространственная раздельная свертка.................................................584
14.5. Решение других дискриминантных задач компьютерного зрения
с помощью СНС*.......................................................................................................585
14.5.1. Аннотирование изображений.................................................................586
14.5.2. Определение объектов.............................................................................586
14.5.3. Сегментация экземпляров......................................................................588
14.5.4. Семантическая сегментация...................................................................589
14.5.5. Оценивание позы человека....................................................................590
14.6. Генерирование изображений посредством инвертирования СНС*.........591
14.6.1. Преобразование обученного классификатора в порождающую
модель....................................................................................................................592
14.6.2. Априорные распределения изображений.............................................592
14.6.2.1. Гауссово априорное распределения...............................................593
14.6.2.2. Априорное распределение на основе полной вариации............594
14.6.3. Визуализация признаков, обученных с помощью СНС......................595
14.6.4. Deep Dream.................................................................................................595
14.6.5. Нейронный перенос стиля......................................................................597
14.6.5.1. Как это работает................................................................................598
14.6.5.2. Ускорение метода..............................................................................600
Глава 15. Нейронные сети для последовательностей.....................602
15.1. Введение............................................................................................................602
15.2. Рекуррентные нейронные сети (РНС)...........................................................602
15.2.1. Vec2Seq (генерирование последовательностей)..................................602
15.2.1.1. Модели................................................................................................603
15.2.1.2. Приложения.......................................................................................604
15.2.2. Seq2Vec (классификация последовательностей)..................................606
15.2.3. Seq2Seq (трансляция последовательностей)........................................607
15.2.3.1. Выровненный случай........................................................................607
15.2.3.2. Невыровненный случай...................................................................608
15.2.4. Принуждение со стороны учителя.........................................................609
15.2.5. Обратное распространение во времени...............................................610
15.2.6. Исчезающие и взрывные градиенты.....................................................612
15.2.7. Вентильная и долгосрочная память.......................................................612
15.2.7.1. Управляемые рекуррентные блоки (GRU)......................................612
15.2.7.2. Долгая краткосрочная память (LSTM)............................................613
15.2.8. Лучевой поиск...........................................................................................615
15.3. Одномерные СНС.............................................................................................617
15.3.1. Применение одномерных СНС для классификации
последовательностей...........................................................................................618
15.3.2. Применение каузальных одномерных СНС для генерирования
последовательностей...........................................................................................618
15.4. Модель внимания.............................................................................................620
15.4.1. Механизм внимания как мягкий поиск в словаре..............................620
15.4.2. Ядерная регрессия как непараметрическое внимание......................622
15.4.3. Параметрическое внимание...................................................................623
15.4.4. Модель Seq2Seq с вниманием.................................................................624
15.4.5. Модель Seq2vec с вниманием (классификация текста).......................626
15.4.6. Модель Seq+Seq2Vec с вниманием (классификация пар
предложений)........................................................................................................627
15.4.7. Мягкое и жесткое внимание....................................................................629
15.5. Трансформеры..................................................................................................629
15.5.1. Самовнимание..........................................................................................630
15.5.2. Многопутевое внимание.........................................................................632
15.5.3. Позиционное кодирование.....................................................................632
15.5.4. Соберем все вместе...................................................................................634
15.5.5. Сравнение трансформеров, СНС и HYC................................................636
15.5.6. Применение трансформеров для изображений*.................................636
15.5.7. Другие варианты трансформеров*.........................................................638
15.6. Эффективные трансформеры*.......................................................................639
15.6.1. Фиксированные необучаемые локализованные паттерны
внимания...............................................................................................................639
15.6.2. Обучаемые паттерны разреженного внимания...................................640
15.6.3. Методы с добавлением памяти и рекуррентные методы..................640
15.6.4. Низкоранговые и ядерные методы........................................................640
15.7. Языковые модели и обучение представлений без учителя.......................643
15.7.1. ELMo............................................................................................................643
15.7.2. BERT.............................................................................................................644
15.7.2.1. Замаскированная языковая модель................................................645
15.7.2.2. Задача предсказания следующего предложения..........................645
15.7.2.3. Дообучение BERT для приложений NLP.........................................647
15.7.3. GPT..............................................................................................................649
15.7.3.1. Приложения GPT................................................................................649
15.7.4. T5.................................................................................................................649
15.7.5. Обсуждение................................................................................................650
Часть IV. НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ...................................652
Глава 16. Методы на основе эталонов....................................................653
16.1. Классификация методом K ближайших соседей (KNN).............................653
16.1.1. Пример.......................................................................................................654
16.1.2. Проклятие размерности..........................................................................655
16.1.3. Снижение требований к скорости и памяти........................................656
16.1.4. Распознавание открытого множества...................................................657
16.1.4.1. Онлайновое обучение, обнаружение посторонних
и распознавание открытого множества........................................................657
16.1.4.2. Другие задачи открытого мира.......................................................658
16.2. Обучение метрик.............................................................................................658
16.2.1. Линейные и выпуклые методы...............................................................659
16.2.1.1. Метод ближайших соседей с большим зазором...........................659
16.2.1.2. Анализ компонентов соседства.......................................................660
16.2.1.3. Анализ латентных совпадений.......................................................660
16.2.2. Глубокое обучение метрики....................................................................661
16.2.3. Потери классификации............................................................................662
16.2.4. Потери ранжирования.............................................................................662
16.2.4.1. Попарная (сопоставительная) потеря и сиамские сети...............663
16.2.4.2. Триплетная потеря............................................................................663
16.2.4.3. N-парная потеря................................................................................664
16.2.5. Ускорение оптимизации потери ранжирования.................................665
16.2.5.1. Добычные методы.............................................................................665
16.2.5.2. Методы на основе представителей.................................................665
16.2.5.3. Оптимизация верхней границы......................................................666
16.2.6. Другие приемы глубокого обучения метрики......................................668
16.3. Ядерные оценки плотности............................................................................669
16.3.1. Ядра плотности.........................................................................................669
16.3.2. Оконная оценка плотности Парцена.....................................................670
16.3.3. Как выбирать полосу пропускания........................................................672
16.3.4. От KDE к KNN-классификации...............................................................672
16.3.5. Ядерная регрессия....................................................................................673
16.3.5.1. Оценка среднего Надарая–Ватсона................................................673
16.3.5.2. Оценка дисперсии.............................................................................675
16.3.5.3. Локально взвешенная регрессия.....................................................675
Глава 17. Ядерные методы*...........................................................................676
17.1. Ядра Мерсера.....................................................................................................676
17.1.1. Теорема Мерсера.......................................................................................678
17.1.2. Некоторые популярные ядра Мерсера...................................................678
17.1.2.1. Стационарные ядра для вещественных векторов........................678
17.1.2.2. Создание новых ядер из существующих........................................681
17.1.2.3. Комбинирование ядер с помощью сложения и умножения.......682
17.1.2.4. Ядра для структурированных входов.............................................683
17.2. Гауссовы процессы...........................................................................................683
17.2.1. Незашумленные наблюдения..................................................................684
17.2.2. Зашумленные наблюдения......................................................................685
17.2.3. Сравнение с ядерной регрессией...........................................................686
17.2.4. Пространство весов и пространство функций......................................687
17.2.5. Численные проблемы...............................................................................688
17.2.6. Оценивание параметров ядра.................................................................688
17.2.6.1. Эмпирическая байесовская оценка................................................689
17.2.6.2. Байесовский вывод............................................................................691
17.2.7. Применение гауссовых процессов для классификации......................692
17.2.8. Связи с глубоким обучением...................................................................694
17.2.9. Масштабирование ГП на большие наборы данных.............................694
17.2.9.1. Разреженные аппроксимации.........................................................694
17.2.9.2. Распараллеливание с использованием структуры ядерной
матрицы.............................................................................................................694
17.2.9.3. Аппроксимация случайными признаками....................................695
17.3. Метод опорных векторов................................................................................696
17.3.1. Классификаторы с широким зазором....................................................697
17.3.2. Двойственная задача................................................................................699
17.3.3. Классификаторы с мягким зазором.......................................................701
17.3.4. Ядерный трюк............................................................................................702
17.3.5. Преобразование выходов SVM в вероятности......................................703
17.3.6. Связь с логистической регрессией.........................................................704
17.3.7. Многоклассовая классификация с применением SVM........................705
17.3.8. Как выбирать регуляризатор C...............................................................706
17.3.9. Ядерная гребневая регрессия..................................................................707
17.3.10. Применение SVM для регрессии...........................................................708
17.4. Метод разреженных векторов........................................................................711
17.4.1. Метод релевантных векторов.................................................................711
17.4.2. Сравнение разреженных и плотных ядерных методов......................711
17.5. Упражнения.......................................................................................................715
Глава 18. Деревья, леса, бэггинг и бустинг............................................716
18.1. Деревья классификации и регрессии............................................................716
18.1.1. Определение модели................................................................................716
18.1.2. Обучение модели......................................................................................717
18.1.3. Регуляризация...........................................................................................719
18.1.4. Обработка отсутствующих входных признаков..................................720
18.1.5. Плюсы и минусы.......................................................................................720
18.2. Ансамблевое обучение....................................................................................721
18.2.1. Стековое обобщение................................................................................722
18.2.2. Ансамблевое обучение не то же, что байесовское усреднение
моделей..................................................................................................................722
18.3. Бэггинг...............................................................................................................723
18.4. Случайные леса................................................................................................724
18.5. Бустинг...............................................................................................................725
18.5.1. Прямое поэтапное аддитивное моделирование..................................726
18.5.2. Квадратичная потеря и бустинг наименьших квадратов...................727
18.5.3. Экспоненциальная потеря и AdaBoost..................................................727
18.5.4. LogitBoost...................................................................................................731
18.5.5. Градиентный бустинг...............................................................................732
18.5.5.1. Градиентный бустинг деревьев.......................................................734
18.5.5.2. XGBoost...............................................................................................734
18.6. Интерпретация ансамблей деревьев............................................................736
18.6.1. Важность признаков.................................................................................736
18.6.2. Графики частичной зависимости...........................................................738
Часть V. ЗА ПРЕДЕЛАМИ ОБУЧЕНИЯ С УЧИТЕЛЕМ.................739
Глава 19. Обучение при меньшем числе помеченных
примеров................................................................................................................740
19.1. Приращение данных........................................................................................740
19.1.1. Примеры....................................................................................................740
19.1.2. Теоретическое обоснование....................................................................741
19.2. Перенос обучения............................................................................................742
19.2.1. Дообучение................................................................................................742
19.2.2. Адаптеры....................................................................................................744
19.2.3. Предобучение с учителем........................................................................745
19.2.4. Предобучение без учителя (самостоятельное обучение)...................746
19.2.4.1. Задачи подстановки..........................................................................747
19.2.4.2. Замещающие задачи.........................................................................748
19.2.4.3. Сопоставительные задачи................................................................748
19.2.4.4. SimCLR.................................................................................................748
19.2.4.5. CLIP......................................................................................................751
19.2.5. Адаптация домена....................................................................................752
19.3. Обучение с частичным привлечением учителя..........................................753
19.3.1. Самообучение и псевдопометка............................................................754
19.3.2. Минимизация энтропии..........................................................................755
19.3.2.1. Кластерное допущение.....................................................................756
19.3.2.2. Взаимная информация между входом и выходом.......................757
19.3.3. Совместное обучение...............................................................................758
19.3.4. Распространение меток на графах.........................................................759
19.3.5. Регуляризация по согласованности.......................................................760
19.3.6. Глубокие порождающие модели*...........................................................762
19.3.6.1. Вариационные автокодировщики..................................................763
19.3.6.2. Порождающие состязательные сети...............................................765
19.3.6.3. Нормализующие потоки..................................................................766
19.3.7. Сочетание самостоятельного обучения и обучения
с частичным привлечением учителя.................................................................767
19.4. Активное обучение..........................................................................................768
19.4.1. Подход на основе теории принятия решений......................................769
19.4.2. Теоретико-информационный подход...................................................769
19.4.3. Пакетное активное обучение..................................................................770
19.5. Метаобучение...................................................................................................770
19.5.1. Метаобучение, не зависящее от модели (MAML).................................771
19.6. Обучение на малом числе примеров............................................................772
19.6.1. Сопоставляющие сети..............................................................................773
19.7. Обучение со слабым учителем.......................................................................774
19.8. Упражнения.......................................................................................................775
Глава 20. Понижение размерности...........................................................776
20.1. Метод главных компонент.............................................................................776
20.1.1. Примеры....................................................................................................777
20.1.2. Вывод алгоритма......................................................................................779
20.1.2.1. Базовый случай..................................................................................779
20.1.2.2. Оптимальный вектор весов максимизирует дисперсию
спроецированных данных..............................................................................780
20.1.2.3. Шаг индукции....................................................................................781
20.1.3. Вычислительные трудности....................................................................782
20.1.3.1. Ковариационная матрица и корреляционная матрица..............782
20.1.3.2. Работа с данными высокой размерности......................................783
20.1.3.3. Вычисление PCA с использованием SVD.......................................783
20.1.4. Выбор числа латентных измерений......................................................784
20.1.4.1. Ошибка реконструкции....................................................................784
20.1.4.2. Графики каменистой осыпи............................................................785
20.1.4.3. Правдоподобие профиля..................................................................785
20.2. Факторный анализ*.........................................................................................787
20.2.1. Порождающая модель..............................................................................787
20.2.2. Вероятностный PCA..................................................................................789
20.2.3. EM-алгоритм для ФА/PPCA.....................................................................790
20.2.3.1. EM-алгоритм для ФА.........................................................................791
20.2.3.2. EM-алгоритм для (P)PCA..................................................................791
20.2.3.3. Преимущества....................................................................................792
20.2.4. Неидентифицируемость параметров....................................................794
20.2.5. Нелинейный факторный анализ............................................................795
20.2.6. Смеси факторных анализаторов............................................................795
20.2.7. Факторный анализ экспоненциального семейства.............................797
20.2.7.1. Пример: бинарный PCA....................................................................798
20.2.7.2. Пример: категориальный PCA.........................................................798
20.2.8. Модели факторного анализа для парных данных...............................799
20.2.8.1. PCA с учителем...................................................................................799
20.2.8.2. Метод частичных наименьших квадратов....................................800
20.2.8.3. Канонический корреляционный анализ.......................................801
20.3. Автокодировщики............................................................................................802
20.3.1. Автокодировщики с сужением...............................................................802
20.3.2. Шумоподавляющие автокодировщики.................................................804
20.3.3. Сжимающие автокодировщики..............................................................806
20.3.4. Разреженные автокодировщики............................................................806
20.3.5. Вариационные автокодировщики.........................................................808
20.3.5.1. Обучение VAE.....................................................................................809
20.3.5.2. Перепараметризация........................................................................809
20.3.5.3. Сравнение VAE с автокодировщиками..........................................811
20.4. Обучение многообразий*...............................................................................813
20.4.1. Что такое многообразие?.........................................................................813
20.4.2. Гипотеза многообразия...........................................................................814
20.4.3. Подходы к обучению многообразий......................................................815
20.4.4. Многомерное шкалирование..................................................................816
20.4.4.1. Классическое ММШ...........................................................................816
20.4.4.2. Метрическое ММШ............................................................................817
20.4.4.3. Неметрическое ММШ........................................................................818
20.4.4.4. Отображение Саммона.....................................................................818
20.4.5. Isomap.........................................................................................................819
20.4.6. Ядерный PCA.............................................................................................820
20.4.7. Максимальное раскрытие дисперсии....................................................822
20.4.8. Локально линейное погружение............................................................823
20.4.9. Лапласовы собственные отображения..................................................824
20.4.9.1. Использование собственных векторов лапласиана графа
для вычисления погружений..........................................................................824
20.4.9.2. Что такое лапласиан графа?.............................................................825
20.4.10. t-SNE.........................................................................................................827
20.4.10.1. Стохастическое погружение соседей............................................827
20.4.10.2. Симметричное SNE.........................................................................829
20.4.10.3. SNE с t-распределением.................................................................829
20.4.10.4. Выбор линейного масштаба..........................................................830
20.4.10.5. Вычислительные проблемы...........................................................831
20.4.10.6. UMAP.................................................................................................831
20.5. Погружения слов..............................................................................................832
20.5.1. Латентно-семантический анализ и индексирование.........................832
20.5.1.1. Латентно-семантическое индексирование...................................832
20.5.1.2. Латентно-семантический анализ...................................................833
20.5.1.3. Поточечная взаимная информация...............................................834
20.5.2. Word2vec.....................................................................................................835
20.5.2.1. Модель Word2vec CBOW....................................................................835
20.5.2.2. Скипграммная модель Word2vec....................................................835
20.5.2.3. Отрицательная выборка...................................................................836
20.5.3. GloVE...........................................................................................................837
20.5.4. Аналогичные слова...................................................................................838
20.5.5. Модель погружений слов RAND-WALK..................................................839
20.5.6. Контекстуальные погружения слов........................................................840
20.6. Упражнения.......................................................................................................840
Глава 21. Кластеризация.................................................................................843
21.1. Введение............................................................................................................843
21.1.1. Оценивание выхода методов кластеризации......................................843
21.1.1.1. Чистота................................................................................................844
21.1.1.2. Индекс Рэнда......................................................................................844
21.1.1.3. Взаимная информация.....................................................................845
21.2. Иерархическая агломеративная кластеризация.........................................846
21.2.1. Алгоритм....................................................................................................847
21.2.1.1. Одиночная связь................................................................................848
21.2.1.2. Полная связь.......................................................................................848
21.2.1.3. Средняя связь.....................................................................................849
21.2.2. Пример.......................................................................................................849
21.2.3. Расширения...............................................................................................850
21.3. Кластеризация методом K средних...............................................................851
21.3.1. Алгоритм....................................................................................................851
21.3.2. Примеры....................................................................................................852
21.3.2.1. Кластеризация точек на плоскости................................................852
21.3.2.2. Кластеризация временных рядов экспрессии генов
дрожжей.............................................................................................................852
21.3.3. Векторное квантование...........................................................................853
21.3.4. Алгоритм K-means++................................................................................854
21.3.5. Алгоритм K медоидов..............................................................................855
21.3.6. Способы ускорения...................................................................................856
21.3.7. Выбор числа кластеров K.........................................................................857
21.3.7.1. Минимизация искажения.................................................................857
21.3.7.2. Максимизация маргинального правдоподобия...........................857
21.3.7.3. Силуэтный коэффициент.................................................................858
21.3.7.4. Инкрементное увеличение количества компонент смеси..........860
21.3.7.5. Методы разреженного оценивания................................................860
21.4. Кластеризация с помощью смесовых моделей...........................................860
21.4.1. Смеси гауссовых распределений............................................................860
21.4.1.1. Метод K средних – частный случай EM-алгоритма......................861
21.4.1.2. Неидентифицируемость и переключение метки.........................861
21.4.1.3. Байесовский выбор модели.............................................................864
21.4.2. Смеси распределений Бернулли............................................................865
21.5. Спектральная кластеризация*.......................................................................865
21.5.1. Нормализованные разрезы.....................................................................866
21.5.2. Собственные векторы лапласиана графа кодируют
кластеризацию......................................................................................................866
21.5.3. Пример.......................................................................................................867
21.5.4. Связь с другими методами......................................................................868
21.5.4.1. Связь с kPCA.......................................................................................868
21.5.4.2. Связь с анализом случайного блуждания......................................868
21.6. Бикластеризация*............................................................................................869
21.6.1. Базовая бикластеризация........................................................................869
21.6.2. Модели вложенного разбиения (Crosscat)............................................870
Глава 22. Рекомендательные системы....................................................873
22.1. Явная обратная связь......................................................................................873
22.1.1. Наборы данных.........................................................................................874
22.1.2. Коллаборативная фильтрация................................................................874
22.1.3. Матричная факторизация.......................................................................875
22.1.3.1. Вероятностная матричная факторизация.....................................876
22.1.3.2. Пример: Netflix..................................................................................876
22.1.3.3. Пример: MovieLens............................................................................877
22.1.4. Автокодировщики....................................................................................878
22.2. Неявная обратная связь..................................................................................879
22.2.1. Байесовское персонализированное ранжирование............................880
22.2.2. Машины факторизации...........................................................................881
22.2.3. Нейронная матричная факторизация...................................................882
22.3. Использование побочной информации.......................................................882
22.4. Компромисс между исследованием и использованием.............................884
Глава 23. Погружения графов*....................................................................885
23.1. Введение............................................................................................................885
23.2. Погружение графа как задача о кодировщике и декодере........................887
23.3. Поверхностные погружения графов.............................................................889
23.3.1. Обучение погружений без учителя........................................................889
23.3.2. На основе расстояния: евклидовы методы...........................................890
23.3.3. На основе расстояния: неевклидовы методы.......................................890
23.3.4. На основе внешнего произведения: методы матричной
факторизации........................................................................................................891
23.3.5. На основе внешнего произведения: скипграммные методы............892
23.3.6. Обучение погружений с учителем.........................................................894
23.3.6.1. Распространение меток....................................................................894
23.4. Графовые нейронные сети..............................................................................895
23.4.1. Графовые нейронные сети передачи сообщений................................895
23.4.2. Спектральные свертки графов...............................................................897
23.4.3. Пространственные свертки графов.......................................................897
23.4.3.1. Выборочные пространственные методы.......................................898
23.4.3.2. Пространственные методы на основе механизма внимания.....898
23.4.3.3. Геометрические пространственные методы.................................899
23.4.4. Неевклидовы графовые свертки............................................................899
23.5. Глубокие погружения графов.........................................................................900
23.5.1. Обучение погружений без учителя........................................................900
23.5.1.1. Структурное погружение с помощью глубокой сети...................900
23.5.1.2. Вариационные графовые автокодировщики................................901
23.5.1.3. Итеративное порождающее моделирование графов
(Graphite)............................................................................................................902
23.5.1.4. Методы на основе сопоставительных потерь...............................902
23.5.2. Обучение погружений с частичным привлечением учителя............903
23.5.2.1. SemiEmb..............................................................................................903
23.5.2.2. Planetoid..............................................................................................903
23.6. Приложения......................................................................................................904
23.6.1. Приложения без учителя.........................................................................904
23.6.1.1. Реконструкция графа........................................................................904
23.6.1.2. Предсказание связей.........................................................................905
23.6.1.3. Кластеризация...................................................................................906
23.6.1.4. Визуализация.....................................................................................906
23.6.2. Приложения с учителем..........................................................................907
23.6.2.1. Классификация вершин...................................................................907
23.6.2.2. Классификация графов.....................................................................907
Приложение А. Обозначения........................................................................909
A.1. Введение.............................................................................................................909
A.2. Общепринятые математические символы....................................................909
A.3. Функции..............................................................................................................910
A.3.1. Функции с одним аргументом.................................................................910
A.3.2. Функции двух аргументов........................................................................910
A.3.3. Функции более двух аргументов.............................................................911
A.4. Линейная алгебра..............................................................................................911
A.4.1. Общие обозначения...................................................................................911
A.4.2. Векторы........................................................................................................911
A.4.3. Матрицы......................................................................................................912
A.4.4. Матричное исчисление.............................................................................912
A.5. Оптимизация.....................................................................................................913
A.6. Вероятность........................................................................................................913
A.7. Теория информации..........................................................................................914
A.8. Статистика и машинное обучение..................................................................915
A.8.1. Обучение с учителем.................................................................................915
A.8.2. Обучение без учителя и порождающие модели....................................915
A.8.3. Байесовский вывод....................................................................................916
A.9. Аббревиатуры....................................................................................................916
Предметный указатель....................................................................................918
Download
Rutracker.org не распространяет и не хранит электронные версии произведений, а лишь предоставляет доступ к создаваемому пользователями каталогу ссылок на торрент-файлы, которые содержат только списки хеш-сумм
Как скачивать? (для скачивания .torrent файлов необходима регистрация)
[Профиль]  [ЛС] 

jane_2000

Стаж: 14 лет 11 месяцев

Сообщений: 147


jane_2000 · 07-Янв-24 15:51 (спустя 11 месяцев, ред. 07-Янв-24 15:51)

А второй том будет?
Сам себе отвечу.
2 том будет называться ВЕРОЯТНОСТНОЕ МАШИННОЕ ОБУЧЕНИЕ. ДОПОЛНИТЕЛЬНЫЕ ТЕМЫ и выйдет в марте 2024 года
[Профиль]  [ЛС] 

eugenk1

Стаж: 16 лет 4 месяца

Сообщений: 362

eugenk1 · 07-Янв-24 22:39 (спустя 6 часов)

jane_2000 писал(а):
85705631А второй том будет?
Сам себе отвечу.
2 том будет называться ВЕРОЯТНОСТНОЕ МАШИННОЕ ОБУЧЕНИЕ. ДОПОЛНИТЕЛЬНЫЕ ТЕМЫ и выйдет в марте 2024 года
Спасибо ! Очень бы хотелось...
[Профиль]  [ЛС] 

jane_2000

Стаж: 14 лет 11 месяцев

Сообщений: 147


jane_2000 · 27-Мар-24 13:26 (спустя 2 месяца 19 дней)

Пишу из марта 2024 года. Ожидается в апреле 2024 года. Т.е. скоро.
[Профиль]  [ЛС] 

eugenk1

Стаж: 16 лет 4 месяца

Сообщений: 362

eugenk1 · 27-Мар-24 15:46 (спустя 2 часа 19 мин.)

jane_2000 писал(а):
86064420Пишу из марта 2024 года. Ожидается в апреле 2024 года. Т.е. скоро.
Отличная новость !
[Профиль]  [ЛС] 

jane_2000

Стаж: 14 лет 11 месяцев

Сообщений: 147


jane_2000 · 22-Апр-24 13:56 (спустя 25 дней)

Англоязычная версия уже вышла, а русский перевод якобы ожидается в июне 2024 года.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error