{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "view-in-github", "colab_type": "text" }, "source": [ "\"Open" ] }, { "cell_type": "markdown", "source": [ "#Лабораторная работа №1" ], "metadata": { "id": "HsvLg8M8ebUX" } }, { "cell_type": "markdown", "metadata": { "id": "VrOocc6D_O7M" }, "source": [ "# Задание\n", "\n", "Необходимо познакомиться с фреймворком машинного обучения PyTorch и выполнить три задания:\n", "1. Обучить полносвязную нейронную сеть классификации 3 классов изображений из набора данных CIFAR100 по варианту с точностью на тестовой выборке не менее 70%. \n", "Для задания нужно сформировать свою подвыборку CIFAR100 по варианту.\n", "2. Преобразовать модель в ONNX и сохранить локально.\n", "3. Протестировать обученную модель на своих изображениях. \n", " * Скачать каталог с html-файлом и встроить в него файл модели, обученной на ЛР.\n", " * Скачать картинки из интернета согласно варианту и открыть их в html по кнопке. Автоматически в скрипте масштабируется изображение.\n", " * Выбрать нужные классы для готовой модели. Проверить на устойчивость полносвязную модель, двигая картинку.\n", "\n", "Лабораторные выполняются на платформе Google Colab - просто перейдите по ссылки в начале ноутбука. Также можно работать с ноубуками лабораторных локально.\n", "\n", "Отчет должен содержать: титульный лист, задание с вариантом, скриншоты и краткие пояснения по каждому этапу лабораторной работы." ] }, { "cell_type": "markdown", "source": [ "#Варианты для Задания\n", "Вы должны использовать следующие классы из CIFAR100:\n", "1. Номер группы\n", "2. Номер варианта\n", "3. Номер варианта + 30" ], "metadata": { "id": "fpq20OpJhje4" } }, { "cell_type": "markdown", "source": [ "#Контрольные вопросы\n", "1. Что такое функция потерь\n", "2. Что такое оптимизатор\n", "3. Что такое активационная функция\n", "4. Полносвязная нейронная сеть\n", "5. Количество нейронов связей и весов в полносвязной нейронной сети\n", "6. Что такое эпоха, итерация, батч обучения\n", "7. Что такое тестовая, обучающая выборка\n", "8. Как устроен набор данных, какие в нем данные и их количество\n", "9. Что такое PyTorch\n", "10. Обучение с учителем\n", "11. Задачи регрессии и классификации" ], "metadata": { "id": "UNO1xJtZdf37" } }, { "cell_type": "markdown", "metadata": { "id": "IKXfCiiWf2MK" }, "source": [ "#Библиотеки:\n", "\n", "* __np__ - библиотека NumPy для работы с многомерными массивами данных\n", "* __pickle__ - библиотека Pickle для сериализации и десериализации структур данных ЯП Python\n", "* __sklearn__ - библиотека, реализующая в основном методы классического машинного обучения и инструменты для работы с ними\n", "* __PIL__ - легковесная библиотека Pillow для работы с изображениями и вывода графических элементов напрямую в Jupyter Notebook\n", "* __matplotlib__ - библиотека для построения графиков, по большей части повторяет API Matlab'a\n", "* __torch__ - библиотека Pytorch для глубокого обучения нейронных сетей" ] }, { "cell_type": "markdown", "metadata": { "id": "MMmc6jvid-XB" }, "source": [ "__Принятые сокращения__: \n", "* torch.nn - nn\n", "* torch.nn.functional - F\n", "* torch.optim - optim\n", "\n", "__Методы__:\n", "* __torch.Tensor__ - cоздает тензор из многомерного массива Numpy и наследует его тип данных. По умолчанию память под тензоры выделяется на CPU. При выставлении флага __requires_grad__ автоматически отслеживает градиенты с помощью движка autograd, который строит динамический вычислительный граф. Включить отслеживания тензора __t__ можно так же при помощи метода __t.requires_grad_(True)__. В таком случае после вызова метода __backward__, в поле __grad__ будут записаны производные. Производные тензора __t__ можно очистить вызовом метода __t.grad.zero_()__. Для того чтобы отсечь ненужные вычисления производных используется метод __detach__, который создаёт копию тензора, при этом флаг __requires_grad__ снимается и отслеживание движком autograd прекращается.\n", "\n", "* __torch.numpy__ - создает многомерный NumPy массив данных из тензора\n", "\n", "* __torch.item__ - возвращает число, но только если ранг тензора 0. В противном случае выдаёт ошибку и следует использовать torch.numpy\n", "\n", "* __torch.uint8__, __torch.int16__, __torch.int64__, __torch.float32__ - приведение массива к новому типу, аналогично NumPy. Для приведения используется метод .to (например `t.to(torch.int64)`). По умолчанию все вычисления на графе производятся в float64, есть также возможность использования mixed precision (что-то во float16, что-то во float64), но это считается продвинутой техникой.\n", "\n", "* __torch.ones__, __torch.zeros__, __torch.transpose__, __torch.reshape__ - API похожий, как у NumPy\n", "\n", "* __torch.rand__ - создание случайного тензора с числами в диапазоне от 0 до 1. Размерность перечисляется через запятую\n", "\n", "* __torch.t__ - транспонирование тензора, похоже на рассмотренный ранее __numpy.transpose__. Если дан тензор X, то можно его транспонировать при помощи `X.t()` \n", "\n", "* __torch.sum__ - суммирование элементов тензора вдоль указанной оси __axis__. Если суммирование производится вдоль последней оси, то разрешается указать вместо номера -1. Для сохранения исходной размерности тензора, необходимо выставить флаг __keepdims__.\n", "\n", "* __torch.maximum__ - производит поэлементное сравнение тензоров и возвращает максимальный из элементов. На практике используется для реализации некоторых функций активации нейронной сети\n", "\n", "* __torch.mm__ - произведение тензоров. Для 2 двухмерных матриц с размерностями (M, N) и (N, K) результатом данного метода будет двухмерная матрица размерностью (M, K)\n", "\n", "* __torch.exp__ - повторяет функционал __numpy.exp__ - поэлементное возведение тензора в степень экспоненты\n", "\n", "* __torch.log__ - поэлементная операция логарифмирования тензора - взятие натурального логарифма, обратная операция потенциирования\n", "\n", "* __torch.flatten__ - аналогично NumPy .reshape(-1), если указан параметр start_dim, то начинает \"выпрямление\" массива начиная с указанного номера. Т.е. для того, чтобы перевести тензор t с формой (100, 32, 32, 3) в форму (100, 3072) достаточно написать `torch.flatten(t, start_dim=1)`\n", "\n", "* __F.one_hot__ - один из многих способов получить горячую кодировку класса в виде PyTorch тензора. Например, для 5 классов, горячая кодировка класса \"4\" будет [0, 0, 0, 1, 0]\n", "\n", "* __torch.utils.data.TensorDataset__ - создание связанных тензоров, например обучающих примеров и соответствующих меток. В качестве аргумента передаются тензоры. Приемлемый способ создания набора данных, когда обучающая выборка некрупная и полностью помещается в оперативной памяти.\n", "\n", "* __torch.utils.data.DataLoader__ - В основе утилиты загрузки данных PyTorch лежит класс DataLoader. Он представляет собой Python объект, повторяющийся по набору данных, с поддержкой набора данных в стиле map и итератора; настройки порядка загрузки данных; автоматического разбиения на минибатчи;загрузки данных в один и несколько процессов/потоков. Самые полезные аргументы в конструкторе - размер мини-батча __batch_size__ и число параллельных процессов __num_workers__. Чтобы перемешать данные (для лучшей сходимости), следует выставить флаг __shuffle__ в True\n", "\n", "* __torch.save__ - сохранение параметров модели на постоянный носитель информации. Для этого первым аргументом передаётся model.state_dict(), где model - обученная нейросетевая модель, а вторым аргументов передаётся путь с именем файла.\n" ] }, { "cell_type": "markdown", "metadata": { "id": "fzjC1ECbdj-Z" }, "source": [ "## Импортирование необходимых библиотек" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "3O2PElov-nod" }, "outputs": [], "source": [ "import numpy as np\n", "import torch\n", "import torch.optim as optim\n", "import torch.nn as nn\n", "import torch.nn.functional as F\n", "from torch.utils.data import TensorDataset, DataLoader\n", "import pickle\n", "from sklearn.metrics import classification_report\n", "from sklearn.datasets import make_circles, make_moons\n", "from PIL import Image\n", "import matplotlib.pyplot as plt\n", "%matplotlib inline" ] }, { "cell_type": "markdown", "metadata": { "id": "OF4X4J8_YlLo" }, "source": [ "# Классификация изображений CIFAR100" ] }, { "cell_type": "markdown", "source": [ "Cifar100 - набор данных,состоящий из цветных изображений (3 цвета) 100 классов.\n", "Размер набора 32 на 32 пикселя." ], "metadata": { "id": "L9a6SxoWvwKs" } }, { "cell_type": "markdown", "metadata": { "id": "4zoT9OgeY7cZ" }, "source": [ "## Загрузка и распаковка набора данных CIFAR100" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "QDPzQmviB8IT", "outputId": "bf8f81ac-4273-4b0d-cd3c-70a02c5d798b" }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "--2022-06-06 12:19:30-- https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz\n", "Resolving www.cs.toronto.edu (www.cs.toronto.edu)... 128.100.3.30\n", "Connecting to www.cs.toronto.edu (www.cs.toronto.edu)|128.100.3.30|:443... connected.\n", "HTTP request sent, awaiting response... 200 OK\n", "Length: 169001437 (161M) [application/x-gzip]\n", "Saving to: ‘cifar-100-python.tar.gz’\n", "\n", "cifar-100-python.ta 100%[===================>] 161.17M 71.8MB/s in 2.2s \n", "\n", "2022-06-06 12:19:33 (71.8 MB/s) - ‘cifar-100-python.tar.gz’ saved [169001437/169001437]\n", "\n", "cifar-100-python/\n", "cifar-100-python/file.txt~\n", "cifar-100-python/train\n", "cifar-100-python/test\n", "cifar-100-python/meta\n" ] } ], "source": [ "!wget https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz\n", "!tar -xvzf cifar-100-python.tar.gz" ] }, { "cell_type": "markdown", "metadata": { "id": "mtz5rqMlZD2x" }, "source": [ "## Чтение тренировочной и тестовой выборки" ] }, { "cell_type": "markdown", "source": [ "**Обучающие данные** – данные, на которых проводится обучение модели. \n", "**Тестовые данные** – данные, на которых проводится измерение точности модели. \n", "Обучающая и тестовая выборки не должны пересекаться." ], "metadata": { "id": "RyAKP-crsJFx" } }, { "cell_type": "code", "execution_count": null, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 273 }, "id": "49KAR3NoDbEp", "outputId": "cb389782-57e6-4bb5-af2a-d0cb57f807d0" }, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "" ], "image/png": "\n" }, "metadata": {}, "execution_count": 4 } ], "source": [ "# Чтение тренировочной выборки (обучающих данных)\n", "with open('cifar-100-python/train', 'rb') as f:\n", " data_train = pickle.load(f, encoding='latin1')\n", "\n", "# Чтение тестовой выборки (тестовых данных)\n", "with open('cifar-100-python/test', 'rb') as f:\n", " data_test = pickle.load(f, encoding='latin1')\n", "\n", "# Здесь указать ваши классы по варианту!!!\n", "# Переформируем выборку и оставляем только 3 указанных класса.\n", "CLASSES = [0, 55, 58]\n", "\n", "train_X = data_train['data'].reshape(-1, 3, 32, 32)\n", "train_X = np.transpose(train_X, [0, 2, 3, 1]) # NCHW -> NHWC\n", "train_y = np.array(data_train['fine_labels'])\n", "mask = np.isin(train_y, CLASSES)\n", "train_X = train_X[mask].copy()\n", "train_y = train_y[mask].copy()\n", "train_y = np.unique(train_y, return_inverse=1)[1]\n", "del data_train\n", "\n", "test_X = data_test['data'].reshape(-1, 3, 32, 32)\n", "test_X = np.transpose(test_X, [0, 2, 3, 1])\n", "test_y = np.array(data_test['fine_labels'])\n", "mask = np.isin(test_y, CLASSES)\n", "test_X = test_X[mask].copy()\n", "test_y = test_y[mask].copy()\n", "test_y = np.unique(test_y, return_inverse=1)[1]\n", "del data_test\n", "Image.fromarray(train_X[50]).resize((256,256))" ] }, { "cell_type": "markdown", "metadata": { "id": "VJHI8GhtZO8F" }, "source": [ "## Создание Pytorch DataLoader'a" ] }, { "cell_type": "markdown", "source": [ "Батч - количество изображений (часть датасета), на которых модель обучается за одну итерацию. \n", "Пример: \n", "Датасет - 1000 изображений. Батч - 100 изображений. Значит, весь дата сет обучится за 10 итераций." ], "metadata": { "id": "XvtAqOZw4gDi" } }, { "cell_type": "code", "execution_count": null, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "a77Fex1TIhGE", "outputId": "fe16362a-a520-4e1f-9e5f-a4292b73f043" }, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "{'test': ,\n", " 'train': }" ] }, "metadata": {}, "execution_count": 5 } ], "source": [ "# Указываем размер батча \n", "batch_size = 128\n", "\n", "dataloader = {}\n", "for (X, y), part in zip([(train_X, train_y), (test_X, test_y)],\n", " ['train', 'test']):\n", " tensor_x = torch.Tensor(X)\n", " tensor_y = F.one_hot(torch.Tensor(y).to(torch.int64),\n", " num_classes=len(CLASSES))/1.\n", " dataset = TensorDataset(tensor_x, tensor_y) # создание объекта датасета\n", " dataloader[part] = DataLoader(dataset, batch_size=batch_size, shuffle=True) # создание экземпляра класса DataLoader\n", "dataloader" ] }, { "cell_type": "markdown", "source": [ "# Создание моделей" ], "metadata": { "id": "U7rQDTnud4Ha" } }, { "cell_type": "markdown", "metadata": { "id": "mM59NsM-d-XC" }, "source": [ "Создание моделей осуществляется при помощи модуля nn, при этом в модуле уже реализованы самые популярные блоки нейронных сетей или слои, такие как: \n", "* полносвязный слов Linear\n", "* свёрточный слой Conv2d\n", "* пуллинг MaxPool2d\n", "* нормализация BatchNorm2d\n", "* множество активационных функций ReLU, Softmax, Tanh\n", "* слои-регуляризаторы, например Dropout\n", "\n", "В данной лабораторной работе мы рассмотрим лишь 2 блока-кирпичика нейронной сети из выше приведённого списка, а именно Linear и ReLU.\n", "\n", "Задать модель можно 2 способам: \n", "\n", "1. при помощи nn.Sequential\n", "2. при помощи наследования от класса nn.Module\n", "\n", "Первый способ подходит для создания простых моделей без ответвлений. По сути их можно представить как конвейер, где входной тензор передается ряду последовательно приведённых трансформаций для получения выходного тензора.\n", "\n", "Если необходимо применять более сложные архитектуры, где конвейерные дорожки могут разветвляться на несколько частей, то используется nn.Module. Данный подход позволяет реализовать самые разные архитектуры.\n", "\n", "Для создания простого многослойного перцептрона с одним скрытым слоем и функцией нелинейности, согласно первому способу достаточно написать следующий код:\n", "\n", " model = nn.Sequential(\n", " nn.Linear(input_dims, hidden_dims),\n", " nn.ReLU(),\n", " nn.Linear(hidden_dims, num_classes) \n", " )\n", "\n", "Для создания простого многослойного перцептрона с одним скрытым слоем и функцией нелинейности, согласно второму способу необходимо создать класс и модель как экземпляр этого класса:\n", "\n", " class MLP(nn.Module):\n", " def __init__(self, input_dims, hidden_dims, num_classes,\n", " *args, **kwargs):\n", " super(MLP, self).__init__()\n", " self.fc1 = Linear(input_dims, hidden_dims)\n", " self.fc2 = Linear(hidden_dims, num_classes)\n", " \n", " def forward(self, input):\n", " x = self.fc1(input)\n", " x = F.relu(x)\n", " x = self.fc2(x)\n", " return x\n", " \n", " model = MLP(input_dims, hidden_dims, num_classes) \n", "\n", "При этом допускается вкладывать nn.Module и nn.Sequential внутри других модулей, что позволяет создавать очень сложные архитектуры моделей.\n", "\n" ] }, { "cell_type": "markdown", "source": [ "## Архитектура нейронной сети \n", "![Архитектура нейронной сети.png]()" ], "metadata": { "id": "uyEOF7T8AimW" } }, { "cell_type": "markdown", "metadata": { "id": "FxcEeFaHZV-G" }, "source": [ "## Создание Pytorch модели многослойного перцептрона с одним скрытым слоем" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "jxfiec1w_bLr", "outputId": "5ca91191-bef8-4e4d-953c-8aba871d8a72" }, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "Cifar100_MLP(\n", " (norm): Normalize()\n", " (seq): Sequential(\n", " (0): Linear(in_features=3072, out_features=10, bias=True)\n", " (1): ReLU()\n", " (2): Linear(in_features=10, out_features=3, bias=True)\n", " )\n", ")" ] }, "metadata": {}, "execution_count": 6 } ], "source": [ "class Normalize(nn.Module):\n", " def __init__(self, mean, std):\n", " super(Normalize, self).__init__()\n", " self.mean = torch.tensor(mean)\n", " self.std = torch.tensor(std)\n", "\n", " def forward(self, input):\n", " x = input / 255.0\n", " x = x - self.mean\n", " x = x / self.std\n", " return torch.flatten(x, start_dim=1) # nhwc -> nm\n", "\n", "# Создадим простой многослойный перцептрон с одним скрытым слоем и функцией нелинейности.\n", "# Количество скрытых слоев можно изменять.\n", "class Cifar100_MLP(nn.Module):\n", " def __init__(self, hidden_size=32, classes=100):\n", " super(Cifar100_MLP, self).__init__()\n", " # https://blog.jovian.ai/image-classification-of-cifar100-dataset-using-pytorch-8b7145242df1\n", " self.norm = Normalize([0.5074,0.4867,0.4411],[0.2011,0.1987,0.2025])\n", " self.seq = nn.Sequential(\n", " nn.Linear(32*32*3, hidden_size), \n", " nn.ReLU(), # активационная функция\n", " nn.Linear(hidden_size, classes),\n", " )\n", "\n", " def forward(self, input):\n", " x = self.norm(input)\n", " return self.seq(x)\n", "\n", "HIDDEN_SIZE = 10\n", "model = Cifar100_MLP(hidden_size=HIDDEN_SIZE, classes=len(CLASSES))\n", "model" ] }, { "cell_type": "markdown", "source": [ "# Обучение моделей\n" ], "metadata": { "id": "1ppZsh9eV9H8" } }, { "cell_type": "markdown", "metadata": { "id": "FmxEqwWLd-XD" }, "source": [ "Перед обучением моделей необходимо выбрать функцию потерь и оптимизатор. Различные функции потерь представлены также в модуле nn:\n", "* __nn.MSELoss__ - среднеквадратическая ошибка (y_true-y_pred)**2\n", "* __nn.BCEWithLogitsLoss__ - бинарная перекрёстная энтропия для задач бинарной классификации\n", "* __nn.CrossEntropyLoss__ - категориальная перекрёстная энтропия для задач многоклассовой классификации\n", "\n", "В качестве альтернативы можно собственноручно реализовать функцию потерь, например для MSELoss:\n", "\n", " inputs, y = batch\n", " ...\n", " output = model(inputs)\n", " loss = ((output - y)**2).sum()\n", " ...\n", "\n", "Оптимизаторы содержатся в модуле __torch.optim__. Существует множество оптимизаторов целевой функции, классическим является стохастический градиентный спуск Stochastic Gradient Descent или SGD. В конструктор класса необходимо передать веса модели, а также указать шаг обучения или learning rate." ] }, { "cell_type": "markdown", "metadata": { "id": "raKMPtc4ZgsZ" }, "source": [ "## Выбор функции потерь и оптимизатора градиентного спуска" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "-sRf5LGwHIZB" }, "outputs": [], "source": [ "# Функция потерь\n", "criterion = nn.CrossEntropyLoss()\n", "# Оптимизатор\n", "# lr - шаг обучения. Данный параметр можно изменять.\n", "optimizer = optim.SGD(model.parameters(), lr=0.005)" ] }, { "cell_type": "markdown", "metadata": { "id": "hFtkRYFQZ0xb" }, "source": [ "## Обучение модели по эпохам" ] }, { "cell_type": "markdown", "source": [ "Для перевода модели в состояние обучения необходимо вызвать метод __train__. После чего модель готова для обучения.\n", "\n", "Для обучения нейросетевых моделей используется градиентный спуск и его разновидности, в основе которых лежит метод последовательных приближений. \n", "\n", "За одну эпоху условно выбирают прохождение итератора через весь набор данных, за одну итерацию - оптимизация параметров модели с помощью текущего мини-батча. PyTorch автоматически считает производные при вызове метода __backward__, применённому к функции потерь. \n", "\n", "При этом при повторном вызове, значения новых градиентов добавятся к предыдущим расчитанным. Поэтому, для избежания нежелательных эффектов принято очищать прошлые значения градиентов на каждой итерации при помощи метода __zero_grad__, применённого к экземпляру класса оптимизатора.\n", "\n" ], "metadata": { "id": "WURh3R6dVuLQ" } }, { "cell_type": "markdown", "source": [ "Эпоха – обход всех экземпляров набора данных. \n", "Итерация - один шаг обучения. \n", "Переобучение (overfitting) – Модель, которая хорошо работает на обучающих данных и плохо на тестовых данных." ], "metadata": { "id": "NNlyAmTQxAel" } }, { "cell_type": "code", "execution_count": null, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "j3N4gdE9KKd1", "outputId": "e27bd293-a963-4b76-cc3b-3b1695bacbb5" }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "[1, 12] loss: 0.933\n", "[1, 3] val loss: 0.895\n", "[2, 12] loss: 0.790\n", "[2, 3] val loss: 0.863\n", "[3, 12] loss: 0.727\n", "[3, 3] val loss: 0.794\n", "[4, 12] loss: 0.687\n", "[4, 3] val loss: 0.749\n", "[5, 12] loss: 0.656\n", "[5, 3] val loss: 0.766\n", "[6, 12] loss: 0.633\n", "[6, 3] val loss: 0.738\n", "[7, 12] loss: 0.616\n", "[7, 3] val loss: 0.704\n", "[8, 12] loss: 0.601\n", "[8, 3] val loss: 0.693\n", "[9, 12] loss: 0.585\n", "[9, 3] val loss: 0.645\n", "[10, 12] loss: 0.574\n", "[10, 3] val loss: 0.692\n", "[11, 12] loss: 0.558\n", "[11, 3] val loss: 0.645\n", "[12, 12] loss: 0.550\n", "[12, 3] val loss: 0.686\n", "[13, 12] loss: 0.541\n", "[13, 3] val loss: 0.639\n", "[14, 12] loss: 0.530\n", "[14, 3] val loss: 0.657\n", "[15, 12] loss: 0.521\n", "[15, 3] val loss: 0.647\n", "[16, 12] loss: 0.515\n", "[16, 3] val loss: 0.629\n", "[17, 12] loss: 0.508\n", "[17, 3] val loss: 0.620\n", "[18, 12] loss: 0.498\n", "[18, 3] val loss: 0.597\n", "[19, 12] loss: 0.491\n", "[19, 3] val loss: 0.640\n", "[20, 12] loss: 0.487\n", "[20, 3] val loss: 0.595\n", "[21, 12] loss: 0.475\n", "[21, 3] val loss: 0.612\n", "[22, 12] loss: 0.472\n", "[22, 3] val loss: 0.599\n", "[23, 12] loss: 0.466\n", "[23, 3] val loss: 0.591\n", "[24, 12] loss: 0.458\n", "[24, 3] val loss: 0.623\n", "[25, 12] loss: 0.456\n", "[25, 3] val loss: 0.621\n", "[26, 12] loss: 0.447\n", "[26, 3] val loss: 0.600\n", "[27, 12] loss: 0.440\n", "[27, 3] val loss: 0.587\n", "[28, 12] loss: 0.436\n", "[28, 3] val loss: 0.581\n", "[29, 12] loss: 0.430\n", "[29, 3] val loss: 0.553\n", "[30, 12] loss: 0.423\n", "[30, 3] val loss: 0.577\n", "[31, 12] loss: 0.419\n", "[31, 3] val loss: 0.594\n", "[32, 12] loss: 0.417\n", "[32, 3] val loss: 0.583\n", "[33, 12] loss: 0.413\n", "[33, 3] val loss: 0.580\n", "[34, 12] loss: 0.406\n", "[34, 3] val loss: 0.580\n", "[35, 12] loss: 0.401\n", "[35, 3] val loss: 0.552\n", "[36, 12] loss: 0.397\n", "[36, 3] val loss: 0.574\n", "[37, 12] loss: 0.393\n", "[37, 3] val loss: 0.561\n", "[38, 12] loss: 0.391\n", "[38, 3] val loss: 0.572\n", "[39, 12] loss: 0.384\n", "[39, 3] val loss: 0.540\n", "[40, 12] loss: 0.381\n", "[40, 3] val loss: 0.579\n", "[41, 12] loss: 0.375\n", "[41, 3] val loss: 0.540\n", "[42, 12] loss: 0.369\n", "[42, 3] val loss: 0.629\n", "[43, 12] loss: 0.367\n", "[43, 3] val loss: 0.551\n", "[44, 12] loss: 0.366\n", "[44, 3] val loss: 0.566\n", "[45, 12] loss: 0.360\n", "[45, 3] val loss: 0.623\n", "[46, 12] loss: 0.359\n", "[46, 3] val loss: 0.566\n", "[47, 12] loss: 0.353\n", "[47, 3] val loss: 0.576\n", "[48, 12] loss: 0.351\n", "[48, 3] val loss: 0.599\n", "[49, 12] loss: 0.345\n", "[49, 3] val loss: 0.562\n", "[50, 12] loss: 0.342\n", "[50, 3] val loss: 0.568\n", "[51, 12] loss: 0.342\n", "[51, 3] val loss: 0.597\n", "[52, 12] loss: 0.338\n", "[52, 3] val loss: 0.571\n", "[53, 12] loss: 0.335\n", "[53, 3] val loss: 0.562\n", "[54, 12] loss: 0.330\n", "[54, 3] val loss: 0.578\n", "[55, 12] loss: 0.329\n", "[55, 3] val loss: 0.537\n", "[56, 12] loss: 0.323\n", "[56, 3] val loss: 0.545\n", "[57, 12] loss: 0.324\n", "[57, 3] val loss: 0.571\n", "[58, 12] loss: 0.318\n", "[58, 3] val loss: 0.532\n", "[59, 12] loss: 0.316\n", "[59, 3] val loss: 0.563\n", "[60, 12] loss: 0.313\n", "[60, 3] val loss: 0.633\n", "[61, 12] loss: 0.309\n", "[61, 3] val loss: 0.569\n", "[62, 12] loss: 0.306\n", "[62, 3] val loss: 0.598\n", "[63, 12] loss: 0.303\n", "[63, 3] val loss: 0.587\n", "[64, 12] loss: 0.300\n", "[64, 3] val loss: 0.608\n", "[65, 12] loss: 0.299\n", "[65, 3] val loss: 0.630\n", "[66, 12] loss: 0.298\n", "[66, 3] val loss: 0.528\n", "[67, 12] loss: 0.293\n", "[67, 3] val loss: 0.570\n", "[68, 12] loss: 0.290\n", "[68, 3] val loss: 0.592\n", "[69, 12] loss: 0.288\n", "[69, 3] val loss: 0.662\n", "[70, 12] loss: 0.284\n", "[70, 3] val loss: 0.600\n", "[71, 12] loss: 0.282\n", "[71, 3] val loss: 0.567\n", "[72, 12] loss: 0.280\n", "[72, 3] val loss: 0.578\n", "[73, 12] loss: 0.279\n", "[73, 3] val loss: 0.610\n", "[74, 12] loss: 0.275\n", "[74, 3] val loss: 0.568\n", "[75, 12] loss: 0.275\n", "[75, 3] val loss: 0.615\n", "[76, 12] loss: 0.271\n", "[76, 3] val loss: 0.602\n", "[77, 12] loss: 0.268\n", "[77, 3] val loss: 0.559\n", "[78, 12] loss: 0.266\n", "[78, 3] val loss: 0.592\n", "[79, 12] loss: 0.265\n", "[79, 3] val loss: 0.595\n", "[80, 12] loss: 0.259\n", "[80, 3] val loss: 0.571\n", "[81, 12] loss: 0.258\n", "[81, 3] val loss: 0.585\n", "[82, 12] loss: 0.256\n", "[82, 3] val loss: 0.613\n", "[83, 12] loss: 0.255\n", "[83, 3] val loss: 0.594\n", "[84, 12] loss: 0.253\n", "[84, 3] val loss: 0.608\n", "[85, 12] loss: 0.251\n", "[85, 3] val loss: 0.626\n", "[86, 12] loss: 0.251\n", "[86, 3] val loss: 0.591\n", "[87, 12] loss: 0.245\n", "[87, 3] val loss: 0.645\n", "[88, 12] loss: 0.243\n", "[88, 3] val loss: 0.580\n", "[89, 12] loss: 0.242\n", "[89, 3] val loss: 0.608\n", "[90, 12] loss: 0.241\n", "[90, 3] val loss: 0.680\n", "[91, 12] loss: 0.239\n", "[91, 3] val loss: 0.625\n", "[92, 12] loss: 0.235\n", "[92, 3] val loss: 0.612\n", "[93, 12] loss: 0.234\n", "[93, 3] val loss: 0.591\n", "[94, 12] loss: 0.231\n", "[94, 3] val loss: 0.579\n", "[95, 12] loss: 0.230\n", "[95, 3] val loss: 0.632\n", "[96, 12] loss: 0.229\n", "[96, 3] val loss: 0.606\n", "[97, 12] loss: 0.227\n", "[97, 3] val loss: 0.620\n", "[98, 12] loss: 0.222\n", "[98, 3] val loss: 0.667\n", "[99, 12] loss: 0.221\n", "[99, 3] val loss: 0.660\n", "[100, 12] loss: 0.220\n", "[100, 3] val loss: 0.627\n", "[101, 12] loss: 0.219\n", "[101, 3] val loss: 0.642\n", "[102, 12] loss: 0.217\n", "[102, 3] val loss: 0.637\n", "[103, 12] loss: 0.213\n", "[103, 3] val loss: 0.553\n", "[104, 12] loss: 0.212\n", "[104, 3] val loss: 0.658\n", "[105, 12] loss: 0.215\n", "[105, 3] val loss: 0.666\n", "[106, 12] loss: 0.211\n", "[106, 3] val loss: 0.679\n", "[107, 12] loss: 0.206\n", "[107, 3] val loss: 0.656\n", "[108, 12] loss: 0.206\n", "[108, 3] val loss: 0.687\n", "[109, 12] loss: 0.203\n", "[109, 3] val loss: 0.643\n", "[110, 12] loss: 0.202\n", "[110, 3] val loss: 0.610\n", "[111, 12] loss: 0.200\n", "[111, 3] val loss: 0.698\n", "[112, 12] loss: 0.201\n", "[112, 3] val loss: 0.704\n", "[113, 12] loss: 0.198\n", "[113, 3] val loss: 0.674\n", "[114, 12] loss: 0.196\n", "[114, 3] val loss: 0.660\n", "[115, 12] loss: 0.194\n", "[115, 3] val loss: 0.621\n", "[116, 12] loss: 0.193\n", "[116, 3] val loss: 0.649\n", "[117, 12] loss: 0.192\n", "[117, 3] val loss: 0.647\n", "[118, 12] loss: 0.190\n", "[118, 3] val loss: 0.668\n", "[119, 12] loss: 0.189\n", "[119, 3] val loss: 0.642\n", "[120, 12] loss: 0.185\n", "[120, 3] val loss: 0.661\n", "[121, 12] loss: 0.185\n", "[121, 3] val loss: 0.592\n", "[122, 12] loss: 0.185\n", "[122, 3] val loss: 0.625\n", "[123, 12] loss: 0.182\n", "[123, 3] val loss: 0.601\n", "[124, 12] loss: 0.179\n", "[124, 3] val loss: 0.653\n", "[125, 12] loss: 0.182\n", "[125, 3] val loss: 0.662\n", "[126, 12] loss: 0.177\n", "[126, 3] val loss: 0.665\n", "[127, 12] loss: 0.176\n", "[127, 3] val loss: 0.595\n", "[128, 12] loss: 0.175\n", "[128, 3] val loss: 0.727\n", "[129, 12] loss: 0.173\n", "[129, 3] val loss: 0.645\n", "[130, 12] loss: 0.174\n", "[130, 3] val loss: 0.658\n", "[131, 12] loss: 0.169\n", "[131, 3] val loss: 0.690\n", "[132, 12] loss: 0.170\n", "[132, 3] val loss: 0.692\n", "[133, 12] loss: 0.169\n", "[133, 3] val loss: 0.695\n", "[134, 12] loss: 0.165\n", "[134, 3] val loss: 0.657\n", "[135, 12] loss: 0.164\n", "[135, 3] val loss: 0.731\n", "[136, 12] loss: 0.163\n", "[136, 3] val loss: 0.643\n", "[137, 12] loss: 0.163\n", "[137, 3] val loss: 0.665\n", "[138, 12] loss: 0.163\n", "[138, 3] val loss: 0.645\n", "[139, 12] loss: 0.160\n", "[139, 3] val loss: 0.766\n", "[140, 12] loss: 0.158\n", "[140, 3] val loss: 0.636\n", "[141, 12] loss: 0.158\n", "[141, 3] val loss: 0.730\n", "[142, 12] loss: 0.157\n", "[142, 3] val loss: 0.681\n", "[143, 12] loss: 0.155\n", "[143, 3] val loss: 0.711\n", "[144, 12] loss: 0.155\n", "[144, 3] val loss: 0.753\n", "[145, 12] loss: 0.153\n", "[145, 3] val loss: 0.633\n", "[146, 12] loss: 0.153\n", "[146, 3] val loss: 0.709\n", "[147, 12] loss: 0.151\n", "[147, 3] val loss: 0.806\n", "[148, 12] loss: 0.151\n", "[148, 3] val loss: 0.705\n", "[149, 12] loss: 0.152\n", "[149, 3] val loss: 0.742\n", "[150, 12] loss: 0.148\n", "[150, 3] val loss: 0.754\n", "[151, 12] loss: 0.146\n", "[151, 3] val loss: 0.683\n", "[152, 12] loss: 0.145\n", "[152, 3] val loss: 0.700\n", "[153, 12] loss: 0.145\n", "[153, 3] val loss: 0.706\n", "[154, 12] loss: 0.143\n", "[154, 3] val loss: 0.686\n", "[155, 12] loss: 0.142\n", "[155, 3] val loss: 0.694\n", "[156, 12] loss: 0.141\n", "[156, 3] val loss: 0.644\n", "[157, 12] loss: 0.141\n", "[157, 3] val loss: 0.714\n", "[158, 12] loss: 0.139\n", "[158, 3] val loss: 0.769\n", "[159, 12] loss: 0.140\n", "[159, 3] val loss: 0.753\n", "[160, 12] loss: 0.137\n", "[160, 3] val loss: 0.803\n", "[161, 12] loss: 0.137\n", "[161, 3] val loss: 0.791\n", "[162, 12] loss: 0.135\n", "[162, 3] val loss: 0.756\n", "[163, 12] loss: 0.133\n", "[163, 3] val loss: 0.691\n", "[164, 12] loss: 0.132\n", "[164, 3] val loss: 0.715\n", "[165, 12] loss: 0.132\n", "[165, 3] val loss: 0.804\n", "[166, 12] loss: 0.133\n", "[166, 3] val loss: 0.830\n", "[167, 12] loss: 0.130\n", "[167, 3] val loss: 0.655\n", "[168, 12] loss: 0.129\n", "[168, 3] val loss: 0.681\n", "[169, 12] loss: 0.128\n", "[169, 3] val loss: 0.669\n", "[170, 12] loss: 0.127\n", "[170, 3] val loss: 0.775\n", "[171, 12] loss: 0.127\n", "[171, 3] val loss: 0.748\n", "[172, 12] loss: 0.125\n", "[172, 3] val loss: 0.771\n", "[173, 12] loss: 0.125\n", "[173, 3] val loss: 0.738\n", "[174, 12] loss: 0.124\n", "[174, 3] val loss: 0.669\n", "[175, 12] loss: 0.123\n", "[175, 3] val loss: 0.800\n", "[176, 12] loss: 0.123\n", "[176, 3] val loss: 0.667\n", "[177, 12] loss: 0.124\n", "[177, 3] val loss: 0.690\n", "[178, 12] loss: 0.120\n", "[178, 3] val loss: 0.760\n", "[179, 12] loss: 0.119\n", "[179, 3] val loss: 0.824\n", "[180, 12] loss: 0.118\n", "[180, 3] val loss: 0.714\n", "[181, 12] loss: 0.118\n", "[181, 3] val loss: 0.757\n", "[182, 12] loss: 0.117\n", "[182, 3] val loss: 0.687\n", "[183, 12] loss: 0.116\n", "[183, 3] val loss: 0.818\n", "[184, 12] loss: 0.117\n", "[184, 3] val loss: 0.702\n", "[185, 12] loss: 0.115\n", "[185, 3] val loss: 0.841\n", "[186, 12] loss: 0.112\n", "[186, 3] val loss: 0.747\n", "[187, 12] loss: 0.113\n", "[187, 3] val loss: 0.748\n", "[188, 12] loss: 0.112\n", "[188, 3] val loss: 0.745\n", "[189, 12] loss: 0.112\n", "[189, 3] val loss: 0.787\n", "[190, 12] loss: 0.110\n", "[190, 3] val loss: 0.739\n", "[191, 12] loss: 0.110\n", "[191, 3] val loss: 0.798\n", "[192, 12] loss: 0.108\n", "[192, 3] val loss: 0.753\n", "[193, 12] loss: 0.109\n", "[193, 3] val loss: 0.759\n", "[194, 12] loss: 0.107\n", "[194, 3] val loss: 0.776\n", "[195, 12] loss: 0.106\n", "[195, 3] val loss: 0.805\n", "[196, 12] loss: 0.106\n", "[196, 3] val loss: 0.811\n", "[197, 12] loss: 0.105\n", "[197, 3] val loss: 0.696\n", "[198, 12] loss: 0.105\n", "[198, 3] val loss: 0.735\n", "[199, 12] loss: 0.103\n", "[199, 3] val loss: 0.775\n", "[200, 12] loss: 0.103\n", "[200, 3] val loss: 0.777\n", "[201, 12] loss: 0.103\n", "[201, 3] val loss: 0.806\n", "[202, 12] loss: 0.101\n", "[202, 3] val loss: 0.773\n", "[203, 12] loss: 0.103\n", "[203, 3] val loss: 0.845\n", "[204, 12] loss: 0.101\n", "[204, 3] val loss: 0.828\n", "[205, 12] loss: 0.099\n", "[205, 3] val loss: 0.777\n", "[206, 12] loss: 0.099\n", "[206, 3] val loss: 0.769\n", "[207, 12] loss: 0.098\n", "[207, 3] val loss: 0.866\n", "[208, 12] loss: 0.098\n", "[208, 3] val loss: 0.755\n", "[209, 12] loss: 0.098\n", "[209, 3] val loss: 0.772\n", "[210, 12] loss: 0.097\n", "[210, 3] val loss: 0.715\n", "[211, 12] loss: 0.096\n", "[211, 3] val loss: 0.792\n", "[212, 12] loss: 0.095\n", "[212, 3] val loss: 0.776\n", "[213, 12] loss: 0.094\n", "[213, 3] val loss: 0.774\n", "[214, 12] loss: 0.096\n", "[214, 3] val loss: 0.796\n", "[215, 12] loss: 0.094\n", "[215, 3] val loss: 0.827\n", "[216, 12] loss: 0.093\n", "[216, 3] val loss: 0.825\n", "[217, 12] loss: 0.092\n", "[217, 3] val loss: 0.834\n", "[218, 12] loss: 0.092\n", "[218, 3] val loss: 0.808\n", "[219, 12] loss: 0.091\n", "[219, 3] val loss: 0.864\n", "[220, 12] loss: 0.091\n", "[220, 3] val loss: 0.770\n", "[221, 12] loss: 0.091\n", "[221, 3] val loss: 0.783\n", "[222, 12] loss: 0.090\n", "[222, 3] val loss: 0.781\n", "[223, 12] loss: 0.089\n", "[223, 3] val loss: 0.727\n", "[224, 12] loss: 0.089\n", "[224, 3] val loss: 0.834\n", "[225, 12] loss: 0.088\n", "[225, 3] val loss: 0.862\n", "[226, 12] loss: 0.087\n", "[226, 3] val loss: 0.831\n", "[227, 12] loss: 0.087\n", "[227, 3] val loss: 0.752\n", "[228, 12] loss: 0.086\n", "[228, 3] val loss: 0.835\n", "[229, 12] loss: 0.086\n", "[229, 3] val loss: 0.802\n", "[230, 12] loss: 0.085\n", "[230, 3] val loss: 0.732\n", "[231, 12] loss: 0.084\n", "[231, 3] val loss: 0.815\n", "[232, 12] loss: 0.083\n", "[232, 3] val loss: 0.782\n", "[233, 12] loss: 0.084\n", "[233, 3] val loss: 0.810\n", "[234, 12] loss: 0.083\n", "[234, 3] val loss: 0.839\n", "[235, 12] loss: 0.082\n", "[235, 3] val loss: 0.765\n", "[236, 12] loss: 0.081\n", "[236, 3] val loss: 0.875\n", "[237, 12] loss: 0.081\n", "[237, 3] val loss: 0.973\n", "[238, 12] loss: 0.081\n", "[238, 3] val loss: 0.749\n", "[239, 12] loss: 0.079\n", "[239, 3] val loss: 0.855\n", "[240, 12] loss: 0.080\n", "[240, 3] val loss: 0.893\n", "[241, 12] loss: 0.078\n", "[241, 3] val loss: 0.725\n", "[242, 12] loss: 0.079\n", "[242, 3] val loss: 0.835\n", "[243, 12] loss: 0.078\n", "[243, 3] val loss: 0.822\n", "[244, 12] loss: 0.077\n", "[244, 3] val loss: 0.822\n", "[245, 12] loss: 0.078\n", "[245, 3] val loss: 0.818\n", "[246, 12] loss: 0.077\n", "[246, 3] val loss: 0.808\n", "[247, 12] loss: 0.076\n", "[247, 3] val loss: 0.834\n", "[248, 12] loss: 0.075\n", "[248, 3] val loss: 0.817\n", "[249, 12] loss: 0.075\n", "[249, 3] val loss: 0.841\n", "[250, 12] loss: 0.075\n", "[250, 3] val loss: 0.834\n", "Обучение закончено\n" ] } ], "source": [ "# Укажем количество эпох. \n", "# Увеличение количества эпох приводит к увеличению времени работы программы.\n", "# Чем больше эпох мы обучаем, тем точнее обучается модель, но есть риск наступления переобучения.\n", "\n", "EPOCHS = 250\n", "steps_per_epoch = len(dataloader['train'])\n", "steps_per_epoch_val = len(dataloader['test'])\n", "for epoch in range(EPOCHS): # проход по набору данных несколько раз\n", " running_loss = 0.0\n", " model.train()\n", " for i, batch in enumerate(dataloader['train'], 0):\n", " # получение одного минибатча; batch это двуэлементный список из [inputs, labels]\n", " inputs, labels = batch\n", "\n", " # очищение прошлых градиентов с прошлой итерации\n", " optimizer.zero_grad()\n", "\n", " # прямой + обратный проходы + оптимизация\n", " outputs = model(inputs)\n", " loss = criterion(outputs, labels)\n", " #loss = F.cross_entropy(outputs, labels)\n", " loss.backward()\n", "\n", " #Для обновления параметров нейронной сети используется метод step, применённый к экземпляру класса оптимизатора.\n", " optimizer.step()\n", "\n", " # для подсчёта статистик\n", " running_loss += loss.item()\n", " print(f'[{epoch + 1}, {i + 1:5d}] loss: {running_loss / steps_per_epoch:.3f}')\n", " running_loss = 0.0\n", "\n", " #Для перевода модели в состояние проверки необходимо вызвать метод eval. После чего модель готова для проверки.\n", " model.eval()\n", "\n", " with torch.no_grad(): # отключение автоматического дифференцирования\n", " for i, data in enumerate(dataloader['test'], 0):\n", " inputs, labels = data\n", "\n", " outputs = model(inputs)\n", " loss = criterion(outputs, labels)\n", " running_loss += loss.item()\n", " print(f'[{epoch + 1}, {i + 1:5d}] val loss: {running_loss / steps_per_epoch_val:.3f}')\n", "print('Обучение закончено')" ] }, { "cell_type": "markdown", "metadata": { "id": "pM3jjyu2Z6cf" }, "source": [ "## Проверка качества модели по классам на обучающей и тестовой выборках" ] }, { "cell_type": "markdown", "source": [ "Выходной тензор предсказаний модели необходимо отсечь от вычислительного графа. Для этого используется метод **detach**, применённый к выходному тензору модели. В противном случае возможны утечки памяти. Метод **numpy** конвертирует тензор в многомерный массив NumPy.\n", "\n", "По умолчанию модель выводит так называемые логиты классов, а не их вероятности. Для получения вероятностей необходимо применить функцию активации **Softmax**. Однако на практике это необязательно, поскольку величина логитов согласуется с вероятностью классов, и для получения номера наиболее вероятного класса этот этап можно опустить. Номер класса получается при помощи либо метода **argmax**, либо метода **argsort**, причём последний позволяет считать такие метрики, как Accuracy@5 и метрики ранжирования. \n", "\n", "**Метрики ранжирования:** \n", "– Точность (Precision) – Процент положительных меток, которые правильно определены \n", " *Precision = (# true positives) / (# true positives + # false positives)* \n", "– Полнота (Recall) – Процент положительных примеров, которые были правильно определены \n", " *Recall = (# true positives) / (# true positives + # false negatives)* \n", "– Accuracy – Процент положительных меток \n", " *Accuracy = (# true positives + # true negatives) / (# of samples)*" ], "metadata": { "id": "LFehrDM2ye0Z" } }, { "cell_type": "code", "execution_count": null, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "5RlNWKIRM8Hj", "outputId": "6fde6d4d-dcb6-4389-c550-aeb76aeb88e9" }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "train\n", " precision recall f1-score support\n", "\n", " 0 0.9920 0.9980 0.9950 500\n", " 55 0.9689 0.9960 0.9822 500\n", " 58 0.9979 0.9640 0.9807 500\n", "\n", " accuracy 0.9860 1500\n", " macro avg 0.9863 0.9860 0.9860 1500\n", "weighted avg 0.9863 0.9860 0.9860 1500\n", "\n", "--------------------------------------------------\n", "test\n", " precision recall f1-score support\n", "\n", " 0 0.8288 0.9200 0.8720 100\n", " 55 0.6731 0.7000 0.6863 100\n", " 58 0.7059 0.6000 0.6486 100\n", "\n", " accuracy 0.7400 300\n", " macro avg 0.7359 0.7400 0.7357 300\n", "weighted avg 0.7359 0.7400 0.7357 300\n", "\n", "--------------------------------------------------\n" ] } ], "source": [ "for part in ['train', 'test']:\n", " y_pred = []\n", " y_true = []\n", " with torch.no_grad(): # отключение автоматического дифференцирования\n", " for i, data in enumerate(dataloader[part], 0):\n", " inputs, labels = data\n", "\n", " outputs = model(inputs).detach().numpy()\n", " y_pred.append(outputs)\n", " y_true.append(labels.numpy())\n", " y_true = np.concatenate(y_true)\n", " y_pred = np.concatenate(y_pred)\n", " \n", " # Выведем отчет о точности обучения модели.\n", " # На тестовых данных модель может обучиться до 100%. Результ, который показывается на тренировочной выборке, хуже.\n", " \n", " # Выведем метрики ранжирования для тестовой и обучающей выборки.\n", " print(part)\n", "\n", " # Значения выводятся с точность 4 знака после запятой.\n", "\n", " print(classification_report(y_true.argmax(axis=-1), y_pred.argmax(axis=-1),\n", " digits=4, target_names=list(map(str, CLASSES))))\n", " print('-'*50)" ] }, { "cell_type": "markdown", "source": [ "# Сохранение модели в ONNX" ], "metadata": { "id": "ak37wKaulYw2" } }, { "cell_type": "markdown", "source": [ "Рассмотрим два способа сохранения модели:\n", "\n", "\n", "1. Сохранение параметров\n", "2. Сохранение всей архитектуры\n", "\n" ], "metadata": { "id": "JwfOByyjlsKt" } }, { "cell_type": "code", "source": [ "# ПЕРВЫЙ СПОСОБ: сохранение параметров\n", "PATH = 'cifar_lnn.pth'\n", "torch.save(model.state_dict(), PATH)\n", "# загрузка\n", "new_model = Cifar100_MLP(hidden_size=HIDDEN_SIZE, classes=len(CLASSES))\n", "new_model.load_state_dict(torch.load(PATH))\n", "new_model.eval()" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "z8TfMRWGl6h6", "outputId": "80444f4e-71cb-4d55-d8f9-b9b4fb067483" }, "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "Cifar100_MLP(\n", " (norm): Normalize()\n", " (seq): Sequential(\n", " (0): Linear(in_features=3072, out_features=10, bias=True)\n", " (1): ReLU()\n", " (2): Linear(in_features=10, out_features=3, bias=True)\n", " )\n", ")" ] }, "metadata": {}, "execution_count": 9 } ] }, { "cell_type": "code", "source": [ "# ВТОРОЙ СПОСОБ: сохранение всей архитектуры\n", "PATH2 = 'cifar_lnn.pt'\n", "torch.save(model, PATH2)\n", "# загрузка\n", "new_model_2 = torch.load(PATH2)\n", "new_model_2.eval()" ], "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "Lem_W3pAlkJj", "outputId": "20133139-e6eb-46af-c333-0a069f5d031e" }, "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "Cifar100_MLP(\n", " (norm): Normalize()\n", " (seq): Sequential(\n", " (0): Linear(in_features=3072, out_features=10, bias=True)\n", " (1): ReLU()\n", " (2): Linear(in_features=10, out_features=3, bias=True)\n", " )\n", ")" ] }, "metadata": {}, "execution_count": 10 } ] }, { "cell_type": "code", "source": [ "# входной тензор для модели\n", "x = torch.randn(1, 32, 32, 3, requires_grad=True).to('cpu')\n", "torch_out = model(x)\n", "\n", "# экспорт модели\n", "torch.onnx.export(model, # модель\n", " x, # входной тензор (или кортеж нескольких тензоров)\n", " \"cifar100_LNN.onnx\", # куда сохранить (либо путь к файлу либо fileObject)\n", " export_params=True, # сохраняет веса обученных параметров внутри файла модели\n", " opset_version=9, # версия ONNX\n", " do_constant_folding=True, # следует ли выполнять укорачивание констант для оптимизации\n", " input_names = ['input'], # имя входного слоя\n", " output_names = ['output'], # имя выходного слоя\n", " dynamic_axes={'input' : {0 : 'batch_size'}, # динамичные оси, в данном случае только размер пакета\n", " 'output' : {0 : 'batch_size'}})" ], "metadata": { "id": "OpdKu8WpmCFw" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "Модель сохраняется в файлах с расширением .onnx. Этот файл можно скачать к себе на компьютер и использовать для дальнейшей загрузки и использования обученнной модели." ], "metadata": { "id": "1rssHENemIWX" } }, { "cell_type": "markdown", "source": [ "# Описание методов библиотек" ], "metadata": { "id": "HFzEnQacoQwb" } }, { "cell_type": "markdown", "metadata": { "id": "FDgKl3yGd-W_" }, "source": [ "### Методы и функции PyTorch\n", "\n", "(Документация: https://pytorch.org/docs/stable/index.html)" ] }, { "cell_type": "markdown", "source": [ "Методы:\n", "\n", "* __torch.Tensor__ - cоздает тензор из многомерного массива Numpy и наследует его тип данных. По умолчанию память под тензоры выделяется на CPU. При выставлении флага requires_grad автоматически отслеживает градиенты с помощью движка autograd, который строит динамический вычислительный граф. Включить отслеживания тензора t можно так же при помощи метода t.requires_grad_(True). В таком случае после вызова метода backward, в поле grad будут записаны производные. Производные тензора t можно очистить вызовом метода t.grad.zero_(). Для того чтобы отсечь ненужные вычисления производных используется метод detach, который создаёт копию тензора, при этом флаг requires_grad снимается и отслеживание движком autograd прекращается.\n", "\n", "* __torch.numpy__ - создает многомерный NumPy массив данных из тензора\n", "\n", "* __torch.item__ - возвращает число, но только если ранг тензора 0. В противном случае выдаёт ошибку и следует использовать torch.numpy\n", "\n", "* __torch.uint8__, __torch.int16__, __torch.int64__, __torch.float32__ - приведение массива к новому типу, аналогично NumPy. Для приведения используется метод .to (например t.to(torch.int64)). По умолчанию все вычисления на графе производятся в float64, есть также возможность использования mixed precision (что-то во float16, что-то во float64), но это считается продвинутой техникой.\n", "\n", "* __torch.ones__, __torch.zeros__, __torch.transpose__, __torch.reshape__ - API похожий, как у NumPy\n", "\n", "* __torch.rand__ - создание случайного тензора с числами в диапазоне от 0 до 1. Размерность перечисляется через запятую\n", "\n", "* __torch.t__ - транспонирование тензора, похоже на рассмотренный ранее numpy.transpose. Если дан тензор X, то можно его транспонировать при помощи X.t()\n", "\n", "* __torch.sum__ - суммирование элементов тензора вдоль указанной оси axis. Если суммирование производится вдоль последней оси, то разрешается указать вместо номера -1. Для сохранения исходной размерности тензора, необходимо выставить флаг keepdims.\n", "\n", "* __torch.maximum__ - производит поэлементное сравнение тензоров и возвращает максимальный из элементов. На практике используется для реализации некоторых функций активации нейронной сети\n", "\n", "* __torch.mm__ - произведение тензоров. Для 2 двухмерных матриц с размерностями (M, N) и (N, K) результатом данного метода будет двухмерная матрица размерностью (M, K)\n", "\n", "* __torch.exp__ - повторяет функционал numpy.exp - поэлементное возведение тензора в степень экспоненты\n", "\n", "* __torch.log__ - поэлементная операция логарифмирования тензора - взятие натурального логарифма, обратная операция потенциирования\n", "\n", "* __torch.flatten__ - аналогично NumPy .reshape(-1), если указан параметр start_dim, то начинает \"выпрямление\" массива начиная с указанного номера. Т.е. для того, чтобы перевести тензор t с формой (100, 32, 32, 3) в форму (100, 3072) достаточно написать torch.flatten(t, start_dim=1)\n", "\n", "* __F.one_hot__ - один из многих способов получить горячую кодировку класса в виде PyTorch тензора. Например, для 5 классов, горячая кодировка класса \"4\" будет [0, 0, 0, 1, 0]\n", "\n", "* __torch.utils.data.TensorDataset__ - создание связанных тензоров, например обучающих примеров и соответствующих меток. В качестве аргумента передаются тензоры. Приемлемый способ создания набора данных, когда обучающая выборка некрупная и полностью помещается в оперативной памяти.\n", "\n", "* __torch.utils.data.DataLoader__ - В основе утилиты загрузки данных PyTorch лежит класс DataLoader. Он представляет собой Python объект, повторяющийся по набору данных, с поддержкой набора данных в стиле map и итератора; настройки порядка загрузки данных; автоматического разбиения на минибатчи;загрузки данных в один и несколько процессов/потоков. Самые полезные аргументы в конструкторе - размер мини-батча batch_size и число параллельных процессов num_workers. Чтобы перемешать данные (для лучшей сходимости), следует выставить флаг shuffle в True\n", "\n", "* __torch.save__ - сохранение параметров модели на постоянный носитель информации. Для этого первым аргументом передаётся model.state_dict(), где model - обученная нейросетевая модель, а вторым аргументов передаётся путь с именем файла." ], "metadata": { "id": "InTxtzCnS2zq" } }, { "cell_type": "markdown", "metadata": { "id": "Mv5qVoyxfoPZ" }, "source": [ "### Методы и функции NumPy:\n", "\n", "(Подробнее в документации https://numpy.org/doc/1.22/reference/index.html)" ] }, { "cell_type": "markdown", "metadata": { "id": "9aWaJ2_EfoPZ" }, "source": [ "* __np.array__ - создание массива из списка или другого массива\n", "* __np.shape__ - выводит размерность многомерного массива (т.е. для массива 2х2 будет выведен кортеж (2, 2))\n", "* __np.size__ - выводит число элементов в массиве (т.е. для массива 2х2 будет выведено число 4)\n", "* __np.uint8__, __np.int16__, __np.int64__, __np.float32__ - приведение массива к новому типу, при этом в памяти выделяется место под новый массив выбранного типа. Число после типа обозначет, сколько бит данных используется для хранения одного элемента массива. Для хранения картинок зачастую используется экономный uint8 - беззнаковый 8-битный целочисленный тип данных (диапазон чисел 0-255)\n", "* __np.ones__, __np.zeros__ - создание уже заполненных массивов либо единицами, либо нулями. В качестве аргумента передается список или кортеж с требуемой размерностью. Например `np.ones((10,))` создаст вектор из 10 единичек. А `np.zeros((32, 32, 3))` создаст двузмерный массив разрешением 32 на 32 пикселя с 3 каналами. На практике используется для проверки архитектуры модели в прямом направлении\n", "* __np.arange__ - создание уже заполненного массива в виде возрастающей арифметической прогресии от первого аргумента до второго аргумента не включительно с шагом, который задаётеся третьим аргументом. Первый и третий аргументы можно опускать, в таком случае получается компактная запись `np.arange(3)` => [0, 1, 2]\n", "* __np.repeat__ - дублирование элементов массива на количество, указанное первым аргументом. Таким образом, для массива `arr = [0, 1]` `arr.repeat(2)` вернёт [0, 0, 1, 1]\n", "* __np.exp__ - применение поэлементной операции потенциирования к массиву\n", "* __np.random.normal__ - генерация массива, заполненного случайными нормальными величинами со стандартным отклонением, задающимся через аргумент scale и со средним значением, равным аргументу mean. Число элементов в массиве задаётся числом или списком, переданным аргументу size.\n", "* __np.random.randint__ - генерация массива, заполненного случайными целыми числами в диапазоне, задающимся аналогично __np.arange__. Число элементов в массиве задаётся числом или списком, переданным аргументу size.\n", "* __np.reshape__ - буквально изменение размерности многомерного массива с учётом числа элементов. В качестве аргумента передается многомерный массив, а также список или кортеж с новой размерностью. Например `np.reshape([0, 1, 2, 3], (2,2))` создаст двухмерный массив размером 2х2. При этом в памяти новый массив не выделяется, а меняется лишь способ обхода по нему. Разрешается также и следующий способ вызова метода: `arr.reshape(2, 2)`. Обратите внимание на отсутствие дополнительных скобок. Если вместо конкретного числа подставить -1, то размерность будет подсчитана автоматически. На практике используется для выпрямление картинок в виде одномерного массива: `X.reshape(-1, 3072)`# [100, 32, 32, 3] -> [100, 3072]\n", "* __np.transpose__ - переименование осей многомерного массива. Для работы с изображениями принято два формата NHWC и NCHW (N - число картинок в массиве, C - число каналов, H - высота, W - ширина). В качестве аргумента передается многомерный массив, а также список или кортеж с новой расстановкой осей. Например `np.transpose([[0, 1, 2, 3]], (1,0))` создаст двухмерный вектор-столбец [[[0], [1], [2], [3]]. Заметьте, что отсчет осей начинается с 0. На практике используется для перевода NHWC в NCHW и обратно. В первом случае 0 ось N остаётся на своём первом месте, первая и вторая оси H и W сдвигаются на одну позицию вправо, а 3 ось - C ставится на второе место. Т.е. получим следующую перестановку: [0, 3, 1, 2] \n", "* __np.isin__ - аналог SQL оператора IN, поэлементная проверка вхождения массива в коллекцию. `np.isin([0, 2, 1], [2, 3])` вернёт [False, True, False]\n", "* __индексирование__ - выбор подмассива или среза массива осуществляется с помощью квадратных скобок []. Если `arr = np.array([2, 1, 0])`, то `arr[0]` вернёт первый элемент. `arr[[0, 1]]` - обращение по индексу, `arr[[True, False, True]]` - обращение по булевой маске. Заметьте, что обращение по индексу необязательно должно совпадать с размерностью массива, в отличие от обращения по маске. На практике удобно записывать значения маски в отдельную переменную. Для выбора конкретного столбца в многомерном массиве используется синтаксис срезов [:, k], где k - номер столбца. Если k равняется -1, то используется последний столбец или элемент. Так, например, для массива `arr = np.array([[0, 1], [2, 3], [4, 5])` выражение `arr[:, 0]` вернет массив [0, 2, 4]. Поскольку используется индекс срезов (стандартный синтаксис Python), то можно также выполнять срезы многомерных массивов. Для предыдущего примера `arr[1:2, 0:1]` вернёт [[2]]\n", "* __np.unique__ - аналог SELECT DISTINCT в SQL. При стандартных параметрах возвращает одномерный подмассив, содержащий уникальные элементы. Если указать выставить флаг __return_inverse__, то вернется массив с номерами отсчётов массива с уникальными элементами. По сути выполняется Label Encoding\n", "* __np.concatenate__ - конкатенация многомерного массива вдоль указанной оси. Номер оси указывается через аргумент __axis__. Например может быть использован для объединения нескольких признаков или нескольких наборов данных. В контексте изображений может использоваться для объединения или склейки нескольких изображений в одно как вертикально, так и горизонтально. В контексте звука - склеивание двух аудиодорожек.\n", "* __np.max__, __np.min__ - возвращает максимальный и минимальный элементы массива вдоль указанной оси, соответственно. Если номер оси не указан, то возвращается число. Номер оси указывается через аргумент __axis__. Если указывается -1, то полагается, что используется последний номер оси. Разрешается также и вызов функции в качестве метода многомерного массива: `arr.max()`\n", "* __np.argmax__ - возвращает индекс максимального элемента массива вдоль указанной оси. Если номер оси не указан, то возвращается первый индекс, соответвующих максимальному значению в массиве, т.е. одно число. Номер оси указывается через аргумент __axis__. Если указывается -1, то полагается, что используется последний номер оси. На практике используется для расчёта метрики доли правильных ответов модели (Accuracy). Разрешается также и вызов функции в качестве метода многомерного массива: `arr.argmax(axis=-1)`" ] }, { "cell_type": "markdown", "metadata": { "id": "pL2CwPP4foPa" }, "source": [ "### Методы и функции Pickle\n", "(Документация: https://docs.python.org/3/library/pickle.html)" ] }, { "cell_type": "markdown", "metadata": { "id": "OCx3YmHafoPa" }, "source": [ "* __pickle.dump__ - сериализация структуры данных Python. Первым аргументом идёт сама структура, а вторым FileObject. При этом FileObject должен быть открыт в режиме записи байт (wb). Можно указать кодировку байт (big endian/ little endian). Тем самым можно хранить на постоянном носителе стандартные структуры данных, в том числе NumPy массивы.\n", "* __pickle.load__ - десериализация структуры данных Python. Первым аргументом идёт FileObject. При этом FileObject должен быть открыт в режиме чтения байт (rb). Можно указать кодировку байт (big endian/ little endian). Тем самым можно загружать ранее сохранённые структуры данных, что может быть полезно, если для их создания требуется длительное время (например, параметры модели глубокого обучения)\n" ] }, { "cell_type": "markdown", "metadata": { "id": "QC12OZoxfoPa" }, "source": [ "### Методы и функции Sklearn\n", "(Документация: https://scikit-learn.org/stable/modules/classes.html)" ] }, { "cell_type": "markdown", "metadata": { "id": "xIvGpvkYfoPb" }, "source": [ "* __datasets.make_circles__, __datasets.make_moons__ - генерация синтетической обучающей выборки для задачи классификации, возвращает X - двухмерный массив с числом примеров и числом признаков (признаков 2), а также одномерный массив с метками классов (0 или 1)\n", "\n", "* __metrics.classification_report__ - cоздает текстовый отчет, показывающий основные метрики классификации (доля правильных ответов, полнота, точность, f1-мера). В качестве первого аргумента передаются истинные метки класса, в качестве второго - метки класса, предсказанные моделью. Дополнительные полезные аргументы: digits - число выводимых знаков после запятой (по умолчанию 2), output_dict - возвращает словарь с расчитанными метриками вместо строки, sample_weight - расчитывает взвешенные метрики на основе веса каждого примера\n", "\n", "* __metrics.confusion_matrix__ - вычисляет матрицу ошибок модели для оценки точности классификации. Матрица ошибок идеальной модели имеет значения только на главной диагонали. Может быть использована для подсчёта всех классических метрик классификации (доля правильных ответов, полнота, точность, специфичность, f1-мера)." ] }, { "cell_type": "markdown", "metadata": { "id": "IHlZJ6u8foPb" }, "source": [ "### Методы и функции PIL\n", "\n", "(Документация: https://pillow.readthedocs.io/en/stable/)" ] }, { "cell_type": "markdown", "metadata": { "id": "LiZ6VpgQfoPb" }, "source": [ "* __Image.fromarray__ - cоздает объект Image на основе двухмерного массива или двухмерного массива с каналами. Часто ругается, если тип данных не uint8. Часто ругается, если производится попытка создать черно-белое изображения из картинки размерностью (W, H, 1). Для того, чтобы получить обратно массив из объекта Image, достаточно привести его к NumPy массиву, например np.array(img)\n", "\n", "* __Image.resize__ - меняет разрешение изображения с помощью интерполяции. Первым аргументом указывается список с новой шириной и высотой изображения. При желании можно указать тип интерполяции через аргумент resample. Поддерживаемые значения: PIL.Image.NEAREST, PIL.Image.BOX, PIL.Image.BILINEAR, PIL.Image.HAMMING, PIL.Image.BICUBIC, PIL.Image.LANCZOS. По умолчанию используется бикубическая интерполяция.\n", "\n", "* __Image.convert__ - переводит изображение из одной цветовой схемы в другую. Новая цветовая схема передается строкой, L - черно белая, LA - черно-белая с прозрачностью, RGB - стандартная цветовая схема с 3 каналами, RGBA - стандартная цветовая схема с 3 каналами цвета и одним каналом прозрачности, HSV - альтернативное цветовое представление и т.д.\n", "\n", "* __Image.open__ - считывает изображение по указанному пути в виде строки или FileObject. При создании набора данных может неправильно определить формат (например L вместо RGB), поэтому рекомендуется сразу после open приводить к нужному формату при помощи метода convert\n", "\n", "* __Image.save__ - сохраняет изображение по указанному пути в виде строки или FileObject. Если указывается FileObject, то нужно также указать формат изображения в аргументе format, например 'PNG' или 'JPEG'" ] }, { "cell_type": "markdown", "metadata": { "id": "lbgjhQ_QfoPb" }, "source": [ "### Методы и функции Matplotlib\n", "\n", "(Документация: https://matplotlib.org/stable/api/index.html)" ] }, { "cell_type": "markdown", "metadata": { "id": "WkICIncTfoPc" }, "source": [ "Принятые сокращения:\n", "* matplotlib.pyplot - plt\n", "\n", "Методы:\n", "* __plt.plot__ - рисует график по точкам и соединяет их линией. Первым аргументом передаются x-координаты, вторым - у-координаты. Если не передавать второй аргумент, х координаты будут приняты за у, а в качестве х будут использованы отсчёты массива. Дополнительные полезные аргументы: linestyle - тип отображаемой линиии ('--', '-', '-.' и т.д.), color - цвет линии ('k' - черный, 'r' - красный, 'white' - белый и т.д.), alpha - прозрачность линии, число от 0 (линия не видна) до 1 (нет прозрачности), label - текстовая метка данного графика.\n", "* __plt.scatter__ - рисует график по точкам юез соединения линиями. Первым аргументом передаются x-координаты, вторым - у-координаты. Если не передавать второй аргумент, х координаты будут приняты за у, а в качестве х будут использованы отсчёты массива. Дополнительные полезные аргументы: s - размер точек, color - цвет точек ('k' - черный, 'r' - красный, 'white' - белый и т.д.), alpha - прозрачность точек, число от 0 (линия не видна) до 1 (нет прозрачности), label - текстовая метка данного графика.\n", "* __plt.contourf__ - рисует заполненные контурные линии, разграничивающие границы.\n", "* __plt.show__ - принудительная отрисовка графика, может использоваться для вывода нескольких графиков в одном блоке кода.\n", "* __plt.legend__ - отображает ранее указанные метки графиков\n", "* __plt.xlim__ - ограничивает диапазон x-координат от первого до второго аргумента. По умолчанию диапазон горизонтальной оси подбирается автоматически на основе используемых данных. Для задания диапозана значений горизонтальной оси вручную и используется данный метод\n", "* __plt.ylim__ - аналогично __plt.xlim__, но для вертикальнйо оси.\n", "\n", "\n", "\n" ] } ], "metadata": { "colab": { "collapsed_sections": [ "VrOocc6D_O7M" ], "name": "Методичка Lab1.ipynb", "provenance": [], "toc_visible": true, "include_colab_link": true }, "kernelspec": { "display_name": "Python 3", "name": "python3" }, "language_info": { "name": "python" } }, "nbformat": 4, "nbformat_minor": 0 }