Репозиторий курса НИРС по машинному обучению
Схема типового исследования, проводимого студентом в рамках курсовой работы, содержит выполнение следующих шагов:
- Поиск и выбор набора данных для построения моделей машинного обучения. На основе выбранного набора данных студент должен построить модели машинного обучения для решения или задачи классификации, или задачи регрессии.
- Проведение разведочного анализа данных. Построение графиков, необходимых для понимания структуры данных. Анализ и заполнение пропусков в данных.
- Выбор признаков, подходящих для построения моделей. Кодирование категориальных признаков. Масштабирование данных. Формирование вспомогательных признаков, улучшающих качество моделей.
- Проведение корреляционного анализа данных. Формирование промежуточных выводов о возможности построения моделей машинного обучения. В зависимости от набора данных, порядок выполнения пунктов 2, 3, 4 может быть изменен.
- Выбор метрик для последующей оценки качества моделей. Необходимо выбрать не менее трех метрик и обосновать выбор.
- Выбор наиболее подходящих моделей для решения задачи классификации или регрессии. Необходимо использовать не менее пяти моделей, две из которых должны быть ансамблевыми.
- Формирование обучающей и тестовой выборок на основе исходного набора данных.
- Построение базового решения (baseline) для выбранных моделей без подбора гиперпараметров. Производится обучение моделей на основе обучающей выборки и оценка качества моделей на основе тестовой выборки.
- Подбор гиперпараметров для выбранных моделей. Рекомендуется использовать методы кросс-валидации. В зависимости от используемой библиотеки можно применять функцию GridSearchCV, использовать перебор параметров в цикле, или использовать другие методы.
- Повторение пункта 8 для найденных оптимальных значений гиперпараметров. Сравнение качества полученных моделей с качеством baseline-моделей.
- Формирование выводов о качестве построенных моделей на основе выбранных метрик. Результаты сравнения качества рекомендуется отобразить в виде графиков и сделать выводы в форме текстового описания. Рекомендуется построение графиков обучения и валидации, влияния значений гиперпарметров на качество моделей и т.д.
Приведенная схема исследования является рекомендуемой. В зависимости от решаемой задачи возможны модификации.
Отчет по НИРС – документ, содержащий описание решения комплексной задачи машинного обучения с обоснованием принятых решений.
Обязательными структурными элементами отчета являются:
- Титульный лист установленного образца. Шаблон можно найти в электронном университете: Раздел "Общая информация" / Вкладка "Документы" / Секция документа "Расчётно-пояснительные записки" (содержит бланки титульных листов).
- Задание установленного образца (титульный лист и бланк задания скачиваются в виде единого документа).
- Содержание.
- Введение.
- Основная часть, содержащая описание постановки задачи и последовательности действий студента по решению поставленной задачи.
- Заключение (формулировка выводов по выполненной работе).
- Список использованных источников информации (бумажных и электронных).
- Описание подхода, в файле .pdf
- Пример реализации в ноутбуке, можно использовать как бейзлайн
- Данные в .zip
- Сегментация деревьев из облака точек
- Сегментация облака точек на отдельные деревья. Файл для примера
- Данные карбонового полигона
- Мастер-класс по Cloud Compare
- Создание трехмерных моделей объектов на основе облака точек
- Применение методов курса ТМО для повышения качества методов классификации спутниковых снимков
- Использование градиентного бустинга и других методов машинного обучения в ноутбуке
- Данные разных типов вырубки леса в .zip
- Оценка качества набора данных и выявление ошибок в разметке на основе результатов классификации - проверить там, где низкие результаты.
- Использование градиентного бустинга и других методов машинного обучения
- Данные криостата