Skip to content

iu5git/Data-Science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data-Science

Репозиторий курса НИРС по машинному обучению

Схема типового исследования

Схема типового исследования, проводимого студентом в рамках курсовой работы, содержит выполнение следующих шагов:

  1. Поиск и выбор набора данных для построения моделей машинного обучения. На основе выбранного набора данных студент должен построить модели машинного обучения для решения или задачи классификации, или задачи регрессии.
  2. Проведение разведочного анализа данных. Построение графиков, необходимых для понимания структуры данных. Анализ и заполнение пропусков в данных.
  3. Выбор признаков, подходящих для построения моделей. Кодирование категориальных признаков. Масштабирование данных. Формирование вспомогательных признаков, улучшающих качество моделей.
  4. Проведение корреляционного анализа данных. Формирование промежуточных выводов о возможности построения моделей машинного обучения. В зависимости от набора данных, порядок выполнения пунктов 2, 3, 4 может быть изменен.
  5. Выбор метрик для последующей оценки качества моделей. Необходимо выбрать не менее трех метрик и обосновать выбор.
  6. Выбор наиболее подходящих моделей для решения задачи классификации или регрессии. Необходимо использовать не менее пяти моделей, две из которых должны быть ансамблевыми.
  7. Формирование обучающей и тестовой выборок на основе исходного набора данных.
  8. Построение базового решения (baseline) для выбранных моделей без подбора гиперпараметров. Производится обучение моделей на основе обучающей выборки и оценка качества моделей на основе тестовой выборки.
  9. Подбор гиперпараметров для выбранных моделей. Рекомендуется использовать методы кросс-валидации. В зависимости от используемой библиотеки можно применять функцию GridSearchCV, использовать перебор параметров в цикле, или использовать другие методы.
  10. Повторение пункта 8 для найденных оптимальных значений гиперпараметров. Сравнение качества полученных моделей с качеством baseline-моделей.
  11. Формирование выводов о качестве построенных моделей на основе выбранных метрик. Результаты сравнения качества рекомендуется отобразить в виде графиков и сделать выводы в форме текстового описания. Рекомендуется построение графиков обучения и валидации, влияния значений гиперпарметров на качество моделей и т.д.

Приведенная схема исследования является рекомендуемой. В зависимости от решаемой задачи возможны модификации.

Отчет по НИРС

Отчет по НИРС – документ, содержащий описание решения комплексной задачи машинного обучения с обоснованием принятых решений.

Обязательными структурными элементами отчета являются:

  1. Титульный лист установленного образца. Шаблон можно найти в электронном университете: Раздел "Общая информация" / Вкладка "Документы" / Секция документа "Расчётно-пояснительные записки" (содержит бланки титульных листов).
  2. Задание установленного образца (титульный лист и бланк задания скачиваются в виде единого документа).
  3. Содержание.
  4. Введение.
  5. Основная часть, содержащая описание постановки задачи и последовательности действий студента по решению поставленной задачи.
  6. Заключение (формулировка выводов по выполненной работе).
  7. Список использованных источников информации (бумажных и электронных).

Примеры отчетов

Темы

Обнаружение присутствия людей в помещении

Предсказание спроса с помощью градиентного бустинга

  • Описание подхода, в файле .pdf
  • Пример реализации в ноутбуке, можно использовать как бейзлайн
  • Данные в .zip

Кластеризация данных LiDAR

  1. Сегментация деревьев из облака точек
  1. Создание трехмерных моделей объектов на основе облака точек

Классификация данных на спутниковых снимках

  1. Применение методов курса ТМО для повышения качества методов классификации спутниковых снимков
  • Использование градиентного бустинга и других методов машинного обучения в ноутбуке
  • Данные разных типов вырубки леса в .zip
  1. Оценка качества набора данных и выявление ошибок в разметке на основе результатов классификации - проверить там, где низкие результаты.

Решение задач на платформе BAUM AI

Кластеризация данных измерений гибридного сопроцессора

  • Использование градиентного бустинга и других методов машинного обучения
  • Данные криостата

Обработка речи

Обработка медицинских изображений и данных МРТ

About

Репозиторий курса НИРС по машинному обучению (ТМО)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published