Шаг 156.
Глубокое обучение на Python. Обобщенный процесс машинного обучения. Определение задачи. Первичный анализ данных
На этом шаге мы перечислим вопросы, требующие ответа при этом анализе данных.
Представлять набор данных как черный ящик - не лучшее решение. Прежде чем приступить к обучению моделей, обязательно проанализируйте свои данные,
чтобы понять, какие особенности дают им прогнозирующую способность, что поможет обоснованно спроектировать признаки и выявить потенциальные
проблемы:
- если данные включают изображения или текст на естественном языке, изучите сразу несколько образцов (и их метки);
- если данные содержат числовые признаки, постройте гистограмму распределения значений признаков, чтобы получить представление о диапазоне и частоте различных значений;
- если данные включают информацию о местоположении, нанесите ее на карту. Возможно, вы заметите какие-то явные закономерности;
- если в некоторых образцах отсутствуют значения некоторых признаков, при подготовке данных вам нужно будет решить эту проблему (подробнее о ней рассказывается далее);
- если ваша задача связана с классификацией, подсчитайте количество образцов, представляющих каждый класс в ваших данных. Одинаково ли представлены классы? Если нет, вам понадобится учесть этот дисбаланс;
- проверьте утечку целей: наличие в данных признаков с информацией о целях, которые могут отсутствовать в реальных данных, но потом будут использоваться для прогнозирования Если вы обучаете на медицинских записях модель, предсказывающую вероятность заболеть раком в будущем, и записи включают признак "у этого человека диагностирован рак", то в таком случае целевые значения искусственно попадают в обучающие данные. Всегда спрашивайте себя: все ли признаки, имеющиеся в обучающих данных, будут доступны в той же форме в реальных данных?
На следующем шаге мы рассмотрим, в чем состоит успех работы модели.
Предыдущий шаг
Содержание
Следующий шаг