Шаг 189.
Введение в машинное обучение с использованием Python.
Работа с текстовыми данными. Исследование коэффициентов модели

    На этом шаге мы проанализируем полученные результаты.

    И, наконец, давайте посмотрим чуть более детально на информацию, полученную с помощью модели логистической регрессии. Поскольку у нас имеется большое количество признаков (27271 после удаления малоинформативных слов), мы не можем посмотреть все коэффициенты сразу. Однако мы можем посмотреть на коэффициенты, получившие максимальные значения, а также сопоставить их словам. Мы воспользуемся последней построенной моделью на основе признаков tf-idf.

    Следующая гистограмма (рисунок 1) показывает 40 наибольших и 40 наименьших коэффициентов модели логистической регрессии, каждый столбик соответствует величине коэффициента:

[In 26]:
mglearn.tools.visualize_coefficients(
grid.best_estimator_.named_steps["logisticregression"].coef_[1],
    feature_names, n_top_features=40)


Рис.1. Наибольшие и наименьшие значения коэффициентов логистической регрессии, построенной на основе признаков tf-idf (изображение кликабельно)

    Отрицательные коэффициенты, расположенные в левой части гистограммы, относятся к словам, которые в соответствии с моделью указывают на негативные отзывы, а положительные коэффициенты, расположенные в правой части гистограммы, принадлежат словам, которые означают положительные отзывы. Большая часть терминов интуитивно понятна, например, слова "worst", "waste", "disappointment" и "laughable" указывают на плохие киноотзывы, в то время как слова "excellent", "wonderful", "enjoyable" и "refreshing" свидетельствуют о положительных киноотзывах. Что касается слов типа "bit", "job" и "today", их связь с тональностью киноотзыва менее ясна, но они могут быть частью фразы, например, "good job" или "best today".

    На следующем шаге мы рассмотрим модель "мешка слов" для последовательностей из нескольких слов [n-грамм].




Предыдущий шаг Содержание