Шаг 180.
Введение в машинное обучение с использованием Python.
Работа с текстовыми данными (общие сведения)

    На этом шаге мы вспомним типы признаков, описывающих свойства данных.

    В разделе "Типы данных и конструирование признаков" (начиная с 114 шага) мы говорили о двух типах признаков, которые могут представлять свойства данных:

    Существует еще и третий тип признаков, который можно встретить в различных областях - текст. Например, при классификации сообщений электронной почты на спам и действительно нужные письма, сам по себе текст письма, безусловно, будет содержать важную информацию для данной классификационной задачи. Или нам нужно узнать мнение какого-то политика об иммиграции. В данном случае тексты его выступлений или твиты могут дать полезную информацию. При обслуживании клиентов нам часто требуется выяснить, является ли сообщение жалобой или запросом. Проанализировав тему и содержание сообщения, мы можем автоматически определить намерения клиента, а это в свою очередь позволит нам направить сообщение в соответствующий отдел или даже отправить клиенту автоматический ответ.

    Текстовые данные обычно представлены в виде строк, состоящих из символов. Во всех приведенных примерах длина текстовых данных будет разной. Текстовая информация очень отличается от ранее рассмотренных нами непрерывных признаков, и нам сначала предстоит обработать данные, прежде чем мы сможем применить к ним алгоритмы машинного обучения.

    На следующем шаге мы рассмотрим строковые типы данных.




Предыдущий шаг Содержание Следующий шаг