Шаг 13.
Введение в машинное обучение с использованием Python.
Введение. Основные библиотеки и инструменты. pandas

    На этом шаге мы дадим краткую характеристику этой библиотеки.

    pandas - библиотека Python для обработки и анализа данных. Она построена на основе структуры данных, называемой DataFrame и смоделированной по принципу датафреймов среды статистического программирования R. Проще говоря, DataFrame библиотеки pandas представляет собой таблицу, похожую на электронную таблицу Excel. Библиотека pandas предлагает большой спектр методов по работе с этой таблицей, в частности, она позволяет выполнять SQL-подобные запросы и присоединения таблиц. В отличие от NumPy, который требует, чтобы все записи в массиве были одного и того же типа, в pandas каждый столбец может иметь отдельный тип (например, целые числа, даты, числа с плавающей точкой и строки). Еще одним преимуществом библиотеки pandas является ее способность работать с различными форматами файлов и баз данных, например, с файлами SQL, Excel и CSV. Детальное рассмотрение возможностей pandas здесь не предполагается.

    Ниже приводится небольшой пример создания DataFrame с помощью словаря и результат вывода:


Рис.1. Создание и вывод DataFrame

    Существует несколько способов осуществить запрос к таблице. Например:


Рис.2. Запрос на выбор строк

    На следующем шаге мы рассмотрим mglearn.




Предыдущий шаг Содержание Следующий шаг