На этом шаге мы дадим краткую характеристику этой библиотеки.
pandas - библиотека Python для обработки и анализа данных. Она построена на основе структуры данных, называемой DataFrame и смоделированной по принципу датафреймов среды статистического программирования R. Проще говоря, DataFrame библиотеки pandas представляет собой таблицу, похожую на электронную таблицу Excel. Библиотека pandas предлагает большой спектр методов по работе с этой таблицей, в частности, она позволяет выполнять SQL-подобные запросы и присоединения таблиц. В отличие от NumPy, который требует, чтобы все записи в массиве были одного и того же типа, в pandas каждый столбец может иметь отдельный тип (например, целые числа, даты, числа с плавающей точкой и строки). Еще одним преимуществом библиотеки pandas является ее способность работать с различными форматами файлов и баз данных, например, с файлами SQL, Excel и CSV. Детальное рассмотрение возможностей pandas здесь не предполагается.
Ниже приводится небольшой пример создания DataFrame с помощью словаря и результат вывода:
Рис.1. Создание и вывод DataFrame
Существует несколько способов осуществить запрос к таблице. Например:
Рис.2. Запрос на выбор строк
На следующем шаге мы рассмотрим mglearn.