Визуализация данных играет важную роль в анализе данных. Pandas — это мощная библиотека анализа данных на Python для науки о данных. Он предоставляет различные варианты визуализации данных с помощью метода .plot(). Даже если вы новичок, вы можете легко построить график своих данных с помощью библиотеки Pandas. Вам необходимо импортировать пакеты pandas и matplotlib.pyplot для визуализации данных.
В этой статье мы рассмотрим различные методы построения графиков данных с помощью Python Pandas. Мы выполнили все примеры в редакторе исходного кода pycharm с помощью пакета matplotlib.pyplot.
В Pandas.plot() имеет несколько параметров, которые вы можете использовать в зависимости от ваших потребностей. В основном, используя параметр «kind», вы можете определить, какой тип графика вы будете создавать.
Следующий синтаксис используется для построения DataFrame в Pandas Python:
# Импорт pandas и matplotlib.pyplot import pandas as pd import matplotlib.pyplot as plt # Подготовка данных для создания DataFrame data_frame = { 'Column1': ['field1', 'field2', 'field3', 'field4',...], ‘Column2': ['field1', 'field2', 'field3', 'field4',...] } var_df= pd.DataFrame(data_frame, columns=['Column1', 'Column2]) print(Variable) # построение гистограммы var_df.plot.bar(x='Column1', y='Column2') plt.show()
Вы также можете определить тип графика, используя параметр kind следующим образом:
var_df.plot(x='Column1', y='Column2', kind=’bar’)
Объекты Pandas DataFrames имеют следующие методы построения графиков:
Если пользователь использует только метод plot() без использования каких-либо параметров, он создает линейный график по умолчанию.
Теперь мы подробно остановимся на некоторых основных типах построения графиков с помощью некоторых примеров.
В этом типе построения графиков мы представили взаимосвязь между двумя переменными. Возьмем пример.
Например, у нас есть данные о корреляции между двумя переменными GDP_growth и Oil_price. Чтобы построить связь между двумя переменными, мы выполнили следующий фрагмент кода в нашем редакторе исходного кода:
import matplotlib.pyplot as plt import pandas as pd gdp_cal= pd.DataFrame({ 'GDP_growth': [6.1, 5.8, 5.7, 5.7, 5.8, 5.6, 5.5, 5.3, 5.2, 5.2], 'Oil_Price': [1500, 1520, 1525, 1523, 1515, 1540, 1545, 1560, 1555, 1565] }) df = pd.DataFrame(gdp_cal, columns=['Oil_Price', 'GDP_growth']) print(df) df.plot(x='Oil_Price', y='GDP_growth', kind = 'scatter', color= 'red') plt.show()
График линейной диаграммы — это основной тип построения, при котором заданная информация отображается в виде ряда точек данных, которые далее соединяются сегментами прямых линий. Используя линейные диаграммы, вы также можете показать тенденции изменения информации во времени.
В приведенном ниже примере мы взяли данные об уровне инфляции за прошлый год. Сначала подготовьте данные, а затем создайте DataFrame. Следующий исходный код строит линейный график доступных данных:
import pandas as pd import matplotlib.pyplot as pltinfl_cal = {'Year': [2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011], 'Infl_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10] } data_frame = pd.DataFrame(infl_cal, columns=['Year', 'Infl_Rate']) data_frame.plot(x='Year', y='Infl_Rate', kind='line') plt.show()
В приведенном выше примере вам нужно установить kind = ‘line’ для построения линейного графика.
Приведенный выше пример вы также можете реализовать с помощью следующего метода:
import pandas as pd import matplotlib.pyplot as pltinf_cal = {'Year': [2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011], 'Inflation_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10] } data_frame = pd.DataFrame(inf_cal, columns=['Inflation_Rate'], index=[2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011]) data_frame.plot.line() plt.title('Inflation Rate Summary of Past 11 Years') plt.ylabel('Inflation_Rate') plt.xlabel('Year') plt.show()
После выполнения вышеуказанного кода отобразится следующий линейный график:
Построение гистограммы используется для представления категориальных данных. На этом типе графика прямоугольные полосы разной высоты строятся на основе заданной информации. Гистограмма может быть построена в двух различных горизонтальных или вертикальных направлениях.
В следующем примере мы взяли уровень грамотности в нескольких странах. DataFrames создаются, в которых «Country_Names» и «literacy_Rate» являются двумя столбцами DataFrame. Используя Pandas, вы можете отобразить информацию в форме гистограммы следующим образом:
import pandas as pd import matplotlib.pyplot as pltlit_cal = { 'Country_Names': ['Pakistan', 'USA', 'China', 'India', 'UK', 'Austria', 'Egypt', 'Ukraine', 'Saudia', 'Australia', 'Malaysia'], 'litr_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10] } data_frame = pd.DataFrame(lit_cal, columns=['Country_Names', 'litr_Rate']) print(data_frame) data_frame.plot.bar(x='Country_Names', y='litr_Rate') plt.show()
Вы также можете реализовать приведенный выше пример, используя следующий метод. Установите kind = ‘bar’ для построения гистограммы в этой строке:
data_frame.plot(x='Country_Names', y='litr_Rate', kind='bar') plt.show()
Вы также можете нанести данные на горизонтальные полосы, выполнив следующий код:
import matplotlib.pyplot as plt import pandas as pddata_chart = {'litr_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10]} df = pd.DataFrame(data_chart, columns=['litr_Rate'], index=['Pakistan', 'USA', 'China', 'India', 'UK', 'Austria', 'Egypt', 'Ukraine', 'Saudia', 'Australia', 'Malaysia']) df.plot.barh() plt.title('Literacy Rate in Various Countries') plt.ylabel('Country_Names') plt.xlabel('litr_Rate') plt.show()
В df.plot.barh() полоса используется для горизонтального построения. После выполнения вышеуказанного кода в окне отображается следующая гистограмма:
Круговая диаграмма представляет данные в круглой графической форме, в которой данные отображаются в виде фрагментов в зависимости от заданного количества.
В следующем примере мы отобразили информацию о «Earth_material» в разных частях круговой диаграммы. Сначала создайте DataFrame, а затем с помощью панд отобразите все детали на графике.
import pandas as pd import matplotlib.pyplot as pltmaterial_per = {'Earth_Part': [71,18,7,4]} dataframe = pd.DataFrame(material_per,columns=['Earth_Part'],index = ['Water','Mineral','Sand','Metals']) dataframe.plot.pie(y='Earth_Part',figsize=(7, 7),autopct='%1.1f%%', startangle=90) plt.show()
Приведенный выше исходный код строит круговую диаграмму доступных данных:
В этой статье вы увидели, как построить DataFrames в Python Pandas. В статье выше выполняются разные виды построения. Для построения других типов, таких как box, hexbin, hist, kde, density, area и т. д., Вы можете использовать тот же исходный код, просто изменив тип графика.