使用Python代码轻松实现数据可视化五种方法分享-电子产品世界论坛

这些小活动你都参加了吗？快来围观一下吧！>>

电子产品世界 » 论坛首页 » 综合技术 » 基础知识 » 使用Python代码轻松实现数据可视化五种方法分享

共2条 1/1 1 跳转至页

使用Python代码轻松实现数据可视化五种方法分享

扣丁客

菜鸟

2020-12-08 17:04:31 打赏

只看楼主 1楼

数据可视化是数据科学家工作中的重要组成部分。在项目的早期阶段，你通常会进行探索性数据分析（ExploratoryDataAnalysis，EDA）以获取对数据的一些理解。创建可视化方法确实有助于使事情变得更加清晰易懂，特别是对于大型、高维数据集。在项目结束时，以清晰、简洁和引人注目的方式展现最终结果是非常重要的，因为你的受众往往是非技术型客户，只有这样他们才可以理解。

Matplotlib是一个流行的Python库，可以用来很简单地创建数据可视化方案。但每次创建新项目时，设置数据、参数、图形和排版都会变得非常繁琐和麻烦。在这篇博文中，我们将着眼于5个数据可视化方法，并使用PythonMatplotlib为他们编写一些快速简单的函数。与此同时，这里有一个很棒的图表，可用于在工作中选择正确的可视化方法！

散点图

散点图非常适合展示两个变量之间的关系，因为你可以直接看到数据的原始分布。如下面第一张图所示的，你还可以通过对组进行简单地颜色编码来查看不同组数据的关系。想要可视化三个变量之间的关系？没问题！仅需使用另一个参数（如点大小）就可以对第三个变量进行编码，如下面的第二张图所示。

现在开始讨论代码。我们首先用别名“plt”导入Matplotlib的pyplot。要创建一个新的点阵图，我们可调用plt.subplots()。我们将x轴和y轴数据传递给该函数，然后将这些数据传递给ax.scatter()以绘制散点图。我们还可以设置点的大小、点颜色和alpha透明度。你甚至可以设置Y轴为对数刻度。标题和坐标轴上的标签可以专门为该图设置。这是一个易于使用的函数，可用于从头到尾创建散点图！

importmatplotlib.pyplotaspltimportnumpyasnpdefscatterplot(x_data,y_data,x_label="",y_label="",title="",color="r",yscale_log=False):
#Createtheplotobject
_,ax=plt.subplots()#Plotthedata,setthesize(s),colorandtransparency(alpha)
#ofthepoints
ax.scatter(x_data,y_data,s=10,color=color,alpha=0.75)ifyscale_log==True:
ax.set_yscale('log')#Labeltheaxesandprovideatitle
ax.set_title(title)
ax.set_xlabel(x_label)
ax.set_ylabel(y_label)

折线图

当你可以看到一个变量随着另一个变量明显变化的时候，比如说它们有一个大的协方差，那最好使用折线图。让我们看一下下面这张图。我们可以清晰地看到对于所有的主线随着时间都有大量的变化。使用散点绘制这些将会极其混乱，难以真正明白和看到发生了什么。折线图对于这种情况则非常好，因为它们基本上提供给我们两个变量（百分比和时间）的协方差的快速总结。另外，我们也可以通过彩色编码进行分组。

这里是折线图的代码。它和上面的散点图很相似，只是在一些变量上有小的变化。

deflineplot(x_data,y_data,x_label="",y_label="",title=""):
#Createtheplotobject
_,ax=plt.subplots()#Plotthebestfitline,setthelinewidth(lw),colorand
#transparency(alpha)oftheline
ax.plot(x_data,y_data,lw=2,color='#539caf',alpha=1)#Labeltheaxesandprovideatitle
ax.set_title(title)
ax.set_xlabel(x_label)
ax.set_ylabel(y_label)

直方图

直方图对于查看（或真正地探索）数据点的分布是很有用的。查看下面我们以频率和IQ做的直方图。我们可以清楚地看到朝中间聚集，并且能看到中位数是多少。我们也可以看到它呈正态分布。使用直方图真得能清晰地呈现出各个组的频率之间的相对差别。组的使用（离散化）真正地帮助我们看到了“更加宏观的图形”,然而当我们使用所有没有离散组的数据点时，将对可视化可能造成许多干扰，使得看清真正发生了什么变得困难。

下面是在Matplotlib中的直方图代码。有两个参数需要注意一下：首先，参数n_bins控制我们想要在直方图中有多少个离散的组。更多的组将给我们提供更加完善的信息，但是也许也会引进干扰，使得我们远离全局；另一方面，较少的组给我们一种更多的是“鸟瞰图”和没有更多细节的全局图。其次，参数cumulative是一个布尔值，允许我们选择直方图是否为累加的，基本上就是选择是PDF（ProbabilityDensityFunction，概率密度函数）还是CDF（CumulativeDensityFunction，累积密度函数）。

defhistogram(data,n_bins,cumulative=False,x_label="",y_label="",title=""):
_,ax=plt.subplots()
ax.hist(data,n_bins=n_bins,cumulative=cumulative,color='#539caf')
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)

想象一下我们想要比较数据中两个变量的分布。有人可能会想你必须制作两张直方图，并且把它们并排放在一起进行比较。然而，实际上有一种更好的办法：我们可以使用不同的透明度对直方图进行叠加覆盖。看下图，均匀分布的透明度设置为0.5，使得我们可以看到他背后的图形。这样我们就可以直接在同一张图表里看到两个分布。

对于重叠的直方图，需要设置一些东西。首先，我们设置可同时容纳不同分布的横轴范围。根据这个范围和期望的组数，我们可以真正地计算出每个组的宽度。最后，我们在同一张图上绘制两个直方图，其中有一个稍微更透明一些。

#Overlay2histogramstocomparethemdefoverlaid_histogram(data1,data2,n_bins=0,data1_name="",data1_color="#539caf",data2_name="",data2_color="#7663b0",x_label="",y_label="",title=""):
#Settheboundsforthebinssothatthetwodistributionsarefairlycompared
max_nbins=10
data_range=[min(min(data1),min(data2)),max(max(data1),max(data2))]
binwidth=(data_range[1]-data_range[0])/max_nbinsifn_bins==0
bins=np.arange(data_range[0],data_range[1]+binwidth,binwidth)else:
bins=n_bins#Createtheplot
_,ax=plt.subplots()
ax.hist(data1,bins=bins,color=data1_color,alpha=1,label=data1_name)
ax.hist(data2,bins=bins,color=data2_color,alpha=0.75,label=data2_name)
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)
ax.legend(loc='best')

柱状图

当你试图将类别很少（可能小于10）的分类数据可视化的时候，柱状图是最有效的。如果我们有太多的分类，那么这些柱状图就会非常杂乱，很难理解。柱状图对分类数据很好，因为你可以很容易地看到基于柱的类别之间的区别（比如大小)；分类也很容易划分和用颜色进行编码。我们将会看到三种不同类型的柱状图：常规的，分组的，堆叠的。在我们进行的过程中，请查看图形下面的代码。

常规的柱状图如下面的图1。在barplot()函数中，xdata表示x轴上的标记，ydata表示y轴上的杆高度。误差条是一条以每条柱为中心的额外的线，可以画出标准偏差。

分组的柱状图让我们可以比较多个分类变量。看看下面的图2。我们比较的第一个变量是不同组的分数是如何变化的（组是G1，G2，……等等)。我们也在比较性别本身和颜色代码。看一下代码，y_data_list变量实际上是一个y元素为列表的列表，其中每个子列表代表一个不同的组。然后我们对每个组进行循环，对于每一个组，我们在x轴上画出每一个标记；每个组都用彩色进行编码。

堆叠柱状图可以很好地观察不同变量的分类。在图3的堆叠柱状图中，我们比较了每天的服务器负载。通过颜色编码后的堆栈图，我们可以很容易地看到和理解哪些服务器每天工作最多，以及与其他服务器进行比较负载情况如何。此代码的代码与分组的条形图相同。我们循环遍历每一组，但这次我们把新柱放在旧柱上，而不是放在它们的旁边。

defbarplot(x_data,y_data,error_data,x_label="",y_label="",title=""):
_,ax=plt.subplots()
#Drawbars,positiontheminthecenterofthetickmarkonthex-axis
ax.bar(x_data,y_data,color='#539caf',align='center')
#Drawerrorbarstoshowstandarddeviation,setlsto'none'
#toremovelinebetweenpoints
ax.errorbar(x_data,y_data,yerr=error_data,color='#297083',ls='none',lw=2,capthick=2)
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)
defstackedbarplot(x_data,y_data_list,colors,y_data_names="",x_label="",y_label="",title=""):
_,ax=plt.subplots()
#Drawbars,onecategoryatatime
foriinrange(0,len(y_data_list)):
ifi==0:
ax.bar(x_data,y_data_list[i],color=colors[i],align='center',label=y_data_names[i])
else:
#Foreachcategoryafterthefirst,thebottomofthe
#barwillbethetopofthelastcategory
ax.bar(x_data,y_data_list[i],color=colors[i],bottom=y_data_list[i-1],align='center',label=y_data_names[i])
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)
ax.legend(loc='upperright')
defgroupedbarplot(x_data,y_data_list,colors,y_data_names="",x_label="",y_label="",title=""):
_,ax=plt.subplots()
#Totalwidthforallbarsatonexlocation
total_width=0.8
#Widthofeachindividualbar
ind_width=total_width/len(y_data_list)
#Thiscenterseachclusterofbarsaboutthextickmark
alteration=np.arange(-(total_width/2),total_width/2,ind_width)
#Drawbars,onecategoryatatime
foriinrange(0,len(y_data_list)):
#Movethebartotherightonthex-axissoitdoesn't
#overlapwithpreviouslydrawnones
ax.bar(x_data+alteration[i],y_data_list[i],color=colors[i],label=y_data_names[i],width=ind_width)
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)
ax.legend(loc='upperright')

箱形图

我们之前看了直方图，它很好地可视化了变量的分布。但是如果我们需要更多的信息呢？也许我们想要更清晰的看到标准偏差？也许中值与均值有很大不同，我们有很多离群值？如果有这样的偏移和许多值都集中在一边呢？

这就是箱形图所适合干的事情了。箱形图给我们提供了上面所有的信息。实线框的底部和顶部总是第一个和第三个四分位（比如25%和75%的数据），箱体中的横线总是第二个四分位（中位数）。像胡须一样的线(虚线和结尾的条线）从这个箱体伸出，显示数据的范围。

由于每个组/变量的框图都是分别绘制的，所以很容易设置。xdata是一个组/变量的列表。Matplotlib库的boxplot()函数为ydata中的每一列或每一个向量绘制一个箱体。因此，xdata中的每个值对应于ydata中的一个列/向量。我们所要设置的就是箱体的美观。

defboxplot(x_data,y_data,base_color="#539caf",median_color="#297083",x_label="",y_label="",title=""):
_,ax=plt.subplots()
#Drawboxplots,specifyingdesiredstyle
ax.boxplot(y_data
#patch_artistmustbeTruetocontrolboxfill
,patch_artist=True
#Propertiesofmedianline
,medianprops={'color':median_color}
#Propertiesofbox
,boxprops={'color':base_color,'facecolor':base_color}
#Propertiesofwhiskers
,whiskerprops={'color':base_color}
#Propertiesofwhiskercaps
,capprops={'color':base_color})
#Bydefault,theticklabelstartsat1andincrementsby1for
#eachboxdrawn.Thissetsthelabelstotheoneswewant
ax.set_xticklabels(x_data)
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)

结语

使用Matplotlib有5个快速简单的数据可视化方法。将相关事务抽象成函数总是会使你的代码更易于阅读和使用！最后想要了解更多关于Python发展前景趋势，请关注扣丁学堂python培训官网、微信等平台，扣丁学堂IT职业在线学习教育平台为您提供最新的Python视频教程系统，通过千锋扣丁学堂金牌讲师在线录制的Python视频教程课程，让你快速掌握Python从入门到精通开发实战技能。扣丁学堂python学习交流1群：943406067。

无厘头

工程师

2020-12-08 21:28:15 打赏

2楼

十分感谢您的分享

共2条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！
高校联络员开始招募啦！有惊喜！！
【工程师专属福利】每天30秒，积分轻松拿！EEPW宠粉打卡计划启动！
送您一块开发板，2025年“我要开发板活动”又开始了！

我要赚赏金打赏帖
【S32K3XX】Standby RAM 重启后数据异常问题调查被打赏￥38元
【分享开发笔记，赚取电动螺丝刀】MAX78000开发板驱动2.4寸SPI液晶屏模块240*320TFT模块ILI9341被打赏￥26元
【S32K3XX】Memory 访问默认权限配置被打赏￥25元
基于stm32f401retc对0.96寸tft的lvgl移植被打赏￥30元
【分享开发笔记，赚取电动螺丝刀】VSCode环境下移植u8g2的使用方法被打赏￥25元
【分享开发笔记，赚取电动螺丝刀】MAX78000FTHR开发板，切换到最高时钟频率100Mhz方法！被打赏￥17元
关于st7735s屏幕旋转的理解被打赏￥21元
【分享开发笔记，赚取电动螺丝刀】MAX78000FTHR开发板，更新DAPLink固件方法！被打赏￥22元
【分享开发笔记，赚取电动螺丝刀】在NUCLEO-F412ZG部署MicroPython被打赏￥25元
【调试】使用OZONE调试Cortex-M hardfault被打赏￥40元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

使用Python代码轻松实现数据可视化五种方法分享

回复