1.直方图
直方图是用一系列不等高的长方形来表示数据,宽度表示数据范围的间隔,高度表示在给定间隔内数据出现的频数,长方形的高度跟落在间隔内的数据数量成正比,变化的高度形态反映了数据的分布情况。
2.导入相关库
Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 我们一般用到的是 Matplotlib 的 Pyplot 函数集合。
from matplotlib import pyplot as plt
Pyplot 中使用 hist( ) 绘制直方图,并以元组形式返回直方图的计算结果,包括各区间中元素数量,区间的取值范围,以及具体每个区间对象。
3.相关参数介绍
hist( x, bins=None, range=None, normed=False, # 超重要density=False, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', rwidth=None, # 选用 orientation='vertical', color=None, edgecolor=None, label=None, # 常用stacked=False, **kwargs)
xxx:数组或者数组序列(不要求每个数组长度相同),用于存放数据
binsbinsbins:整数、序列或字符串,整数表示等宽区间的个数(直方图条形个数),自动计算区间范围,序列则表示区间的范围,除了最后一个以外,都是包含左边不包含右边,字符串则表示对应的策略,默认为 hist.bins
rangerangerange:元组,指定最小值和最大值(直方图数据的上下界),默认包含绘图数据中的最小值和最大值(默认以绘图数据的最小值作为直方图数据的上下界)
normednormednormed:是否将直方图的频数转化为频率
densitydensitydensity:布尔值,可选,如果为 True,则返回的是归一化的概率密度,所有区间的概率之和为1
weightweightweight:类似于数组的值,可选,形状和 xxx 相同,表示每个值对应的权重,默认情况下所有数据的权重相同
cumulativecumulativecumulative:布尔值或 -1,累积求和,表示小于某个数的所有元素个数之和,随着数的增大而不断增大,如果为 -1,则反转方向,表示大于某个数的所有元素个数之和,随着数量增大而不断减小
histtypehisttypehisttype:指定直方图的类型,默认为 bar。bar(多个并列摆放),barstacked(多个堆叠摆放),step(生成对应的折线),stepfilled(填充相关区域)
alignalignalign:设置条形边界值的对齐方式,默认为 mid,另外还有 left 和 right
rwidthrwidthrwidth:设置条形图的宽度
orientationorientationorientation:设置直方图的摆放方向,默认为垂直方向。
colorcolorcolor:设置直方图的填充色
edgecoloredgecoloredgecolor:设置直方图边框色
labellabellabel:设置直方图标签,可以通过 legend 展示其图例
stackedstackedstacked:当有多个数据时,是否需要将直方图呈堆叠摆放,默认水平摆放
4.绘图示例
这里以我自己正在做的一个问题为示例,至于其他参数,大家不妨自己去尝试使用一下。
绘图数据:
绘图代码:
plt.figure(figsize=(20,10))matplotlib.rcParams['font.family'] = 'SimHei' # 显示中文fre_tuple = plt.hist(id_array, bins=20, color='steelblue') # 返回值元组plt.title('小区流量记录分布直方图', fontproperties='SimHei', fontsize=15)plt.show()
id_array 最小值:1,最大值:2388,指定了 bins 为 20,则 hist( ) 将 1 到 2388 等距分割为 20 个区间,记录各个区间的频数
此时的区间划分和各区间频数为:
修改部分参数:
plt.figure(figsize=(20,10))matplotlib.rcParams['font.family'] = 'SimHei'fre_tuple = plt.hist(id_array, bins=20, color='steelblue', edgecolor='black', rwidth=0.8, orientation='horizontal')plt.title('小区流量记录分布直方图', fontproperties='SimHei', fontsize=15)plt.show()
修改 bins 参数,自定义划分区间:
plt.figure(figsize=(20,10))matplotlib.rcParams['font.family'] = 'SimHei'bins = np.linspace(0,1200,13).tolist()bins.append(2500)fre_tuple = plt.hist(id_array, bins=bins, color='steelblue', edgecolor='black', rwidth=0.8, orientation='horizontal')plt.title('小区流量记录分布直方图', fontproperties='SimHei', fontsize=15)plt.show()
修改后的 bins:
此时的区间间隔和频数:
5.添加数据标签
plt.figure(figsize=(20,10))matplotlib.rcParams['font.family'] = 'SimHei'fre_tuple = plt.hist(id_array, bins=20, color='steelblue', edgecolor='black', rwidth=0.8, orientation='horizontal')plt.title('小区流量记录分布直方图', fontproperties='SimHei', fontsize=15)x_loc = fre_tuple[0] # 频数y_loc = fre_tuple[1] # 分割区间for x,y in zip(x_loc,y_loc):# text:在指定位置上显示文本plt.text(x+2500, y+25, '%.0f' % x, ha='center', va= 'bottom',fontsize=15)# x,y 加上的数值可以自己结合要绘制的图形设定,用来调整标签的显示位置plt.show()