站长网 大数据 5个可以帮助Pandas进行数据预解决的可视化图表

5个可以帮助Pandas进行数据预解决的可视化图表

数据科学和机器学习项目的结构化方法从项目目标开始。同一组数据点可以推断出一些有意义的信息。基于我们所寻找的,我们需要关注数据的另一个方面。一旦我们明确了目标,我们就应该开始考虑我们需要的数据点。这将使我们能够专注于最相关的信息集,而忽略

数据科学和机器学习项目的结构化方法从项目目标开始。同一组数据点可以推断出一些有意义的信息。基于我们所寻找的,我们需要关注数据的另一个方面。一旦我们明确了目标,我们就应该开始考虑我们需要的数据点。这将使我们能够专注于最相关的信息集,而忽略可能不重要的数据集。

在现实生活中,从多个来源收集到的大多数时间数据都有空白值、打字错误和其他异常。在进行任何数据分析之前,清除数据是至关重要的。

在本文中,我将讨论五个强大的数据可视化选项,它们可以立即提供数据特征的感觉。即使在正式建模或假设测试任务之前,执行EDA就可以传达大量关于数据和特征之间关系的信息。

第1步-我们将导入pandas、matplotlib、seaborn和NumPy包,我们将使用这些包进行分析。我们需要散点图、自相关图、滞后图和平行图。

import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 

from pandas.plotting import autocorrelation_plot 

import seaborn as sns 

from pandas.plotting import scatter_matrix 

from pandas.plotting import autocorrelation_plot 

from pandas.plotting import parallel_coordinates 

from pandas.plotting import lag_plot 

第2步-在Seaborn包中,有一个内置的小数据集。我们将使用"mpg"、"tips"和"attention"数据进行可视化。数据集是在seaborn中使用load_dataset方法加载的。

"""Download the datasets used in the program """ 

CarDatabase= sns.load_dataset("mpg") 

MealDatabase= sns.load_dataset("tips") 

AttentionDatabase= sns.load_dataset("attention") 

六边形分箱图(hexpin)

我们经常使用散点图来快速掌握变量之间的关系。只要图中没有人口稠密的数据点,获得一个洞察力是非常有帮助的。在下面的代码中,我们绘制了"mpg"数据集中"Horsepower" 和"Acceleration"数据点之间的散点图。

plt.scatter(CarDatabase.acceleration ,CarDatabase.horsepower,marker="^")  

plt.show() 

散点图中的点密集分布,从中获取有意义的信息有点困难。

5个可以帮助Pandas进行数据预解决的可视化图表

本文来自网络,不代表站长网立场,转载请注明出处:https://www.tzzz.com.cn/html/shuju/2021/0527/7033.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部