课程: Python 机器学习基础
免费学习该课程!
今天就开通帐号,24,700 门业界名师课程任您挑!
加载与探索数据
接下来,我们进入机器学习项目中 最基础也是最重要的一步, 数据加载和初步探索。 首先,我们可以选择新建一个代码块。 点击“代码”。 这样一来,我们就有两个不同的代码块。 这就是 Notebook 优越性的一个地方。 我们可以分阶段运行每一个步骤, 并且及时查看每一步的结果。 我们可以点击“运行”来加载这些库。 看到这个打勾,说明我们已经加载完毕了。 接下来,我们输入。 这行代码是我们将本地的一个 CSV 文件 读入为一个 Pandas 的 DataFrame 对象, 并赋值给变量 df。 这个 df 是一个常见的变量名, 也就是 DataFrame 的一个简写, 就是表格型数据。 pd.read_csv, 这是 Pandas 中常用的一个函数, 用于从本地路径 加载 CSV 格式的数据文件。 而 CSV 是一种 非常常见的数据交换格式, 每一行代表一条记录, 每一列之间用逗号隔开。 读取成功之后, 我们就可以对这个 df 进行各种数据分析还有处理操作了。 下面我们可以来做一些基础的数据探索操作。 我们输入这行代码, “df.head()”。 这个函数会显示数据集的前 5 行, 默认是 5 行。 我们也可以通过传参来指定函数。 例如,在括号中输入“10”。 这样,我们就可以快速了解 每一列的列名、数据类型 以及数据值的大致样子。 在实际工作中, 这一步通常是我们对数据第一印象的来源。 我们可以运行一下这个代码块。 可以看到它输出了数据集的前 5 行信息。 我们可以通过这些信息 来看到这个数据的整体结构, 包括年龄、收入、婚姻状况、 孩子数量、是否有房子 以及预算和购买意向。 接下来我们再新建一个代码块。 我们输入“df.info()”。 这个函数, 可以帮助我们快速了解数据的结构信息, 包括总共有多少行、多少列, 每一列的数据类型, 比如整型、浮点型还有字符串型, 以及每一列是否有缺失值, 这是判断数据是否干净的第一步。 我们可以运行看看。 可以看到,这个数据集一共有 7 列。 这里还列出了 每一列的列名和非零数据的个数。 我们可以看到在“income”这一列, “收入”这一列, 只有 184 个数据,是有一些缺失的。 移最后, 我们可以看到每一列数据的数据类型, 包括整型,浮点型等等。 接下来我们可以再新建一个代码块。 我们输入“df.describe()”。…