课程简介
本节课程将以一个机器学习过程为例完整地展示一个基础 Python 数据分析流程,以向大家展示一个典型决策树分类的数据科学工作流程是怎样的。除了提供代码示例之外,也希望大家能够动手操作。
该 notebook 为公共资源,如果发现任何错误或不足,欢迎随时指出或者提交 pull request 完善 notebook。
所需库
如果决策树分类你的计算机上没有Python,你可以使用 Anaconda Python distribution 来安装大部分你需要的 Python packages。Anaconda为你提供了一个简单的双击安装程序,方便您使用。
这个 notebook 使用几个 Anaconda Python 发行版标准的 Python packages。决策树分类我们使用的主要库是:
NumPy: 提供快速的数组结构和辅助函数
pandas:提供一个DataFrame结构,可以将数据存储在内存中,并轻松高效地处理数据
scikit-learn:Python中基本的机器学习库
matplotlib:Python中的基本绘图库决策树分类;大部分 Python 绘图库都建立在其上
Seaborn: 高级统计学绘图库
确保你拥有所需的软件包,使用 conda 安装:
conda install numpy pandas scikit-learn matplotlib seaborn。如果你没有最新版本,conda 可能会要求更新。
目标
这次练习的目的:假装我们成立了一个创建智能手机应用程序的创业公司,该智能手机应用程序可以自动识别智能手机上拍摄的花朵种类。为此我们正在与一个中等规模的数据科学家团队合作构建一部分数据分析流程。
解决方案:创建一个 demo 机器学习模型,模型从花朵(萼片长度,萼片宽度,花瓣长度和花瓣宽度)进行四次测量,并根据这些测量值来识别物种。
我们已经从相关领域研究人员获得一个数据集 来开发 demo,其中仅包括三种 Iris flowers 的测量指标:
Iris setosa
Iris versicolor
Iris virginica
我们目前使用 4 项测量指标,数据均由研究人员的手动测量,但是未来将会由图像处理模型自动测量。
注意: 我们使用的数据集是著名的 Iris 数据集 — 包含在这个 notebook — 我稍作修改用于演示。
未完待续:
https://datacademy.io/lesson/152
更多课程和文章尽在微信号:
上一篇: 版本服务器关闭连接,版本服务器关闭链接
下一篇: 魔兽世界网通服务器,wow网通服务器
联系电话:18300931024
在线QQ客服:616139763
官方微信:18300931024
官方邮箱: 616139763@qq.com