课程简介
基于Python的数据分析与数据挖掘课程大纲
章节 |
课程内容 |
知识点 |
入门篇 |
||
一、数据挖掘概述 |
1.1 什么是数据挖掘 1.2 数据挖掘的项目流程 |
|
二、数据挖掘常用Python工具入门 |
2.1 为什么选择Python |
|
2.2 常用的Python工具 |
Numpy Pandas Scikit.learn |
|
数据篇 |
||
三、数据准备 |
3.1 使用Pandas存取数据 |
CSV/TSV JSON MySQL |
3.2 让数据可用 |
数据抽取 数据合并 数据清洗 数据Shuffle与随机采样 文本操作 |
|
四、数据探索 |
4.1 数据探索的重要性 |
|
4.2 认识数据 |
变量类型、数据类型与变量种类 数据自洽性验证 数据的描述性统计 单变量统计方法 多变量分析 |
|
4.3 从数据到特征 – 特征工程 |
基础特征的生成 数据归一化 数据变换 数据降维 PCA LDA 高阶特征的生成 |
|
模型篇 |
||
五、常用模型 |
5.1 无监督方法 |
聚类分析 k-means GMM 关联规则 |
5.2 有监督方法 |
kNN 支持向量机 决策树 逻辑回归 人工神经网络 |
|
算法篇 |
||
六、如何求解模型 |
6.1 解析方法 |
多元函数极值定理 |
6.2 数值方法 |
批训练方法 在线训练方法 |
|
工程篇 |
||
七、点数成金 – Bigger Than Bigger |
7.1数据挖掘的工程化 |
|
7.2 第yi代机器学习系统 - Map-Reduce框架 |
Hadoop Spark |
|
7.3 第二代机器学习系统 - Data Flow框架 |
TensorFlow Apache Beam |