分享太阁DS501数据科学家直通车视频课程资料

db123 · 2019 年2 月 25 日 03:23

分享太阁DS501数据科学家直通车视频课程资料，有需求者请通过邮箱dabaoyeyeye123@sohu.com联系我。

官网 https://www.bittiger.io/livecourses/cXtaRDYeQwtCpP4ta

课程大纲

第一个月 (1月27日 - 2月18日)：熟练掌握R并实战Kaggle房价预测项目

以kaggle project housing prediction为例，详解在面试以及实际工作中最需要理解掌握的知识点，涵盖统计学(statistic)和机器学习major supervised machine learning模型内容。

同学们将提前感受data scientist的work routine，例如面对最初大量房子的原始数据，如何开展，如何理解数据，从而有效提取有predictive的feature，并建立price prediction模型。

Week1: 统计基础知识夯实 (Statistical Foundations)

1. 学习目标与成果

通过R载入数据，加载数据，以统计学视角理解数据，处理数据。

2. 每周6小时课程安排

理论（2小时）：概率与统计

Probability distribution
Common probability distributions: normal, binomial, possion, chi-square
Conditional probability, Bayesian theorem
Law of large number
Central limit theorem
Expectation and Variance
ANOVA
Correlation and Covariance

项目（2小时）：了解房价数据的79个不同变量

了解R语言
在R中加载数据
EDA: perform summary stats on housing price data
数据可视化：histograms, frequency polygons, box-plots, quartiles, scatter plots, heat maps
数据清理: solve issues when processing practical data

实战（2小时）：Code lab

3. 拓展学习教程

【R语言应用与实战电子书】

Week2：统计推断 (Statistical Inference)

1. 学习目标与成果
提取具有预测价值的数据，为建立预测模型做准备。

2. 每周6小时课程安排

理论（2小时）：假设检验（Hypothesis Testing）

A/B experiment design
Hypothesis testing
Sample size calculation
Type I, II error, power, p-value
One sample, two sample t-test
Confidence interval
Pitfalls
Feature engineering

项目（2小时）：

Hypothesis testing
Exploratory data analysis
Feature Engineering

实战（2小时）：Code lab

3. 拓展学习教程：

【深入浅出SQL及其在Hive中的应用电子书】

Week3：线性回归（Linear Regression）

1. 学习目标与成果

学习线性回归的基本理论，理解通过建立线性回归模型来预测房价，理解如何解释模型产生的结果，并通过改进模型获得更准确的预测。

2. 每周6小时课程安排

理论（2小时）：线性回归

Simple linear regression
Cost function
MSE and MLE
Hypothesis testing in lm, F test
Multivariate linear regression
Multicollinearity
Regularization: ridge and lasso
Bias variance tradeoff
Cross validation

项目（2小时）：

使用R建立线性回归模型
分析模型结果并对模型进行相应的改进
Residue term diagnosis
Add in regularization term to solve multicollinearity
Select best regularization parameter using cross validation

实战（2小时）：Code lab

3. 拓展学习教程

【大数据分析-MapReduce，Hadoop，Hive 电子书】

Week4：基于树的模型（Tree Based Models）

1. 学习目标与成果

从原始数据中提取可用于建立预测模型的信息

2. 每周6小时课程安排

理论（2小时）：Tree Based Models

Decision tree
Bagging
Random forest
Boosting
Boosting decision tree
Gradient boosting decision tree

项目（2小时）：从原始数据中提取可用于建立预测模型的信息

Build decision tree
Build random forest
Build boosting decision tree
Check model performance and make predictions
Compare with linear regression model

实战（2小时）：Code lab

3. 拓展学习教程

【大数据分析 - NoSQL 电子书】

第二个月 (2月24日 - 3月18日)：熟练掌握Python并实战Yelp Business项目

以yelp dataset challenge开放实战挑战为例，围绕dataset提出有商业价值的data science 问题，并开发出相应解决方案。

同学们将学到如何从structured & unstructured data中提取信息，运用包括Natural Language Process在内的方法，对dataset进行深度挖掘。从而建立clustering model，ranking system，及recommendation system等各种data products。

https://www.yelp.com/dataset_challenge

Week5：逻辑回归模型基础及模型搭建 (Logistic Regression Model)

1. 学习目标与成果

理解Yelp数据，在Python中载入数据，转换并清理数据，提取可用于建立模型的数据特征，建立逻辑回归模型来预测商业种类。

2. 每周6小时课程安排

理论（2小时）：逻辑回归模型理论基础

Binomial logistic regression
Multinomial logistics regression
Confusion matrix
ROC curve, AUC

项目（2小时）：

利用Python建立逻辑回归模型Build logistic regression model
分析模型结果并对模型进行相应的改进
Residue term diagnosis
Add in regularization term to solve multicollinearity
Select best regularization parameter using cross validation

实战（2小时）：Code lab

3. 拓展学习教程

【Python基础(上)：Python+Numpy+Pandas+Scipy 电子书】

Week6：自然语言处理 (Natural Language Processing)

1. 学习目标与成果

通过自然语言处理把文字转化成有效特征，对数据进行深度挖掘。

2. 每周6小时课程安排

理论（2小时）：自然语言处理

Feature extraction from unstructured data
Natural language processing
Tokenization and stop words
Stemming and Lemmatization
Bag of words and TF-IDF

项目（2小时）：

Python
Use sklearn to vectorize reviews
Calculate similarity between reviews with new created text vectors
Revisit logistic regression model with new created features if necessary
Select best regularization parameter using cross validation

实战（2小时）：Code lab

3. 拓展学习教程

【Python基础(下)：Python+Numpy+Pandas+Scipy 电子书】

Week7：聚类算法 (Clustering)

1. 学习目标与成果

建立聚类模型将信息分类，如通过评论对不同的商业实体进行分类，或通过用户喜好对用户进行分类，从而建立data products。

2. 每周6小时课程安排

理论（2小时）：Clustering

Unsupervised machine learning
Clustering
KMeans and how to choose number of clusters
Hierachical clustering

项目（2小时）：

Python
Use sklearn to vectorize reviews
Cluster vectorized reviews
Cluster users

实战（2小时）：Code lab

3. 拓展学习教程

【Tableau基础及职场应用电子书】

Week8：推荐系统 (Recommendation System)

1. 学习目标与成果

理解推荐系统如何工作及其价值。例如，利用Collaborative Filtering，基于用户以往的行为及反馈，为用户推荐商业实体；或利用Graph Theory并基于用户的社交网络进行好友推荐；或利用NMF-Non-negative Matrix Factorization，基于用户喜好推荐好友。

2. 每周6小时课程安排

理论（2小时）：推荐系统

Recommendation system
Collaborative filtering
Content based filtering

项目（2小时）：

Python
Generate recommendations for users with collaborative filtering
Generate recommendations for users with content based filtering

实战（2小时）： Code lab

3. 拓展学习教程

【数据科学家面试训练营电子书】

第三个月 (3月24日 - 4月15日)：面试专题辅导 & Capstone Project

面试专题辅导：

Facebook Senior Manager, Microsoft Principal Data Scientist等硅谷大牛将做为Guest Speaker，分享知名互联网公司的工作经历与career path的心得，并从他们当面试官的角度讲解备战面试秘籍。

Week 9 Facebook Analytics Manager职场及面试分享

Week10 Microsoft Principal Data Scientist职场及面试分享

Capstone Project：

提供备选项目与dataset，由学生自主选择。根据学生在项目中需要用到的技术类别分组，在老师的指导下完成项目。每周会进行4个小时的项目辅导，既有组内分享，也有个人单独辅导。在Bootcamp的最后进行项目展示。

每位学员在第三个月还会得到30分钟的mock interview，老师会给出及时的feedback，帮助你实战演练面试冲刺。

Week11 工作经验分享与面试实战指导

Week12 Demo Day

课程大纲

第一个月 (1月27日 - 2月18日)：熟练掌握R并实战Kaggle房价预测项目

以kaggle project housing prediction为例，详解在面试以及实际工作中最需要理解掌握的知识点，涵盖统计学(statistic)和机器学习major supervised machine learning模型内容。

同学们将提前感受data scientist的work routine，例如面对最初大量房子的原始数据，如何开展，如何理解数据，从而有效提取有predictive的feature，并建立price prediction模型。

Week1: 统计基础知识夯实 (Statistical Foundations)

1. 学习目标与成果

通过R载入数据，加载数据，以统计学视角理解数据，处理数据。

2. 每周6小时课程安排

理论（2小时）：概率与统计

Probability distribution
Common probability distributions: normal, binomial, possion, chi-square
Conditional probability, Bayesian theorem
Law of large number
Central limit theorem
Expectation and Variance
ANOVA
Correlation and Covariance

项目（2小时）：了解房价数据的79个不同变量

了解R语言
在R中加载数据
EDA: perform summary stats on housing price data
数据可视化：histograms, frequency polygons, box-plots, quartiles, scatter plots, heat maps
数据清理: solve issues when processing practical data

实战（2小时）：Code lab

3. 拓展学习教程

【R语言应用与实战电子书】

Week2：统计推断 (Statistical Inference)

1. 学习目标与成果
提取具有预测价值的数据，为建立预测模型做准备。

2. 每周6小时课程安排

理论（2小时）：假设检验（Hypothesis Testing）

A/B experiment design
Hypothesis testing
Sample size calculation
Type I, II error, power, p-value
One sample, two sample t-test
Confidence interval
Pitfalls
Feature engineering

项目（2小时）：

Hypothesis testing
Exploratory data analysis
Feature Engineering

实战（2小时）：Code lab

3. 拓展学习教程：

【深入浅出SQL及其在Hive中的应用电子书】

Week3：线性回归（Linear Regression）

1. 学习目标与成果

学习线性回归的基本理论，理解通过建立线性回归模型来预测房价，理解如何解释模型产生的结果，并通过改进模型获得更准确的预测。

2. 每周6小时课程安排

理论（2小时）：线性回归

Simple linear regression
Cost function
MSE and MLE
Hypothesis testing in lm, F test
Multivariate linear regression
Multicollinearity
Regularization: ridge and lasso
Bias variance tradeoff
Cross validation

项目（2小时）：

使用R建立线性回归模型
分析模型结果并对模型进行相应的改进
Residue term diagnosis
Add in regularization term to solve multicollinearity
Select best regularization parameter using cross validation

实战（2小时）：Code lab

3. 拓展学习教程

【大数据分析-MapReduce，Hadoop，Hive 电子书】

Week4：基于树的模型（Tree Based Models）

1. 学习目标与成果

从原始数据中提取可用于建立预测模型的信息

2. 每周6小时课程安排

理论（2小时）：Tree Based Models

Decision tree
Bagging
Random forest
Boosting
Boosting decision tree
Gradient boosting decision tree

项目（2小时）：从原始数据中提取可用于建立预测模型的信息

Build decision tree
Build random forest
Build boosting decision tree
Check model performance and make predictions
Compare with linear regression model

实战（2小时）：Code lab

3. 拓展学习教程

【大数据分析 - NoSQL 电子书】

第二个月 (2月24日 - 3月18日)：熟练掌握Python并实战Yelp Business项目

以yelp dataset challenge开放实战挑战为例，围绕dataset提出有商业价值的data science 问题，并开发出相应解决方案。

同学们将学到如何从structured & unstructured data中提取信息，运用包括Natural Language Process在内的方法，对dataset进行深度挖掘。从而建立clustering model，ranking system，及recommendation system等各种data products。

https://www.yelp.com/dataset_challenge

Week5：逻辑回归模型基础及模型搭建 (Logistic Regression Model)

1. 学习目标与成果

理解Yelp数据，在Python中载入数据，转换并清理数据，提取可用于建立模型的数据特征，建立逻辑回归模型来预测商业种类。

2. 每周6小时课程安排

理论（2小时）：逻辑回归模型理论基础

Binomial logistic regression
Multinomial logistics regression
Confusion matrix
ROC curve, AUC

项目（2小时）：

利用Python建立逻辑回归模型Build logistic regression model
分析模型结果并对模型进行相应的改进
Residue term diagnosis
Add in regularization term to solve multicollinearity
Select best regularization parameter using cross validation

实战（2小时）：Code lab

3. 拓展学习教程

【Python基础(上)：Python+Numpy+Pandas+Scipy 电子书】

Week6：自然语言处理 (Natural Language Processing)

1. 学习目标与成果

通过自然语言处理把文字转化成有效特征，对数据进行深度挖掘。

2. 每周6小时课程安排

理论（2小时）：自然语言处理

Feature extraction from unstructured data
Natural language processing
Tokenization and stop words
Stemming and Lemmatization
Bag of words and TF-IDF

项目（2小时）：

Python
Use sklearn to vectorize reviews
Calculate similarity between reviews with new created text vectors
Revisit logistic regression model with new created features if necessary
Select best regularization parameter using cross validation

实战（2小时）：Code lab

3. 拓展学习教程

【Python基础(下)：Python+Numpy+Pandas+Scipy 电子书】

Week7：聚类算法 (Clustering)

1. 学习目标与成果

建立聚类模型将信息分类，如通过评论对不同的商业实体进行分类，或通过用户喜好对用户进行分类，从而建立data products。

2. 每周6小时课程安排

理论（2小时）：Clustering

Unsupervised machine learning
Clustering
KMeans and how to choose number of clusters
Hierachical clustering

项目（2小时）：

Python
Use sklearn to vectorize reviews
Cluster vectorized reviews
Cluster users

实战（2小时）：Code lab

3. 拓展学习教程

【Tableau基础及职场应用电子书】

Week8：推荐系统 (Recommendation System)

1. 学习目标与成果

理解推荐系统如何工作及其价值。例如，利用Collaborative Filtering，基于用户以往的行为及反馈，为用户推荐商业实体；或利用Graph Theory并基于用户的社交网络进行好友推荐；或利用NMF-Non-negative Matrix Factorization，基于用户喜好推荐好友。

2. 每周6小时课程安排

理论（2小时）：推荐系统

Recommendation system
Collaborative filtering
Content based filtering

项目（2小时）：

Python
Generate recommendations for users with collaborative filtering
Generate recommendations for users with content based filtering

实战（2小时）： Code lab

3. 拓展学习教程

【数据科学家面试训练营电子书】

第三个月 (3月24日 - 4月15日)：面试专题辅导 & Capstone Project

面试专题辅导：

Facebook Senior Manager, Microsoft Principal Data Scientist等硅谷大牛将做为Guest Speaker，分享知名互联网公司的工作经历与career path的心得，并从他们当面试官的角度讲解备战面试秘籍。

Week 9 Facebook Analytics Manager职场及面试分享

Week10 Microsoft Principal Data Scientist职场及面试分享

Capstone Project：

提供备选项目与dataset，由学生自主选择。根据学生在项目中需要用到的技术类别分组，在老师的指导下完成项目。每周会进行4个小时的项目辅导，既有组内分享，也有个人单独辅导。在Bootcamp的最后进行项目展示。

每位学员在第三个月还会得到30分钟的mock interview，老师会给出及时的feedback，帮助你实战演练面试冲刺。

Week11 工作经验分享与面试实战指导

Week12 Demo Day

金牌教师

Stone

Machine Learning Engineer

SPLUNK

George Washington University PhD，现就职于Splunk Machine Learning Team，负责Data Science Application的研发。曾在加州知名Data Bootcamp任教。

Liang Xie

Principal Data Scientist

MICROSOFT

纽约州立大学计量经济学 Ph.D.，微软云计算核心存储部门首席数据科学家，主持运用机器学习和人工智能方法优化大规模高可用性并行存储系统的运行效率和改进其运维方式。具有10年以上机器学习应用经验，熟悉各种业务场景下机器学习和数据挖掘产品的需求分析，架构设计，算法开发和集成部署，行业跨度包含金融，能源和高科技。曾经担任美国道琼斯工业平均指数唯一保险业成分股的旅行者保险公司分析部门总监，负责运用现代统计学习方法优化精算定价业务和保险运营管理，推动精准个性化定价解决方案。在包括Journal of Statistical Software等专业期刊上发表多篇论文，担任Journal of Statistical Computation and Simulation期刊以及Data Mining Applications with R一书的审稿人。

Ella

Data Scientist

GOOGLE

资深FLAG公司Data Scientist。多年面试官经历及教学经历，擅长发现学员的弱点，实战面试辅导，助其快速提升。

分享太阁DS501数据科学家直通车视频课程资料

Week1: 统计基础知识夯实 (Statistical Foundations)

Week2：统计推断 (Statistical Inference)

Week3：线性回归（Linear Regression）

Week4：基于树的模型 （Tree Based Models）

Week5：逻辑回归模型基础及模型搭建 (Logistic Regression Model)

Week6：自然语言处理 (Natural Language Processing)

Week7：聚类算法 (Clustering)

Week8：推荐系统 (Recommendation System)

面试专题辅导：

Capstone Project：

Week1: 统计基础知识夯实 (Statistical Foundations)

Week2：统计推断 (Statistical Inference)

Week3：线性回归（Linear Regression）

Week4：基于树的模型 （Tree Based Models）

Week5：逻辑回归模型基础及模型搭建 (Logistic Regression Model)

Week6：自然语言处理 (Natural Language Processing)

Week7：聚类算法 (Clustering)

Week8：推荐系统 (Recommendation System)

面试专题辅导：

Capstone Project：

Week4：基于树的模型（Tree Based Models）

Week4：基于树的模型（Tree Based Models）