分享太阁DS501数据科学家直通车视频课程资料,有需求者请通过邮箱dabaoyeyeye123@sohu.com联系我。
官网 https://www.bittiger.io/livecourses/cXtaRDYeQwtCpP4ta
课程大纲
第一个月 (1月27日 - 2月18日):熟练掌握R并实战Kaggle房价预测项目
以kaggle project housing prediction为例,详解在面试以及实际工作中最需要理解掌握的知识点,涵盖统计学(statistic)和机器学习major supervised machine learning模型内容。
同学们将提前感受data scientist的work routine,例如面对最初大量房子的原始数据,如何开展,如何理解数据,从而有效提取有predictive的feature,并建立price prediction模型。
Week1: 统计基础知识夯实 (Statistical Foundations)
1. 学习目标与成果
通过R载入数据,加载数据,以统计学视角理解数据,处理数据。
2. 每周6小时课程安排
理论(2小时):概率与统计
- Probability distribution
- Common probability distributions: normal, binomial, possion, chi-square
- Conditional probability, Bayesian theorem
- Law of large number
- Central limit theorem
- Expectation and Variance
- ANOVA
- Correlation and Covariance
项目(2小时):了解房价数据的79个不同变量
-
了解R语言
-
在R中加载数据
-
EDA: perform summary stats on housing price data
-
数据可视化:histograms, frequency polygons, box-plots, quartiles, scatter plots, heat maps
-
数据清理: solve issues when processing practical data
实战(2小时):Code lab
3. 拓展学习教程
【R语言应用与实战 电子书】
Week2:统计推断 (Statistical Inference)
1. 学习目标与成果
提取具有预测价值的数据,为建立预测模型做准备。
2. 每周6小时课程安排
理论(2小时):假设检验 (Hypothesis Testing)
- A/B experiment design
- Hypothesis testing
- Sample size calculation
- Type I, II error, power, p-value
- One sample, two sample t-test
- Confidence interval
- Pitfalls
- Feature engineering
项目(2小时):
- Hypothesis testing
- Exploratory data analysis
- Feature Engineering
实战(2小时):Code lab
3. 拓展学习教程:
【深入浅出SQL及其在Hive中的应用 电子书】
Week3:线性回归(Linear Regression)
1. 学习目标与成果
学习线性回归的基本理论,理解通过建立线性回归模型来预测房价,理解如何解释模型产生的结果,并通过改进模型获得更准确的预测。
2. 每周6小时课程安排
理论(2小时):线性回归
- Simple linear regression
- Cost function
- MSE and MLE
- Hypothesis testing in lm, F test
- Multivariate linear regression
- Multicollinearity
- Regularization: ridge and lasso
- Bias variance tradeoff
- Cross validation
项目(2小时):
-
使用R建立线性回归模型
-
分析模型结果并对模型进行相应的改进
-
Residue term diagnosis
-
Add in regularization term to solve multicollinearity
-
Select best regularization parameter using cross validation
实战(2小时):Code lab
3. 拓展学习教程
【大数据分析-MapReduce,Hadoop,Hive 电子书】
Week4:基于树的模型 (Tree Based Models)
1. 学习目标与成果
从原始数据中提取可用于建立预测模型的信息
2. 每周6小时课程安排
理论(2小时):Tree Based Models
- Decision tree
- Bagging
- Random forest
- Boosting
- Boosting decision tree
- Gradient boosting decision tree
项目(2小时):从原始数据中提取可用于建立预测模型的信息
- Build decision tree
- Build random forest
- Build boosting decision tree
- Check model performance and make predictions
- Compare with linear regression model
实战(2小时):Code lab
3. 拓展学习教程
【大数据分析 - NoSQL 电子书】
第二个月 (2月24日 - 3月18日):熟练掌握Python并实战Yelp Business项目
以yelp dataset challenge开放实战挑战为例,围绕dataset提出有商业价值的data science 问题,并开发出相应解决方案。
同学们将学到如何从structured & unstructured data中提取信息,运用包括Natural Language Process在内的方法,对dataset进行深度挖掘。从而建立clustering model,ranking system,及recommendation system等各种data products。
https://www.yelp.com/dataset_challenge
Week5:逻辑回归模型基础及模型搭建 (Logistic Regression Model)
1. 学习目标与成果
理解Yelp数据,在Python中载入数据,转换并清理数据,提取可用于建立模型的数据特征,建立逻辑回归模型来预测商业种类。
2. 每周6小时课程安排
理论(2小时):逻辑回归模型理论基础
- Binomial logistic regression
- Multinomial logistics regression
- Confusion matrix
- ROC curve, AUC
项目(2小时):
- 利用Python建立逻辑回归模型Build logistic regression model
- 分析模型结果并对模型进行相应的改进
- Residue term diagnosis
- Add in regularization term to solve multicollinearity
- Select best regularization parameter using cross validation
实战(2小时):Code lab
3. 拓展学习教程
【Python基础(上):Python+Numpy+Pandas+Scipy 电子书】
Week6:自然语言处理 (Natural Language Processing)
1. 学习目标与成果
通过自然语言处理把文字转化成有效特征,对数据进行深度挖掘。
2. 每周6小时课程安排
理论(2小时):自然语言处理
- Feature extraction from unstructured data
- Natural language processing
- Tokenization and stop words
- Stemming and Lemmatization
- Bag of words and TF-IDF
项目(2小时):
- Python
- Use sklearn to vectorize reviews
- Calculate similarity between reviews with new created text vectors
- Revisit logistic regression model with new created features if necessary
- Select best regularization parameter using cross validation
实战(2小时):Code lab
3. 拓展学习教程
【Python基础(下):Python+Numpy+Pandas+Scipy 电子书】
Week7:聚类算法 (Clustering)
1. 学习目标与成果
建立聚类模型将信息分类,如通过评论对不同的商业实体进行分类,或通过用户喜好对用户进行分类,从而建立data products。
2. 每周6小时课程安排
理论(2小时):Clustering
- Unsupervised machine learning
- Clustering
- KMeans and how to choose number of clusters
- Hierachical clustering
项目(2小时):
- Python
- Use sklearn to vectorize reviews
- Cluster vectorized reviews
- Cluster users
实战(2小时):Code lab
3. 拓展学习教程
【Tableau基础及职场应用 电子书】
Week8:推荐系统 (Recommendation System)
1. 学习目标与成果
理解推荐系统如何工作及其价值。例如,利用Collaborative Filtering,基于用户以往的行为及反馈,为用户推荐商业实体;或利用Graph Theory并基于用户的社交网络进行好友推荐;或利用NMF-Non-negative Matrix Factorization,基于用户喜好推荐好友。
2. 每周6小时课程安排
理论(2小时):推荐系统
- Recommendation system
- Collaborative filtering
- Content based filtering
项目(2小时):
- Python
Generate recommendations for users with collaborative filtering
Generate recommendations for users with content based filtering
实战(2小时): Code lab
3. 拓展学习教程
【数据科学家面试训练营 电子书】
第三个月 (3月24日 - 4月15日):面试专题辅导 & Capstone Project
面试专题辅导:
Facebook Senior Manager, Microsoft Principal Data Scientist等硅谷大牛将做为Guest Speaker,分享知名互联网公司的工作经历与career path的心得,并从他们当面试官的角度讲解备战面试秘籍。
Week 9 Facebook Analytics Manager职场及面试分享
Week10 Microsoft Principal Data Scientist职场及面试分享
Capstone Project:
提供备选项目与dataset,由学生自主选择。根据学生在项目中需要用到的技术类别分组,在老师的指导下完成项目。每周会进行4个小时的项目辅导,既有组内分享,也有个人单独辅导。在Bootcamp的最后进行项目展示。
每位学员在第三个月还会得到30分钟的mock interview,老师会给出及时的feedback,帮助你实战演练面试冲刺。
Week11 工作经验分享与面试实战指导
Week12 Demo Day
课程大纲
第一个月 (1月27日 - 2月18日):熟练掌握R并实战Kaggle房价预测项目
以kaggle project housing prediction为例,详解在面试以及实际工作中最需要理解掌握的知识点,涵盖统计学(statistic)和机器学习major supervised machine learning模型内容。
同学们将提前感受data scientist的work routine,例如面对最初大量房子的原始数据,如何开展,如何理解数据,从而有效提取有predictive的feature,并建立price prediction模型。
Week1: 统计基础知识夯实 (Statistical Foundations)
1. 学习目标与成果
通过R载入数据,加载数据,以统计学视角理解数据,处理数据。
2. 每周6小时课程安排
理论(2小时):概率与统计
- Probability distribution
- Common probability distributions: normal, binomial, possion, chi-square
- Conditional probability, Bayesian theorem
- Law of large number
- Central limit theorem
- Expectation and Variance
- ANOVA
- Correlation and Covariance
项目(2小时):了解房价数据的79个不同变量
-
了解R语言
-
在R中加载数据
-
EDA: perform summary stats on housing price data
-
数据可视化:histograms, frequency polygons, box-plots, quartiles, scatter plots, heat maps
-
数据清理: solve issues when processing practical data
实战(2小时):Code lab
3. 拓展学习教程
【R语言应用与实战 电子书】
Week2:统计推断 (Statistical Inference)
1. 学习目标与成果
提取具有预测价值的数据,为建立预测模型做准备。
2. 每周6小时课程安排
理论(2小时):假设检验 (Hypothesis Testing)
- A/B experiment design
- Hypothesis testing
- Sample size calculation
- Type I, II error, power, p-value
- One sample, two sample t-test
- Confidence interval
- Pitfalls
- Feature engineering
项目(2小时):
- Hypothesis testing
- Exploratory data analysis
- Feature Engineering
实战(2小时):Code lab
3. 拓展学习教程:
【深入浅出SQL及其在Hive中的应用 电子书】
Week3:线性回归(Linear Regression)
1. 学习目标与成果
学习线性回归的基本理论,理解通过建立线性回归模型来预测房价,理解如何解释模型产生的结果,并通过改进模型获得更准确的预测。
2. 每周6小时课程安排
理论(2小时):线性回归
- Simple linear regression
- Cost function
- MSE and MLE
- Hypothesis testing in lm, F test
- Multivariate linear regression
- Multicollinearity
- Regularization: ridge and lasso
- Bias variance tradeoff
- Cross validation
项目(2小时):
-
使用R建立线性回归模型
-
分析模型结果并对模型进行相应的改进
-
Residue term diagnosis
-
Add in regularization term to solve multicollinearity
-
Select best regularization parameter using cross validation
实战(2小时):Code lab
3. 拓展学习教程
【大数据分析-MapReduce,Hadoop,Hive 电子书】
Week4:基于树的模型 (Tree Based Models)
1. 学习目标与成果
从原始数据中提取可用于建立预测模型的信息
2. 每周6小时课程安排
理论(2小时):Tree Based Models
- Decision tree
- Bagging
- Random forest
- Boosting
- Boosting decision tree
- Gradient boosting decision tree
项目(2小时):从原始数据中提取可用于建立预测模型的信息
- Build decision tree
- Build random forest
- Build boosting decision tree
- Check model performance and make predictions
- Compare with linear regression model
实战(2小时):Code lab
3. 拓展学习教程
【大数据分析 - NoSQL 电子书】
第二个月 (2月24日 - 3月18日):熟练掌握Python并实战Yelp Business项目
以yelp dataset challenge开放实战挑战为例,围绕dataset提出有商业价值的data science 问题,并开发出相应解决方案。
同学们将学到如何从structured & unstructured data中提取信息,运用包括Natural Language Process在内的方法,对dataset进行深度挖掘。从而建立clustering model,ranking system,及recommendation system等各种data products。
https://www.yelp.com/dataset_challenge
Week5:逻辑回归模型基础及模型搭建 (Logistic Regression Model)
1. 学习目标与成果
理解Yelp数据,在Python中载入数据,转换并清理数据,提取可用于建立模型的数据特征,建立逻辑回归模型来预测商业种类。
2. 每周6小时课程安排
理论(2小时):逻辑回归模型理论基础
- Binomial logistic regression
- Multinomial logistics regression
- Confusion matrix
- ROC curve, AUC
项目(2小时):
- 利用Python建立逻辑回归模型Build logistic regression model
- 分析模型结果并对模型进行相应的改进
- Residue term diagnosis
- Add in regularization term to solve multicollinearity
- Select best regularization parameter using cross validation
实战(2小时):Code lab
3. 拓展学习教程
【Python基础(上):Python+Numpy+Pandas+Scipy 电子书】
Week6:自然语言处理 (Natural Language Processing)
1. 学习目标与成果
通过自然语言处理把文字转化成有效特征,对数据进行深度挖掘。
2. 每周6小时课程安排
理论(2小时):自然语言处理
- Feature extraction from unstructured data
- Natural language processing
- Tokenization and stop words
- Stemming and Lemmatization
- Bag of words and TF-IDF
项目(2小时):
- Python
- Use sklearn to vectorize reviews
- Calculate similarity between reviews with new created text vectors
- Revisit logistic regression model with new created features if necessary
- Select best regularization parameter using cross validation
实战(2小时):Code lab
3. 拓展学习教程
【Python基础(下):Python+Numpy+Pandas+Scipy 电子书】
Week7:聚类算法 (Clustering)
1. 学习目标与成果
建立聚类模型将信息分类,如通过评论对不同的商业实体进行分类,或通过用户喜好对用户进行分类,从而建立data products。
2. 每周6小时课程安排
理论(2小时):Clustering
- Unsupervised machine learning
- Clustering
- KMeans and how to choose number of clusters
- Hierachical clustering
项目(2小时):
- Python
- Use sklearn to vectorize reviews
- Cluster vectorized reviews
- Cluster users
实战(2小时):Code lab
3. 拓展学习教程
【Tableau基础及职场应用 电子书】
Week8:推荐系统 (Recommendation System)
1. 学习目标与成果
理解推荐系统如何工作及其价值。例如,利用Collaborative Filtering,基于用户以往的行为及反馈,为用户推荐商业实体;或利用Graph Theory并基于用户的社交网络进行好友推荐;或利用NMF-Non-negative Matrix Factorization,基于用户喜好推荐好友。
2. 每周6小时课程安排
理论(2小时):推荐系统
- Recommendation system
- Collaborative filtering
- Content based filtering
项目(2小时):
- Python
Generate recommendations for users with collaborative filtering
Generate recommendations for users with content based filtering
实战(2小时): Code lab
3. 拓展学习教程
【数据科学家面试训练营 电子书】
第三个月 (3月24日 - 4月15日):面试专题辅导 & Capstone Project
面试专题辅导:
Facebook Senior Manager, Microsoft Principal Data Scientist等硅谷大牛将做为Guest Speaker,分享知名互联网公司的工作经历与career path的心得,并从他们当面试官的角度讲解备战面试秘籍。
Week 9 Facebook Analytics Manager职场及面试分享
Week10 Microsoft Principal Data Scientist职场及面试分享
Capstone Project:
提供备选项目与dataset,由学生自主选择。根据学生在项目中需要用到的技术类别分组,在老师的指导下完成项目。每周会进行4个小时的项目辅导,既有组内分享,也有个人单独辅导。在Bootcamp的最后进行项目展示。
每位学员在第三个月还会得到30分钟的mock interview,老师会给出及时的feedback,帮助你实战演练面试冲刺。
Week11 工作经验分享与面试实战指导
Week12 Demo Day
金牌教师
Stone
Machine Learning Engineer
SPLUNK
George Washington University PhD,现就职于Splunk Machine Learning Team,负责Data Science Application的研发。曾在加州知名Data Bootcamp任教。
Liang Xie
Principal Data Scientist
MICROSOFT
纽约州立大学计量经济学 Ph.D.,微软云计算核心存储部门首席数据科学家,主持运用机器学习和人工智能方法优化大规模高可用性并行存储系统的运行效率和改进其运维方式。具有10年以上机器学习应用经验,熟悉各种业务场景下机器学习和数据挖掘产品的需求分析,架构设计,算法开发和集成部署,行业跨度包含金融,能源和高科技。曾经担任美国道琼斯工业平均指数唯一保险业成分股的旅行者保险公司分析部门总监,负责运用现代统计学习方法优化精算定价业务和保险运营管理,推动精准个性化定价解决方案。在包括Journal of Statistical Software等专业期刊上发表多篇论文,担任Journal of Statistical Computation and Simulation期刊以及Data Mining Applications with R一书的审稿人。
Ella
Data Scientist
资深FLAG公司Data Scientist。多年面试官经历及教学经历,擅长发现学员的弱点,实战面试辅导,助其快速提升。