亚麻DS面经

亚麻Data Scientist 电面大概三个礼拜前官网海投,因为没有很active的在找工作所以也没有找内推。大概第三天hr 联系安排电面,拖了两周多时间临时抱佛脚,今天刚面完。

背景:

美本统计,master金工。 3年工作经历都在投行,算是转专业吧。去年上了Udacity的machine learning nanodegree,最近刚开始准备投,但没有很系统的准备。

面试的是aws 下面的fraud 组,job description 上看是偏BA/BIE的方向,对machine learning没有太多要求。。结果没想到面试的时候被狂问统计。。真是醉了, 好在面试官国人大哥非常nice。

具体来说

第一部分bq, 问了两道题:

  1. tight deadline situation

  2. Example where you found an issue and dig deep to find the root cause

都是比较基础的,大家好好准备principle就可以

第二部分统计:

这部分感觉要凉凉。。之前recruiter明确说了只考sql 和python, 这部分只能算是临时抱佛脚了一下。

  1. Categorical Variable在regression的时候怎么处理

答: Encoding。两种办法:Label Encoding和One Hot Encoding,讲了一下这两种办法的好坏。

面试官又接着问哪些model对label encoding比较sensitive

答: 只要cost function用到euclidean distance 的都比较sensitive 比如linear regression, 像decision tree就不会。(这边不太确定但是从面试官当时的反馈来看似乎是对的)

  1. Missing Value怎么处理

答:答了几种,包括什么时候删除什么时候用平均数代替之类的

3.Linear Regression

(1) 问如何measure performance

答: RMSE。 面试官又问是不是RMSE越小越好,我说不是,可能会有overfitting问题

(2)问如何判断overfitting

答:看training set和testing test的model performance。

(3)如何fix overfitting problem

答:可以去掉一些variable, regularization。 又具体讲了下L1 和L2的区别

(4)如果有两个variable highly correlated, 这时候apply L1, L2, 分别对coefficient有什么影响

答:这题不是很清楚,欢迎大家一起讨论

(5)如何assess coefficient的uncertainty:

答:一开始没听明白这题要问什么,clarify了以后就是问standard error。 给出定义即可

  1. Logistic Regression

(1) Cost Function是什么

(2) 如何interpret coefficient:

答: 1 unit change in independent variable results in b unit change in log odds ratio (assuming b is the coefficient)

(3) 如何construct ROC curve

答: true positive rate against false positive rate under different threshold

(4) 如何interpret AUC

答:AUC越大越好, 0.5 是random guess。 又具体问如果AUC是0.9具体是什么意思,这里没答出来

(5) 如何estimate logistic regression的coeff

答:maximum likelihood, 又讲了下具体是怎么work的

(6) 如果已经知道coefficient的distribution,如何把这个info incorporate进model

答: 这题不是很确定,提示用贝叶斯考虑。。还是get不到= =

  1. 最后是一道开放的问题,给了一个情景让讲一讲建模的思路。给了几种解,感觉还可以。

然后开始写code,先是两道sql 题,比较简单,会windows function可以秒过。

Python题,考的是panads的syntax,没有考到算法。 感觉有些syntax可能没有完全写对但是大哥说可以了明白我的意思了就让停了

大致就是这样了,总体来说还是比较侧重统计,第一次DS面试,主要是查漏补缺看看gap在哪里,以后要开始努力了= =!!!

  1. Categorical Variable在regression的时候怎么处理

应该是create N-1 个dummy variables?

楼主你好!请问这个职位title就是’data scientist’,据说Amazon还有一部分data science相关的职位叫’Applied Scientist‘, 这两种有什么区别呢?谢谢!