C3 IoT DS 面经

趁着刚面试完还记得题目,在这里和大家分享一下。

描述一下 k-means clustering 的算法。这个没答出来,因为就学过一次,基本不怎么用这个算法。Linear Regression 中给定一个有两个 level 的 categorical variaable, 是应该创建两个 dummy variables 还是只要创建一个 dummy variables? 这个很容易描述一下 bagging 和 boosting,并解释为什么 bagging 可以降低 variance. 这个我回答得太详细了,用了近几年的两篇 paper,不确定面试官是不是跟上了。给定两个字符串,判断两个是不是 anagram. Leetcode 上的简单题,但是我没刷题。我给了一个 ~nlogn 的解,但是面试官不满意,说不需要 extra space 就可以做到 ~n. 想了一下没想出来写一个 k-nearest neighbor 的算法,这个很容易。

以上是题目。还和面试官聊了一下公司的业务模式和 DS 每天的工作内容。听下来感觉还是很有前景的一家公司,毕竟 IoT 很火热,而且应该会再火一段时间。唯一的一个小疑惑是,他们 DS 的日常工作都是在他们自己的平台上开发的,连 SQL 都不用写,似乎 R 也不怎么写,主要是用 scikit-learn. 如果是寻求比较偏 statistics 的同学可能就不要考虑了。然后他们现在主要的客户就是来自于传统能源行业,还有为数不多的金融公司。DS 拿到一个客户和它的问题之后,需要在6~8周的时间内写一个 prototype 的算法出来,这样才能说服客户买他们的平台。基本上来说他们的 DS 提供的服务是跟着他们的软件一起卖的,需要经常飞来飞去。喜欢旅游的同学可以考虑。

补充内容 (2018-11-18 10:43):
差点忘了,还有一个问题是让我推 logistic regression 的 likelihood,并求出 MLE. 这个我觉得是最莫名其妙的一道题…

周一就面了,谢谢分享

请问楼主这是第一轮视频店面么?是30分钟?谢谢啦

是第三轮 Skype technical interview. 一共是三轮,每一轮有 45 分钟

谢谢楼主啦!我下周要面第一轮视频店面,能不能问下楼主第一轮大致问的什么?technical的多不多?