facebook data scientist 面经

phone screen,

  1. lc原题, sorted数组找某个数的个数 复杂度logN
  2. sql 题,具体忘了,反正就是各种 join, group by
  3. 说有个工厂怀疑年纪大的员工工作比年纪小的工作慢,怎么证明?
  4. clustering, k-means, k-l divergence, k-s test, t-test

Onsite

  1. 日本妹子,大量sql, 也是join, count, group by
    怎么证明澳大利亚人脸书的post长度比日本人要长?问的挺细, p-value的意义, type 1, type 2 error, 样本大小怎么定。
    ML basics, Neural Net, Clustering…

  2. Hiring Manager. 比较偏behavior. 然后一个case study, 怎么分类long-term user and short term user in Facebook? 包含了ml很多概念, feature engineering, data preprocessing, label imbalance, evaluation, how to scale?

  3. 国人大哥engineer。coding。大哥太nice, 一道easy就开始聊天了。

  4. BQ, 俩人,一位白人(长得像friends里的Chandler, 特别是笑起来),一位shadow。 问题翻来覆去就那些,怎么合作啊,怎么处理conflict等等

  5. 有点像东欧人, case study. 当前facebook员工能够access所有内部db所有table, 并且有所有员工的access log, 现在公司要加强privacy, 怎么为每个员工定一个access list? 我提到可以用类似于recommend system and collaborative filtering, 计算item based或者user based similarity, 不过他好像不喜欢这种初级的算法,直到我说可以用matrix factorization,才算勉强满意。 这轮感觉一般。

  6. 亚裔的大爷。一堆BQ。 最后walk me out.

第一轮的sql想起来了。有表A,column是country, userid, 表b, userid, date, 表B是每个用户po文的时间。第一个问题是得到每个国家的用户数。第二个问题,得到每个国家昨天用户活跃率(po文>=1说明活跃)

1 Like