Google interview question new grad

super_jason_x · 2018 年12 月 27 日 02:41

Given a list of url, finding all the sub-url.
Assume the last url does not contain any url.
Assume you can make http request.
Follow up:
1)How do you optimize?
-single thread vs multiple thread

Xavier · 2018 年12 月 27 日 02:53

这句话什么意思

Xavier · 2018 年12 月 27 日 03:06

这是爬虫问题吧，要throttling

super_jason_x · 2018 年12 月 27 日 03:09

就像binary tree 一样叶子的children 都是null

super_jason_x · 2018 年12 月 27 日 03:10

布吉岛（不知道）是什么。。晕

Xavier · 2018 年12 月 27 日 03:19

有没有例子？不太理解suburl指什么

super_jason_x · 2018 年12 月 27 日 03:44

例如网页a，里面有很多个url 链接下一个网站；
例如 a -> b,c,d,e
然后 b里可能有很多url 链接下面的网站
b -> h, i, j, k
c, and e 里面没有url
答案找出全部visit过的网站
return a,b,c,d,e,h,i,j,k

Xavier · 2018 年12 月 27 日 03:44

哦，你是说HTML response里包含的URL啊

super_jason_x · 2018 年12 月 27 日 03:45

对的

Xavier · 2018 年12 月 27 日 03:45

那就是个bfs吧

super_jason_x · 2018 年12 月 27 日 03:47

我也是这样想了但

1)How do you optimize?
好像不太懂我只说从single 变成 multi-thread 作为优化。。以及用个set来防止visit 已经被visit的网站

Xavier · 2018 年12 月 27 日 04:58

关键是要optimize 哪方面？

Xavier · 2018 年12 月 27 日 05:10

另外就是接口调整，可以改成 batch 接口

Xavier · 2018 年12 月 29 日 06:59

Web Crawler 可以看下

丢盒子面经+详解KV Store/Web Crawler/Token Bucket Interview

楼主在丢盒子onsite前详细研究过丢盒子的面经并认真的准备了他们的题目。他们的题库非常小但是每道题都有一定的难度，特别是那几道多线程的题，需要做一些准备的。根据楼主的研究，他们的面试会有一定的pattern，如果是应届毕业生，一般会考很多算法题。如果是有几年经验的candidate，一般会考两道多线程或者一道算法一道多线程，再加一道system design。我统计了他们今年的所有面经，发现出现频率最高的Coding题是 Allocation ID, Web Crawler, Token Bucket, KV Store 以及频率最高的System Design题是 Logging System, Design Dropbox, 和Message Queue。建议大家要花多些时间在这些题上。如果是应届生，一定要把其他算法题都好好准备。还有一点大家要注意的是，一定要花适量时间在冷门题上，比如楼主这次花了大量时间在那三道高频的System Design题上，每一道都看了相关的书，还写出了具体解题步骤。结果面试那天却考到了一道及其冷门的题。由…

super_jason_x · 2018 年12 月 29 日 09:08

谢谢

super_jason_x · 2018 年12 月 30 日 01:01

凉了凉了真原题。。。。web crawler。。。。。了