Google interview question new grad

Given a list of url, finding all the sub-url.
Assume the last url does not contain any url.
Assume you can make http request.
Follow up:
1)How do you optimize?
-single thread vs multiple thread

这句话什么意思

这是爬虫问题吧,要throttling

就像binary tree 一样 叶子的children 都是null

布吉岛(不知道)是什么。。 晕

有没有例子?不太理解suburl指什么

例如网页a, 里面有很多个url 链接下一个网站;
例如 a -> b,c,d,e
然后 b里可能有很多url 链接下面的网站
b -> h, i, j, k
c, and e 里面没有url
答案找出全部visit过的网站
return a,b,c,d,e,h,i,j,k

哦,你是说HTML response里包含的URL啊

对的

那就是个bfs吧

我也是这样想了 但

1)How do you optimize?
好像不太懂 我只说从single 变成 multi-thread 作为优化。。以及用个set来防止visit 已经被visit的网站

关键是要optimize 哪方面?

另外就是接口调整,可以改成 batch 接口

Web Crawler 可以看下

谢谢

凉了凉了 真原题。。。。web crawler。。。。。:cry: