Given a list of url, finding all the sub-url.
Assume the last url does not contain any url.
Assume you can make http request.
Follow up:
1)How do you optimize?
-single thread vs multiple thread
这句话什么意思
这是爬虫问题吧,要throttling
就像binary tree 一样 叶子的children 都是null
布吉岛(不知道)是什么。。 晕
有没有例子?不太理解suburl指什么
例如网页a, 里面有很多个url 链接下一个网站;
例如 a -> b,c,d,e
然后 b里可能有很多url 链接下面的网站
b -> h, i, j, k
c, and e 里面没有url
答案找出全部visit过的网站
return a,b,c,d,e,h,i,j,k
哦,你是说HTML response里包含的URL啊
对的
那就是个bfs吧
我也是这样想了 但
1)How do you optimize?
好像不太懂 我只说从single 变成 multi-thread 作为优化。。以及用个set来防止visit 已经被visit的网站
关键是要optimize 哪方面?
另外就是接口调整,可以改成 batch 接口
Web Crawler 可以看下
谢谢
凉了凉了 真原题。。。。web crawler。。。。。了