系统设计系列讲解 Design a Web Crawler

欢迎给视频点赞和订阅YouTube频道 :innocent:

第一个视频里面提及robot.txt不对,应该是robots.txt啦

嗯嗯,谢谢指正

thank U! 看你的视频收益良多!

求问楼主,url dedup和document decup怎么处理concurrent issue呀,如果两个process同时处理url ABC,process A准备写入到url set,但是此时,process B去查,会发现还不存在,那这两个process是否就会同时处理同一个url

这里的workflow都是sequential的,写到 url set 之前需要调用 dedup 然后才能放进去
应该不存在parallel 的情况

谢谢楼主回复,那如果是sequential的,是否这个就不是分布式的呀,也就是TPS可能会有比较低的上限

一定要concurrent的话,你可以partition,每个process管一部分url prefix

明白了~谢谢楼主!