larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發(fā)。larbin目的是能夠跟蹤頁面的url進(jìn)行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。
Larbin只是一個爬蟲,也就是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。
latbin最初的設(shè)計也是依據(jù)設(shè)計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網(wǎng)頁,實在是非常高效。
標(biāo)簽:
larbin
開源
網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)
上傳時間:
2017-03-02
上傳用戶:lili123