亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁(yè)| 資源下載| 資源專輯| 精品軟件
登錄| 注冊(cè)

您現(xiàn)在的位置是:蟲蟲下載站 > 資源下載 > 源碼 > 網(wǎng)絡(luò)爬蟲編程

網(wǎng)絡(luò)爬蟲編程

  • 資源大小:3 K
  • 上傳時(shí)間: 2018-06-20
  • 上傳用戶:1370893801
  • 資源積分:2 下載積分
  • 標(biāo)      簽: 網(wǎng)絡(luò)爬蟲 編程

資 源 簡(jiǎn) 介

網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲在CPP中爬行鏈接到你想要的深度。控制臺(tái)應(yīng)用程序

  Ubuntu 14.04 LTS上編譯的程序
  用g+編譯器編譯


相依性

  卷曲
  Boost圖書館


用于編譯的命令

  G+爬蟲.cpp-lcurl-lost_regex-o爬蟲


輸入

  URL:您想要抓取示例“dirghbuch.com”的URL
  鏈接數(shù):要從爬行中提取的每頁(yè)鏈接數(shù)
  深度:我們想爬多深,在哪里深度可以定義為樹(shù)的深度。


輸出量

  crawler.txt


限制

  鏈接數(shù)最多可達(dá)100。
  Does not work for website which has blocked curl crawling for example google.com yahoo.com
  由于缺乏并行性,所以速度很慢。
  沒(méi)有完整URL的鏈接被追加到用戶在大容量中插入的URLwww.xyz.com有/conatct-us的網(wǎng)址將是www.xyz.com/contact-us
  唯一的單詞也包含html標(biāo)記。


可能的改進(jìn),但尚未落實(shí)

  限制共享變量的使用
  改進(jìn)使其易于并行化
  比卷曲更有效的爬行方式

相 關(guān) 資 源

主站蜘蛛池模板: 朝阳市| 万山特区| 赫章县| 泰宁县| 邯郸县| 虎林市| 微山县| 西吉县| 苗栗市| 荣成市| 玛多县| 华池县| 连城县| 揭阳市| 旬邑县| 枣强县| 大余县| 长武县| 普陀区| 临海市| 高雄县| 西华县| 周宁县| 北流市| 镇宁| 陇南市| 天全县| 广州市| 吉隆县| 桐城市| 郧西县| 皮山县| 临江市| 石河子市| 凤台县| 通榆县| 阜平县| 藁城市| 沽源县| 阳西县| 抚顺市|