亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:蟲蟲下載站 > 資源下載 > 源碼 > 網絡爬蟲編程

網絡爬蟲編程

  • 資源大小:3 K
  • 上傳時間: 2018-06-20
  • 上傳用戶:1370893801
  • 資源積分:2 下載積分
  • 標      簽: 網絡爬蟲 編程

資 源 簡 介

網絡爬蟲

網絡爬蟲在CPP中爬行鏈接到你想要的深度。控制臺應用程序

  Ubuntu 14.04 LTS上編譯的程序
  用g+編譯器編譯


相依性

  卷曲
  Boost圖書館


用于編譯的命令

  G+爬蟲.cpp-lcurl-lost_regex-o爬蟲


輸入

  URL:您想要抓取示例“dirghbuch.com”的URL
  鏈接數:要從爬行中提取的每頁鏈接數
  深度:我們想爬多深,在哪里深度可以定義為樹的深度。


輸出量

  crawler.txt


限制

  鏈接數最多可達100。
  Does not work for website which has blocked curl crawling for example google.com yahoo.com
  由于缺乏并行性,所以速度很慢。
  沒有完整URL的鏈接被追加到用戶在大容量中插入的URLwww.xyz.com有/conatct-us的網址將是www.xyz.com/contact-us
  唯一的單詞也包含html標記。


可能的改進,但尚未落實

  限制共享變量的使用
  改進使其易于并行化
  比卷曲更有效的爬行方式

相 關 資 源

主站蜘蛛池模板: 合肥市| 铜川市| 郁南县| 盐城市| 宿松县| 怀宁县| 昌江| 合肥市| 观塘区| 灌云县| 镇康县| 伽师县| 汪清县| 高碑店市| 龙泉市| 新晃| 上思县| 昂仁县| 德庆县| 木兰县| 板桥市| 香格里拉县| 丰都县| 阿拉善右旗| 清河县| 天门市| 敦煌市| 武义县| 屏山县| 新宁县| 两当县| 巍山| 赤城县| 双辽市| 上饶县| 望江县| 铁岭县| 蒙山县| 浦北县| 共和县| 英吉沙县|