登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『繁體書』王者歸來:自己動手寫網路爬蟲(附範例CD)

書城自編碼: 2287584
分類:繁體書 →台灣書
作者: 羅剛、王振東
國際書號(ISBN): 9789866007279
出版社: 佳魁資訊
出版日期: 2012-01-16
版次: 初版
頁數/字數: 384頁
書度/開本: 16x23cm

售價:HK$ 196.4

 

** 我創建的書架 **
未登入.


新書推薦:
面對失智者的零距離溝通術:第一本專為照護失智症所寫的減法話術!(安心長照必備.全新封面版)
《 面對失智者的零距離溝通術:第一本專為照護失智症所寫的減法話術!(安心長照必備.全新封面版) 》

售價:HK$ 84.9
戀愛脫單魅力學:從單身到結婚,找到最適合自己的優質伴侶
《 戀愛脫單魅力學:從單身到結婚,找到最適合自己的優質伴侶 》

售價:HK$ 109.1
空翻:存在主義作家、諾貝爾獎得主大江健三郎.靈魂救贖之作
《 空翻:存在主義作家、諾貝爾獎得主大江健三郎.靈魂救贖之作 》

售價:HK$ 242.2
埃及的革命考古學
《 埃及的革命考古學 》

售價:HK$ 181.9
預知夢【伽利略20週年全新譯本】
《 預知夢【伽利略20週年全新譯本】 》

售價:HK$ 97.0
台灣航空決戰:美日二次大戰中的第三者戰場
《 台灣航空決戰:美日二次大戰中的第三者戰場 》

售價:HK$ 145.5
手感烘焙聖經:150道經典創意食譜×280種特選配方×800張質感圖解,烘焙技藝完全掌握(二版)
《 手感烘焙聖經:150道經典創意食譜×280種特選配方×800張質感圖解,烘焙技藝完全掌握(二版) 》

售價:HK$ 197.0
傳奇教練丹約翰的肌力體能訓練金律:40年淬煉的42則鍛練心法,教你回歸根本,檢視心志、目標、課表……,建立簡單又有效的運動生活
《 傳奇教練丹約翰的肌力體能訓練金律:40年淬煉的42則鍛練心法,教你回歸根本,檢視心志、目標、課表……,建立簡單又有效的運動生活 》

售價:HK$ 136.4

 

內容簡介:

  當你在飆網時,是否知道還有一類特殊的網路使用者也再網際網路上默默的工作著,他們就是網路爬蟲。這些網路爬蟲按照設計者預定的方式,在網路中穿梭,同時自動蒐集有用的資訊,進行分類和整理,將整理結果提供給使用者,方便使用者尋找他們感興趣的內容。由於網路爬蟲的實用性,引起很多程式師,特別是Web程式師的興趣。


  本書是第一本專門講解網路爬蟲開發的書籍,將理論與實作相結合,介紹如何利用雲端運算架構開發分布式爬蟲、介紹網路爬蟲開發中的關鍵問題與java實現。從基本的爬蟲原理開始講解,引領讀者入門;到重點講述雲端運算的相關內容及其在爬蟲中的應用。適用於需要實際應用搜尋引擎的程式師使用,或作為電腦相關專業科系參考教材。

目錄
PART1自己動手抓取資料
第1章 全面剖析網路爬蟲
1.1抓取網頁
1.2寬度優先爬蟲和帶偏好的爬蟲
1.3設計爬蟲佇列
1.4設計爬蟲架構
1.5使用多執行緒技術提升爬蟲性能
1.6本章小結
第2章 分散式爬蟲
2.1設計分散式爬蟲
2.2分散式儲存
2.3Google的成功之道──GFS
2.4Google網頁儲存秘訣──BigTable
2.5Google的成功之道──MapReduce演算法
2.6Nutch中的分散式
2.7本章小結
第3章 爬蟲的“方方面面”
3.1爬蟲中的“黑洞”
3.2限定爬蟲和主題爬蟲
3.3有“道德“的爬蟲
3.4本章小結
PART2自己動手抓取資料
第4章 “處理”HTML頁面
4.1征服正則運算式
4.2抽取HTML正文
4.3抽取正文
4.4從JavaScript中抽取資訊
4.5本章小結
第5章 非HTML正文抽取
5.1抽取PDF檔案
5.2抽取Office文件
5.3抽取RTF
5.4本章小結
第6章 多媒體抽取
6.1抽取視訊
6.2聲音抽取
6.3本章小結
第7章 去掉網頁中的“雜訊”
7.1“雜訊“對網頁的影響
7.2利用“統計學“消除“雜訊”
7.3利用“視覺”消除“雜訊”
7.4本章小結
PART3自己動手挖掘Web資料
第8章 分析Web圖
8.1儲存Web“圖”
8.2利用Web“圖”分析連結
8.3Google的秘密──PageRank
8.4PageRank的兄弟HITS
8.5PageRank與HITS的比較
8.6本章小結
第9章 去掉重複的“文件”
9.1何為“重複”的文件
9.2去除“重複”文件──排除重複
9.3利用“語義指紋”排除重複
9.4SimHash排除重複
9.5分散式文件排除重複
9.6本章小結
第10章 分類與聚類別的應用
10.1網頁分類
10.2網頁聚類
10.3本章小結

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.