爬蟲的基本流程
發布時間:2019-04-03 17:20:25 已幫助:975人 來源:北京老男孩教育
爬蟲就是請求網站并提取數據的自動化程序,其中請求,提取,自動化是爬蟲的關鍵,作為IT行業的人員應該熟知這一系統,也有一些運用網絡爬蟲的相關人員可能不是很清楚這一概念,下面小編為大家介紹爬蟲的基本流程,一起來學習一下吧。
以上內容就是小編為大家找來的網絡爬蟲的基本流程介紹,作為IT行業的者這一知識是應該掌握的,想要了解更多相關的知識可以繼續關注小編的后續文章更新,北京老男孩教育為學員設置電腦IT培訓課程,歡迎有從業興趣的學員咨詢了解。
通過HTTP庫向目標站點發起請求,也就是發送一個Request,請求可以含額外的header等信息,等待服務器響應
獲取響應內容
如果服務器能正常響應,會得到一個Response,Response的內容便是所要獲取的頁面內容,類型可能是HTML,Json字符串,二進制數據(圖片或者視頻)等類型
解析內容
得到的內容可能是HTML,可以用正則表達式,頁面解析庫進行解析,可能是Json,可以直接轉換為Json對象解析,可能是二進制數據,可以做保存或者進一步的處理
保存數據
保存形式多樣,可以存為文本,也可以保存到數據庫,或者保存特定格式的文件
什么是Request,Response
瀏覽器發送消息給網址所在的服務器,這個過程就叫做HTPP Request
服務器收到瀏覽器發送的消息后,能夠根據瀏覽器發送消息的內容,做相應的處理,然后把消息回傳給瀏覽器,這個過程就是HTTP Response
瀏覽器收到服務器的Response信息后,會對信息進行相應的處理,然后展示
Request中含什么?
請求方式
主要有:GET/POST兩種類型常用,另外還有HEAD/PUT/DELETE/OPTIONS
GET和POST的區別就是:請求的數據GET是在url中,POST則是存放在頭部
GET:向指定的資源發出“顯示”請求。使用GET方法應該只用在讀取數據,而不應當被用于產生“副作用”的操作中,例如在Web Application中。其中一個原因是GET可能會被網絡蜘蛛等隨意訪問
POST:向指定資源提交數據,請求服務器進行處理(例如提交表單或者上傳文件)。數據被含在請求本文中。這個請求可能會創建新的資源或修改現有資源,或二者皆有。
HEAD:與GET方法一樣,都是向服務器發出指定資源的請求。只不過服務器將不傳回資源的本文部分。它的好處在于,使用這個方法可以在不必傳輸全部內容的情況下,就可以獲取其中“關于該資源的信息”(元信息或稱元數據)。
PUT:向指定資源位置上傳其最新內容。
OPTIONS:這個方法可使服務器傳回該資源所支持的所有HTTP請求方法。用'*'來代替資源名稱,向Web服務器發送OPTIONS請求,可以測試服務器功能是否正常運作。
DELETE:請求服務器刪除Request-URI所標識的資源。
請求URL
URL,即統一資源定位符,也就是我們說的網址,統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,它含的信息指出文件的位置以及瀏覽器應該怎么處理它。
URL的格式由三個部分組成:
部分是協議(或稱為服務方式)。
第二部分是存有該資源的主機IP地址(有時也括端口號)。
第三部分是主機資源的具體地址,如目錄和文件名等。
爬蟲爬取數據時必須要有一個目標的URL才可以獲取數據,因此,它是爬蟲獲取數據的基本依據。
請求頭
含請求時的頭部信息,如User-Agent,Host,Cookies等信息,下圖是請求請求百度時,所有的請求頭部信息參數
請求體
請求是攜帶的數據,如提交表單數據時候的表單數據(POST)
Response中含了什么
所有HTTP響應的行都是狀態行,依次是當前HTTP版本號,3位數字組成的狀態代碼,以及描述狀態的短語,彼此由空格分隔。
響應狀態
有多種響應狀態,如:200代表成功,301跳轉,404找不到頁面,502服務器錯誤
1xx消息——請求已被服務器接收,繼續處理
2xx成功——請求已成功被服務器接收、理解、并接受
3xx重定向——需要后續操作才能完成這一請求
4xx請求錯誤——請求含有詞法錯誤或者無法被執行
5xx服務器錯誤——服務器在處理某個正確請求時發生錯誤常見代碼:200 OK請求成功400 Bad Request客戶端請求有語法錯誤,不能被服務器所理解401 Unauthorized請求未經授權,這個狀態代碼必須和WWW-Authenticate報頭域一起使用403 Forbidden服務器收到請求,但是拒絕提供服務404 Not Found請求資源不存在,eg:輸入了錯誤的URL 500 Internal Server Error服務器發生不可預期的錯誤503 Server Unavailable服務器當前不能處理客戶端的請求,一段時間后可能恢復正常301目標永久性轉移302目標暫時性轉移
響應頭
如內容類型,類型的長度,服務器信息,設置Cookie,如下圖
響應體
最主要的部分,含請求資源的內容,如網頁HTMl,圖片,二進制數據等
能爬取什么樣的數據
網頁文本:如HTML文檔,Json格式化文本等
圖片:獲取到的是二進制文件,保存為圖片格式
視頻:同樣是二進制文件
其他:只要請求到的,都可以獲取
如何解析數據
直接處理
Json解析
正則表達式處理
BeautifulSoup解析處理
PyQuery解析處理
XPath解析處理
關于抓取的頁面數據和瀏覽器里看到的不一樣的問題
出現這種情況是因為,很多網站中的數據都是通過js,ajax動態加載的,所以直接通過get請求獲取的頁面和瀏覽器顯示的不同。
如何解決js渲染的問題?
分析ajax
Selenium/webdriver
Splash
PyV8,Ghost.py
怎樣保存數據
文本:純文本,Json,Xml等
關系型數據庫:如mysql,oracle,sql server等結構化數據庫
非關系型數據庫:MongoDB,Redis等key-value形式存儲