Web Scraper是一款非常好用的網頁爬蟲插件,它可以幫助用戶輕松抓取網站上的所有數據內容,而且用戶完全不需要編寫任何代碼。Web Scraper適用于各種類型的網站,還支持將抓取的內容導出為CSV格式的文件,有需要的用戶快來下載吧。
一個簡易的網頁爬蟲插件,可以幫助不懂代碼的用戶實現數據爬取功能。
使用此擴展,您可以創建一個sitemap(站點地圖),包含該如何遍歷網站以及應提取哪些內容等。
使用這些sitemap,Web Scraper將相應地導航站點并提取所有數據。
稍后,可以將已篩選的數據導出為CSV。
1、標簽頁輸入【chrome://extensions/】進入chrome擴展程序,解壓你在本頁下載的Web Scraper插件,并拖入擴展程序頁即可。
2、插件安裝完成后,在瀏覽器中會出現其按鈕標記。用戶可以先在設置頁面中對該插件的儲存設置和儲存類型功能進行設置。
3、用戶可以使用Web Scraper插件來抓取頁面,其操作方法如下:
1)、打開你要抓取的網頁。
首先要使用該插件來提取網頁數據需要在開發者工具模式中使用,使用快捷鍵Ctrl+Shift+I/F12或者點擊右鍵,選擇“檢查(Inspect)”,在開發者工具下面就能看到WebScraper的Tab。如下圖所示:
2)、新建一個Sitemap。點擊Create New Sitemap,里面有兩個選項,import sitemap是指導入一個現成的sitemap,咱小白一般沒有現成的,所以一般不選這個,選create sitemap 就好。
然后進行這兩個操作:
(1)Sitemap Name:代表你這個Sitemap是適用于哪一個網頁的,所以你可以根據網頁來自命名,不過需要使用英文字母,比如我抓的是今日頭條的數據,那我就用toutiao來命名;
(2)Sitemap URL:把網頁鏈接復制到Star URL這一欄,比如圖片里我把「吳曉波頻道」的主頁鏈接復制到了這一欄,而后點擊下方的create sitemap來新建一個Sitemap。
3)、設置這個Sitemap
整個Web Scraper的抓取邏輯是這樣:設置一級 Selector,選定抓取范圍;在一級 Selector 下設置二級 Selector,選定抓取字段,然后抓取。
對于文章而言,一級 Selector 就是你要把這一塊文章的要素圈出來,這個要素可能包含了 標題、作者、發布時間、評論數等等,然后我們再在二級 Selector 中挑出我們要的要素,比如標題、作者、閱讀數。
下面我們來拆解這個設置一級、二級 Selector 的工作流:
(1)點擊 Add new selector 創建一級 Selector。
而后按照以下步驟操作:
輸入id:id代表你抓取的整個范圍,比如這里是文章,我們可以命名為wuxiaoboarticles;
選擇Type:type 代表你抓取的這部分的類型,比如元素/文本/鏈接,因為這個是整個文章要素范圍選取,我們需要用Element 來先整體選取(如果這個網頁需要滑動加載更多,那就選 Element Scroll Down);
勾選Multiple:勾選 Multiple 前面的小框,因為你要選的是多個元素而不是單個元素,當我們勾選的時候,爬蟲插件會幫助我們識別多篇同類的文章;
保留設置:其余未提及部分保留默認設置。
(2)點擊select選擇范圍,按照以下步驟操作:
選擇范圍:用鼠標選擇你要爬取數據的范圍,綠色是待選區域,用鼠標點擊后變為紅色,才是選中了這塊區域;
多選:不要只選一個,下面的也要選,否則爬出來的數據也只有一行;
完成選擇:記得點Done Selecting;
保存:點擊Save Selector。
(3)設置好了這個一級的Selector之后,點進去設置二級的Selector,按照以下步驟操作:
新建Selector:點擊 Add new selector ;
輸入id:id代表你抓取的是哪個字段,所以可以取該字段的英文,比如我要選「作者」,我就寫「writer」;
選擇Type:選Text,因為你要抓取的是文本;
勿勾選Multiple:不要勾選 Multiple 前面的小框,因為我們在這里要抓取的是單個元素;
保留設置:其余未提及部分保留默認設置。
(4)點擊 select,再點擊你要爬取的字段,按照以下步驟操作:
選擇字段:這里爬取的字段是單個的,用鼠標點擊該字段即可選定,比如要爬標題,那就用鼠標點擊某篇文章的標題,當字段所在區域變紅即為選中;
完成選擇:記得點 Done Selecting;
保存:點擊 Save Selector。
(5)重復以上操作,直到選完你想爬的字段。
4、爬取數據
(1)之后你想要爬取數據只需要設置完所有的Selector就可以開始:
點擊Scrape,然后點Start Scraping,彈出一個小窗后爬蟲就會開始工作。你會得到一個列表,上面有你想要的所有數據。
(2)如果你希望把這些數據做一個排序,比如按照閱讀量、贊數、作者等指標排序,讓數據更一目了然,那么你可以點擊 Export Data as CSV,把它導入 Excel 表里。
(3)導入 Excel 表格之后,你就可以對數據進行篩選了。
我們這里只是簡單介紹總結了Web Scraper的插件的功能,安裝以及一個簡單的單頁面例子。其實Web Scraper的功能遠遠不止于此,其實還能抓取分頁,還能多頁多元素的抓取,還能抓取二級頁面。