關於某些網站的防爬蟲機制應對方法
2020/03/31 上午 10:43
Python網路爬蟲討論版
賴文修
觀看數:54
回答數:1
收藏數:2
在網路上到處找一些有防爬機制的網站,然後找到這個眾籌網站
https://www.indiegogo.com/projects/astro-slide-5g-transformer#/
發現我就算加上headers中所有項,他回傳的資料都是某個假的頁面,
也就是回傳的資料與瀏覽中的頁面資料不相符,
然後我也發現在「檢視網頁原始碼」時他上面的資料也是不完整的,
唯有在「檢查」時才會看到完整的資料,
請問這一類網站,各位老師有什麼建議或方向去反反爬蟲?或者是需要補足的知識?
回答列表
-
2020/04/05 上午 04:39張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
嗨,文修
檢視網頁原始碼 取得的是「第一次 Response 得到的 HTML」,也就是尚未執行過 JavaScript 的內容哦。而 檢查 才是取得真正當下的網頁內容,是包含執行過 JavaScript 的內容。
另外,「請問這一類網站,各位老師有什麼建議或方向去反反爬蟲?或者是需要補足的知識?」反反爬蟲通常是針對不同的網站遇到的問題在近一步去找破解的方式。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃