莫煩_Python3 網頁爬蟲教學
初學到活動Python程式設計,主打Python3的學習影片,學習網頁結構、加速爬蟲與高級爬蟲。
內容簡介
作者介紹
適合人群
你將會學到什麼
購買須知
-
爬蟲簡介
為何要學習爬蟲,以及了解爬蟲在網頁應用上的原理
-
#1 Why?
其實你身邊到處都是爬蟲的產物, 比如說搜索引擎(Google, 百度), 他們能為你提供這麼多搜索結果, 也都是因為它們爬了很多信息, 然後展示給你... Code: https ://github.com/MorvanZhou/easy-scraping-tutorial "莫煩Python" 爬蟲教學目錄:... 影片來源:周莫烦Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#1.1 了解網頁結構
學習爬蟲, 首先要懂的是網頁. 支撐起各種光鮮亮麗的網頁的不是別的, 全都是一些代碼. 這種代碼我們稱之為HTML... Code: https://github.com/MorvanZhou /easy-scraping-tutorial "莫煩Python" 爬蟲教學目錄: https://morvanzh... 影片來源:周莫烦Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
-
BeautifulSoup解析網頁
BeautifulSoup是一個可以找訊息的好幫手,他可以幫你快速且準確地找到訊息,大大簡化了使用難度。
-
#2.1 BeautifulSoup 解析網頁: 基礎
BeautifulSoup 就是一個找信息好幫手. 它能幫你又快有準地找到信息. 大大簡化了使用難度. Code: https://github.com/MorvanZhou/easy-scraping-tutorial "莫煩Python" 爬蟲教學目錄: https://morvanzhou.github.... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#2.2 BeautifulSoup 解析網頁: CSS
BeautifulSoup 十分好用, 能快速定位到你需要的網頁信息. Code: https://github.com/MorvanZhou/easy-scraping-tutorial "莫煩Python" 爬蟲教學目錄: https://morvanzhou.github.io /tutorials/dat... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#2.3 BeautifulSoup 解析網頁: 正則表達
正則表達式, 是處理文本信息的重要工具, 除了Python, 在其他的程序語言中, 也有十分重要的地位. 如果將正則表達式+ BeautifulSoup, 豈不是完美中的完美. Code: https://github .com/MorvanZhou/easy-scraping-tutorial "莫煩Pyth... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#2.4 小練習: 爬百度百科
有了前面幾節內容了練習, 我們現在完全有能力爬出你想要的信息了. 看吧, 我說很簡單的, 只要你用Python 打開網頁, 用BeautifulSoup 找准地方, 然後這樣循環往復,就叫做爬蟲. Code: https://github.com/MorvanZhou/easy-scraping-tutor... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
-
更多請求/下載方式
之前我們通常使用Python的自帶模組Urllib,來提交網頁請求,這個模組可以滿足我們大部分的需求,但是為了滿足你日益膨脹的其他需求,比如向網頁發送訊息,上傳圖片等等,我們還有一個偉大的Python外部模組requests,來有效處理這些問題。
-
#3.1 Post 登錄 Cookies Session 都用 Requests
但是為了滿足你日益膨脹的其他需求, 比如向網頁發送信息, 上傳圖片等等, 我們還有一個偉大的Python 外部模塊requests, 來有效的處理這些問題. Code: https://github.com/MorvanZhou /easy-scraping-tutorial "莫煩Python" 爬蟲教學目... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#3.2 下載文件 (爬蟲 scraping 基礎)
從網上下載文件的時候你肯定很開心, 比如說什麼電影, pdf, 音樂等. 我們使用爬蟲, python 一樣也可以做到. Code: https://github.com/MorvanZhou/easy-scraping-tutorial "莫煩Python" 爬蟲教學目錄: https://morvanzho... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#3.3 小練習: 下載國家地理美圖
學會爬蟲, 關鍵在於練習, 見多識廣, 見多了網頁的構造, 才知道怎麼爬. 今天我們就來一個小實戰, 結合之前學習的requests 訪問和下載功能, 還有BeautifulSoup, 來下載一些國家地理雜誌的美圖. Code: https://github.com/MorvanZhou/easy-scra... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
-
加速你的爬蟲,多進程分佈式
你想要更快,更便捷的爬蟲方式,你常常會聽到用爬蟲的人說分佈式爬蟲,就是為了體現便捷和效率而出現的方式。
-
#4.1 加速爬蟲: 多進程分佈式
當你看到這裡的時候, 說明你已經不滿足於自己的爬蟲速度, 你想要最求更快, 更便捷的爬蟲方法. 你常常會聽到用爬蟲的人說分佈式爬蟲. 這就是為了體現便捷和效率而出現的方法. Code: https://github.com/MorvanZhou/easy-scraping-tutorial "莫煩Python" ... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#4.2 加速爬蟲: 異步加載 Asyncio
之前我一直在想如何用multiprocessing 或者threading 加速我的爬蟲, 也做過了一些小實驗, 確實, 我們看到了不小的效率提升. 但是當我更加深入的時候, 我發現, Python 還提供了一個有力的工具, 叫做asyncio. Code: https://github.com/Morva... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
-
高級爬蟲
Selenium它能控制你瀏覽器,有樣學樣地學人類看網頁
-
#5.1 讓 Selenium 控制你的瀏覽器幫你玩爬蟲
Selenium 是為了測試而出生的. 但是沒想到到了爬蟲的年代, 它搖身一變, 變成了爬蟲的好工具. 讓我試著用一句話來概括Seleninm: 它能控制你的瀏覽器, 有模有樣地學人類”看”網頁. Code: https://github.com/MorvanZhou/easy-scraping-tutoria... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-
#5.2 高效無憂的 Scrapy 爬蟲庫
前面的教程我們已經學會瞭如何寫出自己的爬蟲, 輕輕鬆鬆就能寫出一個高性能的爬蟲. 如果你想更高效的開發, 爬取網頁, 記錄數據庫, Scrapy 是值得一推的. 它是一個爬蟲的框架, 而不是一個簡單的爬蟲. 它整合了爬取, 處理數據, 存儲數據的一條龍服務. Code: https://github.com/Mo... 影片來源:週莫煩Python教學 https://www.youtube.com/watch?v=DQdeWX6-Uy8&t=1s
-