Python網路爬蟲實戰研習馬拉松 (2022新版)
本活動從爬蟲與網頁的基礎知識、靜態網頁與動態網頁的爬蟲技術,到Scrapy網站等級爬蟲框架與各種進階的爬蟲與反爬蟲技術,最後是整合所學的期末實務專題,共包括7大學習里程碑,能夠完成大部分學習任務的學員
內容簡介
作者介紹
適合人群
你將會學到什麼
購買須知
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目
-
[Part1] 爬蟲必備 Python 基礎1
介紹 Python 中常見的資料結構、處理與儲存方式,並搭配程式作業練習
-
網路爬蟲流程介紹
認識網路爬蟲、流程及使用情境,並了解各環節的學習地圖
-
常見公開資料來源介紹
網路上公開資料幾乎都可能成為我們爬蟲的標的,用來幫助我們應用的資料維度。
-
常見資料儲存格式介紹
介紹文本或數據儲存格式,包含:CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
-
了解 HTTP 網路基礎知識
HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
-
Restful API 介紹
了解 Restful API 設計概念,以及如何使用 Python 串接 API
-
網頁架構基礎認知
讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識,對後面要學到的爬蟲定位語法有幫助
-
-
[Part2] 常見資料結構、檔案存取
介紹爬蟲需要的先備知識,包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成,透過概念題練習加深印象
-
[Part3] 網路封包知識介紹
介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
-
[Part4] Python 靜態網頁爬蟲
學習靜態網頁爬蟲,包含網頁結構分析、物件定位、擷取資訊
-
盤點爬蟲套件及工具
複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件:requests / BeautifulSoup4 / Scrapy / Selenium
-
模擬 HTTP 請求:使用 Requests 套件
了解靜態網頁的爬蟲策略,認識靜態網頁爬蟲的常用套件:Requests 並進行套件實作練習
-
Requests 練習:使用 Requests + PIL.Image 爬取網頁圖片
爬蟲練習案例,使用 Requests 爬取圖片,搭配 PIL 套件判斷圖片格式以正確檔名儲存
-
網頁結構解析:使用網頁結構定位工具
複習網頁結構組成、說明如何網頁結構解析,並介紹網頁節點定位語法 CSS Selector / XPath
-
網頁結構解析:使用 BeautifulSoup 套件操作 CSS Selector
介紹 BeautifulSoup 套件如何和 Requests 搭配使用,並練習以 CSS Selector 定位網頁節點
-
網頁結構解析:使用 lxml 套件操作 XPath
介紹 lxml 套件如何搭配 Requests 使用,並練習使用 XPath 語法定位網頁節點
-
更多的資料爬蟲工具介紹:Grab & PyQuery
介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件:Grab & PyQuery
-
使用正規表達式過濾並擷取資料
介紹正規表達式的語法和運作方式,並學習如何在 Python 中使用
-
-
[Part5] 靜態網頁爬蟲實戰練習
靜態網頁爬蟲的案例
-
[Part6] 動態爬蟲技術介紹
介紹動態網頁的原理、套件和工具
-
動態載入網站的爬蟲策略
了解非同步動態載入機制如何運作,並回顧 Chrome 開發者工具
-
動態網頁爬蟲起手式:Selenium
介紹 Selenium 及其使用時機,並說明 Selenium Webdriver 瀏覽器驅動程式安裝
-
Selenium 物件定位 – CSS Selector
學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
-
Selenium 物件定位 – XPath
學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
-
Selenium 模擬瀏覽行為
學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為,並整理各項瀏覽行為的 Selenium 語法
-
零代碼爬蟲自動化:Playwright
認識 Playwright 及其優缺點、安裝步驟,並了解如何用 Playwright 錄製瀏覽器操作
-
-
[Part7] 動態網頁爬蟲實戰練習
動態網頁爬蟲的案例集合
-
[Part8] 資料視覺化
-
Matplotlib 及繪圖流程介紹
認識 Python 的繪圖工具:Matplotlib 套件,並瞭解繪圖流程
-
Matplotlib 繪圖元件介紹
瞭解使用 Matplotlib 繪圖元件:畫版、子圖、圖表、圖例等,並講解繪圖流程
-
Matplotlib 圖表範例解析
以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表:折線圖、長條圖、直方圖、圓餅圖、矩陣圖
-
Seaborn:更簡潔的代碼與更美觀的圖表風格
認識另一種 Python 繪圖工具:Seaborn,並比較 Seaborn 及 Matplotlib 之間的差異和優缺點;接著以相同圖表比較 Seaborn 與 Matplotlib 寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
Plotly:更適合儀表板的互動式圖表
認識另一種 Python 繪圖工具:Plotly,接著以 Plotly 展示不同種類圖表寫法(折線圖、長條圖、直方圖、圓餅圖、矩陣圖)
-
-
[Part9] Scrapy 網站爬蟲框架
透過 Scrapy 框架以專案角度學習非同步爬蟲
-
*Bonus:反爬蟲類型網站介紹
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
*Bonus:多線程爬蟲與非同步爬蟲
提升爬蟲程式執行效率的進階技巧
-
[Part10] 期末實戰專題
整合第六屆爬蟲馬拉松課程所學,實作一個完整項目