想請問關於課程爬蟲程式的使用方式和一些問題
2020/07/24 上午 09:56
《用 Python 打造你的 AI 股票交易引擎》業界專家實戰教學
EC
觀看數:0
回答數:0
收藏數:0
1.爬蟲的部分是只要執行Part1_data_collector.ipynb後各個爬蟲(daily index monthly quarterly reduce)就都會試圖更到最新的資料嗎?
2.假設沒有每天執行爬蟲程式,例如資料中最新日期和執行爬蟲日期差了五天,那五天後才執行爬蟲的話會自動補齊這5天缺少的資料嗎?
3.total_quarterly.csv裡的資料為什麼最近的日期只到2019年4月就沒有了呢?
4.如果想要爬取2013年以前的歷史價量資料該如何使用課程提供的爬蟲程式呢?
謝謝!
回答列表
-
2020/07/24 上午 11:12陳明佑 (Ming You Chen)贊同數:不贊同數:留言數:
1. 是的, 會自動更新, 此外如果有版本變更, 也會順便把這些檔案爬到最新的日期
2. 實際上的運作是 : 如果差了五天, 會多爬幾天(大於五天), 合併後只留比較後面的資訊
因此如果最後幾天的資訊下載並不完整, 後續的完整下載會把不完整資料覆蓋過去
3. 我們會重新檢查一下新的季營收資訊是否有更新不全的問題
如果確實有問題, 會再發布一版修正, 謝謝同學反映
4. 簡單的說 : 不可能做到, 除非有舊的歷史資訊
因為證交所月營收與三大法人的資訊, 在2013年之前都沒有爬取來源了
並不是我們不想提供, 只是我們不是券商或操盤資訊商, 沒有這些更早的歷史資料
(如果同學有其他公開免費的爬取來源, 歡迎提供)
其他證交所能爬取的不同來源, 也各自有最早期限
因此想要訓練到更早的日期, 能訓練的表格就可能被迫更少
這也就是我們在課程中一再強調 "訓練資料三原則" 的原因