logo
Loading...

想請問關於課程爬蟲程式的使用方式和一些問題 - Cupoy

1.爬蟲的部分是只要執行Part1_data_collector.ipynb後各個爬蟲(daily ...

想請問關於課程爬蟲程式的使用方式和一些問題

2020/07/24 上午 09:56
《用 Python 打造你的 AI 股票交易引擎》業界專家實戰教學
EC
觀看數:0
回答數:0
收藏數:0

1.爬蟲的部分是只要執行Part1_data_collector.ipynb後各個爬蟲(daily index monthly quarterly reduce)就都會試圖更到最新的資料嗎?  


2.假設沒有每天執行爬蟲程式,例如資料中最新日期和執行爬蟲日期差了五天,那五天後才執行爬蟲的話會自動補齊這5天缺少的資料嗎? 


 3.total_quarterly.csv裡的資料為什麼最近的日期只到2019年4月就沒有了呢?  


4.如果想要爬取2013年以前的歷史價量資料該如何使用課程提供的爬蟲程式呢?


謝謝!

回答列表

  • 2020/07/24 上午 11:12
    陳明佑 (Ming You Chen)
    贊同數:
    不贊同數:
    留言數:

    1. 是的, 會自動更新, 此外如果有版本變更, 也會順便把這些檔案爬到最新的日期

    2. 實際上的運作是 : 如果差了五天, 會多爬幾天(大於五天), 合併後只留比較後面的資訊

    因此如果最後幾天的資訊下載並不完整, 後續的完整下載會把不完整資料覆蓋過去

    3. 我們會重新檢查一下新的季營收資訊是否有更新不全的問題

    如果確實有問題, 會再發布一版修正, 謝謝同學反映

    4. 簡單的說 : 不可能做到, 除非有舊的歷史資訊

    因為證交所月營收與三大法人的資訊, 在2013年之前都沒有爬取來源了

    並不是我們不想提供, 只是我們不是券商或操盤資訊商, 沒有這些更早的歷史資料

    (如果同學有其他公開免費的爬取來源, 歡迎提供)

    其他證交所能爬取的不同來源, 也各自有最早期限

    因此想要訓練到更早的日期, 能訓練的表格就可能被迫更少

    這也就是我們在課程中一再強調 "訓練資料三原則" 的原因