NLP 經典機器學習馬拉松
本課程由業界專家規畫,幫助你循序漸進掌握自然語言(NLP)與AI的完整知識地圖,課程包含28個主要知識點及8個針對業界需求設計的實務專題,學員可將活動中學習的各種知識點應用於專題中,讓你從實作掌握NL
內容簡介
作者介紹
適合人群
你將會學到什麼
購買須知
-
自然語言處理(NLP)緒論 與 NLP AI專案流程介紹
從自然語言的歷史發展,探討規則系統、統計方法、機器學習與深度學習與自然語言處理之間的關聯性。 快速瞭解自然語言處理的原理以及NLP類型的AI應用技術全局觀。
-
語料庫建構原則
如何將現有的語言、文字資料數位化處理,加以手工或自動標註對應的解析訊息的資料庫,稱為語料庫(corpus)。以往在進行自然語言處理時,大多是應用現有的英文語料庫或是已經建立完成的中文語料庫。但是語言是相當博學精深且各領域的用詞方式及技巧大相逕庭,學習語料庫的蒐集及建置,可應用與專屬領域提升辨識的準確度及語言的鑑別度。
-
Python 常用的文字處理工具介紹
善用Python常用的String(字串)處理工具,為日後NLP類型數據前處理奠定基礎
-
資料前處理_語料清洗_字串處理函數應用
python字串(string)處理函數應用,為日後數據前處理奠定基礎
-
正規表達式 (Regular Expression) 語法介紹
使用正規表達式 (Regular Expression) 可以幫助我們在更高效的篩選、尋找與匹配目標文字。並透過 Python 中的 re 套件,了解如何在 Python 中使用 Regular Expression。
-
資料前處理_語料清洗_Pandas套件應用
介紹在 Pandas 套件中常使用的資料前處理技巧,主題包含:資料挑選、資料表合併、資料轉換等
-
資料前處理_文字雲應用
簡介文字雲對 NLP 任務的重要性,以及使用常見的套件產生文字雲。
-
-
NLP資料前處理- 詞彙處理與斷詞技術
分詞(又稱為斷詞),是眾多自然語言處理任務中的子任務,在處理更困難的自然語言任務之前,通常都需要經過斷詞。而且斷詞也是全文檢索與搜尋引擎重要的底層技術基礎。
-
斷詞(tokenization)技術介紹
了解何謂斷詞,並清楚斷詞的目的與結果,並介紹主流的三種斷詞方法
-
基於詞典與統計的斷詞方法
介紹基於詞典的分詞方法(字典樹、有向無環圖、動態規劃),並引入基於統計的方法的斷詞技術
-
基於統計與深度學習的斷詞方法
介紹基於統計的機器學習的斷詞方法(HMM, Viterbi),以及簡單介紹基於深度學習的斷詞方法
-
NLTK英文斷詞工具介紹及應用
介紹Natural Language Toolkit (NLTK) 斷詞工具 ,並如何使用此工具來進行英文斷句、斷詞、詞性標記、命名實體識別。
-
SnowNLP、HaNLP斷詞工具介紹及應用
介紹Hannlp、SnowNLP兩個自然語言工具包的函數以及使用方式
-
Jieba 中文斷詞工具介紹及應用
介紹結巴 (Jieba) 套件以及其應用,如何操作結巴以進行中文文本斷詞、詞性標記、關鍵字抽取,並依照需求建立使用者字典
-
CkipTagger繁體中文斷詞工具介紹及應用
介紹CkipTagger套件以及其應用,以進行中文文本斷詞、詞性標注、命名實體識別,並依照需求建立使用者字典。
-
文字預處理範例練習
本日課程挑選一些常用的文字預處理範例讓大家作個小練習
-
-
NLP特徵工程技術
本章介紹如何從原始文字數據中提取特徵(feature),因為文字屬於非結構化資料,透過NLP特徵工程技術,將文字轉成數值類型資料,成為機器學習建模時的有效輸入資料。文字轉換成數值類型後,我們就可以進行餘弦相似性、單詞聚類、文本分類.....等任務。
-
詞袋模型(Bag of Word Model)理論介紹
認識詞袋模型 (Bag of Word model),瞭解如何將文字轉成特徵向量理論
-
Term Frequency - Inverted Document Frequency (TF-IDF 模型概論)
TF-IDF :詞頻(Term Frequency) - 逆文本頻率(Inverse Document Frequency) 模型概述,認識如何利用詞頻(Term Frequency)與逆向檔案頻率(Inverted Document Frequency),在資料抽取與檢索中衡量詞彙與文字的統計指標。
-
詞嵌入向量 - 詞庫與計數之方法
了解不同詞嵌入的差別,並了解詞庫與計數方法的詞嵌入,再實作文本預處理與共現矩陣
-
詞嵌入向量 - 以降維的方式改善計數方法
了解如何使用PPMI與SVD改善共現矩陣的缺點,並使用餘弦相似度比較單詞的詞嵌入向量
-
詞嵌入向量 - N-Gram介紹
N-Gram為經典的基礎語言模型, 藉由了解N-Gram語言模型範例,可以幫助我們對基於統計的語言模型方法有初步的認識。
-
詞嵌入向量 - N-Gram實作
實作N-Gram語言模型, 並介紹如何使用Unigram、Bi-gram來更改特徵並應用NLTK建構N-Gram語言模型。
-
詞嵌入向量 - Word2Vec介紹
詳細介紹Word2Vec的原理與架構,並介紹當中兩個模型架構:連續詞袋模型(CBOW)與Skip-gram。
-
詞嵌入向量 - Word2vec的讀取與訓練
介紹Gensim自然語言工具,並實際產生Word2Vec詞向量模型,將語料中的詞彙映射到向量,用來表示單詞間的關係,並以此作為應用。
-
詞嵌入向量 - FastText介紹與實作
介紹FastText模型架構,並解說字母層級的英文FastText模型, 最後實作中文FastText語言模型。
-
詞幹/詞條提取(Stemming and Lemmatization)
利用詞幹與詞條的提取,整合相同單詞的不同型態,藉此降低訓練複雜度。
-
-
常見的NLP機器學習應用
本章節介紹NLP與機器學習基礎概念與常見的應用場景,包含:詞性標註、命名實體識別、文本分類、文本摘要提取等任務
-
機器學習基礎-常見任務
介紹四個不同的機器學習方法,並列出常見自然語言任務的訓練方式。
-
機器學習基礎-損失函數(Loss function)
介紹迴歸與分類的損失函數,並說明各損失函數的運作原理。
-
機器學習基礎-優化器(Optimizer)
介紹常見的優化器,並說明各優化器的優化原理。
-
機器學習基礎-效能衡量指標(混淆矩陣)
介紹混淆矩陣與四大模型衡量指標:準確率( Accuracy )、精確率( Precision )、召回率( Recall )與F值。
-
機器學習基礎-效能衡量指標(ROC/AUC)
由上一章節的內容延伸,介紹ROC/AUC的原理與使用方式。
-
詞性標註( Part-Of-Speech Tagging )
介紹NLP基礎任務 - 詞性標註(Part-Of-Speech Tagging)
-
詞性標註實作
解決序列標註問題,應用CRF,能從中瞭解語言文字資料集的訓練與預測流程。
-
命名實體識別( Named Entity Recognition )
命名實體識別( Named Entity Recognition )將以結構化的詞彙,進行複合詞的識別。瞭解NER的統計原理與規則,能夠最佳化不同領域的資訊抽取需求。
-
命名實體識別實作
使用Keras實作中文命名實體識別,資料集為微軟亞洲研究院開源數據。
-
文本分類( Text Classification )
文本分類(Text Classification)是自然語言處理中常見且基礎的任務,本章節會介紹三大文本分類類型。
-
文本分類實作
-
文本摘要提取( Text Summarization )
文本摘要提取是對較長的文本提煉出簡短、連貫且流暢之摘要的過程,涉及對文本要點的概述。
-
文本摘要提取實作
使用TextRank4ZH實作中文文本摘要提取。
-
LDA (Latent Dirichlet Allocation)文件主題模型
-
-
自然語言處理(NLP)緒論 與 NLP AI專案流程介紹
從自然語言的歷史發展,探討規則系統、統計方法、機器學習與深度學習與自然語言處理之間的關聯性。 快速瞭解自然語言處理的原理以及NLP類型的AI應用技術全局觀。
-
語料庫建構原則
如何將現有的語言、文字資料數位化處理,加以手工或自動標註對應的解析訊息的資料庫,稱為語料庫(corpus)。以往在進行自然語言處理時,大多是應用現有的英文語料庫或是已經建立完成的中文語料庫。但是語言是相當博學精深且各領域的用詞方式及技巧大相逕庭,學習語料庫的蒐集及建置,可應用與專屬領域提升辨識的準確度及語言的鑑別度。
-
Python 常用的文字處理工具介紹
善用Python常用的String(字串)處理工具,為日後NLP類型數據前處理奠定基礎
-
資料前處理_語料清洗_字串處理函數應用
python字串(string)處理函數應用,為日後數據前處理奠定基礎
-
正規表達式 (Regular Expression) 語法介紹
使用正規表達式 (Regular Expression) 可以幫助我們在更高效的篩選、尋找與匹配目標文字。並透過 Python 中的 re 套件,了解如何在 Python 中使用 Regular Expression。
-
資料前處理_語料清洗_Pandas套件應用
介紹在 Pandas 套件中常使用的資料前處理技巧,主題包含:資料挑選、資料表合併、資料轉換等
-
資料前處理_文字雲應用
簡介文字雲對 NLP 任務的重要性,以及使用常見的套件產生文字雲。
-
-
NLP資料前處理- 詞彙處理與斷詞技術
分詞(又稱為斷詞),是眾多自然語言處理任務中的子任務,在處理更困難的自然語言任務之前,通常都需要經過斷詞。而且斷詞也是全文檢索與搜尋引擎重要的底層技術基礎。
-
斷詞(tokenization)技術介紹
了解何謂斷詞,並清楚斷詞的目的與結果,並介紹主流的三種斷詞方法
-
基於詞典與統計的斷詞方法
介紹基於詞典的分詞方法(字典樹、有向無環圖、動態規劃),並引入基於統計的方法的斷詞技術
-
基於統計與深度學習的斷詞方法
介紹基於統計的機器學習的斷詞方法(HMM, Viterbi),以及簡單介紹基於深度學習的斷詞方法
-
NLTK英文斷詞工具介紹及應用
介紹Natural Language Toolkit (NLTK) 斷詞工具 ,並如何使用此工具來進行英文斷句、斷詞、詞性標記、命名實體識別。
-
SnowNLP、HaNLP斷詞工具介紹及應用
介紹Hannlp、SnowNLP兩個自然語言工具包的函數以及使用方式
-
Jieba 中文斷詞工具介紹及應用
介紹結巴 (Jieba) 套件以及其應用,如何操作結巴以進行中文文本斷詞、詞性標記、關鍵字抽取,並依照需求建立使用者字典
-
CkipTagger繁體中文斷詞工具介紹及應用
介紹CkipTagger套件以及其應用,以進行中文文本斷詞、詞性標注、命名實體識別,並依照需求建立使用者字典。
-
文字預處理範例練習
本日課程挑選一些常用的文字預處理範例讓大家作個小練習
-
-
NLP特徵工程技術
本章介紹如何從原始文字數據中提取特徵(feature),因為文字屬於非結構化資料,透過NLP特徵工程技術,將文字轉成數值類型資料,成為機器學習建模時的有效輸入資料。文字轉換成數值類型後,我們就可以進行餘弦相似性、單詞聚類、文本分類.....等任務。
-
詞袋模型(Bag of Word Model)理論介紹
認識詞袋模型 (Bag of Word model),瞭解如何將文字轉成特徵向量理論
-
Term Frequency - Inverted Document Frequency (TF-IDF 模型概論)
TF-IDF :詞頻(Term Frequency) - 逆文本頻率(Inverse Document Frequency) 模型概述,認識如何利用詞頻(Term Frequency)與逆向檔案頻率(Inverted Document Frequency),在資料抽取與檢索中衡量詞彙與文字的統計指標。
-
詞嵌入向量 - 詞庫與計數之方法
了解不同詞嵌入的差別,並了解詞庫與計數方法的詞嵌入,再實作文本預處理與共現矩陣
-
詞嵌入向量 - 以降維的方式改善計數方法
了解如何使用PPMI與SVD改善共現矩陣的缺點,並使用餘弦相似度比較單詞的詞嵌入向量
-
詞嵌入向量 - N-Gram介紹
N-Gram為經典的基礎語言模型, 藉由了解N-Gram語言模型範例,可以幫助我們對基於統計的語言模型方法有初步的認識。
-
詞嵌入向量 - N-Gram實作
實作N-Gram語言模型, 並介紹如何使用Unigram、Bi-gram來更改特徵並應用NLTK建構N-Gram語言模型。
-
詞嵌入向量 - Word2Vec介紹
詳細介紹Word2Vec的原理與架構,並介紹當中兩個模型架構:連續詞袋模型(CBOW)與Skip-gram。
-
詞嵌入向量 - Word2vec的讀取與訓練
介紹Gensim自然語言工具,並實際產生Word2Vec詞向量模型,將語料中的詞彙映射到向量,用來表示單詞間的關係,並以此作為應用。
-
詞嵌入向量 - FastText介紹與實作
介紹FastText模型架構,並解說字母層級的英文FastText模型, 最後實作中文FastText語言模型。
-
詞幹/詞條提取(Stemming and Lemmatization)
利用詞幹與詞條的提取,整合相同單詞的不同型態,藉此降低訓練複雜度。
-
-
常見的NLP機器學習應用
本章節介紹NLP與機器學習基礎概念與常見的應用場景,包含:詞性標註、命名實體識別、文本分類、文本摘要提取等任務
-
機器學習基礎-常見任務
介紹四個不同的機器學習方法,並列出常見自然語言任務的訓練方式。
-
機器學習基礎-損失函數(Loss function)
介紹迴歸與分類的損失函數,並說明各損失函數的運作原理。
-
機器學習基礎-優化器(Optimizer)
介紹常見的優化器,並說明各優化器的優化原理。
-
機器學習基礎-效能衡量指標(混淆矩陣)
介紹混淆矩陣與四大模型衡量指標:準確率( Accuracy )、精確率( Precision )、召回率( Recall )與F值。
-
機器學習基礎-效能衡量指標(ROC/AUC)
由上一章節的內容延伸,介紹ROC/AUC的原理與使用方式。
-
詞性標註( Part-Of-Speech Tagging )
介紹NLP基礎任務 - 詞性標註(Part-Of-Speech Tagging)
-
詞性標註實作
解決序列標註問題,應用CRF,能從中瞭解語言文字資料集的訓練與預測流程。
-
命名實體識別( Named Entity Recognition )
命名實體識別( Named Entity Recognition )將以結構化的詞彙,進行複合詞的識別。瞭解NER的統計原理與規則,能夠最佳化不同領域的資訊抽取需求。
-
命名實體識別實作
使用Keras實作中文命名實體識別,資料集為微軟亞洲研究院開源數據。
-
文本分類( Text Classification )
文本分類(Text Classification)是自然語言處理中常見且基礎的任務,本章節會介紹三大文本分類類型。
-
文本分類實作
-
文本摘要提取( Text Summarization )
文本摘要提取是對較長的文本提煉出簡短、連貫且流暢之摘要的過程,涉及對文本要點的概述。
-
文本摘要提取實作
使用TextRank4ZH實作中文文本摘要提取。
-
LDA (Latent Dirichlet Allocation)文件主題模型
-
-
自然語言處理(NLP)緒論 與 NLP AI專案流程介紹
從自然語言的歷史發展,探討規則系統、統計方法、機器學習與深度學習與自然語言處理之間的關聯性。 快速瞭解自然語言處理的原理以及NLP類型的AI應用技術全局觀。
-
語料庫建構原則
如何將現有的語言、文字資料數位化處理,加以手工或自動標註對應的解析訊息的資料庫,稱為語料庫(corpus)。以往在進行自然語言處理時,大多是應用現有的英文語料庫或是已經建立完成的中文語料庫。但是語言是相當博學精深且各領域的用詞方式及技巧大相逕庭,學習語料庫的蒐集及建置,可應用與專屬領域提升辨識的準確度及語言的鑑別度。
-
Python 常用的文字處理工具介紹
善用Python常用的String(字串)處理工具,為日後NLP類型數據前處理奠定基礎
-
資料前處理_語料清洗_字串處理函數應用
python字串(string)處理函數應用,為日後數據前處理奠定基礎
-
正規表達式 (Regular Expression) 語法介紹
使用正規表達式 (Regular Expression) 可以幫助我們在更高效的篩選、尋找與匹配目標文字。並透過 Python 中的 re 套件,了解如何在 Python 中使用 Regular Expression。
-
資料前處理_語料清洗_Pandas套件應用
介紹在 Pandas 套件中常使用的資料前處理技巧,主題包含:資料挑選、資料表合併、資料轉換等
-
資料前處理_文字雲應用
簡介文字雲對 NLP 任務的重要性,以及使用常見的套件產生文字雲。
-
-
NLP資料前處理- 詞彙處理與斷詞技術
分詞(又稱為斷詞),是眾多自然語言處理任務中的子任務,在處理更困難的自然語言任務之前,通常都需要經過斷詞。而且斷詞也是全文檢索與搜尋引擎重要的底層技術基礎。
-
斷詞(tokenization)技術介紹
了解何謂斷詞,並清楚斷詞的目的與結果,並介紹主流的三種斷詞方法
-
基於詞典與統計的斷詞方法
介紹基於詞典的分詞方法(字典樹、有向無環圖、動態規劃),並引入基於統計的方法的斷詞技術
-
基於統計與深度學習的斷詞方法
介紹基於統計的機器學習的斷詞方法(HMM, Viterbi),以及簡單介紹基於深度學習的斷詞方法
-
NLTK英文斷詞工具介紹及應用
介紹Natural Language Toolkit (NLTK) 斷詞工具 ,並如何使用此工具來進行英文斷句、斷詞、詞性標記、命名實體識別。
-
SnowNLP、HaNLP斷詞工具介紹及應用
介紹Hannlp、SnowNLP兩個自然語言工具包的函數以及使用方式
-
Jieba 中文斷詞工具介紹及應用
介紹結巴 (Jieba) 套件以及其應用,如何操作結巴以進行中文文本斷詞、詞性標記、關鍵字抽取,並依照需求建立使用者字典
-
CkipTagger繁體中文斷詞工具介紹及應用
介紹CkipTagger套件以及其應用,以進行中文文本斷詞、詞性標注、命名實體識別,並依照需求建立使用者字典。
-
文字預處理範例練習
本日課程挑選一些常用的文字預處理範例讓大家作個小練習
-
-
NLP特徵工程技術
本章介紹如何從原始文字數據中提取特徵(feature),因為文字屬於非結構化資料,透過NLP特徵工程技術,將文字轉成數值類型資料,成為機器學習建模時的有效輸入資料。文字轉換成數值類型後,我們就可以進行餘弦相似性、單詞聚類、文本分類.....等任務。
-
詞袋模型(Bag of Word Model)理論介紹
認識詞袋模型 (Bag of Word model),瞭解如何將文字轉成特徵向量理論
-
Term Frequency - Inverted Document Frequency (TF-IDF 模型概論)
TF-IDF :詞頻(Term Frequency) - 逆文本頻率(Inverse Document Frequency) 模型概述,認識如何利用詞頻(Term Frequency)與逆向檔案頻率(Inverted Document Frequency),在資料抽取與檢索中衡量詞彙與文字的統計指標。
-
詞嵌入向量 - 詞庫與計數之方法
了解不同詞嵌入的差別,並了解詞庫與計數方法的詞嵌入,再實作文本預處理與共現矩陣
-
詞嵌入向量 - 以降維的方式改善計數方法
了解如何使用PPMI與SVD改善共現矩陣的缺點,並使用餘弦相似度比較單詞的詞嵌入向量
-
詞嵌入向量 - N-Gram介紹
N-Gram為經典的基礎語言模型, 藉由了解N-Gram語言模型範例,可以幫助我們對基於統計的語言模型方法有初步的認識。
-
詞嵌入向量 - N-Gram實作
實作N-Gram語言模型, 並介紹如何使用Unigram、Bi-gram來更改特徵並應用NLTK建構N-Gram語言模型。
-
詞嵌入向量 - Word2Vec介紹
詳細介紹Word2Vec的原理與架構,並介紹當中兩個模型架構:連續詞袋模型(CBOW)與Skip-gram。
-
詞嵌入向量 - Word2vec的讀取與訓練
介紹Gensim自然語言工具,並實際產生Word2Vec詞向量模型,將語料中的詞彙映射到向量,用來表示單詞間的關係,並以此作為應用。
-
詞嵌入向量 - FastText介紹與實作
介紹FastText模型架構,並解說字母層級的英文FastText模型, 最後實作中文FastText語言模型。
-
詞幹/詞條提取(Stemming and Lemmatization)
利用詞幹與詞條的提取,整合相同單詞的不同型態,藉此降低訓練複雜度。
-
-
常見的NLP機器學習應用
本章節介紹NLP與機器學習基礎概念與常見的應用場景,包含:詞性標註、命名實體識別、文本分類、文本摘要提取等任務
-
機器學習基礎-常見任務
介紹四個不同的機器學習方法,並列出常見自然語言任務的訓練方式。
-
機器學習基礎-損失函數(Loss function)
介紹迴歸與分類的損失函數,並說明各損失函數的運作原理。
-
機器學習基礎-優化器(Optimizer)
介紹常見的優化器,並說明各優化器的優化原理。
-
機器學習基礎-效能衡量指標(混淆矩陣)
介紹混淆矩陣與四大模型衡量指標:準確率( Accuracy )、精確率( Precision )、召回率( Recall )與F值。
-
機器學習基礎-效能衡量指標(ROC/AUC)
由上一章節的內容延伸,介紹ROC/AUC的原理與使用方式。
-
詞性標註( Part-Of-Speech Tagging )
介紹NLP基礎任務 - 詞性標註(Part-Of-Speech Tagging)
-
詞性標註實作
解決序列標註問題,應用CRF,能從中瞭解語言文字資料集的訓練與預測流程。
-
命名實體識別( Named Entity Recognition )
命名實體識別( Named Entity Recognition )將以結構化的詞彙,進行複合詞的識別。瞭解NER的統計原理與規則,能夠最佳化不同領域的資訊抽取需求。
-
命名實體識別實作
使用Keras實作中文命名實體識別,資料集為微軟亞洲研究院開源數據。
-
文本分類( Text Classification )
文本分類(Text Classification)是自然語言處理中常見且基礎的任務,本章節會介紹三大文本分類類型。
-
文本分類實作
-
文本摘要提取( Text Summarization )
文本摘要提取是對較長的文本提煉出簡短、連貫且流暢之摘要的過程,涉及對文本要點的概述。
-
文本摘要提取實作
使用TextRank4ZH實作中文文本摘要提取。
-
LDA (Latent Dirichlet Allocation)文件主題模型
-
-
自然語言處理(NLP)緒論 與 NLP AI專案流程介紹
從自然語言的歷史發展,探討規則系統、統計方法、機器學習與深度學習與自然語言處理之間的關聯性。 快速瞭解自然語言處理的原理以及NLP類型的AI應用技術全局觀。
-
語料庫建構原則
如何將現有的語言、文字資料數位化處理,加以手工或自動標註對應的解析訊息的資料庫,稱為語料庫(corpus)。以往在進行自然語言處理時,大多是應用現有的英文語料庫或是已經建立完成的中文語料庫。但是語言是相當博學精深且各領域的用詞方式及技巧大相逕庭,學習語料庫的蒐集及建置,可應用與專屬領域提升辨識的準確度及語言的鑑別度。
-
Python 常用的文字處理工具介紹
善用Python常用的String(字串)處理工具,為日後NLP類型數據前處理奠定基礎
-
資料前處理_語料清洗_字串處理函數應用
python字串(string)處理函數應用,為日後數據前處理奠定基礎
-
正規表達式 (Regular Expression) 語法介紹
使用正規表達式 (Regular Expression) 可以幫助我們在更高效的篩選、尋找與匹配目標文字。並透過 Python 中的 re 套件,了解如何在 Python 中使用 Regular Expression。
-
資料前處理_語料清洗_Pandas套件應用
介紹在 Pandas 套件中常使用的資料前處理技巧,主題包含:資料挑選、資料表合併、資料轉換等
-
資料前處理_文字雲應用
簡介文字雲對 NLP 任務的重要性,以及使用常見的套件產生文字雲。
-
-
NLP資料前處理- 詞彙處理與斷詞技術
分詞(又稱為斷詞),是眾多自然語言處理任務中的子任務,在處理更困難的自然語言任務之前,通常都需要經過斷詞。而且斷詞也是全文檢索與搜尋引擎重要的底層技術基礎。
-
斷詞(tokenization)技術介紹
了解何謂斷詞,並清楚斷詞的目的與結果,並介紹主流的三種斷詞方法
-
基於詞典與統計的斷詞方法
介紹基於詞典的分詞方法(字典樹、有向無環圖、動態規劃),並引入基於統計的方法的斷詞技術
-
基於統計與深度學習的斷詞方法
介紹基於統計的機器學習的斷詞方法(HMM, Viterbi),以及簡單介紹基於深度學習的斷詞方法
-
NLTK英文斷詞工具介紹及應用
介紹Natural Language Toolkit (NLTK) 斷詞工具 ,並如何使用此工具來進行英文斷句、斷詞、詞性標記、命名實體識別。
-
SnowNLP、HaNLP斷詞工具介紹及應用
介紹Hannlp、SnowNLP兩個自然語言工具包的函數以及使用方式
-
Jieba 中文斷詞工具介紹及應用
介紹結巴 (Jieba) 套件以及其應用,如何操作結巴以進行中文文本斷詞、詞性標記、關鍵字抽取,並依照需求建立使用者字典
-
CkipTagger繁體中文斷詞工具介紹及應用
介紹CkipTagger套件以及其應用,以進行中文文本斷詞、詞性標注、命名實體識別,並依照需求建立使用者字典。
-
文字預處理範例練習
本日課程挑選一些常用的文字預處理範例讓大家作個小練習
-
-
NLP特徵工程技術
本章介紹如何從原始文字數據中提取特徵(feature),因為文字屬於非結構化資料,透過NLP特徵工程技術,將文字轉成數值類型資料,成為機器學習建模時的有效輸入資料。文字轉換成數值類型後,我們就可以進行餘弦相似性、單詞聚類、文本分類.....等任務。
-
詞袋模型(Bag of Word Model)理論介紹
認識詞袋模型 (Bag of Word model),瞭解如何將文字轉成特徵向量理論
-
Term Frequency - Inverted Document Frequency (TF-IDF 模型概論)
TF-IDF :詞頻(Term Frequency) - 逆文本頻率(Inverse Document Frequency) 模型概述,認識如何利用詞頻(Term Frequency)與逆向檔案頻率(Inverted Document Frequency),在資料抽取與檢索中衡量詞彙與文字的統計指標。
-
詞嵌入向量 - 詞庫與計數之方法
了解不同詞嵌入的差別,並了解詞庫與計數方法的詞嵌入,再實作文本預處理與共現矩陣
-
詞嵌入向量 - 以降維的方式改善計數方法
了解如何使用PPMI與SVD改善共現矩陣的缺點,並使用餘弦相似度比較單詞的詞嵌入向量
-
詞嵌入向量 - N-Gram介紹
N-Gram為經典的基礎語言模型, 藉由了解N-Gram語言模型範例,可以幫助我們對基於統計的語言模型方法有初步的認識。
-
詞嵌入向量 - N-Gram實作
實作N-Gram語言模型, 並介紹如何使用Unigram、Bi-gram來更改特徵並應用NLTK建構N-Gram語言模型。
-
詞嵌入向量 - Word2Vec介紹
詳細介紹Word2Vec的原理與架構,並介紹當中兩個模型架構:連續詞袋模型(CBOW)與Skip-gram。
-
詞嵌入向量 - Word2vec的讀取與訓練
介紹Gensim自然語言工具,並實際產生Word2Vec詞向量模型,將語料中的詞彙映射到向量,用來表示單詞間的關係,並以此作為應用。
-
詞嵌入向量 - FastText介紹與實作
介紹FastText模型架構,並解說字母層級的英文FastText模型, 最後實作中文FastText語言模型。
-
詞幹/詞條提取(Stemming and Lemmatization)
利用詞幹與詞條的提取,整合相同單詞的不同型態,藉此降低訓練複雜度。
-
-
常見的NLP機器學習應用
本章節介紹NLP與機器學習基礎概念與常見的應用場景,包含:詞性標註、命名實體識別、文本分類、文本摘要提取等任務
-
機器學習基礎-常見任務
介紹四個不同的機器學習方法,並列出常見自然語言任務的訓練方式。
-
機器學習基礎-損失函數(Loss function)
介紹迴歸與分類的損失函數,並說明各損失函數的運作原理。
-
機器學習基礎-優化器(Optimizer)
介紹常見的優化器,並說明各優化器的優化原理。
-
機器學習基礎-效能衡量指標(混淆矩陣)
介紹混淆矩陣與四大模型衡量指標:準確率( Accuracy )、精確率( Precision )、召回率( Recall )與F值。
-
機器學習基礎-效能衡量指標(ROC/AUC)
由上一章節的內容延伸,介紹ROC/AUC的原理與使用方式。
-
詞性標註( Part-Of-Speech Tagging )
介紹NLP基礎任務 - 詞性標註(Part-Of-Speech Tagging)
-
詞性標註實作
解決序列標註問題,應用CRF,能從中瞭解語言文字資料集的訓練與預測流程。
-
命名實體識別( Named Entity Recognition )
命名實體識別( Named Entity Recognition )將以結構化的詞彙,進行複合詞的識別。瞭解NER的統計原理與規則,能夠最佳化不同領域的資訊抽取需求。
-
命名實體識別實作
使用Keras實作中文命名實體識別,資料集為微軟亞洲研究院開源數據。
-
文本分類( Text Classification )
文本分類(Text Classification)是自然語言處理中常見且基礎的任務,本章節會介紹三大文本分類類型。
-
文本分類實作
-
文本摘要提取( Text Summarization )
文本摘要提取是對較長的文本提煉出簡短、連貫且流暢之摘要的過程,涉及對文本要點的概述。
-
文本摘要提取實作
使用TextRank4ZH實作中文文本摘要提取。
-
LDA (Latent Dirichlet Allocation)文件主題模型
-
-
自然語言處理(NLP)緒論 與 NLP AI專案流程介紹
從自然語言的歷史發展,探討規則系統、統計方法、機器學習與深度學習與自然語言處理之間的關聯性。 快速瞭解自然語言處理的原理以及NLP類型的AI應用技術全局觀。
-
語料庫建構原則
如何將現有的語言、文字資料數位化處理,加以手工或自動標註對應的解析訊息的資料庫,稱為語料庫(corpus)。以往在進行自然語言處理時,大多是應用現有的英文語料庫或是已經建立完成的中文語料庫。但是語言是相當博學精深且各領域的用詞方式及技巧大相逕庭,學習語料庫的蒐集及建置,可應用與專屬領域提升辨識的準確度及語言的鑑別度。
-
Python 常用的文字處理工具介紹
善用Python常用的String(字串)處理工具,為日後NLP類型數據前處理奠定基礎
-
資料前處理_語料清洗_字串處理函數應用
python字串(string)處理函數應用,為日後數據前處理奠定基礎
-
正規表達式 (Regular Expression) 語法介紹
使用正規表達式 (Regular Expression) 可以幫助我們在更高效的篩選、尋找與匹配目標文字。並透過 Python 中的 re 套件,了解如何在 Python 中使用 Regular Expression。
-
資料前處理_語料清洗_Pandas套件應用
介紹在 Pandas 套件中常使用的資料前處理技巧,主題包含:資料挑選、資料表合併、資料轉換等
-
資料前處理_文字雲應用
簡介文字雲對 NLP 任務的重要性,以及使用常見的套件產生文字雲。
-
-
NLP資料前處理- 詞彙處理與斷詞技術
分詞(又稱為斷詞),是眾多自然語言處理任務中的子任務,在處理更困難的自然語言任務之前,通常都需要經過斷詞。而且斷詞也是全文檢索與搜尋引擎重要的底層技術基礎。
-
斷詞(tokenization)技術介紹
了解何謂斷詞,並清楚斷詞的目的與結果,並介紹主流的三種斷詞方法
-
基於詞典與統計的斷詞方法
介紹基於詞典的分詞方法(字典樹、有向無環圖、動態規劃),並引入基於統計的方法的斷詞技術
-
基於統計與深度學習的斷詞方法
介紹基於統計的機器學習的斷詞方法(HMM, Viterbi),以及簡單介紹基於深度學習的斷詞方法
-
NLTK英文斷詞工具介紹及應用
介紹Natural Language Toolkit (NLTK) 斷詞工具 ,並如何使用此工具來進行英文斷句、斷詞、詞性標記、命名實體識別。
-
SnowNLP、HaNLP斷詞工具介紹及應用
介紹Hannlp、SnowNLP兩個自然語言工具包的函數以及使用方式
-
Jieba 中文斷詞工具介紹及應用
介紹結巴 (Jieba) 套件以及其應用,如何操作結巴以進行中文文本斷詞、詞性標記、關鍵字抽取,並依照需求建立使用者字典
-
CkipTagger繁體中文斷詞工具介紹及應用
介紹CkipTagger套件以及其應用,以進行中文文本斷詞、詞性標注、命名實體識別,並依照需求建立使用者字典。
-
文字預處理範例練習
本日課程挑選一些常用的文字預處理範例讓大家作個小練習
-
-
NLP特徵工程技術
本章介紹如何從原始文字數據中提取特徵(feature),因為文字屬於非結構化資料,透過NLP特徵工程技術,將文字轉成數值類型資料,成為機器學習建模時的有效輸入資料。文字轉換成數值類型後,我們就可以進行餘弦相似性、單詞聚類、文本分類.....等任務。
-
詞袋模型(Bag of Word Model)理論介紹
認識詞袋模型 (Bag of Word model),瞭解如何將文字轉成特徵向量理論
-
Term Frequency - Inverted Document Frequency (TF-IDF 模型概論)
TF-IDF :詞頻(Term Frequency) - 逆文本頻率(Inverse Document Frequency) 模型概述,認識如何利用詞頻(Term Frequency)與逆向檔案頻率(Inverted Document Frequency),在資料抽取與檢索中衡量詞彙與文字的統計指標。
-
詞嵌入向量 - 詞庫與計數之方法
了解不同詞嵌入的差別,並了解詞庫與計數方法的詞嵌入,再實作文本預處理與共現矩陣
-
詞嵌入向量 - 以降維的方式改善計數方法
了解如何使用PPMI與SVD改善共現矩陣的缺點,並使用餘弦相似度比較單詞的詞嵌入向量
-
詞嵌入向量 - N-Gram介紹
N-Gram為經典的基礎語言模型, 藉由了解N-Gram語言模型範例,可以幫助我們對基於統計的語言模型方法有初步的認識。
-
詞嵌入向量 - N-Gram實作
實作N-Gram語言模型, 並介紹如何使用Unigram、Bi-gram來更改特徵並應用NLTK建構N-Gram語言模型。
-
詞嵌入向量 - Word2Vec介紹
詳細介紹Word2Vec的原理與架構,並介紹當中兩個模型架構:連續詞袋模型(CBOW)與Skip-gram。
-
詞嵌入向量 - Word2vec的讀取與訓練
介紹Gensim自然語言工具,並實際產生Word2Vec詞向量模型,將語料中的詞彙映射到向量,用來表示單詞間的關係,並以此作為應用。
-
詞嵌入向量 - FastText介紹與實作
介紹FastText模型架構,並解說字母層級的英文FastText模型, 最後實作中文FastText語言模型。
-
詞幹/詞條提取(Stemming and Lemmatization)
利用詞幹與詞條的提取,整合相同單詞的不同型態,藉此降低訓練複雜度。
-
-
常見的NLP機器學習應用
本章節介紹NLP與機器學習基礎概念與常見的應用場景,包含:詞性標註、命名實體識別、文本分類、文本摘要提取等任務
-
機器學習基礎-常見任務
介紹四個不同的機器學習方法,並列出常見自然語言任務的訓練方式。
-
機器學習基礎-損失函數(Loss function)
介紹迴歸與分類的損失函數,並說明各損失函數的運作原理。
-
機器學習基礎-優化器(Optimizer)
介紹常見的優化器,並說明各優化器的優化原理。
-
機器學習基礎-效能衡量指標(混淆矩陣)
介紹混淆矩陣與四大模型衡量指標:準確率( Accuracy )、精確率( Precision )、召回率( Recall )與F值。
-
機器學習基礎-效能衡量指標(ROC/AUC)
由上一章節的內容延伸,介紹ROC/AUC的原理與使用方式。
-
詞性標註( Part-Of-Speech Tagging )
介紹NLP基礎任務 - 詞性標註(Part-Of-Speech Tagging)
-
詞性標註實作
解決序列標註問題,應用CRF,能從中瞭解語言文字資料集的訓練與預測流程。
-
命名實體識別( Named Entity Recognition )
命名實體識別( Named Entity Recognition )將以結構化的詞彙,進行複合詞的識別。瞭解NER的統計原理與規則,能夠最佳化不同領域的資訊抽取需求。
-
命名實體識別實作
使用Keras實作中文命名實體識別,資料集為微軟亞洲研究院開源數據。
-
文本分類( Text Classification )
文本分類(Text Classification)是自然語言處理中常見且基礎的任務,本章節會介紹三大文本分類類型。
-
文本分類實作
-
文本摘要提取( Text Summarization )
文本摘要提取是對較長的文本提煉出簡短、連貫且流暢之摘要的過程,涉及對文本要點的概述。
-
文本摘要提取實作
使用TextRank4ZH實作中文文本摘要提取。
-
LDA (Latent Dirichlet Allocation)文件主題模型
-
-
自然語言處理(NLP)緒論 與 NLP AI專案流程介紹
從自然語言的歷史發展,探討規則系統、統計方法、機器學習與深度學習與自然語言處理之間的關聯性。 快速瞭解自然語言處理的原理以及NLP類型的AI應用技術全局觀。
-
語料庫建構原則
如何將現有的語言、文字資料數位化處理,加以手工或自動標註對應的解析訊息的資料庫,稱為語料庫(corpus)。以往在進行自然語言處理時,大多是應用現有的英文語料庫或是已經建立完成的中文語料庫。但是語言是相當博學精深且各領域的用詞方式及技巧大相逕庭,學習語料庫的蒐集及建置,可應用與專屬領域提升辨識的準確度及語言的鑑別度。
-
Python 常用的文字處理工具介紹
善用Python常用的String(字串)處理工具,為日後NLP類型數據前處理奠定基礎
-
資料前處理_語料清洗_字串處理函數應用
python字串(string)處理函數應用,為日後數據前處理奠定基礎
-
正規表達式 (Regular Expression) 語法介紹
使用正規表達式 (Regular Expression) 可以幫助我們在更高效的篩選、尋找與匹配目標文字。並透過 Python 中的 re 套件,了解如何在 Python 中使用 Regular Expression。
-
資料前處理_語料清洗_Pandas套件應用
介紹在 Pandas 套件中常使用的資料前處理技巧,主題包含:資料挑選、資料表合併、資料轉換等
-
資料前處理_文字雲應用
簡介文字雲對 NLP 任務的重要性,以及使用常見的套件產生文字雲。
-
-
NLP資料前處理- 詞彙處理與斷詞技術
分詞(又稱為斷詞),是眾多自然語言處理任務中的子任務,在處理更困難的自然語言任務之前,通常都需要經過斷詞。而且斷詞也是全文檢索與搜尋引擎重要的底層技術基礎。
-
斷詞(tokenization)技術介紹
了解何謂斷詞,並清楚斷詞的目的與結果,並介紹主流的三種斷詞方法
-
基於詞典與統計的斷詞方法
介紹基於詞典的分詞方法(字典樹、有向無環圖、動態規劃),並引入基於統計的方法的斷詞技術
-
基於統計與深度學習的斷詞方法
介紹基於統計的機器學習的斷詞方法(HMM, Viterbi),以及簡單介紹基於深度學習的斷詞方法
-
NLTK英文斷詞工具介紹及應用
介紹Natural Language Toolkit (NLTK) 斷詞工具 ,並如何使用此工具來進行英文斷句、斷詞、詞性標記、命名實體識別。
-
SnowNLP、HaNLP斷詞工具介紹及應用
介紹Hannlp、SnowNLP兩個自然語言工具包的函數以及使用方式
-
Jieba 中文斷詞工具介紹及應用
介紹結巴 (Jieba) 套件以及其應用,如何操作結巴以進行中文文本斷詞、詞性標記、關鍵字抽取,並依照需求建立使用者字典
-
CkipTagger繁體中文斷詞工具介紹及應用
介紹CkipTagger套件以及其應用,以進行中文文本斷詞、詞性標注、命名實體識別,並依照需求建立使用者字典。
-
文字預處理範例練習
本日課程挑選一些常用的文字預處理範例讓大家作個小練習
-
-
NLP特徵工程技術
本章介紹如何從原始文字數據中提取特徵(feature),因為文字屬於非結構化資料,透過NLP特徵工程技術,將文字轉成數值類型資料,成為機器學習建模時的有效輸入資料。文字轉換成數值類型後,我們就可以進行餘弦相似性、單詞聚類、文本分類.....等任務。
-
詞袋模型(Bag of Word Model)理論介紹
認識詞袋模型 (Bag of Word model),瞭解如何將文字轉成特徵向量理論
-
Term Frequency - Inverted Document Frequency (TF-IDF 模型概論)
TF-IDF :詞頻(Term Frequency) - 逆文本頻率(Inverse Document Frequency) 模型概述,認識如何利用詞頻(Term Frequency)與逆向檔案頻率(Inverted Document Frequency),在資料抽取與檢索中衡量詞彙與文字的統計指標。
-
詞嵌入向量 - 詞庫與計數之方法
了解不同詞嵌入的差別,並了解詞庫與計數方法的詞嵌入,再實作文本預處理與共現矩陣
-
詞嵌入向量 - 以降維的方式改善計數方法
了解如何使用PPMI與SVD改善共現矩陣的缺點,並使用餘弦相似度比較單詞的詞嵌入向量
-
詞嵌入向量 - N-Gram介紹
N-Gram為經典的基礎語言模型, 藉由了解N-Gram語言模型範例,可以幫助我們對基於統計的語言模型方法有初步的認識。
-
詞嵌入向量 - N-Gram實作
實作N-Gram語言模型, 並介紹如何使用Unigram、Bi-gram來更改特徵並應用NLTK建構N-Gram語言模型。
-
詞嵌入向量 - Word2Vec介紹
詳細介紹Word2Vec的原理與架構,並介紹當中兩個模型架構:連續詞袋模型(CBOW)與Skip-gram。
-
詞嵌入向量 - Word2vec的讀取與訓練
介紹Gensim自然語言工具,並實際產生Word2Vec詞向量模型,將語料中的詞彙映射到向量,用來表示單詞間的關係,並以此作為應用。
-
詞嵌入向量 - FastText介紹與實作
介紹FastText模型架構,並解說字母層級的英文FastText模型, 最後實作中文FastText語言模型。
-
詞幹/詞條提取(Stemming and Lemmatization)
利用詞幹與詞條的提取,整合相同單詞的不同型態,藉此降低訓練複雜度。
-
-
常見的NLP機器學習應用
本章節介紹NLP與機器學習基礎概念與常見的應用場景,包含:詞性標註、命名實體識別、文本分類、文本摘要提取等任務
-
機器學習基礎-常見任務
介紹四個不同的機器學習方法,並列出常見自然語言任務的訓練方式。
-
機器學習基礎-損失函數(Loss function)
介紹迴歸與分類的損失函數,並說明各損失函數的運作原理。
-
機器學習基礎-優化器(Optimizer)
介紹常見的優化器,並說明各優化器的優化原理。
-
機器學習基礎-效能衡量指標(混淆矩陣)
介紹混淆矩陣與四大模型衡量指標:準確率( Accuracy )、精確率( Precision )、召回率( Recall )與F值。
-
機器學習基礎-效能衡量指標(ROC/AUC)
由上一章節的內容延伸,介紹ROC/AUC的原理與使用方式。
-
詞性標註( Part-Of-Speech Tagging )
介紹NLP基礎任務 - 詞性標註(Part-Of-Speech Tagging)
-
詞性標註實作
解決序列標註問題,應用CRF,能從中瞭解語言文字資料集的訓練與預測流程。
-
命名實體識別( Named Entity Recognition )
命名實體識別( Named Entity Recognition )將以結構化的詞彙,進行複合詞的識別。瞭解NER的統計原理與規則,能夠最佳化不同領域的資訊抽取需求。
-
命名實體識別實作
使用Keras實作中文命名實體識別,資料集為微軟亞洲研究院開源數據。
-
文本分類( Text Classification )
文本分類(Text Classification)是自然語言處理中常見且基礎的任務,本章節會介紹三大文本分類類型。
-
文本分類實作
-
文本摘要提取( Text Summarization )
文本摘要提取是對較長的文本提煉出簡短、連貫且流暢之摘要的過程,涉及對文本要點的概述。
-
文本摘要提取實作
使用TextRank4ZH實作中文文本摘要提取。
-
LDA (Latent Dirichlet Allocation)文件主題模型
-