屬于機器學習常見流程的是
屬于機器學習常見流程的是

品牌型號:lenovo ThinkPad X250 系統:Windows 10 軟件版本:

屬于機器學習常見流程的是數據獲取、特征提取、模型訓練和驗證、線下測試、線上測試。
1、數據獲取:首先從線上拉取用戶真實數據,用現有模型過一遍這些數據得到一些有用的信息作為標注人員的一個參考,加快標注速度;標注完成后,數據入庫并解決沖突,沖突即是同一個query,兩次標注結果不一致,解決沖突的辦法一般是人工check,得到一個更準確的標注;
2、特征抽取:NLP任務一般需要抽取數據的特征,如ngram、詞典特征、詞向量特征、上游模塊的輸出等。一般離線和在線均需要特征抽取,所以離在線的這部分代碼是共用的,避免在線特征抽取和離線不一致。抽取特征時有個小技巧是把能想到的特征均抽取出來,并保存成文本文件,避免重復的執行特征抽取的步驟,在實驗的時候用mask的方式去屏蔽掉那些對模型沒用的特征,因為針對神經網絡這樣的模型,值為0的特征一般不影響最終結果(如tanh/ReLU等,但sigmoid激活層可能會影響)。這樣抽取出來的特征的格式一般還不能滿足機器學習框架的要求,通過腳本轉化成機器學習框架要求的格式即可。
3、模型訓練和驗證:常用的模型訓練和驗證步驟是:首先以一個簡易的算法開始,快速的進行實現,并在交叉驗證集上進行驗證;然后畫出它的學習曲線,通過學習曲線確定是否更多的數據或者更多的特征會對模型的優化有幫助。接著人為地檢測交叉驗證集中被錯誤的進行分類的或者預測的樣本的共同特征,從實際入手對模型進行調整,不斷調整并驗證在交叉驗證集上的誤差,尋找最優的結果,優化模型。
4、線下測試:指在模型驗證有提升后,在測試集上測試模型的性能指標。線下測試可以將模型集成在應用程序里測試,也可以單獨測試模型。線下測試的指標一般跟具體的業務需求相關,包括:準確率(accuracy)、精確率(precesion)、召回率(recall)、F1值等。
發表評論




暫時沒有評論,來搶沙發吧~