• 姓名:張庭浩
  • 信箱:wadeio595@gmail.com
  • 介紹:我是一個熱愛技術且有活力的研究生, 目前專注於研究機器學習、 深度學習、自然語言處理等方面, 熱衷於挑戰任何技術上的難題,在閒暇的時候會寫寫程式

    目前就職:
    2018/06-Now 豐聯資訊股份有限公司 擔任 實習
    經歷:
    2019/07/09-12 The Explore of Using Deep Learning Models for Fake News Classification. 發表於 The 9th International Conference on Frontier Computing (FC 2019)
    2017/07-2017/12 資訊工業策進會數位教育研究所 擔任 研習生

研究生畢業論文

論文名稱 對話系統與對話機器人之命名實體識別模型研發與改良
年份 2020
作者 張庭浩
碩博士論文網址 https://hdl.handle.net/11296/p2t9z6
摘要 本研究主軸為開發任務導向(Task-Oriented)對話系統基礎平台及命名實體識別模型之改良與研發,其目標為使非人工智慧研究領域的使用者能夠直接使用對話系統平台建立對話系統以及克服需要使用者自行填寫實體標籤的問題。底層架構包括自然語言前處理、意圖分類、對話狀態追蹤等子模組,使對話系統能夠精準回應最佳的句子,而本研究將針對「對話系統平台建置及改善語意理解命名實體識別模型」進行探討。

本研究以任務導向型的對話系統作為對話系統的媒介,輔助每位使用者能夠建立各式各樣的任務導向對話機器人,不侷限在特定的對話情境,使用者可建立符合特定場景及特定目的服務的對話機器人且基於樣板式回應範本建置任務導向對話系統。然而面對該平台存在著需要使用者自行填寫實體標籤的問題,本研究利用知識濃縮的語言模型DistilBERT訓練中文命名實體模型,並將該模型整合至對話系統使使用者減少需要耗費大量時間建置實體標籤語料,而該模型訓練的資料集包含Weibo NER、OntoNotes 4.0、MSRA及Resume等資料集,整合先進的遷移式學習技術,來訓練各種資料的預訓練模型並融合了Early Stopping技巧來找到最佳的epoch參數。研究結果顯示命名實體辨識模型在精準度、召回率、F1分數各方面指標接近了中文命名實體辨識最頂尖的模型,但是考量對話系統實際應用的情境,本研究所提出的優化模型兼顧了準確度與速度,實驗結果顯示在效能方面F1分數未經過遷移式學習F1分數為65.42%而經過遷移式學習後F1分數則達到93.49%的表現,而在速度方面DistilBERT模型預測速度快Glyce+BERT模型3倍,而相比Lattice LSTM模型則快17倍,明顯表示出本研究模型反應回饋速度即佳,因此本研究使用的DistilBERT模型在效能與速度方面更適合應用在實際的場景。