2025全國AI專題創意競賽 初賽學習心得

發佈日期:2025-12-04

莊詠恩

理工學院

資訊工程學系

在參與「2025 全國 AI 專題競賽—Quantum AI 體驗組」的過程中,從基礎資料收集、模型建構,延伸至物聯網控制與量子計算模擬的完整技術。這不是一次單純的實作比賽,更是探索人機協作與計算智慧的體驗 。透過四階段的操作——資料模型、知識模型、推論模型以及微調模型,我更加了解大型模型的基礎技術

首先從Google Colab 開始。我們安裝了 transformerstorch 等套件,並導入了 Whisper_Taiwanese_Tv05 模型 。傳統的語音識別往往忽略方言的細微差別,但透過這個模型,我了解電腦如何將錄製的台語語音精準辨識並轉譯為中文,展示了 AI 在自然語言處理上的強大能力,提升了保存對於未來本土文化的可能性。

 

接下來是多模態感知的實作。利用 Llama 3.2 生成式 AI 模型,我們對拍攝的場景進行「圖轉文」的描述生成,再利用這些文字描述進行「文生圖」的再創作 。在這個階段,最關鍵的學習在於引入了「人類評估(Human Evaluation)」的機制。我們不只依賴機器的生成,更在 Excel 表格中記錄了每一張圖片的 HEGAI(Human-Evaluation-GAI)分數,針對生成文本(HEGAIText)與生成圖片(HEGAIImage)進行量化評分 。這個過程讓我理解到,高品質的 AI 資料集往往需要人類的審美與判斷介入,這種「Human-in-the-Loop」的思維是構建精準模型不可缺少的工作。

資料收集完成後,要如何讓機器「理解」這些數據。在 KWS AI 平台上,我們建立了 QCI 知識模型,這是我第一次深入接觸模糊邏輯(Fuzzy Logic)的應用 。不同於非黑即白的二元邏輯,我們定義了「距離(Distance)」與「亮度(Light)」的語意項,例如將距離劃分為 near、medium、far,並為每個狀態設定了精確的梯形歸屬函數(Trapezoid Shape) 。同樣的,我們也為 HEGAI 的評分與最終的適應度(GAIFit)設定了從 low 到 high、從 very_poor 到 very_good 的模糊區間

 

有了定義,接下來便是邏輯的串聯。我們在 Excel 中建立了高達 81 條的推論規則(Rule Base),詳盡地列舉了各種情境組合,例如「當距離近、亮度暗、生成品質低時,適應度為極差」 。當這些規則被匯入平台並生成視覺化的推論網絡時,我深刻體會到所謂的「人工智慧」,其實是人類智慧透過數學形式的嚴謹表達。這套透明、可解釋的推論機制(XAI),讓我對系統的決策過程有了完全的掌握,這是深度學習黑盒子模型的優勢。

本次實作的主要重點技術在於軟體模型與硬體設備的結合。我們使用 Thonny IDE 與 MicroPython 撰寫程式,透過 MQTT 通訊協定將雲端的 AI 推論結果傳輸至開發板 。這是一個充滿挑戰的過程,從設定 Wi-Fi 連線、配置 MQTT Topic,到調整 LCD 圖片顯示的延遲時間,每一個參數都影響著系統的穩定性

 

為了讓硬體正確顯示我們親自生成並設定的影像,我們甚至需要手動將圖片像素調整至 320x240 的 BMP 格式 。過程遇到了許多困難,但是透過隊友間的互相幫助,我們還是成功的編譯完程式,當程式成功運行,我看見實體風扇隨著 AI 推論的結果而動作——當推論結果為 very_poor(數值低)時,風扇靜止,螢幕顯示對應的圖片與紅燈;而當推論結果為 very_good(數值高)時,風扇自動啟動運轉,螢幕顯示 "The ability of GAI in travel is Very Good!" 。原本存於雲端的數據轉化為真實世界的物理動能,這種虛實整合的成功運作,帶給我極大的成就感。

實作的尾聲,我們並未止步於現有的規則,而是進一步利用機器學習演算法進行優化。透過粒子群聚最佳化(PSO)與基因演算法(GA),我們對模糊模型進行了 200 代的訓練 。觀察 MSE(均方誤差)與 RMSE(均方根誤差)曲線隨著訓練代數的增加而顯著下降,以及訓練前後知識模型圖形的變化,我見證了機器如何透過數據自我修正,找出了比人工設定更佳的參數配置,將準確率提升至 0.90345

這次的競賽實作讓我掌握了從資料處理、模型訓練到硬體控制的完整 AI 開發流程。我學會了如何運用 KWS 平台管理複雜的模糊邏輯,如何透過 MQTT 串聯,更重要的是,我理解了 AI 系統並非遙不可及的黑科技,而是可以透過嚴謹的邏輯定義與持續的參數優化來構建的工程藝術。這份經驗將成為我未來在人工智慧領域持續探索的重要基石。