【我們是誰】
APMIC(Accelerate Private Machine Intelligence Company)成立於 2017 年,是台灣深耕**大型語言模型 (LLM)** 與**企業私有化 AI 解決方案**的先行者。我們不僅專注於**自然語言理解 (NLU)** 技術,更將其落地到實際的商業與技術挑戰中。我們協助企業無需撰寫程式,即可快速建構專屬的 AI 知識大腦,實現資料的智能應用與私有部署。
【這份工作將會做什麼】
作為 APMIC 的 **Junior Data Engineer**,你將是 AI 訓練與推論底層的關鍵推手。我們的產品不僅僅是模型,更需要確保海量的非結構化資料,能夠自動化地轉化為高品質、可供模型學習的知識庫。你的工作成果,將直接影響使用者體驗與商業價值。
【職責內容】
### 1. 企業資料整合與 ETL 流程建置
* **自動化匯入:** 開發並維護資料擷取流程 (ETL),將各類企業文檔(如 PDF, Word, HTML, Database)穩定匯入 AI 平台,確保資料流的可靠性與擴展性。
* **資料清洗:** 撰寫腳本處理冗餘資訊、移除格式雜訊,並進行繁簡轉換、全半形正規化等 NLP 前處理,兼顧工程健壯性與處理效率。
### 2. LLM 資料整備與優化
* **文本切塊 (Chunking):** 針對長文本設計合理的切分策略,優化檢索效率與語意完整性,並能考慮到不同應用場景的需求。
* **資料去重 (Deduplication):** 執行資料去重與品質檢查,避免重複資訊影響模型的檢索與生成品質,確保知識庫的獨特性。
### 3. 知識庫與基礎設施維護
* **品質檢核:** 協助驗證匯入資料的正確性,確保模型推論時具備可靠的數據基礎。
* **自動化工具開發與維護:** 使用 Python 撰寫自動化資料處理工具,提升團隊處理海量文字資料的效率,並確保工具的持續可用性與效能。
* **技術支援與協作:** 協助資料科學家進行不同版本的資料實驗,確保資料的可追蹤性與一致性,並能快速應對模型上線後的資料問題。
【我們在找的人】
* **程式語言:** 精通 **Python**,具備處理文字字串與資料格式轉換的實務經驗,並能寫出清晰、健壯且易於維護的程式碼。
* **資料庫與系統能力:** 具備 SQL 基礎,了解如何從不同資料來源抓取資料,並有處理 JSON 或 NoSQL 資料的經驗。熟悉分散式系統與雲端服務的基本概念者佳。
* **NLP 基本觀念:** 熟悉自然語言處理的基本流程(如:斷詞、字詞嵌入、文本向量化),並**深度理解 RAG (Retrieval-Augmented Generation) 的概念**,因我們將專注於知識蒸餾相關技術。
* **學習特質:** 能快速學習新技術並適應快速變化的環境。對於 RAG 架構、多模型的協同工作等技術趨勢有主動學習的熱情。
面試形式依主管需求有機率採遠端面試,但整體面試流程中至少有一次實體面試。
公司設定每週一可遠端工作
【加分項目】
* 有處理繁體中文 NLP(如:結巴分詞、OpenCC)的專案經驗。
* 曾使用過 **LangChain** 或 **LlamaIndex** 等相關框架。
* 具備 Web Scraping(網路爬蟲)或處理非結構化文檔解析的經驗。
* 有使用 **Streamlit / Gradio** 開發快速原型或內部工具的經驗。
* **Vibe Coding** 活躍者。