資料工程師 Junior Data Engineer

APMIC

最近更新於 2026-05-10

立即應徵

工作內容

【我們是誰】
APMIC（Accelerate Private Machine Intelligence Company）成立於 2017 年，是台灣深耕**大型語言模型 (LLM)** 與**企業私有化 AI 解決方案**的先行者。我們不僅專注於**自然語言理解 (NLU)** 技術，更將其落地到實際的商業與技術挑戰中。我們協助企業無需撰寫程式，即可快速建構專屬的 AI 知識大腦，實現資料的智能應用與私有部署。

【這份工作將會做什麼】
作為 APMIC 的 **Junior Data Engineer**，你將是 AI 訓練與推論底層的關鍵推手。我們的產品不僅僅是模型，更需要確保海量的非結構化資料，能夠自動化地轉化為高品質、可供模型學習的知識庫。你的工作成果，將直接影響使用者體驗與商業價值。

【職責內容】

### 1. 企業資料整合與 ETL 流程建置

* **自動化匯入：** 開發並維護資料擷取流程 (ETL)，將各類企業文檔（如 PDF, Word, HTML, Database）穩定匯入 AI 平台，確保資料流的可靠性與擴展性。
* **資料清洗：** 撰寫腳本處理冗餘資訊、移除格式雜訊，並進行繁簡轉換、全半形正規化等 NLP 前處理，兼顧工程健壯性與處理效率。

### 2. LLM 資料整備與優化

* **文本切塊 (Chunking)：** 針對長文本設計合理的切分策略，優化檢索效率與語意完整性，並能考慮到不同應用場景的需求。
* **資料去重 (Deduplication)：** 執行資料去重與品質檢查，避免重複資訊影響模型的檢索與生成品質，確保知識庫的獨特性。

### 3. 知識庫與基礎設施維護

* **品質檢核：** 協助驗證匯入資料的正確性，確保模型推論時具備可靠的數據基礎。
* **自動化工具開發與維護：** 使用 Python 撰寫自動化資料處理工具，提升團隊處理海量文字資料的效率，並確保工具的持續可用性與效能。
* **技術支援與協作：** 協助資料科學家進行不同版本的資料實驗，確保資料的可追蹤性與一致性，並能快速應對模型上線後的資料問題。

條件要求

【我們在找的人】
* **程式語言：** 精通 **Python**，具備處理文字字串與資料格式轉換的實務經驗，並能寫出清晰、健壯且易於維護的程式碼。
* **資料庫與系統能力：** 具備 SQL 基礎，了解如何從不同資料來源抓取資料，並有處理 JSON 或 NoSQL 資料的經驗。熟悉分散式系統與雲端服務的基本概念者佳。
* **NLP 基本觀念：** 熟悉自然語言處理的基本流程（如：斷詞、字詞嵌入、文本向量化），並**深度理解 RAG (Retrieval-Augmented Generation) 的概念**，因我們將專注於知識蒸餾相關技術。
* **學習特質：** 能快速學習新技術並適應快速變化的環境。對於 RAG 架構、多模型的協同工作等技術趨勢有主動學習的熱情。

遠端型態

部分遠端面試

面試形式依主管需求有機率採遠端面試，但整體面試流程中至少有一次實體面試。

部分遠端工作

公司設定每週一可遠端工作

加分條件

【加分項目】
* 有處理繁體中文 NLP（如：結巴分詞、OpenCC）的專案經驗。
* 曾使用過 **LangChain** 或 **LlamaIndex** 等相關框架。
* 具備 Web Scraping（網路爬蟲）或處理非結構化文檔解析的經驗。
* 有使用 **Streamlit / Gradio** 開發快速原型或內部工具的經驗。
* **Vibe Coding** 活躍者。

員工福利

法定項目

勞保、健保、特別休假、勞退、婚假

其他福利

基本配備提供 Apple 系列電腦
與超強的團隊成員一起合作
強調自律的工作模式，想到海邊寫程式一點也不是問題
每月 Happy Hours，撞球、桌遊和遛冰等，能文能武的放鬆

薪資範圍

面議（經常性薪資達4萬元）