【技術】服務可靠性工程師 Site Reliability Engineer

最近更新於 2026-01-05

立即應徵

工作內容

【工作內容與核心任務】


SRE 服務可靠性工程師,站在能夠綜覽 Dev & Ops 兩端的視野,以流程及監控等技術,提升優化整體的服務可靠性:
.服務維運:掌握雲端 production 環境的特性,以 SLO 角度協助各產品團隊辨識優化服務品質的方向。
.軟體工程:掌握軟體研發的流程與工具,以自動化角度協助產品團隊優化 DX (developer experience)。
.監控系統:量測並監控軟體服務品質,協助各產品團隊具備掌握服務品質指標、及時應變劇本、經驗傳承的能力。
.自動化:撰寫雲端工具程式,善用雲端平台,以自動化機制確保服務品質。
.系統架構:掌握 well-architected 分散式軟體架構,協助自動擴展服務元件,並將最佳實務內嵌至系統中。

【團隊文化】
扁平化的組織架構,適才適所、能發揮自己對技術的想法。
就事論事、用數據及事實溝通。
隨時歡迎提出建議及看法、達成共識後即快速執行、遇到問題也願意共同面對並解決。
技術及非技術的分享會、讀書會、專題講座,希望大家都能跟著公司一起前進成長。

【我們正在尋找的夥伴】

  • 具有 Larry Wall 所說的三大特質:Laziness、Impatience、Hubris,並樂於以自動化手法捍衛這種特質。

  • 擁抱 DevOps 講究的 CALMS (culture, automation, lean, measurement, sharing) 五大工作面向。

  • 喜歡分散式系統,覺得照顧著大規模大流量系統正常運作,並以系統化方式持續優化它,是一件很酷的事。

  • 喜歡持續優化自己及團隊的工作流程。

  • 想挑戰自我的能力,願意嘗試在快節奏的公司工作。

  • Growth mindset:對於學習新語言、新工具、新平台、新領域、新做事方法抱持開放態度,對團隊的最大利益負責,也對自己工程師職涯的競爭力負責。

  • Data-driven:喜歡用數字(業務面數據及工程面數據)來驗證工作成效,而不是只是憑感覺。

  • 溝通能力佳,喜歡團隊合作更勝一人球隊。

條件要求

《必要條件》
.熟悉 scripting 語言或框架:Python、Node.js 等。
.熟悉 GCP 操作、部署、監控。
.熟悉任何一種 CI/CD 流程與工具:GitHub、Jenkins、GitLab 等。
.熟悉任何一種 Infrastructure as Code 工具:Ansible、Terraform、CDK、Helm、Kustomize 等。
.有透過 Sentry、Prometheus、Grafana 監控線上服務運行狀況,並進行改善的經驗(流量、主機擴容計畫、程式碼 refactor or rebuild、DB 瓶頸等)。
.有 API test 的經驗。
.有系統問題除錯定位、效能分析與系統指標規劃等經驗。


《加分條件》
.有電商網站維運經驗者為優先考量。
.相關雲端平台證書優先考量。
.開發 Web application 的經驗。
.熟悉 Kubernetes 及 CNCF 生態圈。
.熟悉 DBMS 及相關 data pipeline 的監控。
.如果有 GitHub repo、iThome 鐵人賽、或是相關作品,請與履歷一併提供參考,謝謝。

員工福利

法定項目

勞保、健保、特別休假、勞退、婚假

其他福利

薪資範圍

面議(經常性薪資達4萬元)