内推岗位介绍
内推人
shein美国地区招人啦,普通话和英语双语流利的话会加分,待遇丰厚!
公司:
SHEIN
岗位:
Staff Site Reliability Engineer
薪金:
$10W-$18W
地点:
San Diego, CA
要求:
· 计算机科学、信息系统或相关技术学科的学士学位,或同等的实践经验。
· 拥有6+年拥有和运营大规模、高流量、全天候生产系统的经验,理想情况下是在云或云原生环境中。
· 具备 Linux、网络和分布式系统的坚实基础,能够端到端调试复杂的生产问题。
· 拥有分布式系统中事件响应、故障排除和性能优化的实践经验。
· 具备扎实的软件工程技能,并有使用 Python 或 Go 等语言构建自动化、工具或平台的经验。
· 有操作或支持开源基础设施组件的经验,如 APISIX、Nginx、Kubernetes、Kafka、Elasticsearch、Redis、Consul、Etcd、Zookeeper 等。
· 拥有可观测性和监控系统(Prometheus、Grafana、Zabbix 等)以及性能分析的经验。
· 熟悉 Git、CI/CD 管道以及配置管理工具(如 Ansible)。
· 强烈的归属感,系统化的问题解决方法,以及让系统更可靠的热情。
· 具备良好的沟通能力,能够有效与分布各地的团队协作。
职责:
· 保持 SHEIN 关键的生产系统全天候 24 小时运行,参与随叫随到轮换,并在事件中果断行动。
· 对生产事件进行分诊和解决,推动根本原因分析,并推动持续改进,减少 MTTR 并防止复发。
· 监控和管理容量规划与资源利用,与跨职能团队合作,确保系统安全扩展且保持成本效益。
· 拥有并运营核心开源基础设施,如 APISIX、Nginx、Kubernetes、Kafka、Elasticsearch、Redis、Consul、Etcd、Zookeeper 及其他大型分布式系统。
· 设计、构建并维护可观测性解决方案(指标、日志、追踪、警报),以提升系统的可视性、可靠性和韧性。
· 通过脚本编写、工具和流程改进,自动化运营流程,消除人工繁琐。
· 开发和维护技术文档,包括运行手册、架构图、运营流程和待命操作手册。
· 与全球工程团队紧密合作,通过更好的系统设计和运营纪律提升基础设施可靠性和性能。
· 指导高级和中级 SREs,提升团队整体技术标准和运营成熟度。
· 领导平台现代化工作,使其符合行业最佳实践和不断演进的技术标准。
扫码回复【0319-2】获取投递链接/邮箱,
加入“留学生求职群”,
每天get一手名企开岗资讯+免费评估简历!
本文内推信息来源于OneCareer自有社群网络、热心在职员工和网络信息收集等多种渠道,我们甄选优质机会予以发布,希望能够帮到正在求职的你!

