1.
1.1 列出业务需求:并发、带宽、存储IOPS、合规(个人信息、日本法律)、容灾RTO/RPO。把需求写进SLA评估表。
1.2 比较供应商:对比区域可用性、网络延迟(使用ping、mtr对日本节点测试)、价格、支持语言、支付币种。
1.3 准备清单:域名、证书、LDAP/AD信息、镜像与备份策略、运维账号与权限模型(IAM)。
2.
2.1 建立主账号与子账号:按部门创建最低权限的子账号,使用MFA,记录账号恢复流程。
2.2 创建角色与策略:定义运维、开发、财务三类角色,针对控制台/API限制IP白名单与时段访问。
2.3 密钥管理:使用专用Secrets Manager或KMS保存私钥与数据库凭据,禁用密码式SSH登录,改用密钥或短期临时凭证。
3.
3.1 子网划分:按环境(prod/stg/dev)和角色(web/app/db)划分VLAN/Subnet,并写入网络表。
3.2 安全组/防火墙:只开放必要端口(例如80/443,管理端口限固定源IP),示例:iptables/ufw规则同步到镜像。
3.3 跨境连接:建议配置VPN或专线(Direct Connect/SD-WAN),步骤:申请对端信息→建立隧道→测试(ipsec status / ping 内网IP)。
4.
4.1 基线镜像制作:搭建干净系统,安装必备Agent(监控、备份、安全扫描)、关闭不必要服务、做系统优化,生成Golden Image。
4.2 自动化部署:使用Terraform/Ansible编写模块化模板,模板包含网络、实例、存储与监控资源,示例命令:terraform plan/apply。
4.3 标签与命名规范:资源统一命名规则(env-app-role-序号),标签包含owner、cost-center、project,便于计费与审计。
5.
5.1 基线加固:关闭root远程登录、配置sudo、限制登录用户、启用SELinux/AppArmor。
5.2 补丁策略:定义补丁窗口(日本时间周二凌晨),使用镜像仓库或yum/apt repo进行滚动更新,先在stg验证72小时再prod。
5.3 自动化补丁流程:Ansible playbook示例:先drain服务→更新包→重启必要服务→健康检查→移出drain状态。
6.
6.1 指标与阈值:监控CPU、内存、磁盘、网络、应用响应时间。设置阈值:CPU95% 5分钟触发告警。
6.2 工具链:部署Prometheus抓取节点/应用指标,Grafana仪表盘,ELK/Fluentd收集系统与应用日志,示例:Prometheus node_exporter安装命令。
6.3 告警联动:通过PagerDuty/Slack/邮件做分级告警,编写Runbook链接到告警,含排查命令(例如top, ss -tunlp, journalctl -u app.service)。
7.
7.1 备份策略:关键数据每天快照+异地备份(至少保存30天),数据库使用逻辑备份+物理复制。
7.2 恢复演练:定期演练恢复,步骤:创建临时实例→挂载快照→校验数据一致性→切换流量,记录RTO/RPO。
7.3 冗余部署:跨可用区/跨地域部署主备,使用负载均衡器和健康检查进行自动切换。
8.
8.1 编写SOP模板:常见操作(上线、回滚、扩容、降级)都要一键或脚本化,包含步骤、回滚点、负责人、预计影响。
8.2 变更管理:通过工单系统提交变更,变更单包含实施时间、回退步骤、审批链条,变更后在git上保存执行记录。
8.3 日志审计:启用审计日志(API调用、控制台操作),定期审查异常操作并保留至少半年。
9.
9.1 规格优化:分析实例利用率,使用Reserved/Spot实例或按需混合,示例:将低峰时段的非关键任务迁移至Spot实例。
9.2 存储归档:对历史数据使用冷存储或对象存储归档,设置Lifecycle规则自动转储与删除。
9.3 计费监控:配置每天的成本报表与预算告警,超过阈值自动通知财务与负责人。
10.
答:先从最外层检查:ping/icmp检查延迟与丢包→mtr追踪路由→检查安全组/防火墙是否误阻止端口→在实例内部看网络接口(ip a / ethtool),查看路由表和NAT规则,若跨境连接异常,查看VPN/专线状态并与供应商排查链路。
11.
答:明确数据分类,将个人敏感数据标注并限制在日本地域存储,使用供应商的日本地域服务并签署数据处理协议(DPA),启用加密(静态与传输),并做合规审计与定期第三方安全评估。
12.
答:建立SLA与Escalation流程(包含响应时间与联系人)、使用双语(或指定日语负责人)、共享监控与日志权限、定期同步会议和演练,并保留变更与故障的时间线供双方复盘。