利用 Istio VirtualService 在 GKE 上对 Ruby on Rails 单体应用实施绞杀者模式的架构权衡与实现

云原生

文章字数: 3.6k

阅读时长: 13 分

一个拥有数十万行代码的 Ruby on Rails 单体应用，承载着核心业务，在 Google Compute Engine (GCE) 虚拟机上稳定运行多年。然而，随着业务复杂度的指数级增长，它的问题也日益凸显：任何微小的改动都可能引发雪崩效应，CI/CD 流水线不堪重负，新功能的交付周期从天变成了周。技术栈的现代化改造迫在眉睫，目标是迁移到 GKE (Google Kubernetes Engine) 上的微服务架构，但“一次性重构”的方案在项目启动会上就被否决了——风险高到无法接受。我们需要一个能够平滑、低风险、可观测的演进策略。

定义复杂技术问题：如何安全地“绞杀”单体？

核心挑战在于，如何在不中断现有业务的前提下，将功能模块从庞大的 Rails 单体中逐步剥离，并迁移至 GKE 上的新服务。这个过程必须满足几个关键要求：

零停机时间： 迁移过程对终端用户必须是完全透明的。
流量可控： 必须能够精确控制流向新旧系统的流量比例，甚至能基于特定用户或请求特征进行路由。
风险隔离： 新服务出现问题时，必须能瞬时将流量切回旧系统，将影响降到最低。
真实流量验证： 新服务在正式接管流量前，需要经过真实生产流量的“影子”测试，以验证其性能和正确性。

这就是典型的“绞杀者模式”（Strangler Fig Pattern）应用场景。问题的关键在于选择实现该模式的技术工具。

方案A：传统反向代理（如 NGINX Ingress）

这是最容易想到的方案。在 GKE 集群入口处部署一个 NGINX Ingress Controller，通过编写复杂的 Ingress 规则来分发流量。

实现方式：
- 将 Rails 单体也容器化，或通过 GCE VM Instance Group 的方式，使其能被 GKE 的 Ingress 接入。
- 为新剥离的微服务创建 Kubernetes Service。
- 修改 Ingress 资源，根据 path 将特定 URL 的请求路由到新服务，其余流量则继续流向 Rails 单体。

# nginx-ingress-rule-example.yaml
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: strangler-ingress
  annotations:
    nginx.ingress.kubernetes.io/rewrite-target: /
spec:
  rules:
  - host: api.example.com
    http:
      paths:
      - path: /api/v2/new-feature
        pathType: Prefix
        backend:
          service:
            name: new-feature-microservice
            port:
              number: 80
      - path: /
        pathType: Prefix
        backend:
          service:
            name: rails-monolith-service
            port:
              number: 3000

优势分析：
- 技术成熟： NGINX 是久经考验的解决方案，运维团队对其非常熟悉。
- 概念简单： 基于 URL 路径的路由逻辑直观，易于理解。
劣势分析：
- 控制粒度粗糙： 它主要依赖 path 进行路由。无法实现更精细的控制，例如“将 5% 的流量切到新服务”，或者“将来自动画 x-user-group: beta 的请求路由到新服务”。虽然可以通过 Canary Ingress 等插件实现部分功能，但配置复杂且能力有限。
- 流量镜像缺失： NGINX Ingress 本身不支持将流量复制一份发送到新服务进行“影子测试”。这是绞杀者模式中至关重要的风险控制环节。
- 配置变更笨重： 每次流量比例的调整都需要修改 Ingress YAML 文件并重新应用，配置的动态性很差。
- 可观测性受限： 虽然可以从 NGINX 获取访问日志，但无法提供开箱即用的、服务间的分布式追踪和细粒度遥测数据，难以判断新旧服务在调用链中的具体表现。

在真实项目中，一个功能的迁移不是一蹴而就的。我们需要从 1% -> 10% -> 50% -> 100% 这样渐进式地切换流量，并持续监控业务指标。方案 A 在这方面显得力不从心。

方案B：Istio 服务网格

Istio 作为服务网格，其核心能力就是对服务间的流量进行精细化控制、观测和保护。这与绞杀者模式的需求天然契合。

实现方式：
- 在 GKE 集群上安装 Istio。
- 将 Rails 单体和新的微服务都部署在 GKE 中，并注入 Istio 的 sidecar 代理。
- 通过 Istio 的自定义资源 VirtualService 和 DestinationRule 来定义所有流量规则。

graph TD
    subgraph "Kubernetes Cluster (GKE)"
        A[Ingress Gateway] -->|api.example.com| B(VirtualService)

        subgraph "Istio Service Mesh"
            B -- 95% --> C[Rails Monolith Pod]
            B -- 5% --> D[New Microservice Pod]
            C --> E[Shared Database]
            D --> E
        end
    end

    U[User] --> A

优势分析：
- 极致的流量控制： VirtualService 提供了远超 Ingress 的路由能力。可以基于权重进行流量切分（例如，99% 到旧服务，1% 到新服务），可以基于 HTTP header、cookie、query parameter 等任意请求特征进行匹配路由，甚至可以实现流量镜像（mirroring）。
- 声明式与动态性： 所有流量规则都是 Kubernetes CRD，可以通过 GitOps 的方式进行管理。变更规则只需 kubectl apply，Istio 控制平面会动态更新所有数据平面的 sidecar，无需重启任何服务。
- 内置可观测性： Istio sidecar 会自动收集流经服务的所有流量的遥测数据（Metrics, Logs, Traces）。无需在应用代码中添加任何监控埋点，就能在 Kiali、Prometheus、Jaeger 中看到新旧服务调用的拓扑、延迟、成功率等关键指标。这对于评估迁移效果至关重要。
- 增强的安全性： Istio 可以自动为网格内的所有服务间通信启用双向 TLS (mTLS) 加密，提升了整体安全性。
劣势分析：
- 学习曲线陡峭： Istio 的概念（控制平面、数据平面、VirtualService、Gateway 等）比 NGINX Ingress 更复杂，需要团队投入时间学习。
- 资源开销： Istio 的控制平面和每个 Pod 中注入的 sidecar 代理会带来额外的 CPU 和内存开销。对于资源敏感的应用需要进行仔细的性能测试和容量规划。
- 运维复杂性： 引入了一个新的、高度关键的系统组件。Istio 本身的升级、维护和故障排查都需要专门的知识。

最终选择与理由

尽管 Istio 带来了更高的复杂性，但对于我们这种高风险、长周期的单体迁移项目而言，它提供的精细化流量控制和开箱即用的可观测性是决定性的。这些能力将迁移过程从一个“黑盒操作”变成了一个数据驱动、风险可控的“精细手术”。我们选择方案 B，因为它用前期的学习成本和资源成本，换取了整个迁移周期中无价的安全性和确定性。

核心实现概览

假设我们要将 Rails 单体中的 /api/v1/users/:id 接口剥离成一个独立的 user-service。

环境准备:

一个启用了 Istio 附加组件的 GKE Autopilot 或 Standard 集群。
Rails 单体被容器化并部署到 GKE，服务名为 rails-monolith。
新的 user-service (可以是任何语言，这里假设是 Sinatra) 被部署到 GKE，服务名为 user-service。

第一阶段：流量镜像（影子测试）

在不影响任何用户的情况下，将生产流量复制一份发送到 user-service，以验证其功能和性能。

# vs-user-mirror.yaml
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: rails-monolith-vs
spec:
  hosts:
    # 假设这是应用的内部服务域名或外部域名
    - api.internal.example.com
  http:
  - match:
    - uri:
        prefix: "/api/v1/users"
    # 主要路由规则：所有流量仍然100%发送到旧的Rails单体
    route:
    - destination:
        host: rails-monolith
        port:
          number: 3000
      weight: 100
    # 流量镜像规则：
    # 将匹配到的流量复制一份，并"fire-and-forget"地发送到新服务
    # 镜像流量的响应会被丢弃，不会返回给客户端
    # sidecar 会修改镜像请求的 Host header，以确保它能被目标服务正确路由
    mirror:
      host: user-service
      port:
        number: 4567
    # 镜像流量占原始流量的百分比
    mirrorPercentage:
      value: 100.0
  # 默认路由：所有其他不匹配的流量都正常流向Rails单体
  - route:
    - destination:
        host: rails-monolith
        port:
          number: 3000

应用此 VirtualService 后，所有对 /api/v1/users 的请求都会被正常处理，同时 user-service 会收到一模一样的请求。这时，我们可以全力监控 user-service 的日志、错误率和性能指标，而不用担心影响生产。一个常见的错误是在这个阶段就忽略了对新服务进行压力测试，镜像流量能暴露真实场景下的逻辑错误，但未必能完全模拟峰值负载。

第二阶段：渐进式流量切换（金丝雀发布）

当 user-service 在镜像流量下表现稳定后，我们开始切分真实的用户流量。

# vs-user-split.yaml
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: rails-monolith-vs
spec:
  hosts:
    - api.internal.example.com
  http:
  - match:
    - uri:
        prefix: "/api/v1/users"
    # 路由规则变更：
    # 移除 mirror 配置，改为基于权重的路由
    route:
    # 95% 的流量继续流向旧的Rails单体
    - destination:
        host: rails-monolith
        port:
          number: 3000
      weight: 95
    # 5% 的流量开始流向新的 user-service
    - destination:
        host: user-service
        port:
          number: 4567
      weight: 5
  - route:
    - destination:
        host: rails-monolith
        port:
          number: 3000

这个阶段是整个迁移过程中最关键的一步。从 1% 或 5% 开始，密切关注 user-service 的 SLI/SLO 指标以及相关的业务指标。例如，如果 user-service 负责用户资料更新，我们需要确认迁移后用户的资料更新成功率、延迟等没有下降。Istio 的遥测能力在这里至关重要，我们可以轻松地在 Grafana 仪表盘上创建两个面板，分别展示 destination_service 为 rails-monolith 和 user-service 时的请求延迟和成功率，进行实时对比。

第三阶段：基于 Header 的定向路由（内部测试）

在全量开放之前，通常会让内部员工或 beta 用户先使用新功能。这可以通过基于 HTTP Header 的路由实现。

# vs-user-header.yaml
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: rails-monolith-vs
spec:
  hosts:
    - api.internal.example.com
  http:
  # 规则是有优先级的，Istio会从上到下匹配
  # 规则1: 匹配带有特定header的请求
  - match:
    - uri:
        prefix: "/api/v1/users"
      headers:
        # 如果请求头中包含 x-user-group: internal，则100%路由到新服务
        x-user-group:
          exact: "internal"
    route:
    - destination:
        host: user-service
        port:
          number: 4567

  # 规则2: 匹配所有其他 /api/v1/users 请求（不带header的）
  - match:
    - uri:
        prefix: "/api/v1/users"
    route:
    # 这里可以继续保持之前的百分比切分，或者直接路由到旧服务
    - destination:
        host: rails-monolith
        port:
          number: 3000
      weight: 100

  # 默认路由
  - route:
    - destination:
        host: rails-monolith
        port:
          number: 3000

这个策略给了我们一个非常强大的灰度发布能力，可以在不影响普通用户的情况下，让一个可控的用户群体对新服务进行最终验证。

第四阶段：完成切换

在所有验证都通过后，逐步将流量权重调整至 100%，最终 VirtualService 会简化成如下形式，代表该功能的迁移彻底完成。

# vs-user-final.yaml
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: rails-monolith-vs
spec:
  hosts:
    - api.internal.example.com
  http:
  - match:
    - uri:
        prefix: "/api/v1/users"
    route:
    - destination:
        host: user-service
        port:
          number: 4567
  - route:
    - destination:
        host: rails-monolith
        port:
          number: 3000

至此，/api/v1/users 的流量已经完全由新的微服务处理。我们可以在 Rails 单体中将相关的 Controller 和 Model 标记为废弃，并在未来的某个时间点安全地移除它们。

架构的扩展性与局限性

这个基于 Istio 的绞杀者模式建立了一个可重复的、标准化的迁移流程。每当需要剥离下一个功能时，我们只需要重复上述四个阶段即可。它将复杂的架构演进问题，分解成了一系列独立的、低风险的、可验证的步骤。

然而，这个方案并非万能药。它优雅地解决了服务调用的路由问题，但有几个更深层次的挑战它并未触及：

数据层耦合： 这是单体拆分中最棘手的问题。在迁移初期，新旧服务很可能需要读写同一个数据库。这带来了数据一致性、事务管理和 Schema 演进的巨大挑战。Istio 无法解决这个问题，它需要团队在数据访问层进行精心的设计，比如引入数据同步机制、采用事件溯源，或者通过视图、存储过程等方式隔离数据访问。在我们的实践中，新服务初期只允许读取共享数据库，所有写操作仍然通过调用单体的 API 来完成，直到数据所有权可以被完全分离。
分布式事务： 一旦一个业务流程横跨了 Rails 单体和多个新服务，我们就必须面对分布式事务的问题。这通常需要引入 Saga 模式或 TCC（Try-Confirm-Cancel）模式，对业务逻辑的改造远比流量切换要复杂。
身份认证与会话管理： 如果 Rails 单体使用传统的 Session-Cookie 机制，那么新服务如何验证用户身份并获取会话信息？一个常见的策略是引入一个独立的认证服务（如使用 OAuth2/OIDC），并让所有新旧服务都依赖它进行令牌验证，但这本身就是一个不小的改造工程。
运维成本： 引入 Istio 后，团队必须具备服务网格的运维能力。排查问题时，需要同时考虑应用层面和网格层面。例如，一个 503 错误可能来自应用 bug，也可能来自 sidecar 配置错误或 Istio 控制平面的问题。这意味着对 SRE 团队的技能要求更高了。

总而言之，Istio 为绞杀 Rails 单体提供了强大的武器，但它主要作用在“交通指挥”层面。一场成功的现代化战役，还需要在数据、事务和组织文化等多个战场上取得胜利。当前方案的边界在于它只解决了流量的平滑过渡，而真正的挑战在于如何处理被单体紧紧耦合在一起的数据和状态。未来的优化路径将聚焦于构建独立的数据服务和引入事件驱动架构，以彻底解耦新旧系统之间的数据依赖。

Ruby on Rails Istio GCP GKE 微服务架构

本篇

利用 Istio VirtualService 在 GKE 上对 Ruby on Rails 单体应用实施绞杀者模式的架构权衡与实现

2023-11-15 云原生

Ruby on Rails Istio GCP GKE 微服务架构

Go-Fiber 与 Emotion 构建实时服务拓扑的可视化及其 Vitest 端到端测试实践

2023-10-27 全栈开发

Vitest 可观测性 Go-Fiber Emotion WebSocket