利用Jenkins工作流串联Tyk网关日志与SciPy模型实现API行为的统计学异常检测

可观测性

文章字数: 3k

阅读时长: 12 分

我们生产环境的Tyk API网关集群每天处理数十亿次请求。标准的监控体系，例如Prometheus抓取指标后由Grafana展示，能够很好地覆盖QPS、延迟和错误率这些宏观指标。但这套体系的局限性在于，它无法洞察更细微的、与业务逻辑相关的行为模式变化。例如，某个API的POST请求比例在凌晨三点突然从常规的10%飙升到90%，或者某个用户令牌在5分钟内请求了上百个不同的资源端点。这些行为在HTTP状态码层面可能完全正常，但却是潜在的业务逻辑滥用或安全探测信号。

为了解决这个问题，我们决定构建一个离线的、基于统计学分析的异常检测管道。目标不是替代实时监控，而是作为补充，发现那些隐藏在海量正常请求背后的行为模式偏差。整个方案的核心思路是将API请求日志视为多维时间序列数据，并通过自动化的工作流进行提取、存储、分析和告警。

第一步：数据源头的确立与挑战

Tyk网关提供了强大的分析数据泵送（Analytics Pump）能力。最初的构想是直接将分析数据流式推送到一个消息队列，例如Kafka。但在评估后，我们暂时放弃了这个方案，主要原因是引入一套高可用的Kafka集群会带来显著的运维成本，而我们当前的需求可以通过批处理来满足。

最终选择了一个更务实的方案：Tyk将详细的请求分析日志以JSON格式写入本地文件系统的一个挂载卷上。这种方式虽然引入了单点故障的风险（挂载卷问题），但对于我们内部系统的容忍度而言，短期的数据延迟是可以接受的。

在 tyk.conf 中配置分析日志的输出：

{
    "analytics_storage": {
        "type": "file",
        "settings": {
            "path": "/mnt/tyk-analytics-logs/",
            "separator": ","
        }
    },
    "enable_analytics": true,
    "analytics_config": {
        "enable_detailed_recording": true,
        "ignored_ips": []
    }
}

这里的坑在于 enable_detailed_recording。开启它会记录每个请求的完整头部和查询参数，导致日志量急剧膨胀。在真实项目中，必须权衡日志详细程度和存储成本。我们的策略是，只在需要深度分析的特定API上开启，其他API则使用默认的聚合分析。

第二步：为海量时序数据选择合适的家 - HBase Schema设计

日志数据是典型的“写多读少”场景，并且带有强烈的时序特征。关系型数据库在这种写入压力下很快会成为瓶颈。我们最终选择了HBase，它的宽表模型和基于LSM树的架构非常适合这种高吞吐量的顺序写入。

Schema设计是使用HBase的关键。一个糟糕的RowKey设计会导致热点问题，严重影响集群性能。我们的核心设计原则是：将最常用的查询维度放在RowKey的最前面，并确保写入能够均匀分布到所有RegionServer。

最终的RowKey结构设计为：<api_id_hash>_<endpoint_hash>_<reverse_timestamp>

api_id_hash: 对API ID进行MD5哈希并取前4个字节。这确保了来自不同API的请求能够分散到不同的Region。直接使用API ID可能导致某些热门API成为热点。
endpoint_hash: 同样对请求的Endpoint（例如/users/{id}）进行哈希，进一步打散数据。
reverse_timestamp: Long.MAX_VALUE - System.currentTimeMillis()。这是HBase时序数据存储的经典模式。由于RowKey是按字典序排序的，使用反向时间戳可以保证最新的数据排在最前面，进行时间范围扫描时效率极高。

HBase表的创建语句：

# hbase shell
create 'api_analytics', {NAME => 'req', VERSIONS => 1}, {NAME => 'perf', VERSIONS => 1}

req 列族 (Column Family): 存储请求元数据，如 method, client_ip, user_id, status_code。
perf 列族: 存储性能相关数据，如 latency, request_size, response_size。

将列族分开可以优化I/O，因为我们可能只关心性能数据或者只关心请求元数据。

第三步：用Jenkins Pipeline粘合一切

Jenkins是我们实现自动化的中枢。我们使用声明式Pipeline来定义整个ETL和分析流程，这样所有逻辑都以代码（Jenkinsfile）的形式存在于Git仓库中，便于追踪和修改。

这是整个工作流的架构图：

graph TD
    A[Tyk Gateway] -- writes --> B(Log Files on NFS);
    C[Jenkins Scheduler] -- triggers --> D{Jenkins Pipeline};
    D -- Stage: Ingest --> E[Python Ingestion Script];
    E -- reads --> B;
    E -- bulk puts --> F[HBase Cluster];
    D -- Stage: Analyze --> G[Python Analysis Script];
    G -- scans --> F;
    G -- uses --> H[SciPy/Pandas];
    G -- outputs --> I(Anomaly Report);
    D -- Stage: Alert --> J{Alerting Logic};
    J -- on anomaly --> K[Slack/Email Notification];

Jenkinsfile 的核心结构如下：

// Jenkinsfile
pipeline {
    agent any

    environment {
        // 项目代码库
        REPO_URL = 'https://git.internal.corp/data-science/api-anomaly-detection.git'
        // 日志源路径
        LOG_SOURCE_PATH = '/mnt/tyk-analytics-logs/analytics'
        // HBase Thrift Server 地址
        HBASE_THRIFT_HOST = 'hbase-thrift.internal.corp'
        HBASE_THRIFT_PORT = '9090'
    }

    triggers {
        // 每15分钟执行一次
        cron('H/15 * * * *')
    }

    stages {
        stage('Setup Environment') {
            steps {
                // 清理工作区
                cleanWs()
                // 拉取最新的代码
                git branch: 'main', url: REPO_URL
                // 设置Python虚拟环境
                sh 'python3 -m venv venv'
                sh 'source venv/bin/activate && pip install -r requirements.txt'
            }
        }

        stage('Ingest Logs to HBase') {
            steps {
                script {
                    try {
                        // 执行日志导入脚本
                        // statefile用于记录上次处理到的文件位置，避免重复导入
                        sh '''
                            source venv/bin/activate
                            python src/ingest_to_hbase.py \
                                --source-dir ${LOG_SOURCE_PATH} \
                                --statefile .ingest_state \
                                --hbase-host ${HBASE_THRIFT_HOST} \
                                --hbase-port ${HBASE_THRIFT_PORT}
                        '''
                    } catch (Exception e) {
                        // 如果导入失败，则中止流水线
                        error "Log ingestion failed: ${e.getMessage()}"
                    }
                }
            }
        }

        stage('Analyze Traffic Patterns') {
            steps {
                // 执行分析脚本，对过去一小时的数据进行分析
                // --lookback-minutes 60
                // --zscore-threshold 3.5  Z-score阈值，超过则认为是异常
                sh '''
                    source venv/bin/activate
                    python src/analyze_traffic.py \
                        --hbase-host ${HBASE_THRIFT_HOST} \
                        --hbase-port ${HBASE_THRIFT_PORT} \
                        --lookback-minutes 60 \
                        --zscore-threshold 3.5 \
                        --output-file anomaly_report.json
                '''
            }
        }
    }

    post {
        always {
            // 清理工作，例如归档报告
            archiveArtifacts artifacts: 'anomaly_report.json', fingerprint: true
        }
        failure {
            // 流水线失败时发送通知
            slackSend channel: '#api-monitoring-alerts', color: 'danger', message: "Job '${JOB_NAME}' (${BUILD_URL}) failed."
        }
        success {
            // 流水线成功，但检查是否存在异常报告
            script {
                // 如果anomaly_report.json文件存在且不为空，则说明发现了异常
                if (fileExists('anomaly_report.json') && readFile('anomaly_report.json').trim()) {
                    slackSend channel: '#api-monitoring-alerts', color: 'warning', message: "Job '${JOB_NAME}' (${BUILD_URL}) detected potential API anomalies. See attached report."
                    // 此处可以添加逻辑来发送文件内容
                }
            }
        }
    }
}

第四步：核心分析逻辑 - SciPy的力量

分析脚本是整个系统的“大脑”。它使用 happybase 库连接HBase，用 pandas 进行数据处理，最后用 scipy 进行统计分析。

我们的初期模型选择了一个简单但有效的方法：Z-score（标准分数）。它衡量一个数据点与数据集平均值的偏差程度，以标准差为单位。Z-score大于3或小于-3通常被认为是异常值。我们关注两个指标的Z-score：1）特定API在单位时间内的请求量；2）特定API的平均延迟。

analyze_traffic.py 的核心代码片段：

# src/analyze_traffic.py
import happybase
import pandas as pd
from scipy.stats import zscore
import time
import hashlib
import json
import logging

# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class AnomalyDetector:
    def __init__(self, hbase_host, hbase_port):
        self.hbase_host = hbase_host
        self.hbase_port = hbase_port
        self.connection = None
        self.table = None

    def connect(self):
        """建立到HBase的连接"""
        try:
            self.connection = happybase.Connection(self.hbase_host, self.hbase_port, timeout=20000)
            self.connection.open()
            self.table = self.connection.table('api_analytics')
            logging.info("Successfully connected to HBase.")
        except Exception as e:
            logging.error(f"Failed to connect to HBase: {e}")
            raise

    def close(self):
        """关闭连接"""
        if self.connection:
            self.connection.close()
            logging.info("HBase connection closed.")

    def _hash_prefix(self, text):
        """生成RowKey的哈希前缀"""
        return hashlib.md5(text.encode()).hexdigest()[:8] # 取前4字节(8个十六进制字符)

    def fetch_data(self, api_id, lookback_minutes):
        """获取指定API在过去一段时间内的数据"""
        if not self.table:
            raise ConnectionError("HBase connection is not established.")

        now = int(time.time() * 1000)
        start_time = now - (lookback_minutes * 60 * 1000)
        
        # 反向时间戳
        reverse_now = float('inf') - now
        reverse_start_time = float('inf') - start_time
        
        api_prefix = self._hash_prefix(api_id)
        # RowKey范围扫描
        start_row = f'{api_prefix}_'.encode('utf-8')
        end_row = f'{api_prefix}~'.encode('utf-8') # '~'是比'f'大的字符，确保扫描整个API前缀

        # 我们需要在客户端进行时间过滤，因为endpoint hash在中间
        # HBase原生无法直接高效地跳过中间部分进行范围扫描
        # 这是一个设计上的权衡，在真实海量数据下可能需要优化，比如将时间作为第二维度
        scanner = self.table.scan(row_start=start_row, row_stop=end_row)
        
        records = []
        for key, data in scanner:
            try:
                # 从RowKey中解析反向时间戳
                timestamp_str = key.decode('utf-8').split('_')[-1]
                ts = int(float('inf') - float(timestamp_str))
                
                if start_time <= ts <= now:
                    record = {
                        'timestamp': pd.to_datetime(ts, unit='ms'),
                        'latency': float(data.get(b'perf:latency', b'0')),
                        'status_code': int(data.get(b'req:status_code', b'0')),
                    }
                    records.append(record)
            except (ValueError, IndexError) as e:
                logging.warning(f"Skipping malformed row key: {key}. Error: {e}")
                continue
        
        if not records:
            return pd.DataFrame()

        return pd.DataFrame(records).set_index('timestamp')

    def find_anomalies(self, df, column, threshold):
        """使用Z-score查找异常"""
        if df.empty or column not in df.columns or len(df) < 10:
            # 数据太少，不进行分析
            return pd.DataFrame()

        # 按5分钟为窗口进行重采样，计算均值和计数
        resampled_df = df[column].resample('5T').agg(['mean', 'count'])
        
        # 对'count'列计算Z-score
        resampled_df['count_zscore'] = zscore(resampled_df['count'])
        
        # 对'mean'列（平均延迟）计算Z-score
        resampled_df['latency_zscore'] = zscore(resampled_df['mean'])
        
        anomalies = resampled_df[
            (resampled_df['count_zscore'].abs() > threshold) |
            (resampled_df['latency_zscore'].abs() > threshold)
        ]
        
        return anomalies

def main(args):
    """主执行函数"""
    detector = AnomalyDetector(args.hbase_host, args.hbase_port)
    all_anomalies = {}

    try:
        detector.connect()
        # 实际项目中，这个API列表应该从配置或服务发现中获取
        apis_to_check = ['api-user-service', 'api-payment-service']
        
        for api_id in apis_to_check:
            logging.info(f"Analyzing data for API: {api_id}")
            df = detector.fetch_data(api_id, args.lookback_minutes)
            
            if df.empty:
                logging.warning(f"No data found for API: {api_id} in the last {args.lookback_minutes} minutes.")
                continue

            # 分析请求量异常
            count_anomalies = detector.find_anomalies(df, 'status_code', args.zscore_threshold)
            # 分析延迟异常
            latency_anomalies = detector.find_anomalies(df, 'latency', args.zscore_threshold)

            if not count_anomalies.empty or not latency_anomalies.empty:
                all_anomalies[api_id] = {
                    "count_anomalies": count_anomalies.to_dict('index'),
                    "latency_anomalies": latency_anomalies.to_dict('index')
                }

    except Exception as e:
        logging.critical(f"An error occurred during analysis: {e}")
    finally:
        detector.close()

    if all_anomalies:
        logging.warning(f"Found anomalies: {json.dumps(all_anomalies, indent=2, default=str)}")
        with open(args.output_file, 'w') as f:
            json.dump(all_anomalies, f, indent=2, default=str)

# ... (argparse部分省略)

一个常见的错误是直接对原始数据点计算Z-score，这在请求量非常大的情况下会导致性能问题，并且对噪声极其敏感。这里的最佳实践是先进行时间窗口重采样（resample），比如我们按5分钟聚合，然后对聚合后的指标（请求总数、平均延迟）计算Z-score，这样结果更稳定，也更能反映趋势性变化。

方案的局限性与未来迭代路径

这套基于Jenkins批处理和简单统计模型的方案，作为一个起点，用较低的成本解决了“有无”的问题。但它的局限性也非常明显。

首先，Z-score模型非常朴素，它无法处理带有明显周期性或季节性规律的流量模式。例如，一个API在每个工作日上午9点都会迎来流量高峰，Z-score模型可能会持续在这个时间点误报为异常。

其次，数据链路的延迟较高。从日志产生到最终分析出结果，整个流程有15-30分钟的延迟，不适用于需要实时干预的场景。

未来的迭代方向很明确。一方面是模型的升级，可以引入更复杂的时序分析模型，如ARIMA、Prophet或者基于LSTM的神经网络，来建立更精准的流量基线预测，从而实现更智能的异常检测。另一方面是在架构上向流式处理演进，将数据源从Tyk日志文件替换为Kafka，使用Flink或Spark Streaming进行实时的数据处理和模型推理，将异常检测的延迟从分钟级降低到秒级。当然，这也意味着更高的复杂度和资源投入，需要在业务价值和技术成本之间做出审慎的权衡。

Tyk HBase Jenkins SciPy MLOps

利用Envoy代理实现遗留C++服务与现代tRPC技术栈的异构集成

2023-10-27 后端架构

Vue.js tRPC C++ ASP.NET Core Envoy Proxy

基于 Linkerd mTLS 与 Vector 构建零信任 API 的加密身份审计管道

2023-10-27 网络安全

可观测性 Linkerd 网络安全 API 与架构 Vector