update pay ui

2025-12-09 16:27:56 +08:00
parent e8763331cc
commit b40ca0e23c
22 changed files with 3637 additions and 8176 deletions
--- a/ml/backtest_fast.py
+++ b/ml/backtest_fast.py
@@ -0,0 +1,859 @@
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+快速融合异动回测脚本
+
+优化策略：
+1. 预先构建所有序列（向量化），避免循环内重复切片
+2. 批量 ML 推理（一次推理所有候选）
+3. 使用 NumPy 向量化操作替代 Python 循环
+
+性能对比：
+- 原版：5分钟/天
+- 优化版：预计 10-30秒/天
+"""
+
+import os
+import sys
+import argparse
+import json
+from datetime import datetime
+from pathlib import Path
+from typing import Dict, List, Optional, Tuple
+from collections import defaultdict
+
+import numpy as np
+import pandas as pd
+import torch
+from tqdm import tqdm
+from sqlalchemy import create_engine, text
+
+sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+
+# ==================== 配置 ====================
+
+MYSQL_ENGINE = create_engine(
+    "mysql+pymysql://root:Zzl5588161!@192.168.1.5:3306/stock",
+    echo=False
+)
+
+FEATURES = ['alpha', 'alpha_delta', 'amt_ratio', 'amt_delta', 'rank_pct', 'limit_up_ratio']
+
+CONFIG = {
+    'seq_len': 15,               # 序列长度（支持跨日后可从 9:30 检测）
+    'min_alpha_abs': 0.3,        # 最小 alpha 过滤
+    'cooldown_minutes': 8,
+    'max_alerts_per_minute': 20,
+    'clip_value': 10.0,
+    # === 融合权重：均衡 ===
+    'rule_weight': 0.5,
+    'ml_weight': 0.5,
+    # === 触发阈值 ===
+    'rule_trigger': 65,          # 60 -> 65，略提高规则门槛
+    'ml_trigger': 70,            # 75 -> 70，略降低 ML 门槛
+    'fusion_trigger': 45,
+}
+
+
+# ==================== 规则评分（向量化版）====================
+
+def get_size_adjusted_thresholds(stock_count: np.ndarray) -> dict:
+    """
+    根据概念股票数量计算动态阈值
+
+    设计思路：
+    - 小概念（<10 只）：波动大是正常的，需要更高阈值
+    - 中概念（10-50 只）：标准阈值
+    - 大概念（>50 只）：能有明显波动说明是真异动，降低阈值
+
+    返回各指标的调整系数（乘以基准阈值）
+    """
+    n = len(stock_count)
+
+    # 基于股票数量的调整系数
+    # 小概念：系数 > 1（提高阈值，更难触发）
+    # 大概念：系数 < 1（降低阈值，更容易触发）
+    size_factor = np.ones(n)
+
+    # 微型概念（<5 只）：阈值 × 1.8
+    tiny = stock_count < 5
+    size_factor[tiny] = 1.8
+
+    # 小概念（5-10 只）：阈值 × 1.4
+    small = (stock_count >= 5) & (stock_count < 10)
+    size_factor[small] = 1.4
+
+    # 中小概念（10-20 只）：阈值 × 1.2
+    medium_small = (stock_count >= 10) & (stock_count < 20)
+    size_factor[medium_small] = 1.2
+
+    # 中概念（20-50 只）：标准阈值 × 1.0
+    medium = (stock_count >= 20) & (stock_count < 50)
+    size_factor[medium] = 1.0
+
+    # 大概念（50-100 只）：阈值 × 0.85
+    large = (stock_count >= 50) & (stock_count < 100)
+    size_factor[large] = 0.85
+
+    # 超大概念（>100 只）：阈值 × 0.7
+    xlarge = stock_count >= 100
+    size_factor[xlarge] = 0.7
+
+    return size_factor
+
+
+def score_rules_batch(df: pd.DataFrame) -> Tuple[np.ndarray, List[List[str]]]:
+    """
+    批量计算规则得分（向量化）- 考虑概念规模版
+
+    设计原则：
+    - 规则作为辅助信号，不应单独主导决策
+    - 根据概念股票数量动态调整阈值
+    - 大概念异动更有价值，小概念需要更大波动才算异动
+
+    Args:
+        df: DataFrame，包含所有特征列（必须包含 stock_count）
+    Returns:
+        scores: (n,) 规则得分数组
+        triggered_rules: 每行触发的规则列表
+    """
+    n = len(df)
+    scores = np.zeros(n)
+    triggered = [[] for _ in range(n)]
+
+    alpha = df['alpha'].values
+    alpha_delta = df['alpha_delta'].values
+    amt_ratio = df['amt_ratio'].values
+    amt_delta = df['amt_delta'].values
+    rank_pct = df['rank_pct'].values
+    limit_up_ratio = df['limit_up_ratio'].values
+    stock_count = df['stock_count'].values if 'stock_count' in df.columns else np.full(n, 20)
+
+    alpha_abs = np.abs(alpha)
+    alpha_delta_abs = np.abs(alpha_delta)
+
+    # 获取基于规模的调整系数
+    size_factor = get_size_adjusted_thresholds(stock_count)
+
+    # ========== Alpha 规则（动态阈值）==========
+    # 基准阈值：极强 5%，强 4%，中等 3%
+    # 实际阈值 = 基准 × size_factor
+
+    # 极强信号
+    alpha_extreme_thresh = 5.0 * size_factor
+    mask = alpha_abs >= alpha_extreme_thresh
+    scores[mask] += 20
+    for i in np.where(mask)[0]: triggered[i].append('alpha_extreme')
+
+    # 强信号
+    alpha_strong_thresh = 4.0 * size_factor
+    mask = (alpha_abs >= alpha_strong_thresh) & (alpha_abs < alpha_extreme_thresh)
+    scores[mask] += 15
+    for i in np.where(mask)[0]: triggered[i].append('alpha_strong')
+
+    # 中等信号
+    alpha_medium_thresh = 3.0 * size_factor
+    mask = (alpha_abs >= alpha_medium_thresh) & (alpha_abs < alpha_strong_thresh)
+    scores[mask] += 10
+    for i in np.where(mask)[0]: triggered[i].append('alpha_medium')
+
+    # ========== Alpha 加速度规则（动态阈值）==========
+    delta_strong_thresh = 2.0 * size_factor
+    mask = alpha_delta_abs >= delta_strong_thresh
+    scores[mask] += 15
+    for i in np.where(mask)[0]: triggered[i].append('alpha_delta_strong')
+
+    delta_medium_thresh = 1.5 * size_factor
+    mask = (alpha_delta_abs >= delta_medium_thresh) & (alpha_delta_abs < delta_strong_thresh)
+    scores[mask] += 10
+    for i in np.where(mask)[0]: triggered[i].append('alpha_delta_medium')
+
+    # ========== 成交额规则（不受规模影响，放量就是放量）==========
+    mask = amt_ratio >= 10.0
+    scores[mask] += 20
+    for i in np.where(mask)[0]: triggered[i].append('volume_extreme')
+
+    mask = (amt_ratio >= 6.0) & (amt_ratio < 10.0)
+    scores[mask] += 12
+    for i in np.where(mask)[0]: triggered[i].append('volume_strong')
+
+    # ========== 排名规则 ==========
+    mask = rank_pct >= 0.98
+    scores[mask] += 15
+    for i in np.where(mask)[0]: triggered[i].append('rank_top')
+
+    mask = rank_pct <= 0.02
+    scores[mask] += 15
+    for i in np.where(mask)[0]: triggered[i].append('rank_bottom')
+
+    # ========== 涨停规则（动态阈值）==========
+    # 大概念有涨停更有意义
+    limit_high_thresh = 0.30 * size_factor
+    mask = limit_up_ratio >= limit_high_thresh
+    scores[mask] += 20
+    for i in np.where(mask)[0]: triggered[i].append('limit_up_high')
+
+    limit_medium_thresh = 0.20 * size_factor
+    mask = (limit_up_ratio >= limit_medium_thresh) & (limit_up_ratio < limit_high_thresh)
+    scores[mask] += 12
+    for i in np.where(mask)[0]: triggered[i].append('limit_up_medium')
+
+    # ========== 概念规模加分（大概念异动更有价值）==========
+    # 大概念（50+）额外加分
+    large_concept = stock_count >= 50
+    has_signal = scores > 0  # 至少触发了某个规则
+    mask = large_concept & has_signal
+    scores[mask] += 10
+    for i in np.where(mask)[0]: triggered[i].append('large_concept_bonus')
+
+    # 超大概念（100+）再加分
+    xlarge_concept = stock_count >= 100
+    mask = xlarge_concept & has_signal
+    scores[mask] += 10
+    for i in np.where(mask)[0]: triggered[i].append('xlarge_concept_bonus')
+
+    # ========== 组合规则（动态阈值）==========
+    combo_alpha_thresh = 3.0 * size_factor
+
+    # Alpha + 放量 + 排名（三重验证）
+    mask = (alpha_abs >= combo_alpha_thresh) & (amt_ratio >= 5.0) & ((rank_pct >= 0.95) | (rank_pct <= 0.05))
+    scores[mask] += 20
+    for i in np.where(mask)[0]: triggered[i].append('triple_signal')
+
+    # Alpha + 涨停（强组合）
+    mask = (alpha_abs >= combo_alpha_thresh) & (limit_up_ratio >= 0.15 * size_factor)
+    scores[mask] += 15
+    for i in np.where(mask)[0]: triggered[i].append('alpha_with_limit')
+
+    # ========== 小概念惩罚（过滤噪音）==========
+    # 微型概念（<5 只）如果只有单一信号，减分
+    tiny_concept = stock_count < 5
+    single_rule = np.array([len(t) <= 1 for t in triggered])
+    mask = tiny_concept & single_rule & (scores > 0)
+    scores[mask] *= 0.5  # 减半
+    for i in np.where(mask)[0]: triggered[i].append('tiny_concept_penalty')
+
+    scores = np.clip(scores, 0, 100)
+    return scores, triggered
+
+
+# ==================== ML 评分器 ====================
+
+class FastMLScorer:
+    """快速 ML 评分器"""
+
+    def __init__(self, checkpoint_dir: str = 'ml/checkpoints', device: str = 'auto'):
+        self.checkpoint_dir = Path(checkpoint_dir)
+
+        if device == 'auto':
+            self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+        elif device == 'cuda' and not torch.cuda.is_available():
+            print("警告: CUDA 不可用，使用 CPU")
+            self.device = torch.device('cpu')
+        else:
+            self.device = torch.device(device)
+
+        self.model = None
+        self.thresholds = None
+        self._load_model()
+
+    def _load_model(self):
+        model_path = self.checkpoint_dir / 'best_model.pt'
+        thresholds_path = self.checkpoint_dir / 'thresholds.json'
+        config_path = self.checkpoint_dir / 'config.json'
+
+        if not model_path.exists():
+            print(f"警告: 模型不存在 {model_path}")
+            return
+
+        try:
+            from model import LSTMAutoencoder
+
+            config = {}
+            if config_path.exists():
+                with open(config_path) as f:
+                    config = json.load(f).get('model', {})
+
+            # 处理旧配置键名
+            if 'd_model' in config:
+                config['hidden_dim'] = config.pop('d_model') // 2
+            for key in ['num_encoder_layers', 'num_decoder_layers', 'nhead', 'dim_feedforward', 'max_seq_len', 'use_instance_norm']:
+                config.pop(key, None)
+            if 'num_layers' not in config:
+                config['num_layers'] = 1
+
+            checkpoint = torch.load(model_path, map_location='cpu')
+            self.model = LSTMAutoencoder(**config)
+            self.model.load_state_dict(checkpoint['model_state_dict'])
+            self.model.to(self.device)
+            self.model.eval()
+
+            if thresholds_path.exists():
+                with open(thresholds_path) as f:
+                    self.thresholds = json.load(f)
+
+            print(f"ML模型加载成功 (设备: {self.device})")
+        except Exception as e:
+            print(f"ML模型加载失败: {e}")
+            self.model = None
+
+    def is_ready(self):
+        return self.model is not None
+
+    @torch.no_grad()
+    def score_batch(self, sequences: np.ndarray) -> np.ndarray:
+        """
+        批量计算 ML 得分
+
+        Args:
+            sequences: (batch, seq_len, n_features)
+        Returns:
+            scores: (batch,) 0-100 分数
+        """
+        if not self.is_ready() or len(sequences) == 0:
+            return np.zeros(len(sequences))
+
+        x = torch.FloatTensor(sequences).to(self.device)
+        output, _ = self.model(x)
+        mse = ((output - x) ** 2).mean(dim=-1)
+        errors = mse[:, -1].cpu().numpy()
+
+        p95 = self.thresholds.get('p95', 0.1) if self.thresholds else 0.1
+        scores = np.clip(errors / p95 * 50, 0, 100)
+        return scores
+
+
+# ==================== 快速回测 ====================
+
+def build_sequences_fast(
+    df: pd.DataFrame,
+    seq_len: int = 30,
+    prev_df: pd.DataFrame = None
+) -> Tuple[np.ndarray, pd.DataFrame]:
+    """
+    快速构建所有有效序列
+
+    支持跨日序列：用前一天收盘数据 + 当天开盘数据拼接，实现 9:30 就能检测
+
+    Args:
+        df: 当天数据
+        seq_len: 序列长度
+        prev_df: 前一天数据（可选，用于构建开盘时的序列）
+
+    返回：
+        sequences: (n_valid, seq_len, n_features) 所有有效序列
+        info_df: 对应的元信息 DataFrame
+    """
+    # 确保按概念和时间排序
+    df = df.sort_values(['concept_id', 'timestamp']).reset_index(drop=True)
+
+    # 如果有前一天数据，按概念构建尾部缓存（取每个概念最后 seq_len-1 条）
+    prev_cache = {}
+    if prev_df is not None and len(prev_df) > 0:
+        prev_df = prev_df.sort_values(['concept_id', 'timestamp'])
+        for concept_id, gdf in prev_df.groupby('concept_id'):
+            tail_data = gdf.tail(seq_len - 1)
+            if len(tail_data) > 0:
+                feat_matrix = tail_data[FEATURES].values
+                feat_matrix = np.nan_to_num(feat_matrix, nan=0.0, posinf=0.0, neginf=0.0)
+                feat_matrix = np.clip(feat_matrix, -CONFIG['clip_value'], CONFIG['clip_value'])
+                prev_cache[concept_id] = feat_matrix
+
+    # 按概念分组
+    groups = df.groupby('concept_id')
+
+    sequences = []
+    infos = []
+
+    for concept_id, gdf in groups:
+        gdf = gdf.reset_index(drop=True)
+
+        # 获取特征矩阵
+        feat_matrix = gdf[FEATURES].values
+        feat_matrix = np.nan_to_num(feat_matrix, nan=0.0, posinf=0.0, neginf=0.0)
+        feat_matrix = np.clip(feat_matrix, -CONFIG['clip_value'], CONFIG['clip_value'])
+
+        # 如果有前一天缓存，拼接到当天数据前面
+        if concept_id in prev_cache:
+            prev_data = prev_cache[concept_id]
+            combined_matrix = np.vstack([prev_data, feat_matrix])
+            # 计算偏移量：前一天数据的长度
+            offset = len(prev_data)
+        else:
+            combined_matrix = feat_matrix
+            offset = 0
+
+        # 滑动窗口构建序列
+        n_total = len(combined_matrix)
+        if n_total < seq_len:
+            continue
+
+        for i in range(n_total - seq_len + 1):
+            seq = combined_matrix[i:i + seq_len]
+
+            # 计算对应当天数据的索引
+            # 序列最后一个点的位置 = i + seq_len - 1
+            # 对应当天数据的索引 = (i + seq_len - 1) - offset
+            today_idx = i + seq_len - 1 - offset
+
+            # 只要序列的最后一个点是当天的数据，就记录
+            if today_idx < 0 or today_idx >= len(gdf):
+                continue
+
+            sequences.append(seq)
+
+            # 记录最后一个时间步的信息（当天的）
+            row = gdf.iloc[today_idx]
+            infos.append({
+                'concept_id': concept_id,
+                'timestamp': row['timestamp'],
+                'alpha': row['alpha'],
+                'alpha_delta': row.get('alpha_delta', 0),
+                'amt_ratio': row.get('amt_ratio', 1),
+                'amt_delta': row.get('amt_delta', 0),
+                'rank_pct': row.get('rank_pct', 0.5),
+                'limit_up_ratio': row.get('limit_up_ratio', 0),
+                'stock_count': row.get('stock_count', 0),
+                'total_amt': row.get('total_amt', 0),
+            })
+
+    if not sequences:
+        return np.array([]), pd.DataFrame()
+
+    return np.array(sequences), pd.DataFrame(infos)
+
+
+def backtest_single_day_fast(
+    ml_scorer: FastMLScorer,
+    df: pd.DataFrame,
+    date: str,
+    config: Dict,
+    prev_df: pd.DataFrame = None
+) -> List[Dict]:
+    """
+    快速回测单天（向量化版本）
+
+    Args:
+        ml_scorer: ML 评分器
+        df: 当天数据
+        date: 日期
+        config: 配置
+        prev_df: 前一天数据（用于 9:30 开始检测）
+    """
+    seq_len = config.get('seq_len', 30)
+
+    # 1. 构建所有序列（支持跨日）
+    sequences, info_df = build_sequences_fast(df, seq_len, prev_df)
+
+    if len(sequences) == 0:
+        return []
+
+    # 2. 过滤小波动
+    alpha_abs = np.abs(info_df['alpha'].values)
+    valid_mask = alpha_abs >= config['min_alpha_abs']
+
+    sequences = sequences[valid_mask]
+    info_df = info_df[valid_mask].reset_index(drop=True)
+
+    if len(sequences) == 0:
+        return []
+
+    # 3. 批量规则评分
+    rule_scores, triggered_rules = score_rules_batch(info_df)
+
+    # 4. 批量 ML 评分（分批处理避免显存溢出）
+    batch_size = 2048
+    ml_scores = []
+    for i in range(0, len(sequences), batch_size):
+        batch_seq = sequences[i:i+batch_size]
+        batch_scores = ml_scorer.score_batch(batch_seq)
+        ml_scores.append(batch_scores)
+    ml_scores = np.concatenate(ml_scores) if ml_scores else np.zeros(len(sequences))
+
+    # 5. 融合得分
+    w1, w2 = config['rule_weight'], config['ml_weight']
+    final_scores = w1 * rule_scores + w2 * ml_scores
+
+    # 6. 判断异动
+    is_anomaly = (
+        (rule_scores >= config['rule_trigger']) |
+        (ml_scores >= config['ml_trigger']) |
+        (final_scores >= config['fusion_trigger'])
+    )
+
+    # 7. 应用冷却期（按概念+时间排序后处理）
+    info_df['rule_score'] = rule_scores
+    info_df['ml_score'] = ml_scores
+    info_df['final_score'] = final_scores
+    info_df['is_anomaly'] = is_anomaly
+    info_df['triggered_rules'] = triggered_rules
+
+    # 只保留异动
+    anomaly_df = info_df[info_df['is_anomaly']].copy()
+
+    if len(anomaly_df) == 0:
+        return []
+
+    # 应用冷却期
+    anomaly_df = anomaly_df.sort_values(['concept_id', 'timestamp'])
+    cooldown = {}
+    keep_mask = []
+
+    for _, row in anomaly_df.iterrows():
+        cid = row['concept_id']
+        ts = row['timestamp']
+
+        if cid in cooldown:
+            try:
+                diff = (ts - cooldown[cid]).total_seconds() / 60
+            except:
+                diff = config['cooldown_minutes'] + 1
+
+            if diff < config['cooldown_minutes']:
+                keep_mask.append(False)
+                continue
+
+        cooldown[cid] = ts
+        keep_mask.append(True)
+
+    anomaly_df = anomaly_df[keep_mask]
+
+    # 8. 按时间分组，每分钟最多 max_alerts_per_minute 个
+    alerts = []
+    for ts, group in anomaly_df.groupby('timestamp'):
+        group = group.nlargest(config['max_alerts_per_minute'], 'final_score')
+
+        for _, row in group.iterrows():
+            alpha = row['alpha']
+            if alpha >= 1.5:
+                atype = 'surge_up'
+            elif alpha <= -1.5:
+                atype = 'surge_down'
+            elif row['amt_ratio'] >= 3.0:
+                atype = 'volume_spike'
+            else:
+                atype = 'unknown'
+
+            rule_score = row['rule_score']
+            ml_score = row['ml_score']
+            final_score = row['final_score']
+
+            if rule_score >= config['rule_trigger']:
+                trigger = f'规则强信号({rule_score:.0f}分)'
+            elif ml_score >= config['ml_trigger']:
+                trigger = f'ML强信号({ml_score:.0f}分)'
+            else:
+                trigger = f'融合触发({final_score:.0f}分)'
+
+            alerts.append({
+                'concept_id': row['concept_id'],
+                'alert_time': row['timestamp'],
+                'trade_date': date,
+                'alert_type': atype,
+                'final_score': final_score,
+                'rule_score': rule_score,
+                'ml_score': ml_score,
+                'trigger_reason': trigger,
+                'triggered_rules': row['triggered_rules'],
+                'alpha': alpha,
+                'alpha_delta': row['alpha_delta'],
+                'amt_ratio': row['amt_ratio'],
+                'amt_delta': row['amt_delta'],
+                'rank_pct': row['rank_pct'],
+                'limit_up_ratio': row['limit_up_ratio'],
+                'stock_count': row['stock_count'],
+                'total_amt': row['total_amt'],
+            })
+
+    return alerts
+
+
+# ==================== 数据加载 ====================
+
+def load_daily_features(data_dir: str, date: str) -> Optional[pd.DataFrame]:
+    file_path = Path(data_dir) / f"features_{date}.parquet"
+    if not file_path.exists():
+        return None
+    return pd.read_parquet(file_path)
+
+
+def get_available_dates(data_dir: str, start: str, end: str) -> List[str]:
+    data_path = Path(data_dir)
+    dates = []
+    for f in sorted(data_path.glob("features_*.parquet")):
+        d = f.stem.replace('features_', '')
+        if start <= d <= end:
+            dates.append(d)
+    return dates
+
+
+def get_prev_trading_day(data_dir: str, date: str) -> Optional[str]:
+    """获取给定日期之前最近的有数据的交易日"""
+    data_path = Path(data_dir)
+    all_dates = sorted([f.stem.replace('features_', '') for f in data_path.glob("features_*.parquet")])
+
+    for i, d in enumerate(all_dates):
+        if d == date and i > 0:
+            return all_dates[i - 1]
+    return None
+
+
+def export_to_csv(alerts: List[Dict], path: str):
+    if alerts:
+        pd.DataFrame(alerts).to_csv(path, index=False, encoding='utf-8-sig')
+        print(f"已导出: {path}")
+
+
+# ==================== 数据库写入 ====================
+
+def init_db_table():
+    """
+    初始化数据库表（如果不存在则创建）
+
+    表结构说明：
+    - concept_id: 概念ID
+    - alert_time: 异动时间（精确到分钟）
+    - trade_date: 交易日期
+    - alert_type: 异动类型（surge_up/surge_down/volume_spike/unknown）
+    - final_score: 最终得分（0-100）
+    - rule_score: 规则得分（0-100）
+    - ml_score: ML得分（0-100）
+    - trigger_reason: 触发原因
+    - alpha: 超额收益率
+    - alpha_delta: alpha变化速度
+    - amt_ratio: 成交额放大倍数
+    - rank_pct: 排名百分位
+    - stock_count: 概念股票数量
+    - triggered_rules: 触发的规则列表（JSON）
+    """
+    create_sql = text("""
+        CREATE TABLE IF NOT EXISTS concept_anomaly_hybrid (
+            id INT AUTO_INCREMENT PRIMARY KEY,
+            concept_id VARCHAR(64) NOT NULL,
+            alert_time DATETIME NOT NULL,
+            trade_date DATE NOT NULL,
+            alert_type VARCHAR(32) NOT NULL,
+            final_score FLOAT NOT NULL,
+            rule_score FLOAT NOT NULL,
+            ml_score FLOAT NOT NULL,
+            trigger_reason VARCHAR(64),
+            alpha FLOAT,
+            alpha_delta FLOAT,
+            amt_ratio FLOAT,
+            amt_delta FLOAT,
+            rank_pct FLOAT,
+            limit_up_ratio FLOAT,
+            stock_count INT,
+            total_amt FLOAT,
+            triggered_rules JSON,
+            created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
+            UNIQUE KEY uk_concept_time (concept_id, alert_time, trade_date),
+            INDEX idx_trade_date (trade_date),
+            INDEX idx_concept_id (concept_id),
+            INDEX idx_final_score (final_score),
+            INDEX idx_alert_type (alert_type)
+        ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='概念异动检测结果（融合版）'
+    """)
+
+    with MYSQL_ENGINE.begin() as conn:
+        conn.execute(create_sql)
+    print("数据库表已就绪: concept_anomaly_hybrid")
+
+
+def save_alerts_to_mysql(alerts: List[Dict], dry_run: bool = False) -> int:
+    """
+    保存异动到 MySQL
+
+    Args:
+        alerts: 异动列表
+        dry_run: 是否只模拟，不实际写入
+
+    Returns:
+        实际保存的记录数
+    """
+    if not alerts:
+        return 0
+
+    if dry_run:
+        print(f"  [Dry Run] 将写入 {len(alerts)} 条异动")
+        return len(alerts)
+
+    saved = 0
+    skipped = 0
+
+    with MYSQL_ENGINE.begin() as conn:
+        for alert in alerts:
+            try:
+                # 检查是否已存在（使用 INSERT IGNORE 更高效）
+                insert_sql = text("""
+                    INSERT IGNORE INTO concept_anomaly_hybrid
+                    (concept_id, alert_time, trade_date, alert_type,
+                     final_score, rule_score, ml_score, trigger_reason,
+                     alpha, alpha_delta, amt_ratio, amt_delta,
+                     rank_pct, limit_up_ratio, stock_count, total_amt,
+                     triggered_rules)
+                    VALUES
+                    (:concept_id, :alert_time, :trade_date, :alert_type,
+                     :final_score, :rule_score, :ml_score, :trigger_reason,
+                     :alpha, :alpha_delta, :amt_ratio, :amt_delta,
+                     :rank_pct, :limit_up_ratio, :stock_count, :total_amt,
+                     :triggered_rules)
+                """)
+
+                result = conn.execute(insert_sql, {
+                    'concept_id': alert['concept_id'],
+                    'alert_time': alert['alert_time'],
+                    'trade_date': alert['trade_date'],
+                    'alert_type': alert['alert_type'],
+                    'final_score': alert['final_score'],
+                    'rule_score': alert['rule_score'],
+                    'ml_score': alert['ml_score'],
+                    'trigger_reason': alert['trigger_reason'],
+                    'alpha': alert.get('alpha', 0),
+                    'alpha_delta': alert.get('alpha_delta', 0),
+                    'amt_ratio': alert.get('amt_ratio', 1),
+                    'amt_delta': alert.get('amt_delta', 0),
+                    'rank_pct': alert.get('rank_pct', 0.5),
+                    'limit_up_ratio': alert.get('limit_up_ratio', 0),
+                    'stock_count': alert.get('stock_count', 0),
+                    'total_amt': alert.get('total_amt', 0),
+                    'triggered_rules': json.dumps(alert.get('triggered_rules', []), ensure_ascii=False),
+                })
+
+                if result.rowcount > 0:
+                    saved += 1
+                else:
+                    skipped += 1
+
+            except Exception as e:
+                print(f"  保存失败: {alert['concept_id']} @ {alert['alert_time']} - {e}")
+
+    if skipped > 0:
+        print(f"  跳过 {skipped} 条重复记录")
+
+    return saved
+
+
+def clear_alerts_by_date(trade_date: str) -> int:
+    """清除指定日期的异动记录（用于重新回测）"""
+    with MYSQL_ENGINE.begin() as conn:
+        result = conn.execute(
+            text("DELETE FROM concept_anomaly_hybrid WHERE trade_date = :trade_date"),
+            {'trade_date': trade_date}
+        )
+        return result.rowcount
+
+
+def analyze_alerts(alerts: List[Dict]):
+    if not alerts:
+        print("无异动")
+        return
+
+    df = pd.DataFrame(alerts)
+    print(f"\n总异动: {len(alerts)}")
+    print(f"\n类型分布:\n{df['alert_type'].value_counts()}")
+    print(f"\n得分统计:")
+    print(f"  最终: {df['final_score'].mean():.1f} (max: {df['final_score'].max():.1f})")
+    print(f"  规则: {df['rule_score'].mean():.1f} (max: {df['rule_score'].max():.1f})")
+    print(f"  ML:   {df['ml_score'].mean():.1f} (max: {df['ml_score'].max():.1f})")
+
+    trigger_type = df['trigger_reason'].apply(
+        lambda x: '规则' if '规则' in x else ('ML' if 'ML' in x else '融合')
+    )
+    print(f"\n触发来源:\n{trigger_type.value_counts()}")
+
+
+# ==================== 主函数 ====================
+
+def main():
+    parser = argparse.ArgumentParser(description='快速融合异动回测')
+    parser.add_argument('--data_dir', default='ml/data')
+    parser.add_argument('--checkpoint_dir', default='ml/checkpoints')
+    parser.add_argument('--start', required=True)
+    parser.add_argument('--end', default=None)
+    parser.add_argument('--dry-run', action='store_true', help='模拟运行，不写入数据库')
+    parser.add_argument('--export-csv', default=None, help='导出 CSV 文件路径')
+    parser.add_argument('--save-db', action='store_true', help='保存结果到数据库')
+    parser.add_argument('--clear-first', action='store_true', help='写入前先清除该日期的旧数据')
+    parser.add_argument('--device', default='auto')
+
+    args = parser.parse_args()
+    if args.end is None:
+        args.end = args.start
+
+    print("=" * 60)
+    print("快速融合异动回测")
+    print("=" * 60)
+    print(f"日期: {args.start} ~ {args.end}")
+    print(f"设备: {args.device}")
+    print(f"保存数据库: {args.save_db}")
+    print("=" * 60)
+
+    # 初始化数据库表（如果需要保存）
+    if args.save_db and not args.dry_run:
+        init_db_table()
+
+    # 初始化 ML 评分器
+    ml_scorer = FastMLScorer(args.checkpoint_dir, args.device)
+
+    # 获取日期
+    dates = get_available_dates(args.data_dir, args.start, args.end)
+    if not dates:
+        print("无数据")
+        return
+
+    print(f"找到 {len(dates)} 天数据\n")
+
+    # 回测（支持跨日序列）
+    all_alerts = []
+    total_saved = 0
+    prev_df = None  # 缓存前一天数据
+
+    for i, date in enumerate(tqdm(dates, desc="回测")):
+        df = load_daily_features(args.data_dir, date)
+        if df is None or df.empty:
+            prev_df = None  # 当天无数据，清空缓存
+            continue
+
+        # 第一天需要加载前一天数据（如果存在）
+        if i == 0 and prev_df is None:
+            prev_date = get_prev_trading_day(args.data_dir, date)
+            if prev_date:
+                prev_df = load_daily_features(args.data_dir, prev_date)
+                if prev_df is not None:
+                    tqdm.write(f"  加载前一天数据: {prev_date}")
+
+        alerts = backtest_single_day_fast(ml_scorer, df, date, CONFIG, prev_df)
+        all_alerts.extend(alerts)
+
+        # 保存到数据库
+        if args.save_db and alerts:
+            if args.clear_first and not args.dry_run:
+                cleared = clear_alerts_by_date(date)
+                if cleared > 0:
+                    tqdm.write(f"  清除 {date} 旧数据: {cleared} 条")
+
+            saved = save_alerts_to_mysql(alerts, dry_run=args.dry_run)
+            total_saved += saved
+            tqdm.write(f"  {date}: {len(alerts)} 个异动, 保存 {saved} 条")
+        elif alerts:
+            tqdm.write(f"  {date}: {len(alerts)} 个异动")
+
+        # 当天数据成为下一天的 prev_df
+        prev_df = df
+
+    # 导出 CSV
+    if args.export_csv:
+        export_to_csv(all_alerts, args.export_csv)
+
+    # 分析
+    analyze_alerts(all_alerts)
+
+    print(f"\n总计: {len(all_alerts)} 个异动")
+    if args.save_db:
+        print(f"已保存到数据库: {total_saved} 条")
+
+
+if __name__ == "__main__":
+    main()