funasr_timeout_analysis.md 7.58 KB

Raw Blame History Permalink



AIfeng/2025-07-17 16:25:06


FunASR大文件超时问题分析与优化方案


问题现象

用户在使用FunASR进行语音识别时遇到以下问题：


小文件：识别正常，无超时问题

大文件：出现连接超时错误

错误信息：[WinError 10054] 远程主机强迫关闭了一个现有的连接


发生时间：16:17:53


根因分析


1. 超时配置问题


当前超时设置


连接超时：30秒（config_util.py中asr_timeout默认值）

接收消息超时：1秒（_receive_messages方法中的asyncio.wait_for）

连接等待超时：5秒（同步版本）/10秒（异步版本预热）


问题分析

# funasr_asr.py 第72行 - 连接超时配置
timeout_seconds = getattr(cfg, 'asr_timeout', 30)
self.websocket = await asyncio.wait_for(
    websockets.connect(self.server_url),
    timeout=timeout_seconds
)

# 第145行 - 接收消息超时（过短）
message = await asyncio.wait_for(
    self.websocket.recv(), 
    timeout=1.0  # ⚠️ 仅1秒，对大文件处理不足
)


2. 大文件处理机制缺陷


分块发送逻辑

# funasr_asr.py 第500-520行
stride = int(60 * chunk_size / chunk_interval / 1000 * 16000 * 2)

if len(audio_bytes) > stride:
    chunk_num = (len(audio_bytes) - 1) // stride + 1
    for i in range(chunk_num):
        beg = i * stride
        chunk_data = audio_bytes[beg:beg + stride]
        self.message_queue.put(chunk_data)  # ⚠️ 队列可能积压


问题点


队列积压：大文件分块后产生大量消息，队列处理不及时

发送频率：_send_message_loop中await asyncio.sleep(0.01)间隔过短

无流控机制：缺乏背压控制，服务端可能过载


3. WebSocket连接稳定性


心跳机制缺失


当前实现：无主动心跳检测

连接检测：仅依赖异常捕获

重连策略：指数退避，但最大重连次数限制可能过严


优化方案


方案一：超时参数优化（立即可行）


1. 调整超时配置

# config_util.py 优化
class ConfigManager:
    def __init__(self):
        # ASR超时配置优化
        self.asr_timeout = 60  # 连接超时：30→60秒
        self.asr_receive_timeout = 30  # 接收超时：1→30秒
        self.asr_send_interval = 0.05  # 发送间隔：0.01→0.05秒
        self.asr_chunk_size = 8192  # 分块大小优化


2. 动态超时计算

def calculate_timeout(self, audio_size_bytes):
    """根据音频大小动态计算超时时间"""
    base_timeout = 30
    # 每MB增加10秒超时
    size_mb = audio_size_bytes / (1024 * 1024)
    dynamic_timeout = base_timeout + (size_mb * 10)
    return min(dynamic_timeout, 300)  # 最大5分钟


方案二：流控机制实现（推荐）


1. 队列大小限制

class FunASRAsyncClient:
    def __init__(self, username, server_url):
        # 限制队列大小，避免内存溢出
        self.message_queue = queue.Queue(maxsize=100)
        self.send_semaphore = asyncio.Semaphore(10)  # 并发控制


2. 背压控制

async def _send_message_loop(self):
    """优化的发送消息循环"""
    while self.connected and self.websocket:
        try:
            # 检查队列大小，实现背压
            if self.message_queue.qsize() > 50:
                await asyncio.sleep(0.1)  # 队列过满时减缓发送
                continue

            async with self.send_semaphore:
                message = self.message_queue.get_nowait()
                await self.websocket.send(message)

        except queue.Empty:
            await asyncio.sleep(0.05)  # 优化等待间隔


方案三：分片上传机制（长期优化）


1. 大文件预处理

def preprocess_large_audio(self, audio_data, max_chunk_size=1024*1024):
    """大文件预处理和分片"""
    if len(audio_data) > max_chunk_size:
        # 按时间分片，而非简单字节分割
        return self._split_by_time_segments(audio_data)
    return [audio_data]

def _split_by_time_segments(self, audio_data, segment_seconds=30):
    """按时间段分割音频"""
    sample_rate = 16000
    bytes_per_sample = 2
    segment_bytes = segment_seconds * sample_rate * bytes_per_sample

    segments = []
    for i in range(0, len(audio_data), segment_bytes):
        segments.append(audio_data[i:i + segment_bytes])
    return segments


2. 分片识别结果合并

class SegmentResultManager:
    def __init__(self):
        self.segments = {}
        self.final_result = ""

    def add_segment_result(self, segment_id, text):
        self.segments[segment_id] = text
        self._merge_results()

    def _merge_results(self):
        # 按顺序合并分片结果
        sorted_segments = sorted(self.segments.items())
        self.final_result = " ".join([text for _, text in sorted_segments])


方案四：连接稳定性增强


1. 心跳机制

async def _heartbeat_loop(self):
    """心跳检测循环"""
    while self.connected:
        try:
            # 每30秒发送心跳
            await asyncio.sleep(30)
            if self.websocket:
                await self.websocket.ping()
        except Exception as e:
            util.log(2, f"心跳检测失败: {e}")
            self.connected = False
            break


2. 连接质量监控

class ConnectionMonitor:
    def __init__(self):
        self.success_count = 0
        self.error_count = 0
        self.last_success_time = time.time()

    def record_success(self):
        self.success_count += 1
        self.last_success_time = time.time()

    def record_error(self):
        self.error_count += 1

    def get_health_score(self):
        total = self.success_count + self.error_count
        if total == 0:
            return 1.0
        return self.success_count / total


实施建议


阶段一：紧急修复（1-2天）


调整超时参数：将接收超时从1秒调整为30秒

优化发送间隔：从0.01秒调整为0.05秒

增加队列大小限制：防止内存溢出


阶段二：稳定性优化（3-5天）


实现动态超时计算：根据文件大小调整超时

添加背压控制机制：防止队列积压
增强错误处理和重连逻辑


阶段三：架构优化（1-2周）


实现分片上传机制：支持超大文件处理

添加连接池管理：提高并发处理能力

实现结果缓存机制：避免重复处理


监控指标


关键指标


连接成功率：>95%

平均响应时间：<文件时长×2

超时错误率：<5%

内存使用峰值：<500MB


告警阈值


连接失败率>10%
队列积压>100条消息
单次处理时间>5分钟
内存使用>1GB


测试验证


测试用例


小文件测试：<1MB，验证基本功能

中等文件测试：1-10MB，验证优化效果

大文件测试：>10MB，验证极限处理能力

并发测试：多用户同时上传

网络异常测试：模拟网络中断和恢复


性能基准


1MB文件：<10秒完成识别

10MB文件：<60秒完成识别

50MB文件：<300秒完成识别


风险评估


技术风险


内存溢出：大文件处理时内存激增

服务端压力：并发大文件可能导致服务崩溃

网络稳定性：长时间传输易受网络波动影响


缓解措施


实施内存监控和自动清理
添加服务端负载均衡
实现断点续传机制
增加详细的错误日志和监控