首页分类标签搜索关于

← 返回标签列表

加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 1 篇文章

实时数字人音频特征计算

实时数字人音频特征计算

LiveTalking开源项目提供数字人嘴型驱动技术，支持离线与实时音频处理。离线系统处理完整音频文件，而实时系统采用流式数据处理策略，通过前后缓存参数（stride_left_size/right_size）平衡延迟与准确性。系统初始化时会预填充音频队列，采用16帧批次处理，保留部分帧作为上下文缓存。音频特征通过滑动窗口与视频帧匹配，不同模型（mel/whisper/hubert）有特定参数配置。项目代码托管于GitHub（https://github.com/lipku/LiveTalking）

时间：11/23/2025