TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 1 篇文章
实时数字人音频特征计算

实时数字人音频特征计算

LiveTalking开源项目提供数字人嘴型驱动技术,支持离线与实时音频处理。离线系统处理完整音频文件,而实时系统采用流式数据处理策略,通过前后缓存参数(stride_left_size/right_size)平衡延迟与准确性。系统初始化时会预填充音频队列,采用16帧批次处理,保留部分帧作为上下文缓存。音频特征通过滑动窗口与视频帧匹配,不同模型(mel/whisper/hubert)有特定参数配置。项目代码托管于GitHub(https://github.com/lipku/LiveTalking)

时间:11/23/2025