TechBlog
首页
分类
标签
搜索
关于
← 返回标签列表
加载中...
#标签
共
1
篇文章
实时数字人音频特征计算
LiveTalking开源项目提供数字人嘴型驱动技术,支持离线与实时音频处理。离线系统处理完整音频文件,而实时系统采用流式数据处理策略,通过前后缓存参数(stride_left_size/right_size)平衡延迟与准确性。系统初始化时会预填充音频队列,采用16帧批次处理,保留部分帧作为上下文缓存。音频特征通过滑动窗口与视频帧匹配,不同模型(mel/whisper/hubert)有特定参数配置。项目代码托管于GitHub(https://github.com/lipku/LiveTalking)
时间:11/23/2025