TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 54 篇文章
多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

AI视频识别系统助力门店环境管理智能化升级。通过构建环境神经网络,系统实现96.8%精度的实时指标监测,3秒内触发自动化干预,形成闭环管理。180天实测数据显示,维护成本降低58%,安全事故减少79%,响应效率提升93%。该系统将门店环境管理从被动应对转变为主动优化,使清洁工作转化为提升顾客体验和经营效率的核心竞争力。

时间:12/09/2025

FunASR情绪识别教程基于-emotion2vec-large-的本地语音情绪识别实战

FunASR情绪识别教程基于-emotion2vec-large-的本地语音情绪识别实战

摘要:本文介绍了一个基于FunASR的语音情绪识别项目,使用emotion2vec_plus_large模型实现9类情绪分类。系统可处理本地单条wav音频,输出包括愤怒、开心、悲伤等情绪的概率分布及Top-1结果,并自动保存JSON格式的识别结果。文章详细说明了环境配置、依赖安装和核心代码实现,通过AutoModel封装实现从音频输入到情绪分析的完整流程。该项目特别强调语音情绪识别在AI交互中的重要性,为后续集成到机器人系统提供了基础方案。

时间:12/05/2025

国产32位MCU语音识别方案

国产32位MCU语音识别方案

摘要:国产32位MCUCH32V307为离线语音识别提供高效解决方案。该芯片采用RISC-V内核,支持向量指令集,可运行轻量级AI模型,实现快速准确的离线识别。内置运放和ADC简化外围电路,支持I2S接口扩展音频功能。方案支持离线指令识别,也可扩展为在线系统,适用于家电、工业设备等多种场景。英尚微电子提供相关产品服务。

时间:12/04/2025

用深度学习实现语音识别系统

用深度学习实现语音识别系统

语言模型概率加权公式:[\logP_{\text{total}}(y|x)=\logP_{\text{AM}}(y|x)+\lambda\logP_{\text{LM}}(y)+\gamma|y|]其中λ控制语言模型权重,γ调节输出长度惩罚。评估指标使用词错误率(WER):[\text{WER}=\frac{S+D+I}{N}\times100%]S为替换错误数,D为删除错误数,I为插入错误数,N为参考文本总词数。标准化操作需对特征进行均值方差归一化。

时间:12/03/2025

论文笔记-基于-LSTM-的端到端视觉语音识别-End-to-End-Visual-Speech-Recognition-with-LSTMs

论文笔记-基于-LSTM-的端到端视觉语音识别-End-to-End-Visual-Speech-Recognition-with-LSTMs

这篇文章是端到端唇读领域的经典之作。它没有使用复杂的3D-CNN,而是巧妙地利用双流架构(Raw+Diff)结合LSTM/BLSTM,在2017年就实现了从像素到语义的端到端识别。对于后续研究,其最大的借鉴意义在于:**如何显式地让网络同时关注“形状”和“运动”**。

时间:12/03/2025

JavaScript语音识别案例

JavaScript语音识别案例

首先,我们创建一个SpeechRecognition对象,设置一些参数,比如是否连续识别(continuous)、是否返回中间结果(interimResults),以及语言(lang)。代码扩展一下,就能支持更复杂的场景,比如语音命令控制视频播放(“播放”、“暂停”),或者语音填写表单。比如,语音识别的准确性受环境噪音影响,你可能需要添加一些预处理逻辑,比如在识别前提示用户保持安静。还有,语言设置很重要,如果你面向全球用户,可以动态切换lang参数,比如根据用户浏览器语言自动调整。

时间:11/20/2025

JavaScript语音识别开发

JavaScript语音识别开发

我刚开始试的时候,在Chrome上跑得挺顺,但一到其他浏览器就报错,后来才发现得加个兼容性判断。移动端上,Android的Chrome支持挺好,但iOS的Safari有时候会抽风,识别延迟比较高。另外,API的识别引擎依赖云端服务,所以得注意隐私问题,如果涉及敏感信息,最好提示用户数据会上传处理。这段代码基本能跑起来,但实际用的时候,你会发现不少细节得优化。比如,用户说话过程中,如果网络不稳或者环境噪音大,识别准确率会打折扣。这时候,就得考虑加个预处理,比如用噪声抑制库,或者引导用户在有安静环境时使用。

时间:11/20/2025

Whisper模型在RTranslator中的实时语音识别优化动态资源分配与负载均衡

Whisper模型在RTranslator中的实时语音识别优化动态资源分配与负载均衡

通过动态资源调度与智能负载均衡,可显著提升Whisper模型在实时翻译场景中的稳定性和响应速度,同时降低约40%的运营成本。$$\text{优化前}\rightarrow\text{优化后}$$

时间:10/27/2025

调用百度云语音识别服务实现c接口识别语音

调用百度云语音识别服务实现c接口识别语音

client是语音识别的C++客户端,为使用语音识别的开发人员提供了一系列的交互方法。百度云语音识别 API 提供了稳定、高效的语音转文字能力,本文将以。是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的。建议使用简单的SDK调用,再百度云官方下载即可。为例,手把手教你用 C++ 实现调用,从前期准备到代码落地,每一步都清晰可操作。在写代码前,我们需要完成百度云账号配置和开发环境准备,这是调用 API 的基础。在百度云控制台中创建,常量。

时间:10/22/2025

Whisper推理源码解读

Whisper推理源码解读

Whisper是一个由OpenAI开发的自动语音识别(ASR)系统,在多语言环境和嘈杂背景下的语音识别任务中表现出色。多语言支持:Whisper被设计为一个多语言模型,能够理解和转录多种语言的语音,包括但不限于英语、中文、阿拉伯语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语和土耳其语等。鲁棒性:Whisper在处理各种噪声环境下的语音信号方面表现出鲁棒性,这意味着即使在背景噪音较大的情况下,它也能够准确识别和转录语音。

时间:10/06/2025

使用ffmpeg8.0的whisper模块语音识别

使用ffmpeg8.0的whisper模块语音识别

但是经过测试,都使用ggml-medium.bin模型的情况下,识别效果不如先使用ffmpeg提取音频生成mp3文件,再使用whisper-cli.exe生成字幕文件。2025年9月ffmpeg8.0发布,这个版本将whisper.cpp内置到了audio filter。最新版本的ffmpeg默认支持whisper模块。以下是模块的可选参数,参数之间用:分隔,用=设置值。例如 :vad_threshold=0.3。推荐使用mp3格式 ,mp3格式的生成的文字有标点符号,wav格式的没有标点符号。

时间:09/27/2025

funasr开启ssl

funasr开启ssl

全网都在教你关闭ssl 如果您想关闭ssl,增加参数:–certfile 0 但是当你遇上需要安全要求的时候帮你少走坑!本博客的是在你已经通过docker 部署funasr 且 ws可以正常访问条件下进行ssl证书你有买的可以直接使用 如果没有 就自己生成一个免费的 参考博客。

时间:09/16/2025

多模态学习双核引擎对齐建立连接,融合释放价值

多模态学习双核引擎对齐建立连接,融合释放价值

本文解析多模态学习的两大核心挑战。多模态对齐需建立跨模态语义对应,如将图像像素与文字描述关联,通过对比学习和共享表征空间实现。多模态融合则关注信息整合,分为早期融合(直接混合)、晚期融合(独立处理再结合)和交叉融合(动态交互),各有优劣。Transformer架构因其统一Token表示、自注意力机制和位置编码优势,成为多模态学习的主流框架。未来趋势将向更深度的语义理解和动态交互发展,推动AI实现更自然的"多感官协同"能力。

时间:09/10/2025

现代农业自动化的技术演进与应用

现代农业自动化的技术演进与应用

农业自动化依赖多源传感网络(如土壤湿度、光照、温湿度传感器)实时采集环境数据,结合气象预报和作物生长模型,通过云端或边缘计算平台(如AI芯片)进行数据分析,自动生成灌溉、施肥或病虫害防治决策。现代农业自动化是农业现代化的核心驱动力,通过集成传感器、人工智能、机器人及物联网技术,实现生产全流程的精准化、智能化和高效化,彻底重塑传统农业生产模式。自动化技术显著减少农药、化肥和水的浪费(节水量可达30%以上),降低人工依赖,同时通过标准化生产提升农产品品质与产量。1. 智能感知与决策系统。5. 可持续发展贡献。

时间:09/09/2025

Balabolka免费高效的文字转语音软件

Balabolka免费高效的文字转语音软件

Balabolka 是一款免费的 TTS(文字转语音)软件,能够将文本转换成语音,支持多种语言和声音,包括英语、西班牙语、法语、德语、俄语等。Balabolka 提供了强大的文本转语音功能,用户可以将文本文件(如 TXT、PDF、DOC 等)导入软件,软件会自动将文本转换成语音并播放。Balabolka 提供了丰富的自定义设置选项,用户可以根据自己的需求调整语音的速度、音调和音量,确保语音的自然流畅。软件内置了一些基本的语音库,用户也可以下载和安装第三方语音库,进一步扩展语音库的选择范围。

时间:09/07/2025

AI配音工具哪个好用7款热门配音软件推荐指南

AI配音工具哪个好用7款热门配音软件推荐指南

如今的短视频领域里,不少博主创作内容时都会选择配音软件代替自己发声 —— 这点在影视解说类视频中尤为突出。有时候,这些软件生成的声音逼真到让人误以为是博主原声,想必大家也会好奇:到底是哪些AI配音工具,能让新媒体博主们如此青睐?今天就推荐7款热门的配音软件,从速度,核心优势测评,让你能更快的找到适合自己的配音软件!

时间:09/05/2025

构建免费的音视频转文字工具支持多语言的语音识别项目

构建免费的音视频转文字工具支持多语言的语音识别项目

在当今数字时代,音视频内容越来越多,但如何快速将其转换为文字一直是一个挑战。本项目提供了一个免费的解决方案,支持将视频和音频文件转换为文字,并且支持多语言识别。一个支持中英文的音视频转文字工具,集成了 Vosk(离线)和 Whisper(在线)双引擎,可以将视频(mp4/mov)和音频(wav)转换为文字,并自动生成带时间戳的字幕文件。是一个用于Adobe Premiere Pro的插件,它可以将视频和语音转换为自动字幕文本。

时间:08/29/2025

Whisper-JAX突破性实时语音识别加速框架,性能提升70倍的开源解决方案

Whisper-JAX突破性实时语音识别加速框架,性能提升70倍的开源解决方案

摘要:WhisperJAX是基于Google JAX优化的高性能语音识别框架,相比原版Whisper实现了70倍性能提升。该方案支持99种语言识别,具备自动语言检测功能,通过JIT编译和内存优化技术,在单GPU上可分钟级处理数小时音频。其核心优势包括批量处理、分布式计算和GPU加速,特别适合企业级会议转录、媒体字幕生成等场景。作为MIT许可的开源项目,WhisperJAX在保持95%+准确率的同时显著降低硬件成本,是目前最具性价比的语音识别解决方案之一。

时间:08/27/2025

从音频前端到大模型协同一个完整AI语音系统的实现

从音频前端到大模型协同一个完整AI语音系统的实现

传统云端语音交互面临网络延迟、隐私安全、弱网依赖和运营成本四大痛点。AT-AI-002采用端云混合架构,将实时性任务(如唤醒、降噪)部署在端侧,复杂推理交由云端处理。硬件层采用高精度音频采集和Wi-Fi6通信;端侧实现声学回声消除和实时打断;云端聚合多模型支持智能扩展。典型交互流程可在600ms内完成,实现自然流畅的"随时打断"体验。该方案为开发者提供开箱即用的语音交互方案,通过端云协同平衡性能与成本,成为下一代高可信人机交互的实践范本。

时间:08/26/2025

大模型进阶四QWen模型架构的解读

大模型进阶四QWen模型架构的解读

Qwen 系列基于Transformer 架构,主要采用解码器-only(Decoder-only)的因果语言模型(Causal Language Model, CLM)设计,专注于自回归任务(如下一词预测)。密集(Dense)模型和专家混合(Mixture-of-Experts, MoE)模型,以下分别介绍。

时间:07/23/2025

豆包大模型-语音实时通话-青青-服务器ECS踩坑过程

豆包大模型-语音实时通话-青青-服务器ECS踩坑过程

这款实时语音通话应用,依托豆包语音系列大模型打造。在这里,用户能与虚拟好友乔青青展开模拟通话,畅享真实的交流体验。乔青青(Doreen),一位 20 岁的射手座新闻传播专业学生,性格率真爽朗、成绩优异,对追星、旅游、唱歌、摄影充满热情。无论是分享日常琐事,还是深入探讨趣味话题,她都能成为你的理想伙伴。而且,用户还能根据喜好,自由选择青青的音色,从清脆甜美的少女音,到活力满满的灵动嗓音,为这场交流增添更多个性化色彩。想认识这位多才多艺、热情开朗的青青吗?

时间:03/14/2025

智能电话机器人的技术原理是什么AI语音机器人评判标准是什么

智能电话机器人的技术原理是什么AI语音机器人评判标准是什么

例如,在客服场景中,系统需区分“查询订单”与“投诉处理”的不同意图,并调用相应数据库或API完成交互。现代TTS系统(如WaveNet、Tacotron)利用神经网络模拟人类发音特点,支持多语种、多情感语调的输出,提升对话真实感,欢迎和博主一起交流学习技术问题。如今智能语音设备或者机器人很多,如智能手机,个人助理,交互式语音应答,语音机器人,在生活中很常见,表现都让人惊喜,他们工作原理也大致相同。在商业场景中,最终评判需结合业务指标,例如电销机器人的成单率、客服机器人的问题解决率等。

时间:03/14/2025

外呼系统破局电话管控AI电销机器人合规运营实战指南

外呼系统破局电话管控AI电销机器人合规运营实战指南

随着运营商对电话卡管控日趋严格,某金融科技公司曾因单日外呼超限导致80%号码被封——这一案例暴露出AI电销机器人在效率与合规间的矛盾。但数据显示,采用合规策略的企业外呼接通率仍能保持38%以上,关键在于建立适配监管环境的智能外呼体系。

时间:03/14/2025

智能血糖仪语音提示播报-高品质音质WT2003H芯片方案

智能血糖仪语音提示播报-高品质音质WT2003H芯片方案

 血糖仪的主要用户群体多为中老年人,他们中的很多人视力有所下降,查看血糖仪屏幕上的数据可能存在困难。血糖仪可以通过置入语音芯片,实现语音播报、判断是否属于正常值,从而帮助用户更好地了解自身血糖状况。同时设备的智能化水平有利于提升用户体验,也让产品的市场推广更便捷。

时间:03/13/2025

上一页
123
下一页第 1 / 3 页