首页分类标签搜索关于

← 返回标签列表

加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 54 篇文章

多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

AI视频识别系统助力门店环境管理智能化升级。通过构建环境神经网络，系统实现96.8%精度的实时指标监测，3秒内触发自动化干预，形成闭环管理。180天实测数据显示，维护成本降低58%，安全事故减少79%，响应效率提升93%。该系统将门店环境管理从被动应对转变为主动优化，使清洁工作转化为提升顾客体验和经营效率的核心竞争力。

时间：12/09/2025

FunASR情绪识别教程基于-emotion2vec-large-的本地语音情绪识别实战

FunASR情绪识别教程基于-emotion2vec-large-的本地语音情绪识别实战

摘要：本文介绍了一个基于FunASR的语音情绪识别项目，使用emotion2vec_plus_large模型实现9类情绪分类。系统可处理本地单条wav音频，输出包括愤怒、开心、悲伤等情绪的概率分布及Top-1结果，并自动保存JSON格式的识别结果。文章详细说明了环境配置、依赖安装和核心代码实现，通过AutoModel封装实现从音频输入到情绪分析的完整流程。该项目特别强调语音情绪识别在AI交互中的重要性，为后续集成到机器人系统提供了基础方案。

时间：12/05/2025

国产32位MCU语音识别方案

国产32位MCU语音识别方案

摘要：国产32位MCUCH32V307为离线语音识别提供高效解决方案。该芯片采用RISC-V内核，支持向量指令集，可运行轻量级AI模型，实现快速准确的离线识别。内置运放和ADC简化外围电路，支持I2S接口扩展音频功能。方案支持离线指令识别，也可扩展为在线系统，适用于家电、工业设备等多种场景。英尚微电子提供相关产品服务。

时间：12/04/2025

用深度学习实现语音识别系统

用深度学习实现语音识别系统

语言模型概率加权公式：[\logP_{\text{total}}(y|x)=\logP_{\text{AM}}(y|x)+\lambda\logP_{\text{LM}}(y)+\gamma|y|]其中λ控制语言模型权重，γ调节输出长度惩罚。评估指标使用词错误率(WER)：[\text{WER}=\frac{S+D+I}{N}\times100%]S为替换错误数，D为删除错误数，I为插入错误数，N为参考文本总词数。标准化操作需对特征进行均值方差归一化。

时间：12/03/2025

论文笔记-基于-LSTM-的端到端视觉语音识别-End-to-End-Visual-Speech-Recognition-with-LSTMs

论文笔记-基于-LSTM-的端到端视觉语音识别-End-to-End-Visual-Speech-Recognition-with-LSTMs

这篇文章是端到端唇读领域的经典之作。它没有使用复杂的3D-CNN，而是巧妙地利用双流架构（Raw+Diff）结合LSTM/BLSTM，在2017年就实现了从像素到语义的端到端识别。对于后续研究，其最大的借鉴意义在于：**如何显式地让网络同时关注“形状”和“运动”**。

时间：12/03/2025

JavaScript语音识别案例

JavaScript语音识别案例

首先，我们创建一个SpeechRecognition对象，设置一些参数，比如是否连续识别（continuous）、是否返回中间结果（interimResults），以及语言（lang）。代码扩展一下，就能支持更复杂的场景，比如语音命令控制视频播放（“播放”、“暂停”），或者语音填写表单。比如，语音识别的准确性受环境噪音影响，你可能需要添加一些预处理逻辑，比如在识别前提示用户保持安静。还有，语言设置很重要，如果你面向全球用户，可以动态切换lang参数，比如根据用户浏览器语言自动调整。

时间：11/20/2025

JavaScript语音识别开发

JavaScript语音识别开发

我刚开始试的时候，在Chrome上跑得挺顺，但一到其他浏览器就报错，后来才发现得加个兼容性判断。移动端上，Android的Chrome支持挺好，但iOS的Safari有时候会抽风，识别延迟比较高。另外，API的识别引擎依赖云端服务，所以得注意隐私问题，如果涉及敏感信息，最好提示用户数据会上传处理。这段代码基本能跑起来，但实际用的时候，你会发现不少细节得优化。比如，用户说话过程中，如果网络不稳或者环境噪音大，识别准确率会打折扣。这时候，就得考虑加个预处理，比如用噪声抑制库，或者引导用户在有安静环境时使用。

时间：11/20/2025

Whisper模型在RTranslator中的实时语音识别优化动态资源分配与负载均衡

Whisper模型在RTranslator中的实时语音识别优化动态资源分配与负载均衡

通过动态资源调度与智能负载均衡，可显著提升Whisper模型在实时翻译场景中的稳定性和响应速度，同时降低约40%的运营成本。$$\text{优化前}\rightarrow\text{优化后}$$

时间：10/27/2025

调用百度云语音识别服务实现c接口识别语音

调用百度云语音识别服务实现c接口识别语音

client是语音识别的C++客户端，为使用语音识别的开发人员提供了一系列的交互方法。百度云语音识别 API 提供了稳定、高效的语音转文字能力，本文将以。是在创建完毕应用后，系统分配给用户的，均为字符串，用于标识用户，为访问做签名验证，可在AI服务控制台中的。建议使用简单的SDK调用，再百度云官方下载即可。为例，手把手教你用 C++ 实现调用，从前期准备到代码落地，每一步都清晰可操作。在写代码前，我们需要完成百度云账号配置和开发环境准备，这是调用 API 的基础。在百度云控制台中创建，常量。

时间：10/22/2025

Whisper推理源码解读

Whisper推理源码解读

Whisper是一个由OpenAI开发的自动语音识别（ASR）系统，在多语言环境和嘈杂背景下的语音识别任务中表现出色。多语言支持：Whisper被设计为一个多语言模型，能够理解和转录多种语言的语音，包括但不限于英语、中文、阿拉伯语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语和土耳其语等。鲁棒性：Whisper在处理各种噪声环境下的语音信号方面表现出鲁棒性，这意味着即使在背景噪音较大的情况下，它也能够准确识别和转录语音。

时间：10/06/2025

使用ffmpeg8.0的whisper模块语音识别

使用ffmpeg8.0的whisper模块语音识别

但是经过测试，都使用ggml-medium.bin模型的情况下，识别效果不如先使用ffmpeg提取音频生成mp3文件，再使用whisper-cli.exe生成字幕文件。2025年9月ffmpeg8.0发布，这个版本将whisper.cpp内置到了audio filter。最新版本的ffmpeg默认支持whisper模块。以下是模块的可选参数，参数之间用：分隔，用=设置值。例如 :vad_threshold=0.3。推荐使用mp3格式，mp3格式的生成的文字有标点符号，wav格式的没有标点符号。

时间：09/27/2025

funasr开启ssl

funasr开启ssl

全网都在教你关闭ssl 如果您想关闭ssl，增加参数：–certfile 0 但是当你遇上需要安全要求的时候帮你少走坑！本博客的是在你已经通过docker 部署funasr 且 ws可以正常访问条件下进行ssl证书你有买的可以直接使用如果没有就自己生成一个免费的参考博客。

时间：09/16/2025

多模态学习双核引擎对齐建立连接,融合释放价值

多模态学习双核引擎对齐建立连接,融合释放价值

本文解析多模态学习的两大核心挑战。多模态对齐需建立跨模态语义对应，如将图像像素与文字描述关联，通过对比学习和共享表征空间实现。多模态融合则关注信息整合，分为早期融合（直接混合）、晚期融合（独立处理再结合）和交叉融合（动态交互），各有优劣。Transformer架构因其统一Token表示、自注意力机制和位置编码优势，成为多模态学习的主流框架。未来趋势将向更深度的语义理解和动态交互发展，推动AI实现更自然的&quot;多感官协同&quot;能力。

时间：09/10/2025

现代农业自动化的技术演进与应用

现代农业自动化的技术演进与应用

农业自动化依赖多源传感网络（如土壤湿度、光照、温湿度传感器）实时采集环境数据，结合气象预报和作物生长模型，通过云端或边缘计算平台（如AI芯片）进行数据分析，自动生成灌溉、施肥或病虫害防治决策。现代农业自动化是农业现代化的核心驱动力，通过集成传感器、人工智能、机器人及物联网技术，实现生产全流程的精准化、智能化和高效化，彻底重塑传统农业生产模式。自动化技术显著减少农药、化肥和水的浪费（节水量可达30%以上），降低人工依赖，同时通过标准化生产提升农产品品质与产量。1. 智能感知与决策系统。5. 可持续发展贡献。

时间：09/09/2025

Balabolka免费高效的文字转语音软件

Balabolka免费高效的文字转语音软件

Balabolka 是一款免费的 TTS（文字转语音）软件，能够将文本转换成语音，支持多种语言和声音，包括英语、西班牙语、法语、德语、俄语等。Balabolka 提供了强大的文本转语音功能，用户可以将文本文件（如 TXT、PDF、DOC 等）导入软件，软件会自动将文本转换成语音并播放。Balabolka 提供了丰富的自定义设置选项，用户可以根据自己的需求调整语音的速度、音调和音量，确保语音的自然流畅。软件内置了一些基本的语音库，用户也可以下载和安装第三方语音库，进一步扩展语音库的选择范围。

时间：09/07/2025

AI配音工具哪个好用7款热门配音软件推荐指南

AI配音工具哪个好用7款热门配音软件推荐指南

如今的短视频领域里，不少博主创作内容时都会选择配音软件代替自己发声 —— 这点在影视解说类视频中尤为突出。有时候，这些软件生成的声音逼真到让人误以为是博主原声，想必大家也会好奇：到底是哪些AI配音工具，能让新媒体博主们如此青睐？今天就推荐7款热门的配音软件，从速度，核心优势测评，让你能更快的找到适合自己的配音软件！

时间：09/05/2025

构建免费的音视频转文字工具支持多语言的语音识别项目

构建免费的音视频转文字工具支持多语言的语音识别项目

在当今数字时代，音视频内容越来越多，但如何快速将其转换为文字一直是一个挑战。本项目提供了一个免费的解决方案，支持将视频和音频文件转换为文字，并且支持多语言识别。一个支持中英文的音视频转文字工具，集成了 Vosk（离线）和 Whisper（在线）双引擎，可以将视频（mp4/mov）和音频（wav）转换为文字，并自动生成带时间戳的字幕文件。是一个用于Adobe Premiere Pro的插件，它可以将视频和语音转换为自动字幕文本。

时间：08/29/2025

Whisper-JAX突破性实时语音识别加速框架,性能提升70倍的开源解决方案

Whisper-JAX突破性实时语音识别加速框架,性能提升70倍的开源解决方案

摘要：WhisperJAX是基于Google JAX优化的高性能语音识别框架，相比原版Whisper实现了70倍性能提升。该方案支持99种语言识别，具备自动语言检测功能，通过JIT编译和内存优化技术，在单GPU上可分钟级处理数小时音频。其核心优势包括批量处理、分布式计算和GPU加速，特别适合企业级会议转录、媒体字幕生成等场景。作为MIT许可的开源项目，WhisperJAX在保持95%+准确率的同时显著降低硬件成本，是目前最具性价比的语音识别解决方案之一。

时间：08/27/2025

从音频前端到大模型协同一个完整AI语音系统的实现

从音频前端到大模型协同一个完整AI语音系统的实现

传统云端语音交互面临网络延迟、隐私安全、弱网依赖和运营成本四大痛点。AT-AI-002采用端云混合架构，将实时性任务（如唤醒、降噪）部署在端侧，复杂推理交由云端处理。硬件层采用高精度音频采集和Wi-Fi6通信；端侧实现声学回声消除和实时打断；云端聚合多模型支持智能扩展。典型交互流程可在600ms内完成，实现自然流畅的&quot;随时打断&quot;体验。该方案为开发者提供开箱即用的语音交互方案，通过端云协同平衡性能与成本，成为下一代高可信人机交互的实践范本。

时间：08/26/2025

大模型进阶四QWen模型架构的解读

大模型进阶四QWen模型架构的解读

Qwen 系列基于Transformer 架构，主要采用解码器-only（Decoder-only）的因果语言模型（Causal Language Model, CLM）设计，专注于自回归任务（如下一词预测）。密集（Dense）模型和专家混合（Mixture-of-Experts, MoE）模型，以下分别介绍。

时间：07/23/2025

豆包大模型-语音实时通话-青青-服务器ECS踩坑过程

豆包大模型-语音实时通话-青青-服务器ECS踩坑过程

这款实时语音通话应用，依托豆包语音系列大模型打造。在这里，用户能与虚拟好友乔青青展开模拟通话，畅享真实的交流体验。乔青青（Doreen），一位 20 岁的射手座新闻传播专业学生，性格率真爽朗、成绩优异，对追星、旅游、唱歌、摄影充满热情。无论是分享日常琐事，还是深入探讨趣味话题，她都能成为你的理想伙伴。而且，用户还能根据喜好，自由选择青青的音色，从清脆甜美的少女音，到活力满满的灵动嗓音，为这场交流增添更多个性化色彩。想认识这位多才多艺、热情开朗的青青吗？

时间：03/14/2025

智能电话机器人的技术原理是什么AI语音机器人评判标准是什么

智能电话机器人的技术原理是什么AI语音机器人评判标准是什么

例如，在客服场景中，系统需区分“查询订单”与“投诉处理”的不同意图，并调用相应数据库或API完成交互。现代TTS系统（如WaveNet、Tacotron）利用神经网络模拟人类发音特点，支持多语种、多情感语调的输出，提升对话真实感，欢迎和博主一起交流学习技术问题。如今智能语音设备或者机器人很多，如智能手机，个人助理，交互式语音应答，语音机器人，在生活中很常见，表现都让人惊喜，他们工作原理也大致相同。在商业场景中，最终评判需结合业务指标，例如电销机器人的成单率、客服机器人的问题解决率等。

时间：03/14/2025

外呼系统破局电话管控AI电销机器人合规运营实战指南

外呼系统破局电话管控AI电销机器人合规运营实战指南

随着运营商对电话卡管控日趋严格，某金融科技公司曾因单日外呼超限导致80%号码被封——这一案例暴露出AI电销机器人在效率与合规间的矛盾。但数据显示，采用合规策略的企业外呼接通率仍能保持38%以上，关键在于建立适配监管环境的智能外呼体系。

时间：03/14/2025

智能血糖仪语音提示播报-高品质音质WT2003H芯片方案

智能血糖仪语音提示播报-高品质音质WT2003H芯片方案

血糖仪的主要用户群体多为中老年人，他们中的很多人视力有所下降，查看血糖仪屏幕上的数据可能存在困难。血糖仪可以通过置入语音芯片，实现语音播报、判断是否属于正常值，从而帮助用户更好地了解自身血糖状况。同时设备的智能化水平有利于提升用户体验，也让产品的市场推广更便捷。

时间：03/13/2025

上一页

下一页第 1 / 3 页