TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 79 篇文章
多模态大模型实战从零实现CLIP与电商跨模态检索系统

多模态大模型实战从零实现CLIP与电商跨模态检索系统

本文将撕开多模态大模型的技术面纱,完全从零实现OpenAICLIP架构,并构建一个支持千万级商品的电商跨模态检索系统。完整代码涵盖VisionTransformer图像编码器、Transformer文本编码器、对比学习损失函数等核心模块,提供海量商品数据增强策略、难负样本挖掘、混合精度训练等生产级优化。实测在Product10K数据集上零样本检索Recall@1达0.823,微调后提升至0.967,延迟控制在15ms以内。

时间:12/21/2025

即插即用系列-CVPR-2024-RMT既要全局感受野,又要-CNN-的局部性一种拥有显式空间先验的线性-Transformer

即插即用系列-CVPR-2024-RMT既要全局感受野,又要-CNN-的局部性一种拥有显式空间先验的线性-Transformer

本文提出RMT(RetentiveMaskTransformer),一种结合RetentiveNetwork与VisionTransformer优势的视觉骨干网络。RMT通过曼哈顿距离构建2D空间衰减机制,在保持Transformer全局建模能力的同时引入CNN的平移不变性,并实现线性计算复杂度。核心创新包括:1)将1D衰减扩展为2D空间先验;2)通过轴向分解实现高效计算;3)动态衰减率调整感受野。实验表明,RMT在ImageNet分类、COCO检测等任务上性能优于SwinTransformer和

时间:12/21/2025

计算机视觉19语义理解-CNN应用_目标检测_语义分割

计算机视觉19语义理解-CNN应用_目标检测_语义分割

【计算机视觉(19)】语义理解-CNN应用_目标检测_语义分割

时间:12/18/2025

深度学习图像处理3-二阶段目标检测

深度学习图像处理3-二阶段目标检测

随着深度学习模型效果的优化,基于深度学习的目标检测算法盖过了传统计算机视觉中的目标检测算(DPM),从而导致很多之前研究传统目标检测算法的人员转向深度学习,并且现在工业界中应用最多的目标检测方式以深度学习为主。其中R-CNN是奠定深度学习方向发展目标检测的的基础算法,是第一个真正可以工业级应用的目标检测解决方案,是结合区域提名(RegionProposal)和卷积神经网络(CNN)的一种目标检测算法。

时间:12/16/2025

SemOD基于语义增强的多天气条件目标检测网络

SemOD基于语义增强的多天气条件目标检测网络

在自动驾驶领域,基于摄像头的感知模型大多在晴朗天气数据上进行训练。专注于解决特定天气挑战的模型无法适应各种天气变化,且主要优先考虑其天气去除特性。我们的研究引入了一种用于多天气条件下目标检测的语义增强网络。在我们的分析中,语义信息可以使模型为缺失区域生成合理内容,理解目标边界,并在图像的填充和现有部分之间保持视觉连贯性和真实性,这有利于图像转换和目标识别。

时间:12/11/2025

多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

AI视频识别系统助力门店环境管理智能化升级。通过构建环境神经网络,系统实现96.8%精度的实时指标监测,3秒内触发自动化干预,形成闭环管理。180天实测数据显示,维护成本降低58%,安全事故减少79%,响应效率提升93%。该系统将门店环境管理从被动应对转变为主动优化,使清洁工作转化为提升顾客体验和经营效率的核心竞争力。

时间:12/09/2025

农田植被目标检测数据标注与模型训练总结2

农田植被目标检测数据标注与模型训练总结2

针对该问题,在训练参数中对含空格的路径添加英文双引号包裹,确保路径作为一个整体被脚本正确解析,最终解决参数解析异常问题。2.格式适配环节:由于YOLOv5模型仅支持TXT格式的标签输入(要求包含归一化坐标与类别索引),针对JSON标签格式不兼容的问题,编写自定义转换脚本,实现JSON标签中像素坐标到归一化坐标的自动换算、类别名称到索引的映射,同时完成格式结构的批量转换,确保转换后的JSON标签完全符合YOLOv5模型的输入规范,无坐标越界、索引错误等问题。

时间:12/04/2025

宝藏数据集MCOD多光谱伪装目标检测首个挑战性基准

宝藏数据集MCOD多光谱伪装目标检测首个挑战性基准

摘要:北京理工大学团队发布了首个多光谱伪装目标检测基准数据集MCOD,被ACMMM'25收录。该数据集突破了传统RGB单模态限制,融合多光谱信息提升目标检测性能,包含多样真实场景、像素级标注及挑战属性标签。下载链接已备份至网盘(提取码x24x),适用于学术研究(CCBY-NC-ND4.0协议)。相关论文及源码可在ACM和GitHub获取。

时间:12/04/2025

吴恩达机器学习2022-Course1-Week3分类问题

吴恩达机器学习2022-Course1-Week3分类问题

吴恩达机器学习2022--Course1--Week3(分类问题)

时间:12/03/2025

每天一个AI小知识什么是目标检测

每天一个AI小知识什么是目标检测

目标检测是计算机视觉的核心任务,能识别图像中的目标类别并定位其位置。技术发展经历了传统方法(如HOG特征)、两阶段检测器(如R-CNN系列)和单阶段检测器(如YOLO系列)三个阶段。现代目标检测技术广泛应用于安防监控、自动驾驶、医疗影像等领域,但仍面临小目标检测、遮挡问题等挑战。评估指标主要包括mAP和FPS,未来发展将聚焦Transformer应用、自监督学习等技术突破。该技术不仅提升了机器视觉能力,也需平衡速度与精度,并考量隐私保护等伦理问题。

时间:11/30/2025

即插即用系列-TCSVT-2025-PG-DRFNet基于位置引导与动态感知卷积的遥感小目标检测

即插即用系列-TCSVT-2025-PG-DRFNet基于位置引导与动态感知卷积的遥感小目标检测

本文提出了一种位置引导的动态感受野网络(PG-DRFNet),用于解决光学和SAR遥感图像中小目标检测的难题。该方法通过位置引导模块(PGM)将浅层网络中的小目标位置信息传递至深层,防止特征淹没;并采用动态感知卷积(DPC)自适应调整感受野形状,精准提取多尺度目标特征。配合组合检测头的辅助监督机制,该网络在多个数据集上达到SOTA性能。核心模块具有即插即用特性,可广泛应用于小目标检测任务。代码已开源。

时间:11/27/2025

红外小目标检测实战Yolov11加入SPDConv,HDC,ART等模块

红外小目标检测实战Yolov11加入SPDConv,HDC,ART等模块

本文针对红外微小目标检测中传统下采样方法导致的信息丢失问题,提出结合SPDConv和HDC的优化方案。SPDConv通过空间到深度转换替代传统下采样,在减少分辨率的同时保留更多特征信息。实验结果显示,优化后模型参数量从19M降至6.9M,召回率从0.59提升至0.75,准确率也略有提高,但距离0.9的目标仍有差距。虽然改进效果有限,但验证了SPDConv在保留微小目标特征方面的潜力。

时间:11/21/2025

完整源码数据集中药材数据集,yolov8中药分类检测数据集-9709-张,中药材分类识别数据集,中药材识别系统实战教程

完整源码数据集中药材数据集,yolov8中药分类检测数据集-9709-张,中药材分类识别数据集,中药材识别系统实战教程

【完整源码+数据集】中药材数据集,yolov8中药分类检测数据集9709张,中药材分类识别数据集,中药材识别系统实战教程,目标检测,包含YOLO/VOC格式标注,训练、验证、测试集已划分。数据集中标签包含50种分类,代表人参,水蛭,大枣,百合,黄连,乌梅,厚朴,牡蛎,海马,罗汉果,甘草,三七,通草等等。检测场景为药田、药材市场、药材加工厂、药材仓储等场景,可用于药材种植环节精准管控、采收分拣提质增效、市场流通质量把关、药材仓储安全动态监测等。基于YOLOv8的中药材检测系统实战详细步骤。

时间:11/19/2025

无人机方面数据集目标检测分割分类数据集汇总介绍

无人机方面数据集目标检测分割分类数据集汇总介绍

它有效地弥补了该领域高质量公共数据的不足,为开发更鲁棒、更智能的无人机视觉感知系统奠定了坚实的数据基础,是相关领域学者和工程师一个非常有价值的资源。该项目由研究者futureflsl创建和维护,汇集了多个具有针对性的子数据集,覆盖了目标检测、跟踪、语义分割等多个核心任务。这一视角带来了独特的挑战,如小目标检测、目标外观的剧烈变化等,使其成为开发和评估无人机专用视觉算法的理想测试平台。:该项目明确面向学术界,为研究人员,特别是在目标检测、多目标跟踪和无人机感知领域的研究者,提供了一个标准化的基准数据集。

时间:11/19/2025

扑灭斗殴的火苗AI智能守护如何为校园安全保驾护航

扑灭斗殴的火苗AI智能守护如何为校园安全保驾护航

AI智能守护系统通过多模态感知技术(视觉+音频)和强化学习算法,实现校园斗殴预警准确率90%,将响应时间压缩至秒级。系统实时监测异常聚集和高风险行为,结合音频分析识别冲突苗头,触发即时预警并形成完整证据链。应用后校园暴力事件减少30%,不仅提升安防效率,更推动从被动处置转向主动预防,同时为法治教育提供数据支持,重塑安全校园生态。这套方案以技术创新解决了传统监控滞后和人力不足的痛点,为师生构建全天候智能防护网。

时间:11/10/2025

完整源码数据集草莓数据集,yolov8草莓成熟度检测数据集-3207-张,草莓成熟度数据集,目标检测草莓识别算法系统实战教程

完整源码数据集草莓数据集,yolov8草莓成熟度检测数据集-3207-张,草莓成熟度数据集,目标检测草莓识别算法系统实战教程

【完整源码+数据集】草莓数据集,yolov8草莓成熟度检测数据集3207张,草莓成熟度数据集,目标检测草莓识别算法系统实战教程,包含YOLO/VOC格式标注,训练、验证、测试集已划分。数据集中标签包含2种分类:names:['ripe','unripe']​​​​​​​,代表成熟草莓​、未成熟草莓。检测场景为果园、山庄、大棚、水果加工厂等场景,可用于草莓精准采收指导、种植管理优化、病虫害间接预警、采后分拣辅助等。基于yolov8的草莓成熟度实时检测系统实战详细教程。

时间:11/08/2025

数据集完整源码马数据集,马行为状态识别数据集-3006-张,yolov8目标检测牧场草原马识别算法实战训推教程

数据集完整源码马数据集,马行为状态识别数据集-3006-张,yolov8目标检测牧场草原马识别算法实战训推教程

【数据集+完整源码】马数据集,马行为状态识别数据集3006张,yolov8目标检测牧场草原马识别算法实战训推教程,包含YOLO/VOC格式标注。数据集中包含1种分类:names:['Horse'],代表马。可用于无人机马识别,监控马行为状态检测等。检测场景为草原、牧场、饲养场、马厩、马术赛场等场景,可用于马场养殖健康管理​、马术运动训练辅助、野外马群保护监测、牧区道路安全预警​等。基于yolov8的马行为状态检测系统详细步骤,前后端分离。

时间:11/05/2025

深入级联不稳定性从-Lipschitz-连续性视角探讨图像恢复与目标检测的协同作用

深入级联不稳定性从-Lipschitz-连续性视角探讨图像恢复与目标检测的协同作用

为了提高检测器在恶劣条件(例如,雾霾和低光照)下的鲁棒性,通常将图像恢复作为预处理步骤,以增强图像质量供检测器使用。然而,恢复网络与检测网络之间的功能不匹配会引入不稳定性,并阻碍有效的集成——这一问题尚未得到充分探索。我们通过Lipschitz连续性的视角重新审视这一局限性,分析了恢复网络和检测网络在输入空间和参数空间中的功能差异。我们的分析表明,恢复网络执行平滑、连续的变换,而目标检测器则具有不连续的决策边界,对微小扰动高度敏感。这种不匹配在传统的级联框架中引入了不稳定性,其中来自恢复过程的即使不可察

时间:11/03/2025

目标检测数据集路面裂缝检测数据集

目标检测数据集路面裂缝检测数据集

地面裂缝检测数据集

时间:11/03/2025

第162期-自定义目标检测的-YOLO-微调完整指南

第162期-自定义目标检测的-YOLO-微调完整指南

摘要:本文提供了一份完整的YOLO模型微调指南,适用于自定义目标检测任务。内容涵盖数据集结构搭建(含YAML配置文件)、数据验证与预处理方法,以及核心代码模块实现,包括数据集验证、验证集生成和模型训练流程。通过PyTorch框架和UltralyticsYOLO工具包,用户可调整超参数(如学习率、批次大小)训练模型,并保存优化结果。文中还强调了GPU加速训练和结果可复现性,适合需要快速部署定制化目标检测模型的开发者参考。

时间:11/03/2025

目标检测算法与原理二Tensorflow实现迁移学习

目标检测算法与原理二Tensorflow实现迁移学习

在TensorFlow2.x中,Keras成为首选的高级API。Backbone构建:使用中的预训练模型(如ResNet50)作为特征提取器。层和损失函数:自定义RPN、RoIPooling/Align、边界框回归损失(如SmoothL1)和分类损失(如交叉熵)。目标检测是计算机视觉的核心,其算法从早期的两阶段模型(如FasterR-CNN)发展到快速的一阶段模型(如YOLO、SSD),实现了速度与精度的平衡。TensorFlow提供了强大的API和预训练模型,极大地降低了开发门槛。

时间:11/02/2025

把AI灌进奶瓶1KB决策树让婴儿温奶器自己学会恒温计时

把AI灌进奶瓶1KB决策树让婴儿温奶器自己学会恒温计时

本文介绍了一种基于极值4bit决策树的智能婴儿温奶器方案。通过将1KB轻量化模型(512B决策树+512B状态表)嵌入RISC-V芯片,实现了±0.5℃恒温精度、5s计时误差和0.06mJ/次的超低功耗(CR2032电池续航>18个月)。创新性地采用4bit极值特征量化(温度、升温速率等5维数据)和状态机查表机制,完全避免了浮点运算和乘法操作。硬件平台采用CH32V203芯片(256KBFlash/8KBRAM),配合NTC热敏、应变传感器等多模态输入。

时间:11/01/2025

合成孔径雷达SAR及其信号处理一文读懂,从类比到原理

合成孔径雷达SAR及其信号处理一文读懂,从类比到原理

SAR是一种通过平台运动合成大口径天线实现高分辨率成像的雷达系统。它利用微波穿透云层,可全天候工作,通过多普勒效应和相位信息提高方位分辨率。关键技术包括距离和方位向的脉冲压缩、多普勒频移校正(RCMC)以及匹配滤波处理。SAR成像模式多样,如条带、聚束和扫描模式,适用于灾害监测、农业评估等场景。图像质量受运动补偿、地形校正和斑点噪声抑制等因素影响。其核心原理是以时间换取空间,通过合成孔径技术获得远超物理天线尺寸的分辨能力。

时间:10/30/2025

极化雷达及其信号处理原理综述

极化雷达及其信号处理原理综述

极化雷达通过正交极化通道收发信号,实现对目标散射机理的精细刻画。文章系统介绍了极化雷达的基本原理与信号处理方法:1)基于琼斯向量和斯托克斯参量描述电磁波极化特性,建立散射矩阵与互易性模型;2)提出系统测量模型,包括通道不平衡与串扰建模、距离匹配滤波与多普勒处理;3)建立统计模型框架,包括复高斯分布和复Wishart分布;4)阐述目标分解方法,如特征分解获取散射熵和各向异性参数,以及三组分功率分解模型;5)讨论极化检测中的白化匹配滤波等关键技术。该综述全面涵盖了极化雷达从基础理论到信号处理的核心内容。

时间:10/30/2025

上一页
1234
下一页第 1 / 4 页