TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

共 531 篇文章
2025年Sora类视频生成模型架构剖析时空编码与扩散机制

2025年Sora类视频生成模型架构剖析时空编码与扩散机制

综观2024–2025年的视频生成领域,Sora类模型在架构和理论上的核心突破可以概括为三点:第一,通过3DVAE或类似结构的“视频压缩网络”,将高维视频数据映射到紧凑的潜空间表示,在这一表示上进行扩散建模,使得超大规模视频生成成为可能;

时间:12/02/2025

碾压GPT-5,Qwen3-VL开源多模态新标杆99.5长视频定位准确率

碾压GPT-5,Qwen3-VL开源多模态新标杆99.5长视频定位准确率

在发布Qwen3-VL数月后,阿里巴巴近日发布了这款开源多模态模型的详细技术报告。数据显示,该系统在基于图像的数学任务上表现出色,并能分析数小时的视频内容。该模型可处理海量数据,在25.6万token的上下文窗口内,轻松处理两小时长的视频或数百页的文档。在“大海捞针”(needle-in-a-haystack)测试中,其旗舰版2350亿参数模型能在30分钟视频中以100%的准确率定位单个关键帧。即使在包含约100万tokens的两小时视频中,其准确率仍高达99.5%。

时间:12/01/2025

从帧到世界面向世界模型的长视频生成

从帧到世界面向世界模型的长视频生成

是一种,例如理解“抛球会落地”或“太阳东升西落”等常识。其技术本质是通过大量数据学习物理规律、因果关系和时空逻辑,形成兼具“认知”与“预测”能力的模型框架。不只是拼接现有素材,而是,自主生成连续且连贯的视频帧序列,核心在于保证画面在时间和空间上的一致性与连续性。当视频生成技术面向世界模型时,其目标就不再是单纯地制造画面,而是要求生成的内容必须契合世界模型对现实世界的认知逻辑。这意味着,以支撑世界模型进行更深入的推理与交互。

时间:11/25/2025

鸿蒙6开发视频播放器的屏幕方向适配问题

鸿蒙6开发视频播放器的屏幕方向适配问题

本文详细介绍了鸿蒙6开发中屏幕方向适配的实现方案。主要内容包括:1)屏幕方向的四种类型(竖屏、横屏及反向模式);2)静态配置方法,通过修改module.json5文件锁定基础方向;3)动态切换方案,包括创建方向工具类OrientationUtil实现方向设置与获取,以及在视频播放页面中实现横竖屏切换、全屏模式切换和方向锁定功能。文章提供了完整的代码示例,展示了如何监听屏幕方向变化并动态调整UI布局,为鸿蒙应用开发提供了实用的屏幕适配解决方案。

时间:11/25/2025

解决-AI-视频角色闪烁与时长限制基于即梦可灵的多模型-Pipeline-实战

解决-AI-视频角色闪烁与时长限制基于即梦可灵的多模型-Pipeline-实战

本文探讨了AIGC领域Text-to-Video技术面临的三大核心挑战:时序一致性、语义对齐和显存限制。针对当前视频大模型单次生成时长受限的问题,提出了一套模块化多模型协作的工程解决方案,通过资产冻结、动态生成、一致性控制和后处理四层架构,实现了长达23分钟的AI剧情长片制作。文章详细解析了角色一致性保障、首尾帧缝合技术、结构化Prompt管理等实战方法,并对比了端到端派与拼接派的技术路线差异。作者认为,当前阶段通过工程化中间层封装不确定性,比单纯追求大模型训练更具实用价值。

时间:11/24/2025

第二阶段Android音视频基础

第二阶段Android音视频基础

本文介绍了Android音视频开发基础,重点讲解MediaPlayer的使用方法。主要内容包括:MediaPlayer基础:将其比喻为CD播放机,详细解析其状态机和工作原理,强调正确状态转换的重要性。音频播放实现:本地音频播放:使用MediaPlayer.create()简化流程网络音频播放:异步准备避免阻塞UI线程关键注意事项:必须正确处理播放完成和错误回调需要及时释放资源避免内存泄漏确保在正确状态下调用相应方法核心功能:播放控制(开始/暂停)状态管理错误处理文章通过Kotlin

时间:11/23/2025

愚公系列腾讯元宝从入门到精通020-元宝在图片和音视频领域的应用创作视频

愚公系列腾讯元宝从入门到精通020-元宝在图片和音视频领域的应用创作视频

本文介绍了AI视频创作工具元宝的核心功能与应用方法。文章首先阐述了元宝在智能脚本生成、跨模态素材优化和创作流程重构三方面的技术优势,展示了其降低创作门槛的能力。随后提供了8个常见场景的提示词模板,涵盖分镜头设计、动态效果优化等细分需求。最后详细演示了"元宝+可灵AI"的实操流程,包括提示词生成、视频制作和后期处理等步骤,形成完整的"创意-生成-输出"解决方案。该系列旨在帮助创作者掌握AI视频制作全流程,提升创作效率和质量。

时间:11/22/2025

OpenCV文件视频防抖,python版

OpenCV文件视频防抖,python版

OpenCV:文件视频防抖,python版

时间:11/21/2025

视频推拉流平台EasyDSS平台如何赋能无人机推流直播新纪元

视频推拉流平台EasyDSS平台如何赋能无人机推流直播新纪元

无人机,被誉为“天空之眼”,以其独特的机动性和广阔的视角,彻底改变了我们观察世界的方式。

时间:11/20/2025

GSV2006ACP2-进-4-出-HDMI2.0-中继器带音频提取-嵌入功能全解析

GSV2006ACP2-进-4-出-HDMI2.0-中继器带音频提取-嵌入功能全解析

综上,GSV2006是一款功能全面的HDMI中继设备,在多输入多输出路由、音视频处理、长距传输和级联扩展等方面表现突出,适用于对HDMI信号灵活分配、高画质传输及音频定制化处理有需求的场景(如专业影音系统、多媒体会议室、数字标牌等领域)。发射预加重(Txpre-emphasis)**功能,GSV2006可与自身(或GSV2000系列芯片),且兼容HDMI1.3/1.4/2.0的所有时序标准,适用于大规模信号分发场景。凭借强大的**HDMI接收均衡器(Rxequalizer)

时间:11/19/2025

视频推拉流平台EasyDSS无人机视频推拉流技术助力实现工地远程监控巡检直播

视频推拉流平台EasyDSS无人机视频推拉流技术助力实现工地远程监控巡检直播

在建筑行业,施工现场的安全管理和实时监控一直是项目管理中的重点。

时间:11/19/2025

视频汇聚平台EasyCVR如何构建可视可析可管的智慧环保天网

视频汇聚平台EasyCVR如何构建可视可析可管的智慧环保天网

面对散乱污企业偷排、扬尘污染、水体黑臭等环境监管难题,传统监测方式存在盲区大、取证难、响应慢等痛点。

时间:11/17/2025

音视频项目框架

音视频项目框架

结合现有技术栈(STM32、C++11、FFmpeg),判断需求是否可落地按“分层设计”原则拆分模块——例如视频监控系统分为“视频采集层(摄像头SDK对接)、传输层(Reactor网络模型)、解码层(FFmpeg)、应用层(Qt客户端)”,并定义模块间接口(如视频流采用RTSP协议,数据交互用TLV格式);嵌入式软件需设计任务调度逻辑(如FreeRTOS的任务优先级分配:数据采集任务优先级高于UI显示任务),输出《软件架构设计文档》。

时间:11/17/2025

视频格式转换MP4AVIMKVMOVMP3WAVFLACOGG等主流格式

视频格式转换MP4AVIMKVMOVMP3WAVFLACOGG等主流格式

1、选择需要转换的文件,点击右键,选择:FileConverter,会弹出以下界面(我选择的是一个MP4视频)。​​可以看到,它支持的视频格式转换有很多,包阔了视频转语音。再选择一个图片看看​​还是一样,常用的格式都可以转换。

时间:11/17/2025

视频生成类大模型-Sora-2-系统提示提取技术研究

视频生成类大模型-Sora-2-系统提示提取技术研究

视频本质上是图像序列,因此继承了静态图像的所有问题,同时还面临时序一致性挑战,每帧单独生成,导致字符在帧间变化、扭曲,视频模型基于视觉可能性生成像素,而非精确的字符序列,小错误在多帧中累积,使内容无法读取。研究团队采用了跨模态提示技术(cross-modalprompting),通过不同输出形式尝试提取系统提示,但都围绕关键核心:模型在文本输出上通常有严格的防护,但在视觉和听觉输出上的防护可能不够完善。长句子几乎立即崩溃。这一现象在AI图像生成中很常见:模型被训练生成逼真的像素,而非精确的字符序列。

时间:11/14/2025

打造景区视觉中枢视频融合平台EasyCVR助力智慧景区安防智能化升级

打造景区视觉中枢视频融合平台EasyCVR助力智慧景区安防智能化升级

对历史客流、事件数据进行深度挖掘,为景区运营决策、营销策略提供更科学的依据。

时间:11/14/2025

每日AIGC最新进展94MIT提出实时流式视频生成StreamDiffusionV2LeCun李飞飞谢赛宁联合提出空间超感知Cambrian-S

每日AIGC最新进展94MIT提出实时流式视频生成StreamDiffusionV2LeCun李飞飞谢赛宁联合提出空间超感知Cambrian-S

MIT提出实时流式视频生成StreamDiffusionV2、LeCun&李飞飞&谢赛宁联合提出空间超感知Cambrian-S

时间:11/14/2025

信刻创新型近线离线安全存储归档策略,保障电子档案全生命周期管理

信刻创新型近线离线安全存储归档策略,保障电子档案全生命周期管理

信刻根据档案馆、各行业档案部门数据特性,按需推出创新型国产自主可控、性能稳定可靠的全自动蓝光光盘库,支持与主流电子档案管理系统无缝对接,兼容国产化软硬件环境,满足《档案法》对离线备份介质可读性、完整性及安全性要求。支持近线及离线归档两种方式,满足无人值守批量刻录、高精度盘面打印、归档与检索应用。实现长期近线归档、单盘可出、批量输出、秒级高效装盘,自助式预约权限取盘、实时文件流刻录、加密刻录,大幅提升作业效率。

时间:11/11/2025

RV1126-NO.48RV1126OPENCV在视频中添加时间戳

RV1126-NO.48RV1126OPENCV在视频中添加时间戳

本文介绍了在RV1126平台上使用OpenCV实现视频时间戳叠加的技术方案。系统采用双线程架构:视频处理线程通过OpenCV获取视频帧,格式化系统时间并使用putTextAPI叠加时间戳;编码存储线程则将处理后的视频进行H264编码并保存。文中详细说明了VI/VENC模块初始化流程、时间字符串处理方法和图像叠加技术要点,最终实现了在视频流中实时显示格式化时间信息的功能。该方案适用于需要视频时间同步记录的嵌入式视觉应用场景。

时间:11/10/2025

实践六防盗链知识点视频

实践六防盗链知识点视频

二、通过这个异步工具的网址来爬取这个接口的源代码(还需添加referer来绕过防盗链拦截),在其中找到被替换的“虚假URL”,使用contID来替换便是真正的URL。其中的video_image是视频的封面图片地址,而最后的strurl则是视频的链接地址,但是我们可以发现,这个地址是被修改过的,正确的地址应该是。这样修改后,服务器会认为请求是“从li视频自身页面发起的”,从而返回真实的视频信息,绕过接口的防盗链拦截。)时,服务器会认为这个请求是“用户从l视频页面正常点击发起的”,从而返回真实的视频信息。

时间:11/07/2025

音视频处理三hls协议和m3u8详解和视频下载爬虫实战

音视频处理三hls协议和m3u8详解和视频下载爬虫实战

本文介绍了HLS(HTTPLiveStreaming)协议的工作原理及实现细节。HLS是苹果公司提出的基于HTTP的流媒体传输协议,通过m3u8播放列表和ts视频分片实现视频播放。文章详细解析了m3u8文件格式、TS视频流封装结构,以及HLS相比RTSP协议的优势和不足。HLS具有高兼容性、自适应码率和易缓存等特点,但存在延迟较高的缺点。文章还以电视迷视频下载为例,展示了HLS协议的实际应用场景,并对HLS与RTSP协议进行了对比分析。

时间:11/07/2025

RV1126-NO.39OPENCV查找图形轮廓并画框

RV1126-NO.39OPENCV查找图形轮廓并画框

本文介绍了使用OpenCV进行图像轮廓检测的完整流程。首先通过imread读取三通道图片,接着使用cvtColor转换为灰度图,再用Canny算法进行边缘检测(阈值设为25-75)。随后调用findContours提取轮廓(采用RETR_EXTERNAL模式检测外轮廓),最后通过drawContours绘制青色轮廓线并保存结果。整个过程包括图像读取、灰度转换、边缘检测、轮廓查找和绘制等关键步骤,最终实现了清晰的轮廓提取效果。完整代码展示了从图像预处理到轮廓可视化的完整实现。

时间:11/05/2025

复盘Netflix的2025广告业务线下业态和视频播客

复盘Netflix的2025广告业务线下业态和视频播客

这比例不算高,短期内也还称不上“主业”,但从资源投入的强度来看,这已经是他们在订阅之外最用力的一条业务线了。而视频播客不同,它的本质更偏向“伴随式内容”,适合低注意力状态下播放,不要求视觉集中,也不构成主观看体验。因此,NetflixHouse的现实定位,仍停留在线下场景,作用有限,价值可见,但不构成新的收入引擎。首先,它的广告库存还很有限。这意味着使命的改变:从内容生产者,转向内容分发平台,它面临的问题已经不再只是怎么提升订阅数、优化内容策略这些“运营层”的挑战,而是要重新定义自己在整个行业中的角色。

时间:11/05/2025

Unity使用RVM实现实时人物视频抠像无绿幕

Unity使用RVM实现实时人物视频抠像无绿幕

RobustVideoMatting项目实现了视频实时抠图功能,基于ONNX模型推理。项目使用UnitySentis(现升级为InferenceEngine)进行AI推理,包含完整的模型初始化、递归状态管理和图像处理流程。作者尝试了C#onnxruntime方案,但遇到GPU加速效果不佳(仅2fps)的问题。项目支持摄像头输入和静态图像处理,提供了前景、alpha通道和最终结果的输出显示功能,包含性能优化和错误处理机制。关键点包括:ONNX模型加载、CUDA加速配置、递归状态初始化、实时视频帧处理等。

时间:11/05/2025

上一页
12345...23
下一页第 2 / 23 页

#标签