云从科技发布3D行为识别基础大模型
科技日报记者 雍黎 9月22日,科技记者从云从科技获悉,发布在近日举行的为识国际计算机视觉大会(ICCV2023)细粒度行为检测挑战赛中,云从科技的别基云从从容大模型展示了对多种模态信息的理解和处理能力,刷新世界纪录,模型在行为分类赛道中斩获冠军。科技 多模态到底意味着什么?当你输入一张照片,发布并用语音或文字“指挥”AI将其部分抠图修改,为识并发送给朋友时,别基它能立即理解并完成指令。模型多模态交互降低了AI使用的科技门槛,使AI有望成为万千大众都能使用的发布生产工具和个人助理。 如今,为识多模态大模型已成为大模型迈向通用人工智能(AGI)目标的别基下一个前沿焦点。大模型具有强大的模型表征能力,并且在多模态(如语言、音频、图像、视频、视觉语言)上得到验证,云从结合实际业务落地需求研发了基于时空建模的3D行为识别基础大模型。 3D行为识别技术相比2D图像识别增加了时间维度的建模,是以人为中心的感知任务的重要组成部分,一直是人工智能领域的研究热点。 该模型基于Vision Transformer(视觉自注意力模型)结构进行设计,通过自注意力机制将空间维度和时间维度的信息进行充分关联。 基于大模型预训练获得的基础时空特征,能够广泛用于视频检索、视频问答、3D行为识别、行为关键帧检测等下游任务中。在下游任务微调阶段,通过帧间信息互补的方式自适应去除模型冗余的部分,极大提升了下游任务的训练和推理速度。 本次挑战赛数据集包含491个日常生活中的人类行为,部分行为之间只有极其微小的差别,需要从视频中抽取多帧画面并采用3D时空建模算法进行分析。 挑战赛中,云从科技从容大模型凭借在视觉领域的积累,在数据集粗粒度(coarse)行为类别上精度达到93.87%,在细粒度(fine-grain)行为类别上精度达到91.96%,识别精度相比上一届冠军方案高出4%以上。 准确率的大幅提升表明大模型在时空关系特征建模上的优势,意味着3D行为识别算法已经迈入多模态大模型时代,将极大提升该技术的商业应用价值。目前,该技术已在金融、安防等领域得到了广泛应用,例如人员动作合规识别,打架、跌倒等行为检测。
- 最近发表
- 随机阅读
-
- 我国推进80余处大型灌区续建配套和现代化改造
- 走进农家书屋丨江西新余花田村:农家书屋成为了家门口的图书馆
- 青岛李沧:多彩活动迎接“全国生态日”
- 2023软科世界大学学术排名发布 中国内地上榜高校数位列世界第一
- 锦绣中国年丨民俗非遗之木版年画
- 人脑独有细胞与分子特征确定,有助区分现代人类与古代人类祖先
- 智能网联汽车正向规模化示范新阶段演进
- 7月份国民经济持续稳定恢复
- 薛之谦合肥演唱会举办方被罚5万
- 一触即发!直击“八一枪王”挑战赛火热现场
- 7月份国民经济持续稳定恢复
- 厦门市氢能标准化技术委员会揭牌
- 新型体外诊断体系为临床均相免疫分析提供新策略
- 科普园地
- 祁连山国家公园青海片区生态产品有了“价格标签”
- “红旗杯”第四届全国机械行业班组长管理技能大赛开赛
- 近三年银行机构向脱贫地区累计发放贷款19.7万亿元
- 北京市举办房山区专场招聘会
- 电子商务进农村!乡村电商和快递服务站点累计建设超过15万个
- 山西大同大学“产教研融合”研究生培养论坛举办
- 搜索
-