云从科技发布3D行为识别基础大模型
科技日报记者 雍黎 9月22日,科技记者从云从科技获悉,发布在近日举行的为识国际计算机视觉大会(ICCV2023)细粒度行为检测挑战赛中,云从科技的别基云从从容大模型展示了对多种模态信息的理解和处理能力,刷新世界纪录,模型在行为分类赛道中斩获冠军。科技 多模态到底意味着什么?当你输入一张照片,发布并用语音或文字“指挥”AI将其部分抠图修改,为识并发送给朋友时,别基它能立即理解并完成指令。模型多模态交互降低了AI使用的科技门槛,使AI有望成为万千大众都能使用的发布生产工具和个人助理。 如今,为识多模态大模型已成为大模型迈向通用人工智能(AGI)目标的别基下一个前沿焦点。大模型具有强大的模型表征能力,并且在多模态(如语言、音频、图像、视频、视觉语言)上得到验证,云从结合实际业务落地需求研发了基于时空建模的3D行为识别基础大模型。 3D行为识别技术相比2D图像识别增加了时间维度的建模,是以人为中心的感知任务的重要组成部分,一直是人工智能领域的研究热点。 该模型基于Vision Transformer(视觉自注意力模型)结构进行设计,通过自注意力机制将空间维度和时间维度的信息进行充分关联。 基于大模型预训练获得的基础时空特征,能够广泛用于视频检索、视频问答、3D行为识别、行为关键帧检测等下游任务中。在下游任务微调阶段,通过帧间信息互补的方式自适应去除模型冗余的部分,极大提升了下游任务的训练和推理速度。 本次挑战赛数据集包含491个日常生活中的人类行为,部分行为之间只有极其微小的差别,需要从视频中抽取多帧画面并采用3D时空建模算法进行分析。 挑战赛中,云从科技从容大模型凭借在视觉领域的积累,在数据集粗粒度(coarse)行为类别上精度达到93.87%,在细粒度(fine-grain)行为类别上精度达到91.96%,识别精度相比上一届冠军方案高出4%以上。 准确率的大幅提升表明大模型在时空关系特征建模上的优势,意味着3D行为识别算法已经迈入多模态大模型时代,将极大提升该技术的商业应用价值。目前,该技术已在金融、安防等领域得到了广泛应用,例如人员动作合规识别,打架、跌倒等行为检测。
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 甘肃重奖科技创新“顶流”
- 科学新发现丨喝牛奶拉肚子?继续喝!
- 日服复合维生素可能减缓老人记忆力下降
- 再创历史新高 我国2023年粮食产量13908.2亿斤
- 首次人体受控临床试验证实——石墨烯纳米材料可安全开发
- 中国气象局创新团队建设工作推进会在京召开
- 长寿固态量子比特实现有新法
- 因地制宜 “一湾一策”建设美丽海湾
- “十四冬”场馆已成大众冰上乐园
- 广州地铁国家工程研究中心被授予“国家卓越工程师团队”称号
- 云南镇雄山体滑坡灾害已致11人遇难 灾害属坡顶陡崖区发生崩塌
- 三部门调拨中央救灾物资支持新疆乌什县做好抗震救灾工作
- 旱碱麦馒头“笑开花”
- 盐水表面水分子组织方式不同此前认识
- 我国转基因玉米大豆产业化应用试点任务顺利完成
- 云南镇雄山体滑坡已致20人遇难,24人失联
- 霜打菜没蔫反而有点甜
- 人民号平台推出AI辅助写稿系统 万余家用户接入
- 广东清远科协系列“科技下乡”活动助推“百千万工程”
- 顺利进入天舟七号,航天员收年货啦!
- 搜索
-