大数跨境

风云数据推出「全场景中英双语图片描述+多轮SFT对话数据集」

风云数据推出「全场景中英双语图片描述+多轮SFT对话数据集」 风云数据
2026-01-15
2
导读:还在为多模态数据场景单一发愁?还在担心SFT对话素材不够用?今天我们直接上硬菜——风云数据推出「全场景中英双语图片描述+多轮SFT对话数据集」,彻底打破场景局限,覆盖日常、自然、商业、文化等全品类图片
前言






还在为多模态数据场景单一发愁?还在担心SFT对话素材不够用?
今天我们直接上硬菜——风云数据推出「全场景中英双语图片描述+多轮SFT对话数据集」该数据集达20万量级彻底打破场景局限,覆盖日常、自然、商业、文化等全品类图片场景,一次解决你的数据焦虑!

✅ 核心亮点:2大模块,全覆盖不踩雷

🖼️ 模块一:中英双语精准描述

每张图片都配有中文+英文双语标注,从场景特征到细节氛围,视觉与文本完美对齐,模型学完就能精准识别全品类场景!

示例一:建筑外观内饰




这是一个大型室内展览空间 ,具有现代建筑风格。天花板由复杂的金属框架和玻璃构成 ,形成一个巨大的穹顶结构 ,中央悬挂着一个环形的装饰装置。建筑内部呈多层环形布局 ,设有玻璃栏杆和柱子支撑。地面中央摆放着一个色彩鲜艳的庆典装饰台 上面有红色龙形雕塑和 广东民间工艺博览会”字样。背景横幅上写有“Guangdong Arts Expo 以及中文 中国(广州 民间工艺博览会欢迎您! ,表明此处正在举办广东艺术博览会。现场有少量行人走动 ,整体氛围庄重而富有文化气息。

This is a large indoor exhibition space with modern architectural style. The ceiling consists of a complex metal framework and glass,forming a huge dome structure,with a circular decorative installation hanging from the center. The interior features a multi-level circular layout with glass railings and supporting columns. In the center of the floor is a brightly colored ceremonial display stand with red dragon sculptures and Chinese text reading "Guangdong Folk Craft Expo." Banners in the background read "Guangdong ArtsExpo" and "Welcome to the China (Guangzhou)Folk Craft Expo!" indicating that an arts expo is taking place here. A few pedestrians are walking around; the overall atmosphere is solemn and culturally rich.

示例二:商品展示图




这是一双耐克Mercurial系列足球鞋的产品展示图。鞋身主色调为浅紫色与亮橙色渐变 ,侧面有黑色耐克Swoosh标志和 MERCURIAL 字样 ,后跟处印有 KY 字母 ,可能代表球员凯恩( HarryKane 。鞋底为蓝色 ,配有橙色防滑钉 ,整体设计充满动感与科技感 ,常用于商业推广或电商平台展示

This is a product display image of a Nike Mercurial football boot. The upper featuresa gradient from light purple to bright orange, with a black Nike Swoosh and the word “MERCURIAL” on the side. The heel displays the letters “KY,” likely representing player Harry Kane. The soleplate is blue with orange studs for traction. The overall design conveys dynamism and technology, commonly used in commercial promotion or e-commerce listings.
示例三:水彩字画素描




这是一幅黑白素描作品 ,描绘了一位中年男性坐姿肖像。人物穿着带毛领的厚外套 ,双手交叠放在膝盖上 ,面部表情平静略带沉思  目光望向画面左侧。艺术家运用了丰富的明暗对比和细腻的线条表现衣物褶皱、皮肤纹理与立体感 ,整体构图集中于人物半身 ,背景留白,突出人物神态与质感。

This is a black-and-white sketch depicting a seated portrait of a middle-aged man. He is wearing a thick coat with a fur collar, his handsfolded on hisknees, with a calm and slightly contemplative expression, gazing toward the left side of the image. The artist employs rich chiaroscuro and delicate lines to render fabric folds, skin texture, and three-dimensionality. The composition focuseson the upper bodyof the figure,with a blank background that emphasizesthe subject’sdemeanor and material quality.
中英文描述严格匹配场景细节,避免语义偏差,模型学完能精准识别全品类场景的视觉-文本关联!

🖼️ 模块二:多轮SFT对话

不仅静态描述,每张图还附带3轮+真实对话,覆盖用户真实提问逻辑,模型直接学会“看场景、答问题”!

示例一:建筑外观内饰




{  "messages":[    {      "role":"user",      "content":"这张图片描述了什么?"    },    {      "role":"assistant",      "content":"这张图片展示了一个大型室内展览空间,具有现代建筑风格。顶部是一个巨大的网格状玻璃穹顶结构,中央悬挂着一个复杂的金属艺术装置。底层中央摆放着一个色彩鲜艳的庆典装饰,包含红色和金色元素,可能用于开幕式或节日活动。周围环绕着多层环形走廊,墙上挂有横幅,上面写有“Guangdong Arts Expo”及中文“中国(广州)民间工艺博览会欢迎您!”等字样。现场有少量行人走动,整体氛围庄重而喜庆。"    },    {      "role":"user",      "content":"图片中的横幅上写了哪些文字?"    },    {      "role":"assistant",      "content":"横幅上清晰可见的文字包括英文“Guangdong Arts Expo”和中文“中国(广州)民间工艺博览会欢迎您!”。此外,部分区域还可见“中國”字样,以及“2010”年份标识,表明这可能是2010年举办的广东艺术博览会或相关文化活动。"    },    {      "role":"user",      "content":"从建筑结构和布置来看,这个场地最可能是什么类型的场所?"    },    {      "role":"assistant",      "content":"从建筑结构来看,该场地拥有高挑空、玻璃穹顶、多层环形走廊和宽敞的中庭,符合现代化会展中心或大型文化展馆的设计特征。结合横幅内容“广东艺术博览会”和“民间工艺博览会”,可以推断这是一个用于举办大型展览、博览会或文化艺术活动的专业场馆,例如广州国际会展中心或类似公共文化设施。"    }  ]}
示例二:商品图概念图




{  "messages":[    {      "role":"user",      "content":"这张图片展示的是什么?"    },    {      "role":"assistant",      "content":"这是一只足球鞋,品牌为耐克(Nike),型号是Mercurial系列。鞋身以浅紫色和亮橙色为主色调,侧面有黑色的耐克标志(Swoosh),鞋底配有蓝色和橙色的鞋钉,适合在天然草地上使用。鞋面有网格纹理设计,鞋舌和鞋跟处可见部分文字标识。"    },    {      "role":"user",      "content":"鞋面上有哪些文字?"    },    {      "role":"assistant",      "content":"鞋面靠近脚趾的位置印有黑色的 \"MERCURIAL\" 字样,这是该系列的名称;在鞋跟后侧上方,可以看到黑色的 \"KY\" 字母,可能是球员签名或特别版标识。"    },    {      "role":"user",      "content":"这款球鞋的设计特点是什么?"    },    {      "role":"assistant",      "content":"这款球鞋采用轻量化设计,鞋面为透气网眼材质,搭配渐变色彩(从浅紫到橙红),视觉冲击力强。侧面的黑色Swoosh与鞋身形成鲜明对比,增强辨识度。鞋底配备多颗可拆卸式鞋钉,提供抓地力,适合快速启动和变向的场上动作。整体风格现代、动感,专为速度型球员打造。"    }  ]}
示例三:水彩字画描述




{  "messages":[    {      "role":"user",      "content":"这张图片描述了什么?"    },    {      "role":"assistant",      "content":"这是一幅黑白素描画,描绘了一位中年男性坐在椅子或台阶上。他穿着一件带毛领的厚外套,双手交叠放在膝盖上,身体微微前倾,目光看向画面左侧。人物面部表情平静略带沉思,整体构图简洁,通过明暗对比和线条表现人物形态与衣物质感。背景为纯白色,无其他环境元素,突出人物主体。"    },    {      "role":"user",      "content":"他穿的是什么类型的外套?有什么细节?"    },    {      "role":"assistant",      "content":"他穿的是一件冬季保暖外套,可能是羽绒服或棉服。外套有明显的立领设计,领口边缘带有蓬松的毛领装饰,肩部和袖子处有褶皱和缝线结构,衣襟上有纽扣或按扣的轮廓。袖口部分有收紧设计,整体厚重感强,符合寒冷天气穿着特征。"    },    {      "role":"user",      "content":"从他的姿态和表情能推断出什么情绪或状态?"    },    {      "role":"assistant",      "content":"从他的姿态来看,身体略微前倾、双手交叠置于膝上,是一种放松但略带内敛的坐姿;面部表情平静,眼神专注望向一侧,没有明显笑容或紧张感,可能处于沉思、等待或观察的状态。结合厚重的冬装和静态姿势,可推测他可能在户外休息、等人,或沉浸在自己的思绪中,整体氛围安静而略带凝重。"    }  ]}

🎯 谁适合用?三大核心场景

  • 多模态模型微调:全品类场景图片+双语言本强关联,提升模型跨场景视觉-文本匹配精度;

  • 对话式AI开发:全品类场景交互数据补仓,让模型学会看不同场景、做精准应答

  • 垂直/通用场景落地:全面覆盖日常、自然、商业、文化等全品类场景,填补多类场景的多模态数据空白。


速领指南:手慢无! 关注本公众号,后台回复【全场景SFT】,直接领取数据集样本包(含10组不同场景完整案例)



点点赞
点分享
点喜欢

【声明】内容源于网络
0
0
风云数据
专业提供AI数据服务,快速,高质量输送数据之泉。
内容 36
粉丝 0
风云数据 专业提供AI数据服务,快速,高质量输送数据之泉。
总阅读18
粉丝0
内容36