【灵思分享】刚刚，龙虾学会作画了！阿里推出Wan2.7生图利器，捏脸精准至骨相层级- 大数跨境

首页

【灵思分享】刚刚，龙虾学会作画了！阿里推出Wan2.7生图利器，捏脸精准至骨相层级

灵思极智

2026-04-09

【灵思导读】龙虾终于能画图了！阿里Wan2.7-Image刚刚上线，捏脸可深入骨相、首创「调色盘」、3K超长文字写满A4纸不混乱，还能接入OpenClaw实现一句话出图。

养虾人激动不已！今天，龙虾终于学会了图像生成。

捏脸能到骨相级别，调色精准到HEX色号，文字渲染一次能写满整页A4纸，编辑时指哪改哪，喂入9张参考图后人物面容依然稳定。

够震撼吧？先来看这组示例。

同一段提示词，只变动外貌描述，生成了五张截然不同的面孔——

正面半身人像，一位【外貌的设定】的男性乐队主唱在舞台上演出，单手握住立麦，头微微后仰嘶吼，汗水从额头滑到下颌线，汗湿的黑色碎发贴在前额和鬓角，穿一件被汗浸透的黑色背心，锁骨和手臂肌肉线条清晰，舞台顶光从正上方打下来形成强烈的明暗对比，背景是模糊的彩色舞台灯光和烟雾，摇滚现场抓拍风格，高ISO颗粒感，85mm镜头。

从浓密络腮胡、青涩娃娃脸，到微胖身材、深棕黑色皮肤，主体保持了一致性。

同一个舞台，同一束顶光，却出现了五张完全不同的人脸！

背后的强大模型，是阿里4月1日刚刚推出的Wan2.7-Image，一个将图像生成与编辑能力融为一体的新模型，同时支持作为Skills接入OpenClaw。

通俗地说：你的龙虾，现在不仅能聊天、写代码、运行自动化，还能作图。而且画得相当出色。

千人千面，告别AI脸

「活人感」是一种微妙的真实，恰恰是AI生图最难掌握的地方。

打开任一图文平台，满眼都是同质化的「塑料AI脸」。比例完美的五官、毫无瑕疵的鸡蛋肌，以及空洞呆滞的眼神。

这些被算法培养出的「标准脸」，美得没有破绽，却如同流水线上批量生产的偶像练习生。

千人一面，缺乏灵魂。

Wan2.7-Image的解决方式，是将生成粒度细化到「骨相」与「皮相」的微观层级。一句简单的描述，就能实现从骨骼结构、眼眸深浅到五官细节的全方位定制。

你可以精确要求生成鹅蛋脸、圆脸、方脸或长方脸。

正面半身人像，一位25岁的东亚女性，【脸型的设定】，自然光线，眼神直视镜头，黑色直发披肩，穿白色圆领T恤，背景纯色浅灰，写实摄影风格，35mm镜头，浅景深。

鹅蛋脸、圆脸、方脸

这种「捏脸」还能进一步延伸到眼部细节的微调。杏仁眼、圆眼、丹凤眼，一句话就能定制。

一张超近距离面部特写，画面只截取眉毛到鼻尖的范围，一位25岁东亚女性，【眼睛的设定】，皮肤细腻有毛孔质感，自然光从正面柔和打入，没有妆容，素颜，睫毛根根分明，虹膜深棕色可见纹理，眼角有一颗小痣，背景完全虚化为奶白色，微距摄影风格，100mm微距镜头，超高清。

杏仁眼、丹凤眼、眯缝眼

整个人的面容通过一句话即可把握。千人千面，尽在一句话中。

这正是「活人感」的本质：不完美，但真实。

首创「调色盘」，色彩不再是盲盒

在设计师看来，颜色就是精准的空间坐标。

一句「暖橙色调」，对不同AI可能产生差异悬殊的结果：有时是莫兰迪的土橙色，有时是梵高向日葵的明黄色，有时又会偏向秋日夕阳的深红色。

这种「色彩盲盒」般的随机性，设计师根本无法交付。在严格的品牌视觉系统面前，1%的色差就意味着无效产出。

因此，Wan2.7-Image在业内首创「调色盘」功能，将色彩控制权还给创作者。

用户可以通过HEX色号，一键提取或输入参考图中的各种颜色及占比，自由调整颜色的数量和比例，自定义配色方案。

从马蒂斯浓郁的红色系、梵高明快的黄色系，到毕加索清冷的蓝色系，都能参考生成同色系的图片。

万相网页版已内置完整的调色盘交互，三步完成：

第一步，点击底部工具栏的「调色盘」按钮，弹出配色面板。系统预置了「蓝调」「热情」「马卡龙」「莫兰迪」等多种推荐配色方案，直接选用即可。

第二步，如需自定义：点击「新增配色方案」，然后点击「从图片提取配色」，上传任意参考图，系统会自动提取主色及占比。颜色数量可通过加减号增删，比例可拖动色块边界自由调整。

第三步，确认配色后返回主界面，调色盘已挂载到工具栏。输入场景描述，点击生成，输出的图片将严格遵循你定义的色彩方案。

有了这套流程，世界名画的独特色彩从此触手可及。

梵高《星月夜》中那热烈奔放、盘旋交织的蓝黄撞色，由Wan2.7-Image提取八种颜色，并重构于现代都市中。

可以看到，在这座灯火通明的城市里，点缀的正是星月夜中的色调。

一座现代城市的天际线夜景，高楼大厦的灯光倒映在平静的江面上，远处有一座跨江大桥，天空中有几朵流动的云，电影感构图，宽幅画面，油画质感。

又或者，将莫奈《日出·印象》中的蓝灰色调与太阳迸发出的柔和橙黄，映射到另一个物理空间中。

Wan2.7-Image把莫奈的色彩DNA植入到每个元素中，让江南水乡也带上了印象派的滤镜。

一座江南水乡古镇的清晨，石拱桥横跨窄河，两岸是白墙黛瓦的老房子，河面有薄雾弥漫，一条乌篷船静泊在桥下，柔和的晨光从东方透过来，摄影质感，35mm镜头。

同样，还可以把一张AI艺术画的色调，一键迁移到「大裤衩」的建筑艺术构图中。

3K超长文本，生图告别「文盲」时代

在AI图像生成的「顽疾清单」中，文本渲染始终位居榜首。

一旦字数超过几个词，AI的表现就开始失控：字母变形、笔画断裂、汉字错位，甚至整段文字莫名消失。

Wan2.7-Image对这一顽疾发起了正面攻克。它实现了对超长文字、表格、复杂公式的印刷级渲染，支持业内最长的3K Tokens文字输入，可以写满整页A4纸。

一张大学高等数学期末考试试卷，白色纸张，印刷体黑色文字，包含以下内容：

一、选择题（每题5分，共20分）

函数 f(x) = (x²-1)/(x-1) 在 x=1 处的极限为： A. 0 B. 1 C. 2 D. 不存在

若 ∫₀¹ f(x)dx = 3，则 ∫₀¹ 2f(x)dx = A. 3 B. 6 C. 9 D. 12

二、计算题（每题15分，共30分）

求不定积分 ∫ x²·eˣ dx

计算二重积分 ∬_D (x²+y²) dxdy，其中D为 x²+y²≤4

三、证明题（25分）用ε-δ语言证明：lim(x→2) (3x-1) = 5

四、应用题（25分）设曲线 y = x³ - 3x + 2，求该曲线在区间[-2, 2]上与x轴围成的面积。

标准A4纸排版，页眉印「XX大学 2024-2025学年第一学期期末考试」，页脚印「第1页共2页」。

积分号、求和号、ε-δ语言，无一出错。

甚至多语言文字同屏输出，也难不倒Wan2.7-Image。

一张极具电影感的写实照片，展示一位优雅的中国女子，身穿精致的汉服风格深蓝色提花夹克（金丝祥云刺绣）和米色褶皱长裙，头发整齐地盘在脑后，插着一根精致的发钗。她正坐在一张古朴的深色木桌前，专注地阅读一本封面标有「WORLD LITERATURE」和中文「世界文学」古籍。桌上堆放着两摞多语言书籍，书脊清晰可见，标有「Oxford English Dictionary」、「现代汉语词典」、和「DEUTSCHE GRAMMATIK」等字样。在她面前，一本打开的笔记本上摆放着一支精致的钢笔，笔记本上写满了手写笔记。在桌子的左侧，两个古董地球仪（一个显示欧洲，一个显示亚洲）摆放有序。背景是两个巨大的、堆满数千本多语言书籍的实木书架，书籍摆放整齐。一个大型的中式木窗位于左侧，透过窗户可以看到一个宁静的竹林花园和远处的树叶。窗玻璃旁墙上清晰地贴着一个挂轴，上面写着四个中文大字：「学无止境」。自然的晨光从窗户洒进来，照亮了场景，营造出温暖、宁静的氛围。视角是眼平视，捕捉了女子和环境的丰富细节。电影级画质，自然胶片颗粒。

一位面带微笑的、不同族裔的五人小组，在阿姆斯特丹繁忙的、铺有石板的步行市场街道上，面向镜头，肩并肩站成一排。从左到右：一位老年中国女性，穿着传统的丝绸图案夹克，双手拿着一个木牌，上面用白色汉字写着「你好！」；一位年轻的日本男性，戴着眼镜，穿着米色连帽衫，拿着一个纸板标志，上面用黑色日文写着「こんにちは」；一位年轻的法国女性，戴着黑色贝雷帽，穿着条纹衬衫，拿着一个纸板标志，上面用黑色法文写着「bonjour!」；一位年轻的印度男性，戴着深蓝色头巾，穿着米色突尼克衫，拿着一个纸板标志，上面用黑色印地语写着「नमस्ते!」；一位年轻的非裔女性，留着蓬松的卷发，穿着色彩鲜艳的图案上衣，拿着一个纸板标志，上面用黑色葡萄牙语写着「Olá」。背景是典型的荷兰运河房屋、一辆行驶中的阿姆斯特丹有轨电车、色彩鲜艳的街道旗帜和繁忙的市场摊位，柔和的日光，景深较浅。

AI绘图的「文盲」时代，由此终结。

交互式编辑，指哪打哪

生图能力再强，创作者最终仍需要编辑。而AI的编辑能力，长期以来是一块烫手的短板。

用过传统AI修图的人，或许都经历过一种绝望：改一下背景颜色，主体人物的服装也变了；稍微调整一下嘴角，整个面部结构崩塌重建。AI不理解「局部修改」的边界，把不该改的地方也改了，妥妥的「效率黑洞」。

Wan2.7-Image用「精准框」的交互方式解决了这个问题。在指定区域内完成元素添加、对齐、移动元素或logo，框外的内容丝毫不变。

举个例子，精准框选图中的大雁，并输入指令：将图中框选的大雁移动到虚框位置，并且姿势变成站在屋檐上。

被框选的大雁，已经落到了屋檐上，图中的其余部分都被「完美锁定」，未受任何干扰。

更令人惊叹的是，Wan2.7-Image智能地将大雁缩小，使其符合透视原理，完美融入远景建筑物的比例。

大雁的姿态也从「展开双翼飞翔」切换为「收起翅膀直立栖息」，整个画面过渡非常自然。

这种指哪打哪的「交互式编辑」，让AI终于从「不可控的艺术家」变成了「听话的执行搭档」。

最多9图参考，主体统一不走形

多人场景一直是AI生图的重灾区。角色一多，脸就崩，风格就飘。

Wan2.7-Image支持最多9张图片作为参考源，多张参考图喂进去，人物长相、风格、光影全锁定，输出结果在视觉上高度统一。

做电商的朋友们真的有福了。只需上传一张参考图，Wan2.7-Image就能带着同一个模特在全球各地「瞬移」，不管环境怎么变，主体人物的长相、神态都稳定如初。

上一秒身着波西米亚长裙，漫步在马尔代夫的细软沙滩，下一秒已身处巴黎街头慵懒地喝着咖啡。

从高级商务范到东京潮流街拍，再到健身房的运动风，切换得游刃有余。

不止人物。

五双完全不同的鞋子，Wan2.7-Image也能完美揉进同一张画幅，无变形、无违和。这才是电商人梦寐以求的生成器。

更厉害的是，Wan2.7-Image还能一口气生成多达12张逻辑连贯的图像序列。

下面这个测试中，它连续生成八张图，构成了一个完整的小故事，角色特征始终如一，几乎没有偏差。

请生成一组8张逻辑连贯的电影分镜序列，讲述以下故事：一个穿黑色风衣的年轻女性深夜走进一家无人便利店，她从货架上拿了一杯泡面，坐在窗边等热水，窗外开始下雨，她看着雨发呆，手机屏幕亮了一下她没接，泡面泡好了她开始吃，最后一张是她吃完走出便利店撑开伞消失在雨夜街道尽头。全程无对白，电影感构图，每张画面的机位和景别有变化（远景、中景、特写交替），统一冷青色调，35mm胶片质感。

从「单帧」到「时序」，分镜脚本、PPT系列配图、电商模特套图、多视角建筑方案，都可以批量交付。AI生成从「逐张抽卡」迈入「序列化生产」。

六边形战士是怎么练成的

实测看完了，拆解底层。

Wan2.7-Image凭什么做到上面这些？五大功能的背后，每一项都指向算法架构与训练数据上的深层变革。

先看硬指标。

在人类偏好盲测中，Wan2.7-Image的文生图能力超过GPT Image 1.5和国内主流模型，在文本渲染、照片级成像和世界知识三个指标上，逼近Nano Banana Pro，堪称国内最强生图模型。

再看能力面。

Wan2.7-Image支持交互式编辑（文字编辑、空间变换、内容生成和替换），多图像生成能力覆盖时尚美容、平面设计等多领域，堪称六边形战士。

那么关键问题来了：它为什么不只会生图，还更懂图？

答案藏在三层技术栈里。

第一层，数据。

超大规模的异构数据底座，不仅涵盖全域品类的视觉素材，还整合了理解类数据。模型不是只看过图，它还「读」过图。

第二层，架构。

Wan2.7-Image采用生成与理解统一的模型架构，在共享的潜在空间内完成语义映射。文字紧挨着画面，模型不需要费力去猜文字对应的画面，它本来就知道。

第三层，训练。

训练流程中引入了多模态指令（文字+图片混合输入），让模型实现了从单纯的像素拟合到底层语义认知的跨越。配合多维精细标注体系（按布局、文字、光影、拍摄角度、用途等维度标注）和分阶段训练策略，模型在长尾场景下依然稳得住。

同步上线的还有Wan2.7-Image-pro，基于更大规模数据和模型尺寸训练而成，构图更稳，语义理解更精准。追求极致效果的用户，可以直接上Pro版。

三步接入龙虾，让它替你画图

这一次，Wan2.7-Image同步支持作为Skills接入OpenClaw。

那么，具体该怎么接？

万相网页版左下角已经挂上了「龙虾」图标，简单三步一键完成接入——

第一步，在你的「龙虾」里通过对话安装Skills，直接发一句：

帮我安装Wan-skills https://github.com/Wan-Video/Wan-skills

第二步，按照提示告诉「龙虾」阿里云百炼API Key。

第三步，用对话开启「龙虾」生图体验。

接入之后，即可立刻体验Wan2.7-Image生图魔法了。

上面实测中，捏脸、调色、长文本渲染、精准编辑、多主体一致性，全部可以通过龙虾的对话界面触达。

这才是AI生图真正该有的样子：深度嵌入你已有的工作流，成为一个随叫随到的「设计师」。

每个人手里，都握着遥控器

回看Wan2.7-Image的五项核心能力，它做的事说到底就一件：把创作的控制权，从算法的随机性里夺回来，交还给人。

一个十人规模的短剧团队，过去最头疼的是「预生产」阶段。角色长什么样，分镜怎么画，特效预演怎么做，每一步都是时间和钱。现在，千人千面的捏脸加上组图生成，角色设定、动作参考、视觉方案可以在正式开机前全部跑通。试错成本从「天」压缩到「小时」。

一个做穿搭号的自媒体博主，日常最大的消耗不是选品，而是配图。封面图的风格要统一，OOTD的场景要多变，系列内容的视觉调性不能跑偏。现在一段精确的提示词加一个调色盘，品牌视觉的一致性就有了保障。

一个中小电商商家，一件商品需要数十张素材图。传统摄影外包的成本和周期让人望而却步。多主体一致性加上组图生成，单张模特图可以裂变为覆盖不同场景、不同卖点的完整素材库，上新周期大幅缩短。

从「千篇一律」到「千人千面」，从「盲盒抽卡」到「精准微操」。

AI生图这件事，第一次真正由你说了算。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176