我是刀哥,大厂工作过几年,现在是出海创业者,深入研究AI工具和AI编程。
大湾鸡奇遇记
现在很多AI修图的痛点是,只能打字修图,没法拆开一个个元素看,一个个字儿改。但你不拆开大家就会很困惑,就像小鹏机器人,里边到底藏了个什么?

这其实是很反直觉的,就像码农写了几千行的代码,现在跟你说,想改几行只能完全重写;就像乐高积木拼了几千个积木,有一块儿拼错了想改,只能全拆了重拼。。。
有没有一个AI P图工具,可以揉碎了掰开了,让大家看清楚每个元素,能修改每个元素?这次有了!
打开lovart : https://www.lovart.ai/
拆点什么好呢?就来拆大湾鸡!
11月9日晚,第十五届全国运动会开幕式在广州举行,以中华白海豚为原型设计的十五运会和残特奥会吉祥物“喜洋洋”和“乐融融”,这两个吉祥物“显眼包”火出圈!因为很像广东美食,被称为大湾鸡!
就是它们了!找到一张宣传海报,开整!
蒙娜丽莎她是谁?咱们把她请出来跟大湾鸡一起玩!
一键移除背景
假如我们用别的AI,则是这种效果 ,明明只想改文字,会改我们不想改的背景。

拿新上架的 Sora2+Veo3.1+Hailuo 2.3 + LTXV 2 一个个试,咱也做出来大湾鸡视频了:
(Lovart里的图生视频模型LTXV制作)
Lovart是怎么做到分层的?
这块儿我非常好奇,为什么国内外的SOTA大模型和工具都没有这个功能?为什么 Midjourney (MJ)、KLing这些巨头没有主打这个功能?
我猜测啊,是因为技术门槛。
核心难点:万物分割 (Universal Segmentation)
AI 需要理解图片中的“前景”、“背景”、“文字”分别是什么,并且精确地勾勒出它们的边缘。
这依赖于强大的图像分割模型,做 前景、全景、文本分割。Meta 的 SAM (Segment Anything Model),它就是这类技术的代表, 论文链接:https://arxiv.org/abs/2304.02643 。Lovart 很可能使用(或自研了)类似的先进模型。
SAM 的核心输出是针对原图中每个识别对象的分割蒙版(Segmentation Mask)。
利用这些蒙版,可以轻松地执行提取操作:将原图中的像素数据与对应的蒙版结合,去除(或设置为透明)蒙版以外的区域。
最终,为每个蒙版对象保存为一个独立的图像文件(例如 PNG 格式,带有透明背景),即可实现将原图中的多个物体分离成多张独立子图。
那每张子图是如何展示在正确的原图位置上呢?
SAM 的输出可以直接提供精确的坐标信息,也就是边界框(Bounding Box),它是最常用且最直接的位置信息。对于每个分割对象,程序可以计算出一个矩形边界框,并提供其四个角的坐标:x_min, y_min, x_max, y_max。这就精确定义了每个对象在原图上的相对位置和大小
Lovart 的“魔法”在于,它把分割模型SAM和其他所有模型(修复、OCR、文本生成)集成在一个统一的界面(“画布”)中。看上去真的是一键炸开!
实际上AI在后台已经完成了分割所有图层 ,并预先填补了所有背景,最后呈现给你一个类似 Photoshop/Figma 的、包含多个图层的可编辑文件。
Adobe 在 2023 年 Max 大会上展示的 "Project Stardust"(星尘计划)的核心功能,几乎和Lovart 一模一样。它能自动识别图像中的物体为 可编辑对象 ,让你随意拖动、删除、修改,并自动填充背景。
可惜,Adobe并没有做出来。
结语
拆图层这项技术非常新,必然是 AIGC 领域的下一个战场——从 生成 转向 生成式编辑 。
Lovart 作为一家更专注、更敏捷的初创公司,选择将这个下一代功能作为核心卖点,率先推向了市场,而 Adobe却迟迟不能把PPT期货给兑现了,天壤之别。
Lovart懂我们,我们需要的不仅仅是生成图片,更是掌控和编辑图片的自由。
通过集结(Segmentation + Inpainting + OCR + Text Generation)的AI技术全家桶,Lovart 解决了一个过去只有专业设计师才能(通过抠图、蒙版、仿制图章)解决的繁琐问题,极大地降低了设计的门槛。好样的!
不刷短视频,读我的公众号长文还读完了?您真是一股清流!如果觉得写得不错,欢迎点赞、在看、关注。如果有不同看法,欢迎在评论区或者后台留言讨论。

