<iframe title="逆袭のGemini" src="https://www.youtube.com/embed/73KYeQmgZ5A?feature=oembed" height="113" width="200" allowfullscreen="" allow="fullscreen" style="aspect-ratio: 1.76991 / 1; width: 100%; height: 100%;"></iframe>
#Google #Gemini #多模态 #图像生成 #AI趋势
## Key Takeaway
- Google Gemini通过图像生成和修改能力实现“逆袭”,提供图文并茂的全新交互体验。
- Gemini的原生多模态能力是其核心卖点,能理解并处理文字、音频、图片和视频。
- Gemini在C端市场具有杀手级体验,集成了AI版的PhotoShop和美图秀秀功能。
- Gemini实验版模型可直接读取YouTube链接,利用多模态能力理解视频内容。
- Gemini APP更新了调用搜索记录和Deep Research模型,提升了实用性。
- 文章预测Gemini将在2025年奠定谷歌AI在C端市场的统治地位。
## Full Content
OpenAI现在一定很慌。因为谷歌前两天更新了Gemini,带来一个逆袭级别的功能。老规矩,我先演示,再解释。
举个例子,我让它从0到1帮我做一个奇异博士的原创设计,从线稿开始,最终完成上色,并且每一步都用图片展示。
于是,Gemini从概念草图和轮廓开始,完成线稿,完善细节,添加颜色、光影、材质和纹理,以及魔法效果。
第一次生成就能达到这样的程度,能够保持前后一致性,可以说是非常厉害了!
咱们再来试一个。这是马斯克在Twitter上发的照片。我把它贴到Gemini里边,让它不改变背景,只改变表情,改成微笑的样子。
你看,它改得还是很不错的。眼神、鱼尾纹都出来了。说明Gemini对指令的理解和服从、对局部的把控也是不错的。
更夸张的是,我让它给我一个红烧肉的教程,包含每一步的图片。结果它针对每一步都生成了对应的图片。
这个就是Gemini新增加的图像生成和修改能力,给到Gemini 2.0 Flash实验版的模型。大家想体验的话,可以用AI Studio,或者通过API。
实话实说,跟那些专业选手相比,比如SD、Flux,Gemini生成的图片算不上特别好。但是我认为,比专业更重要的,是它找到了切入大众市场的方法。
把图像生成和文字生成融合起来,有两个好处。
第一,模型生成的答案不限于文字,而是可以做到图文并茂。
该上图片就直接生成。注意,是生成,而不是去搜了一张图片、然后放进来。就好比我一边说、一边画。
这种做法,让我想起了去年Claude推出Artifacts功能。我当时还打了个比方,那就好比大学老师在讲课的时候,拉了一块干净的黑板过来,边说边写。
像这样的体验,绝对比只有文字强得多。现在是图文并茂,那之后也许可以生成短视频、融合到答案里。这个在C端市场绝对是杀手级体验。
第二,用户不用切换,在一个产品里全都能满足。
我们平时免不了会有一些修图的需要。现在的Gemini,就好比是集成了AI版的PhotoShop、美图秀秀,太适合了。
至于ComfyUI之类的重型产品,很强大,但门槛也很高,那就专门用来满足专业需求,就别跟大众产品混在一起了。
Gemini这个实验版的模型一推出,我看到不少人已经在琢磨怎么用它赚钱了。
你想嘛,既然它对人类指令的服从性高,那就把脚本给过去,用它来生成分镜稿。然后把分镜稿给到视觉模型,用图来生成视频片段,最后再合成一整个视频。
做自媒体的这下产出效率更高了。你看,强者从来不逼逼。不会像评论区的那些人一样,总觉得这不好、那不好。人家有啥用啥,绝不抱怨,专心挣钱。
言归正传。除了图像生成之外,这个实验版的模型还可以直接读取YouTube链接。它不只是提取视频字幕,而是真的利用多模态能力去“理解”。以后那些日文的视频,或者播客视频,都可以给Gemini 2.0 Flash处理了。
这个就是Gemini一直坚持的核心卖点:原生的多模态能力。在论文里可以看到,不管是文字、音频、图片还是视频,这些都一并输入。然后,模型会根据需要,选择输出文字或者图片。
Gemini属于自回归模型。跟那些扩散模型相比,它的服从性更好,并且针对一致性问题做了优化,比如采用高级注意力机制、多尺度生成等等,解决了架构的先天不足。沉淀了这么久,才有今天的逆袭。
我估计,过一两个月,这个实验版模型就会上架Gemini APP了。其实,这一波更新,APP那边也有很实用的提升。
一是可以调用搜索记录。
比如我问Gemini:最近有搜一个微软的项目,但是不记得了。于是它帮我从搜索记录里找到了,原来是微软的markitdown。
当然,这个功能需要用户的许可。如果你不愿意,可以随时关闭。
二是Deep Research的模型更新了。
果然跟我之前想的一样,从1.5换成了最新的2.0。这样一来,更强的推理,加上谷歌本来就很牛逼的搜索,Gemini Deep Research更好用了。
这一堆功能已经摆在台面上了。想象一下,如果把它们集成到安卓系统中——我相信这只是时间问题,那么,AI手机就不再只是个概念了。
所以,我有大胆的想法:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!