<iframe title="逆袭のGemini" src="https://www.youtube.com/embed/73KYeQmgZ5A?feature=oembed" height="113" width="200" allowfullscreen="" allow="fullscreen" style="aspect-ratio: 1.76991 / 1; width: 100%; height: 100%;"></iframe> #Google #Gemini #多模态 #图像生成 #AI趋势 ## Key Takeaway - Google Gemini通过图像生成和修改能力实现“逆袭”,提供图文并茂的全新交互体验。 - Gemini的原生多模态能力是其核心卖点,能理解并处理文字、音频、图片和视频。 - Gemini在C端市场具有杀手级体验,集成了AI版的PhotoShop和美图秀秀功能。 - Gemini实验版模型可直接读取YouTube链接,利用多模态能力理解视频内容。 - Gemini APP更新了调用搜索记录和Deep Research模型,提升了实用性。 - 文章预测Gemini将在2025年奠定谷歌AI在C端市场的统治地位。 ## Full Content OpenAI现在一定很慌。因为谷歌前两天更新了Gemini,带来一个逆袭级别的功能。老规矩,我先演示,再解释。 举个例子,我让它从0到1帮我做一个奇异博士的原创设计,从线稿开始,最终完成上色,并且每一步都用图片展示。 于是,Gemini从概念草图和轮廓开始,完成线稿,完善细节,添加颜色、光影、材质和纹理,以及魔法效果。 第一次生成就能达到这样的程度,能够保持前后一致性,可以说是非常厉害了! 咱们再来试一个。这是马斯克在Twitter上发的照片。我把它贴到Gemini里边,让它不改变背景,只改变表情,改成微笑的样子。 你看,它改得还是很不错的。眼神、鱼尾纹都出来了。说明Gemini对指令的理解和服从、对局部的把控也是不错的。 更夸张的是,我让它给我一个红烧肉的教程,包含每一步的图片。结果它针对每一步都生成了对应的图片。 这个就是Gemini新增加的图像生成和修改能力,给到Gemini 2.0 Flash实验版的模型。大家想体验的话,可以用AI Studio,或者通过API。 实话实说,跟那些专业选手相比,比如SD、Flux,Gemini生成的图片算不上特别好。但是我认为,比专业更重要的,是它找到了切入大众市场的方法。 把图像生成和文字生成融合起来,有两个好处。 第一,模型生成的答案不限于文字,而是可以做到图文并茂。 该上图片就直接生成。注意,是生成,而不是去搜了一张图片、然后放进来。就好比我一边说、一边画。 这种做法,让我想起了去年Claude推出Artifacts功能。我当时还打了个比方,那就好比大学老师在讲课的时候,拉了一块干净的黑板过来,边说边写。 像这样的体验,绝对比只有文字强得多。现在是图文并茂,那之后也许可以生成短视频、融合到答案里。这个在C端市场绝对是杀手级体验。 第二,用户不用切换,在一个产品里全都能满足。 我们平时免不了会有一些修图的需要。现在的Gemini,就好比是集成了AI版的PhotoShop、美图秀秀,太适合了。 至于ComfyUI之类的重型产品,很强大,但门槛也很高,那就专门用来满足专业需求,就别跟大众产品混在一起了。 Gemini这个实验版的模型一推出,我看到不少人已经在琢磨怎么用它赚钱了。 你想嘛,既然它对人类指令的服从性高,那就把脚本给过去,用它来生成分镜稿。然后把分镜稿给到视觉模型,用图来生成视频片段,最后再合成一整个视频。 做自媒体的这下产出效率更高了。你看,强者从来不逼逼。不会像评论区的那些人一样,总觉得这不好、那不好。人家有啥用啥,绝不抱怨,专心挣钱。 言归正传。除了图像生成之外,这个实验版的模型还可以直接读取YouTube链接。它不只是提取视频字幕,而是真的利用多模态能力去“理解”。以后那些日文的视频,或者播客视频,都可以给Gemini 2.0 Flash处理了。 这个就是Gemini一直坚持的核心卖点:原生的多模态能力。在论文里可以看到,不管是文字、音频、图片还是视频,这些都一并输入。然后,模型会根据需要,选择输出文字或者图片。 Gemini属于自回归模型。跟那些扩散模型相比,它的服从性更好,并且针对一致性问题做了优化,比如采用高级注意力机制、多尺度生成等等,解决了架构的先天不足。沉淀了这么久,才有今天的逆袭。 我估计,过一两个月,这个实验版模型就会上架Gemini APP了。其实,这一波更新,APP那边也有很实用的提升。 一是可以调用搜索记录。 比如我问Gemini:最近有搜一个微软的项目,但是不记得了。于是它帮我从搜索记录里找到了,原来是微软的markitdown。 当然,这个功能需要用户的许可。如果你不愿意,可以随时关闭。 二是Deep Research的模型更新了。 果然跟我之前想的一样,从1.5换成了最新的2.0。这样一来,更强的推理,加上谷歌本来就很牛逼的搜索,Gemini Deep Research更好用了。 这一堆功能已经摆在台面上了。想象一下,如果把它们集成到安卓系统中——我相信这只是时间问题,那么,AI手机就不再只是个概念了。 所以,我有大胆的想法:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。 OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!