逆袭のGemini

<iframe title="逆袭のGemini" src="https://www.youtube.com/embed/73KYeQmgZ5A?feature=oembed" height="113" width="200" allowfullscreen="" allow="fullscreen" style="aspect-ratio: 1.76991 / 1; width: 100%; height: 100%;"></iframe> #Google #Gemini #多模态 #图像生成 #AI趋势 ## Key Takeaway - Google Gemini通过图像生成和修改能力实现“逆袭”，提供图文并茂的全新交互体验。 - Gemini的原生多模态能力是其核心卖点，能理解并处理文字、音频、图片和视频。 - Gemini在C端市场具有杀手级体验，集成了AI版的PhotoShop和美图秀秀功能。 - Gemini实验版模型可直接读取YouTube链接，利用多模态能力理解视频内容。 - Gemini APP更新了调用搜索记录和Deep Research模型，提升了实用性。 - 文章预测Gemini将在2025年奠定谷歌AI在C端市场的统治地位。 ## Full Content OpenAI现在一定很慌。因为谷歌前两天更新了Gemini，带来一个逆袭级别的功能。老规矩，我先演示，再解释。举个例子，我让它从0到1帮我做一个奇异博士的原创设计，从线稿开始，最终完成上色，并且每一步都用图片展示。于是，Gemini从概念草图和轮廓开始，完成线稿，完善细节，添加颜色、光影、材质和纹理，以及魔法效果。第一次生成就能达到这样的程度，能够保持前后一致性，可以说是非常厉害了！咱们再来试一个。这是马斯克在Twitter上发的照片。我把它贴到Gemini里边，让它不改变背景，只改变表情，改成微笑的样子。你看，它改得还是很不错的。眼神、鱼尾纹都出来了。说明Gemini对指令的理解和服从、对局部的把控也是不错的。更夸张的是，我让它给我一个红烧肉的教程，包含每一步的图片。结果它针对每一步都生成了对应的图片。这个就是Gemini新增加的图像生成和修改能力，给到Gemini 2.0 Flash实验版的模型。大家想体验的话，可以用AI Studio，或者通过API。实话实说，跟那些专业选手相比，比如SD、Flux，Gemini生成的图片算不上特别好。但是我认为，比专业更重要的，是它找到了切入大众市场的方法。把图像生成和文字生成融合起来，有两个好处。第一，模型生成的答案不限于文字，而是可以做到图文并茂。该上图片就直接生成。注意，是生成，而不是去搜了一张图片、然后放进来。就好比我一边说、一边画。这种做法，让我想起了去年Claude推出Artifacts功能。我当时还打了个比方，那就好比大学老师在讲课的时候，拉了一块干净的黑板过来，边说边写。像这样的体验，绝对比只有文字强得多。现在是图文并茂，那之后也许可以生成短视频、融合到答案里。这个在C端市场绝对是杀手级体验。第二，用户不用切换，在一个产品里全都能满足。我们平时免不了会有一些修图的需要。现在的Gemini，就好比是集成了AI版的PhotoShop、美图秀秀，太适合了。至于ComfyUI之类的重型产品，很强大，但门槛也很高，那就专门用来满足专业需求，就别跟大众产品混在一起了。 Gemini这个实验版的模型一推出，我看到不少人已经在琢磨怎么用它赚钱了。你想嘛，既然它对人类指令的服从性高，那就把脚本给过去，用它来生成分镜稿。然后把分镜稿给到视觉模型，用图来生成视频片段，最后再合成一整个视频。做自媒体的这下产出效率更高了。你看，强者从来不逼逼。不会像评论区的那些人一样，总觉得这不好、那不好。人家有啥用啥，绝不抱怨，专心挣钱。言归正传。除了图像生成之外，这个实验版的模型还可以直接读取YouTube链接。它不只是提取视频字幕，而是真的利用多模态能力去“理解”。以后那些日文的视频，或者播客视频，都可以给Gemini 2.0 Flash处理了。这个就是Gemini一直坚持的核心卖点：原生的多模态能力。在论文里可以看到，不管是文字、音频、图片还是视频，这些都一并输入。然后，模型会根据需要，选择输出文字或者图片。 Gemini属于自回归模型。跟那些扩散模型相比，它的服从性更好，并且针对一致性问题做了优化，比如采用高级注意力机制、多尺度生成等等，解决了架构的先天不足。沉淀了这么久，才有今天的逆袭。我估计，过一两个月，这个实验版模型就会上架Gemini APP了。其实，这一波更新，APP那边也有很实用的提升。一是可以调用搜索记录。比如我问Gemini：最近有搜一个微软的项目，但是不记得了。于是它帮我从搜索记录里找到了，原来是微软的markitdown。当然，这个功能需要用户的许可。如果你不愿意，可以随时关闭。二是Deep Research的模型更新了。果然跟我之前想的一样，从1.5换成了最新的2.0。这样一来，更强的推理，加上谷歌本来就很牛逼的搜索，Gemini Deep Research更好用了。这一堆功能已经摆在台面上了。想象一下，如果把它们集成到安卓系统中——我相信这只是时间问题，那么，AI手机就不再只是个概念了。所以，我有大胆的想法：2025年，Gemini会奠定谷歌AI在C端市场的统治地位。 OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！