Blog.

让AI自动生成工作流

  • 作者分享了如何利用AI(特别是Claude)自动生成n8n工作流的方法。
  • n8n是一个开源的工作流程自动化工具,具有高度灵活性和广泛集成,并支持JSON格式的工作流导入导出。
  • n8n的MCP Trigger功能可以将工作流转化为可被外部系统调用的服务,实现工作流即服务。

用Kimi K2驱动Claude Code,两个方法

  • Kimi K2是月之暗面推出的开源大模型,其代码生成和Agentic能力表现出色,被认为是国产模型在AI编程和Agent产品领域的突破。
  • Kimi K2的能力介于Claude 3.5和Claude 3.7之间,足以驱动Agent产品。
  • 替换Claude Code模型有两种方法:最简单的是通过设置环境变量直接切换到Kimi K2 API;另一种是使用Claude Code Router项目,该项目支持多种模型服务商的API配置。

Dify × MCP:让工作流不再是孤岛

  • Dify新增双向MCP功能,允许用户在Dify中添加MCP服务器,并可将Dify工作流转换为MCP服务器对外输出。
  • 该功能解决了工作流孤岛问题,使其能融入日常通用场景,极大扩展了Dify的工具范围。
  • 作者重新关注Dify,认为工作流应原子化,作为组件强化特定场景效果。

通用Agent长啥样

  • 命令行Agent是AI发展的重要方向,结合了工具生态、Unix哲学和AI调度能力。
  • Unix哲学与AI模型的ReAct框架高度契合。
  • 通用Agent = 思考大脑 + 命令行身躯 + MCP感知系统。
  • 大模型负责’思考’,命令行Agent负责’行动’。
  • MCP是实现’感知’和’循环验证’的关键。
  • 通用Agent的’骨架’是一个善于思考的AI大脑,嫁接在拥有海量工具的命令行身躯之上,并辅以MCP的敏锐感知。

我做了个Obsidian MCP

  • 作者开发了一个Obsidian MCP,提供搜索、读取、创建、移动笔记和管理文件夹等功能。
  • 该MCP支持多种安装方式,包括Claude桌面版的DXT方式、远程NPM包安装和本地安装。
  • 使用该MCP可以摆脱Obsidian内置AI插件的限制,通过熟悉的AI客户端(如Claude、ChatGPT)直接访问和管理笔记。

我的个人IP内核

  • 作者利用Gemini 2.5 Pro分析提炼个人IP内核,旨在成为超级个体,摆脱对体系的依附。
  • 实现超级个体的两个核心杠杆是代码和叙事,它们在AI时代具有巨大潜力。
  • 作者通过实践摸索出AI时代的学习和生存方法,强调Learning by doing和Go fundamental。

最强AI编程工具Claude Code,五个使用Tips

  • Claude Code被认为是地球上最强的AI编程工具,因为它与Claude模型深度适配和优化,且不计较上下文长度消耗。
  • /init命令用于初始化项目,创建CLAUDE.md文件,记录项目背景信息,提高效率和上下文一致性。
  • Plan Mode允许用户在执行复杂功能前,让Claude Code进行规划,尤其适用于不确定如何操作的场景。

用Cursor做UI,最有效的两个方法

  • 作者介绍了两种使用Cursor进行UI设计的方法:免费的通过通用大模型生成JSON配置,以及付费的通过v0模型API。
  • 通用大模型直接生成UI效果不佳,但通过JSON等结构化数据输入能显著提高准确性和效率。
  • v0模型是专门针对UI和前端开发训练的,通过API接入Cursor可以获得更好的UI生成效果。

写不好代码的模型,没有未来

  • 写代码的能力是衡量大模型优劣和决定其未来的核心标准。
  • 代码能力强的模型智商更高,因为它要求逻辑、精确性和对复杂系统的理解。
  • 编程是模型的复合动作,能扩展其能力边界,使其泛化到更多领域,是通往AGI的必经之路。

用提示词组成工作流

  • Prompt House是一款用于提示词管理和调用的工具,通过MCP协议实现模型自动获取和使用提示词,从而串联组成工作流。
  • 作者通过Mac版Prompt House演示了如何在一个提示词中嵌套多个MCP工具和提示词,实现复杂任务的自动化。
  • Prompt House的核心价值在于将MCP工具和提示词结合,形成基于Workflow的自动化能力。

给AI全局记忆

  • 全局记忆对于提升AI对话连贯性、实现个人助理功能以及构建全球知识共享工具至关重要。
  • OpenMemory项目通过独立存储聊天记录并利用MCP协议,实现了跨客户端和跨对话的AI记忆共享。
  • OpenMemory的功能实现依赖于大模型(用于语义理解和检索)、本地化存储(确保隐私、数据可移植性和扩展性)以及MCP协议(实现不同客户端间的内存共享)。

我的第一款产品上线!纯Vibe Coding

  • Prompt House是一款解决提示词管理和调用问题的AI产品,通过MCP协议实现AI自动挑选和调用提示词。
  • 作者通过Vibe Coding方式,利用AI工具(v0、Cursor、Claude 4等)在短时间内低成本开发并上线了Prompt House。
  • 文章强调当前是做产品的最佳时机,因为AI正在重塑流量分配模式(Agent Rank)并显著降低产品开发门槛。

Google:王者归来

  • Google通过克制赚钱欲望,推出搜索的AI模式,展现了其AI First的战略决心。
  • Google在AI领域实现了王者归来,其全栈式AI产品体系涵盖基础层(AI搜索、Gemini模型、TPU算力)、赋能层(开发者工具)和体验层(多模态内容创作、Agent平台)。
  • Gemini系列模型持续迭代,提升了多模态能力和推理能力,如Gemini 2.5 Pro的Deep Think和Flash的速度优化。

Agent经济,要来了

  • 红杉资本认为AI浪潮的量级远超云计算和移动互联网,将颠覆整个软件市场,并重构服务行业。
  • AI的机会主要在应用层,创业公司可从垂直领域和复杂人力介入问题切入,利用Agent替代外包业务。
  • Agent经济(Agent Economy)是AI时代新的商业模式,Agent将替代用户进行交互和交易,催生新的通信网络和基础设施需求。

别学提示词,学逻辑

  • 提示词的本质是通用沟通技巧,而非AI独有技术,其底层是逻辑和方法论。
  • 学习提示词应侧重于提升逻辑思维、沟通方法论和写作能力,而非购买提示词课程。
  • 好的提示词需要针对不同AI模型的认知模式进行优化,这需要通过反复尝试和对比来了解。

Raycast + MCP = AI Mac

  • Raycast通过集成AI插件和MCP(模型控制协议),实现了Mac上的AI功能,打造AI Mac体验。
  • Raycast作为Mac效率中心,能实现跨应用调度,通过自然语言交互控制软件。
  • Raycast简化了MCP的部署和配置,用户可轻松安装和使用官方提供的MCP服务器。

Gemini新手教学

  • Google Gemini提供了教育优惠,可免费使用Gemini Advanced、NotebookLM Plus和2TB网盘空间。
  • Gemini的超大上下文长度(100万token)使其在处理长文档(如PDF翻译)方面表现出色,远超其他模型。
  • Gemini与Google生态系统深度整合,能无缝处理YouTube视频总结(带时间戳)、Gmail邮件翻译和回复等。

GitHub项目理解神器:DeepWiki

  • DeepWiki是一款GitHub项目理解神器,能帮助开发者和爱好者吃透任何项目,通过AI扫描代码仓库并结合代码片段进行问答。
  • 在AI时代,理解代码的重要性,AI工具能降低编程门槛,但仍需具备开发思维。
  • DeepWiki简化了项目理解过程,用户无需下载代码仓库,直接通过网页或修改链接即可导入。

支持中文!NotebookLM自动生成播客

  • Google NotebookLM现在支持生成中文播客,对学习和自媒体创作有巨大帮助。
  • NotebookLM通过结合思维导图、AI播客和AI对话,提供立体化的学习体验,提升知识吸收效率。
  • AI播客虽然缺少人的感觉,但其质量已达标,且在产量上具有巨大优势,有望催生新的内容形式。

Cursor就是最强知识库应用,没有之一

  • Cursor作为编程软件,天生具备RAG能力,能对本地文件进行索引和处理,使其成为强大的知识库应用。
  • Cursor与Obsidian的本地化存储特性完美结合,用户可以通过Cursor直接操作和利用Obsidian的笔记文件。
  • 通过创建cursorrules文档,用户可以自定义Cursor的工作方式,例如优先检索本地文档、进行联网搜索,并调用特定的MCPs。

五款实用MCP推荐

  • MCP(模型控制协议)是提升AI生产力的关键,本文推荐五款实用MCP。
  • Tavily和Sequential Thinking组合:Tavily解决信息获取,Sequential Thinking增强模型多步骤推理能力,提升回答质量。
  • Filesystem和Markitdown组合:Filesystem允许模型访问本地文件,Markitdown将PDF转换为Markdown,使模型能处理PDF文档。

Gemini + Grok:最被忽视的AI生产力工具

  • Gemini和Grok是两个被低估的顶级AI应用,它们在不同方面展现出强大的生产力。
  • Gemini提供多功能体验,包括快速回答(Flash)、文章创作(Canvas)和深度报告(Deep Research),并能与Google文档和NotebookLM无缝集成,支持深度学习。
  • Grok在模型回答上更具人味,产品设计简洁,并拥有独特的Twitter数据源,使其在获取用户真实反馈方面具有优势。

MCP很简单,有手就行

  • MCP(Model Control Protocol)被比作AI的USB-C,旨在统一AI与各种软件的接口,实现AI按需调用工具。
  • MCP的快速发展可能受Agent概念影响,因为它为AI提供了手脚,是当前阶段解锁Agent的最佳途径。
  • 相较于通用Agent和复杂的工作流搭建,MCP的配置方法更简单,模型(如Claude-3.7 Sonnet)能自主选择和调用工具。

逆袭のGemini

  • Google Gemini通过图像生成和修改能力实现逆袭,提供图文并茂的全新交互体验。
  • Gemini的原生多模态能力是其核心卖点,能理解并处理文字、音频、图片和视频。
  • Gemini在C端市场具有杀手级体验,集成了AI版的PhotoShop和美图秀秀功能。

详细版!我是如何用AI学习的

  • AI将成为衡量个人能力的标准,其应用能力将成为基本技能。
  • 作者分享了一套AI学习法:首先对议题进行拆解,梳理个人初步判断和问题,为AI提供上下文。
  • 利用Gemini的Deep Research功能生成多份详细报告,并通过Google文档导入NotebookLM进行AI辅助学习。

AI知识库的终点

  • 传统RAG在处理复杂查询时存在局限性,无法有效捕捉实体关系和层次结构。
  • Second Me项目通过混合记忆架构(结合RAG、GraphRAG和本地模型微调)来解决传统知识库的局限,旨在打造一个能模仿用户风格、语气和关注议题的第二个我。
  • 混合记忆架构包含三个层级:L0(快速检索层,RAG)、L1(记忆深度处理与结构化层,GraphRAG)和L2(模型个性化微调层)。

AI笔记法

  • AI正在改变学习和笔记方式,NotebookLM等工具改变了从文档获取知识的方式。
  • Basic Memory项目旨在解决AI长期记忆问题,通过Markdown格式本地保存笔记,并用MCP连接AI,实现自然语言交互。
  • 作者的AI笔记系统采用漏斗结构,由AI笔记库(Basic Memory创建和管理)和个人管理笔记库(Obsidian)组成。

M4 Mac mini作为轻量级AI服务器,太香了!

  • M4 Mac mini是轻量级AI服务器的理想选择,功耗低且性能出色,能满足本地运行大模型的需求。
  • Ollama是本地运行大模型的优秀工具,支持多种模型和精度,可通过设置实现模型常驻内存。
  • 通过修改Ollama的监听地址,可实现局域网内其他设备(如手机)访问本地大模型。

DeepSeek新模型太适合MCP了!

  • DeepSeek新模型V3 0324在MCP调用方面表现出色,性价比极高,性能接近Claude-3.7 Sonnet。
  • DeepSeek模型具备清晰的思考和规划能力,能将用户需求拆解为明确任务,并判断所需工具。
  • DeepSeek在工具调用能力上显著提升,结合其成本优势,将推动MCP的进一步普及。

人人都是宫崎骏

  • 作者介绍了如何使用ChatGPT和Hedra工具生成吉卜力风格的动画视频。
  • 创作流程包括:使用ChatGPT将照片转换为吉卜力风格图片,然后将图片和录制的音频上传到Hedra生成视频。
  • 这种方法成本较低(约30美元),且对分辨率和口型要求不高,适合快速生成动画内容。

AI剪藏公众号文章,全自动总结、提炼、存进Obsidian

  • Web Clipper插件的Interpreter功能能实现AI自动总结、提炼公众号文章,并保存到Obsidian。
  • 该插件支持桌面端和移动端,可根据预设模板和触发条件自动化剪藏流程。
  • 用户可选择不同大模型(GPT-4o mini、Claude、Gemini、Ollama)进行内容处理。

大模型正在吃掉一切

  • 大模型巨头(OpenAI、Google)的更新正在吃掉小厂商和创业者的市场份额。
  • OpenAI的GPT-4o通过整合图像生成功能,实现了图文并茂的全新交互体验,拉开了与竞争对手的距离。
  • Google的Gemini 2.5 Pro在代码能力和推理能力上显著提升,并具备超大上下文窗口,展现了强大的综合实力。

MCP实用指南

  • MCP(Model Control Protocol)是模型的超级外挂,能显著提升AI生产力,例如通过结合Claude和MCP实现低配版Deep Research。
  • Sequential Thinking MCP有助于模型进行多步骤推理,保持逻辑性和连贯性;Tavily MCP则提供优化过的搜索引擎功能。
  • MCP.so是寻找和托管MCP服务器的首选平台,其核心竞争力在于MCP Server Hosting。

有了MCP,AI才完整

  • MCP(模型控制协议)是AI发展的关键,它将AI从功能机进化到智能机,解决了传统API接口不统一和不理解语义的问题。
  • MCP为AI提供统一的工具接口,使其能够自由接入和控制海量工具,实现更进阶的任务。
  • 文章通过演示AI工具(Cline)如何通过MCP调用Obsidian(笔记)和Tavily(搜索)等多个工具,展示了MCP的实际应用。

这才是AI电脑该有的样子

  • Raycast通过其AI插件功能,实现了AI PC/Mac的理想形态,能无缝集成所有软件,并通过自然语言交互进行跨应用调度。
  • Raycast的AI Extensions提供自然语言交互、跨应用调度(通过Preset)和AI对话功能。
  • 用户可以通过Raycast的AI插件,直接控制终端、预定会议、管理任务等,无需打开具体应用。

Mac必装AI软件

  • 作者分享了MacBook Pro的配置选择,并解释了为何选择14寸M4 Pro而非16寸M4 Max,以及未来将重负载任务交给Mac Studio的规划。
  • 推荐Mac用户安装AI相关软件,如ChatWise,它支持主流闭源模型和开源模型(如Ollama),并提供搜索和Artifacts等工具。
  • 强调了OpenRouter作为统一API管理平台的重要性,避免了多平台注册和绑定信用卡的麻烦。

普通人用AI,从元宝开始

  • 腾讯元宝是普通用户入门AI的最佳启蒙工具,因其全场景覆盖、双模型支持和腾讯加持版R1。
  • 元宝提供网页版、桌面客户端、手机APP和微信小程序,并支持微信文件导入,实现多场景无缝切换。
  • 元宝结合DeepSeek-R1(慢思考)和混元Turbo S(快思考)双模型,兼顾深度和效率。

Ollama + Hugging Face:给Ollama添加任何大模型

  • Ollama是本地运行开源大模型的最佳工具,但官方模型对中文支持有限。
  • 用户可以通过Hugging Face下载GGUF格式的开源大模型文件,并利用Modelfile和ollama create命令将其添加到Ollama中。
  • GGUF格式是一种压缩格式,能让大模型在消费级终端上运行,但会牺牲精确度。

Gemini 2.0:性价比之王

  • Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
  • Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
  • Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。

AI杀手级应用:Deep Research

  • Deep Research是AI的杀手级应用,能显著提升职场效率,未来将快速普及。
  • Deep Research的核心是AI Search的尽头,即AI Research,通过掌握更多信息和控制更多工具实现。
  • OpenAI的Deep Research效果最佳,但成本高昂;Google Gemini的Deep Research性能不错且性价比高;Perplexity的Deep Search量大但效果一般。

AI学习法:Deep Research + Obsidian + Cursor

  • 作者介绍了一种结合Deep Research、Obsidian和Cursor的AI学习法,旨在实现深度研究、知识提取和知识图谱构建。
  • Deep Research提供高信息密度的输入,Obsidian通过反向链接功能将报告中的知识点系统性地关联起来。
  • Cursor的Composer功能能够直接对Obsidian笔记进行知识点提取、解释和内容生成,充当强大的AI辅助工具。

手机也能本地部署DeepSeek R1

  • DeepSeek R1模型可以在手机等本地设备上部署运行,PocketPal AI等免费APP支持。
  • 本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势,是AI普及的趋势。
  • DeepSeek R1的发布对AI行业是重大利好,推动了AI普及,促进了模型厂商的竞争,并引发了对算力使用和开源模型价值的反思。

7G显存,训练你自己的DeepSeek-R1

  • Unsloth框架显著降低了微调大模型的门槛,仅需7G显存即可微调1.5B模型,消费级PC也能实现。
  • DeepSeek的GRPO强化学习算法能提升模型推理能力和可解释性。
  • 微调技术可用于打造个人AI分身和私域模型,实现本地化、无需联网的AI交互。

三款Obsidian必备插件,我每天都在用

  • PDF++插件能帮助用户在Obsidian中高效地阅读PDF并做笔记,支持选中内容自动粘贴、颜色区分和跳转原文链接。
  • Smart Connection插件利用AI的反向链接功能,自动分析笔记相关性,并支持可视化展示,解决了手动关联的痛点。
  • Copilot插件是Obsidian中功能最强大的AI插件,支持多种大模型、本地知识库功能(RAG)和实用的预设功能(总结、翻译)。

本地微调Flux LoRA,最简单的方法

  • Fluxgym是一个简单易用的本地微调Flux LoRA工具,支持12G-24G显存GPU,能以假乱真地生成虚拟模特。
  • LoRA(Low-Rank Adaptation)是一种微调技术,通过添加便签纸式技能包,让大模型适应特定任务和风格。
  • Fluxgym结合了AI-toolkit的前端和Kohya Sripts的后端,提供直观的用户界面和丰富的进阶调整选项。

我对2025年AI的判断

  • 2025年AI的关键词是Agent,其本质是任务引擎,而非简单的智能体。
  • AI发展将从信息引擎阶段(大模型引领)进入任务引擎阶段(Agent引领)。
  • Chatbot只是Agent的初级形态,未来可能被淘汰,因为其缺乏上下文信息,限制了任务完成能力。

每个IP都需要AI分身,每家企业都需要AI客服

  • AI分身和AI客服的普及是AI技术落地和应用爆发的重要代表,云厂商的加入加速了这一进程。
  • 腾讯云大模型知识引擎通过提供精调知识大模型、灵活的知识库设置(如语义切块)和搜索增强功能,驱动AI分身和AI客服。
  • 知识库设置支持文档和问答集,并强调评测和效果调优的重要性。

秘塔AI:加速知识流动

  • 秘塔AI搜索的专题功能是其核心更新,提供了知识库功能,支持多人协作和API调用。
  • 知识库的创建和分享加速了知识的流动,实现了RAG as Service。
  • AI要变得有用,需补充领域知识和领域经验,秘塔通过专题和工作流来解决。

让Claude假装思考:Thinking Claude

  • Thinking-Claude通过提示词让AI假装思考,展示思考过程,提升回答质量。
  • 大模型的输出是一次性完成的,其思考是表演而非真正的反馈循环。
  • 尽管是表演,但这种方式能强制模型产出更有逻辑、更全面的回答,具有实用价值。

Omnivore停运,用啥替代?

  • Omnivore停运后,Web Clipper成为替代方案,它是一款浏览器插件,能将网页内容剪藏并同步到Obsidian。
  • Web Clipper支持在桌面端和移动端使用,能保存整篇文章或部分内容,并支持自定义模板和自动触发。
  • 插件设置包括绑定Obsidian Vault、设置存储位置、行为(新建笔记或添加到现有笔记)和触发条件。

谷歌下一个AI爆款:Learn about

  • Google的Learn about是一款专为学习打造的AI产品,与NotebookLM结合可覆盖所有学习场景。
  • Learn about能提供系统性的学习框架,并引导用户进行深度学习。
  • 该产品通过AI助理和AI老师的角色,帮助用户从互联网获取、整理和学习知识。

严肃生产,还得看Claude

  • Claude推出的Analysis tool(数据分析工具)能够帮助用户对数据表格进行分析和可视化呈现。
  • 该工具基于Claude强大的代码能力和Artifacts功能,能够处理CSV文件并进行数据可视化。
  • AI在数据分析领域的应用,将像AI编程一样,赋能更多非专业人士。

Perplexity使用指南

  • Perplexity是目前最好的问答引擎,其回答质量和使用体验优于ChatGPT等产品。
  • Perplexity作为知识的起点,强调建立信任(清晰来源标注)、帮助用户提问(扩展搜索关键词、引导提问)和提供一站式服务(Pages功能)。
  • 文章详细介绍了Perplexity的核心功能、使用技巧和商业模式,展现其在AI搜索领域的领先地位。

Mac跑大模型,首选LM Studio

  • LM Studio是Mac上运行大模型的首选工具,尤其支持为M系列芯片优化的模型文件,显著提升运行速度。
  • LM Studio新增对苹果MLX框架的支持,该框架专为M系列芯片优化,能高效部署和运行模型。
  • 文章通过对比演示,展示了优化版模型在M2芯片Macbook Air上运行速度的优势。

ChatGPT最重要的更新:Canvas

  • OpenAI最新发布的Canvas是ChatGPT的重要更新,提供文本撰写和代码生成功能。
  • Canvas借鉴了Claude的Artifacts功能,并具有Grammaly的文本撰写风格。
  • AI产业已进入商业落地阶段,白领和程序员是AI替代的重点目标。

Perplexica:部署完全属于你的问答引擎

  • Perplexica是一款开源的问答引擎,旨在提供Perplexity的本地部署替代方案,具有高度自由度。
  • Perplexica支持云端和本地模型,可通过OpenAI、Anthropic、Grok的API调用,或通过Ollama调用开源大模型。
  • 部署Perplexica需要通过Docker,配置搜索引擎(SearXNG)和大模型连接,提供完整的本地问答解决方案。

HuggingChat:用最先进的开源模型,挑战ChatGPT

  • HuggingChat是一款免费体验最先进开源大模型的应用,提供网页版、iOS版和macOS版,设计简洁。
  • HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型,并会不定期更新模型列表。
  • 作者日常高频使用问答引擎Perplexity和Chatbot Claude,但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。

2024必备赚钱技能:微调Flux LoRA

  • 微调Flux Lora是一项有价值的技能,能让AI生成指定长相的人物或产品,并可叠加使用多个Lora。
  • Flux模型生成图片的真实度高,ComfyUI解决了图像生成的可控性问题,Lora解决了模型经验问题。
  • 制作Lora需要准备素材图片(20张起步),并通过微调工具(如Replicate上的项目)进行训练。

Flux + ComfyUI = 量产网红美女

  • Flux模型结合ComfyUI工作流和网红Lora,能生成高度逼真的AI图片,甚至可以以假乱真。
  • Flux模型由Stable Diffusion核心团队开发,生成图片真实度高,且能实现精准控制。
  • ComfyUI通过节点式工作流,解决了传统AI图像生成难以精准控制的问题,实现了精细化产出。

Replit Agent:AI编程的野心

  • Replit Agent是一款激进的AI编程工具,能通过Agent完成环境设置、代码撰写和项目部署,实现云端开发。
  • Replit Agent的模式类似于「厨师服务团队」,用户只需提供需求,Agent负责具体执行,适合快速原型开发。
  • Replit Agent与Cursor等工具相比,更侧重于自动化,减少人工参与,但对于复杂项目仍有局限性。

让Agent自动搜集每日资讯

  • 作者通过运行Python脚本,利用Agent自动搜集Reddit和全球媒体的AI相关资讯,生成每日简报AI内参。
  • 有价值的AI内容主要在国外,掌握英文和直接学习源头信息至关重要。
  • Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。

会聊天,就会编程

  • Cursor是一款强大的AI编程IDE,能够原生支持AI功能,实现与AI的纯聊天式编程。
  • 作者通过Cursor在10分钟内不写代码,仅通过与AI对话,开发出Chrome浏览器插件,展示了AI编程的高效性。
  • Cursor的Apply功能能够自动定位代码修改位置,提升调试效率。

限制大模型的,是输出长度

  • 大模型厂商普遍关注上下文长度,但忽略了输出长度的限制。
  • 目前大模型的输出长度普遍在2-3千字,主要原因是缺乏长文本训练素材。
  • 智谱通过增加长输出数据训练,显著提升了模型的输出长度。

RAGFlow:知识库终极引擎

  • RAGFlow是一款开源的重型知识库引擎,提供比现有知识库产品更深度、细致的RAG设置,包括Rerank Model、RAPTOR和Self-RAG等高级功能。
  • RAGFlow通过Docker部署,支持所有主流大模型提供方(云端和本地),并提供丰富的知识库创建和Assistant定制选项。
  • RAPTOR技术通过多层总结形成树状结构,提升复杂问题的推理能力;Self-RAG则通过大模型自我反省,解决过度检索问题。

微调Llama 3.1,用神器Unsloth

  • Meta开源Llama 3.1具有里程碑意义,其性能达到GPT-4o水平,可通过知识蒸馏和微调适应特定任务和领域。
  • 微调(Fine-tuning)是将通用大模型(如大学毕业生)训练成掌握特定技能(如公司培训)的过程。
  • Unsloth是一款开源的微调工具,简化了复杂的微调代码逻辑,支持多种模型和高效训练。

提升AI知识库效果,从PDF转Markdown开始

  • PDF格式的复杂性(结构、编码、信息丢失)导致AI知识库在处理PDF时精确度不足。
  • 提升AI知识库效果的关键是先将PDF转换为Markdown等方便大模型提取文本的格式。
  • Mathpix是一款便捷的PDF转Markdown工具,支持PDF和图片上传,可导出多种格式,并能OCR识别LaTeX公式。

ChatGPT的正确打开方式

  • ChatGPT在iPhone上效率不高,因为它没有与系统和其它APP打通,无法自动化运行。
  • 利用iPhone的快捷指令功能,可以实现ChatGPT的自动化操作,如自动总结公众号文章、语音问答等。
  • 快捷指令的核心逻辑是:输入(网页文字、语音转文本)-> 处理(ChatGPT总结、回答)-> 输出(Markdown格式笔记到备忘录)。

AI时代,如何学习?

  • AI时代大模型作为知识容器,人类唯一的解是「Go Fundamental」(深入基本原理)。
  • 基本原理相对稳定且具有普遍性,能应对技术快速更新,并应用于多个领域。
  • 人类在AI时代的独特优势在于抽象思考、跨领域联想和创造性思维。

学习Agent,从dify开始

  • Agent平台分为生态流派(如钉钉)和工具流程流派(如dify),dify通过提供知识库和工具来创建Multi-Agent System。
  • 学习Agent应从dify入手,因为它将代码逻辑以直观的流程图形式呈现,便于理解和实践。
  • dify的工作流设计强调逻辑和流程的整体性,大模型仅在需要时介入,而非主导一切。

GraphRAG:很好,但很贵!

  • GraphRAG是微软开源的结合知识图谱的检索增强生成技术,旨在提升AI知识库的精确度。
  • GraphRAG通过提取实体及其关系,构建庞大的知识图谱,从而实现全局性优势。
  • 部署GraphRAG需要安装相关库、创建目录、存入文档、初始化项目、配置API Key和模型参数。

当浏览器与大模型打通:Brave浏览器 + Ollama

  • Brave浏览器通过与本地大模型(如Ollama)打通,实现了浏览器内置AI功能,提升了用户上网冲浪时的效率和便捷性。
  • Brave的AI功能支持直接对话、选中文字总结以及将当前网页内容作为大模型参考。
  • 文章强调了浏览器与AI打通的必要性,并认为Brave在大方向上是正确的,但未来大厂(如Chrome与Gemini)的跟进将带来竞争。

如何让ChatGPT做PPT

  • ChatGPT无法直接生成PPT,但可以通过Marp和CSS语言作为桥梁,生成Markdown格式的代码,再转换为PPT。
  • Marp是一款能将Markdown文件转换为PPT的工具,其语法简单,能满足日常PPT需求。
  • 结合VS Code和Marp for VS Code插件,用户可以实现ChatGPT生成PPT代码,并在VS Code中预览和导出。

围绕Obsidian,打造AI知识库

  • 作者通过Omnivore和Readwise两款插件,对Obsidian笔记系统进行了升级,解决了外部信息同步到Obsidian的痛点。
  • Omnivore负责将网页文章同步到Obsidian,支持桌面端和移动端。
  • Readwise负责保存文章中的Highlights和Twitter推文,并能将同一文章的不同Highlights汇总到一条笔记中。

LLM = OS

  • 大模型被视为凌驾于所有操作系统之上的操作系统,具备内存管理、文件系统、驱动程序等组成部分。
  • OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级,如提升上下文长度、Function Call能力等。
  • 大模型的操作系统化将导致其吃掉大量应用赛道,对创业者而言生存空间将受到挤压。

最适合知识库的大模型

  • Cohere及其Command R+模型是专注于RAG和Agent的业界清流,其创始人是Transformer论文作者之一。
  • Cohere提供生成模型(Command R+)、嵌入模型(Embed)和重排序模型(Rerank),特别适合复杂RAG工作流和多步骤工具使用。
  • Command R+在某些方面性能达到GPT-4级别,且有量化版本可本地运行。

如何搭建一套Agent系统

  • Agent是AI智能体的核心,用于自动化执行任务,其搭建关键在于明确需求和工作流设计。
  • Multi-Agent System通过角色分工协作,解决复杂任务,例如Researcher、Editor和Note Taker的组合。
  • Agent除了大模型作为大脑,还需要工具作为手脚,如搜索工具(Tavily)和笔记工具(Obsidian)。

未来三年最值钱的工作

  • Agent Designer(智能体设计师)是未来三年最有价值的工作,因为AI技术价值的实现依赖于Agent。
  • Agent可以类比为高达的躯体,大模型是动力源,工具是武器,用户是驾驶员。
  • Agent设计师需要同时懂AI和业务,能够将人类意图翻译给AI,并设计Agent的工作流。

最适合普通人的知识库

  • QAnything是一款适合普通用户的知识库产品,支持创建多个知识库,并能处理文档和网页内容。
  • QAnything的机器人功能可将知识库以链接形式发布,用于团队协作或AI客服。
  • QAnything在RAG技术上有所创新,采用了Rerank技术(二阶段检索)提升检索精确度。

如何让AI帮你快速看完一本书?

  • Google的NotebookLM是一款强大的AI学习产品,通过Conversational Learning理念,辅助用户高效学习和消化资料。
  • NotebookLM新增中文支持和笔记本指南功能,后者包含摘要、建议问题和多种生成选项(如简报文档、常见问答)。
  • 该工具能帮助用户快速建立对文档的框架性理解,并通过AI引导深入细节,提升学习效率。

AI不会替代你,但是…

  • AI不会替代人,但会使用AI的人将替代不使用AI的人。
  • AI赋能个体并非平等过程,早期阶段AI的特点是「遇强则强,遇弱则弱」。
  • 学习使用AI的两个关键方法:DYOR(深入研究源头知识)和学习Python编程。

本地跑大模型,需要什么配置

  • 本地运行大模型具有运行稳定、速度快、免费、模型选择丰富和使用自由等优势。
  • 本地运行大模型需要一定的硬件配置,最低建议16G内存和4G显存,理想配置为32G内存和24G显存(或更高)。
  • LM Studio等工具可以帮助用户直观地了解本地硬件对大模型的支持情况。

两款AI插件,让Obsidian更强大

  • Obsidian是搭建个人笔记系统的理想工具,结合AI插件可实现「第二大脑」功能。
  • Text Generator插件能将Obsidian变为内置ChatGPT,支持总结、头脑风暴、拟大纲、生成标签等,且模板可自定义。
  • Copilot插件提供自由问答、基于笔记交互和知识库查询功能,支持多种大模型和联网搜索。

我的AI笔记系统

  • 作者的AI笔记系统分为外部信息处理(Anything LLM)和笔记内容生成(Obsidian)两部分。
  • Anything LLM支持多种大模型和向量数据库,能处理PDF和公众号文章,用于资料消化和存储。
  • Obsidian是作者的终极笔记选择,因其速度快、数据本地化和丰富的AI插件(如Copilot)。

问答引擎,本地部署

  • 问答引擎是搜索引擎的下一个形态,能直接提供组织好的内容而非网页链接。
  • LLocalSearch是一个开源项目,允许用户在本地部署问答引擎,并可联网搜索。
  • LLocalSearch的基本逻辑是:本地大模型理解问题 -> 转换为搜索关键词 -> 搜索相关资料并存入本地向量数据库 -> 结合问题和资料推理并输出答案。

本地大模型,免安装!

  • Llamafile是一个创新的本地大模型运行项目,只需一个文件即可运行,无需安装,极大降低了本地部署门槛。
  • Llamafile通过整合llama.cpp(模型推理优化)和Cosmopolitan Libc(跨平台可执行文件),实现了单文件运行大模型。
  • Llamafile支持多模态(如Llava模型),可进行文字生成和图片描述。
  • Llamafile的免安装特性使其便于分享和在各种终端设备上运行,有助于大模型的普及和应用。

本地知识库,外网也可以访问

  • 本地大模型和知识库可以通过ngrok实现外网访问,兼顾数据隐私安全和使用便捷。
  • ngrok是一种内网穿透工具,能建立安全的内部和外部通道,实现外网访问内网。
  • 部署ngrok需要安装ngrok、添加认证token,并通过命令将本地端口映射到外网。

部署本地大模型和知识库,最简单的方法

  • Ollama是本地运行开源大模型的最佳工具,支持多平台,且易于安装和使用。
  • Open WebUI提供ChatGPT风格的Web界面,支持本地大模型交互和RAG能力,可处理网页和文档。
  • Anything LLM是更高级的本地知识库管理工具,支持多种大模型、嵌入模型和向量数据库,并提供Workspace概念和对话/查询模式。

NotebookLM:AI时代的笔记应用

  • NotebookLM是Google Labs发布的一款实验性AI笔记应用,结合了Chatbot和RAG,改变了传统笔记逻辑。
  • 其核心功能区包括来源区(添加文档)、对话区(AI引导提问和回答)和笔记区(手动/自动创建笔记)。
  • NotebookLM通过AI建议提问、引用来源和笔记生成等功能,显著提升了用户对文档的理解和知识沉淀效率。

Elon Musk:Sam Altman是叛徒

  • Elon Musk起诉Sam Altman和OpenAI,指控其背弃OpenAI创立时「为全人类造福、开源」的价值观。
  • 诉讼核心在于OpenAI与微软的协议,以及OpenAI是否已实现AGI并将其私有化。
  • Elon Musk认为OpenAI的AGI技术已被Sam Altman控制并输送给微软,背离了非盈利初衷。

套壳之王:Perplexity

  • Perplexity是一款现象级的AI原生问答引擎,有望替代传统搜索引擎,其核心价值在于直接提供组织好的答案而非网页链接。
  • Perplexity通过Copilot模式扩展搜索关键词,并提供Focus选项进行特定类型搜索,提升用户体验。
  • Perplexity强调答案的严谨性,提供清晰的来源标注,并支持多轮交互和Collection功能。

再见,GPTs

  • OpenGPTs是LangChain推出的开源项目,旨在替代OpenAI的GPTs,提供更彻底的自定义能力。
  • OpenGPTs支持更多模型(开源、闭源、云端、本地),可完全本地化运行,数据更安全,隐私性更强,费用更低。
  • OpenGPTs高度定制化,代码开放,可随意修改,并能生成公开链接供团队共用。

Sora:站在OpenAI的肩膀上

  • Sora的发布标志着视频生成技术达到能用级别,其真实度远超同期产品。
  • Sora成功的核心在于OpenAI采用了Transformer架构,并将其应用于视频生成,将视频切分为Spacetime Patch作为Token。
  • Sora结合了Diffusion Model和Transformer的优势,被称为Diffusion Transformer。

AI需要「影分身」

  • ChatGPT「裸奔」不足以满足生产力需求,部署Agent能显著提升效率。
  • GPT Researcher是开箱即用的Agent方案,擅长资料搜集和报告生成,成本低廉。
  • CrewAI是灵活的Agent框架,通过设定Agent、Tool和Task实现自由搭建Agent系统。

给大模型无限上下文

  • 上下文长度是大模型应用的关键限制,提升其难度高。
  • MemGPT将大模型视为操作系统,通过分级内存管理(Main Context + External Context)来解决上下文限制问题。
  • Main Context包含系统指令、对话上下文和工作上下文,External Context包含事件记忆和事实记录。

像用GPT一样使用开源大模型

  • LM Studio等工具能让用户像使用GPT一样,通过Python脚本和框架(如LangChain、Llama Index)增强和限制开源大模型。
  • 本地运行开源大模型可以实现知识库、搜索引擎等增强功能,并能根据工作流程限制模型发挥。
  • LM Studio提供本地服务器功能,模拟OpenAI API接口,使得基于GPT开发的应用可以无缝迁移到开源大模型。

现在,你可以让AI自己生成Agent了

  • 降低Multi-Agent System的设计门槛是实现AI私人助理Agent普及的关键。
  • Agent AutoBuild项目旨在让AI自动生成Agent,简化Agent系统的搭建过程。
  • Agent AutoBuild通过不到20行代码的配置,能让AI根据任务自动生成并协调多个Agent角色。
  • AutoBuild支持为Builder和Agent指定不同的LLM,并可保存和调用Agent配置。

GPT4-V的正确用法

  • GPT4-V作为“眼睛”,GPT-Turbo作为“大脑”,自动化工具作为“手脚”,让AI像人一样操作电脑。
  • AI操作浏览器通过Puppeteer控制Chrome,实现页面搜索、识别和交互,避免传统Scraping局限。
  • Self-Operating Computer(SOC)项目以GPT4-V为基础,旨在实现人类级别的电脑操作,但目前仍面临鼠标点击精确度等挑战。