Blog.

让AI自动生成工作流

作者分享了如何利用AI（特别是Claude）自动生成n8n工作流的方法。
n8n是一个开源的工作流程自动化工具，具有高度灵活性和广泛集成，并支持JSON格式的工作流导入导出。
n8n的MCP Trigger功能可以将工作流转化为可被外部系统调用的服务，实现工作流即服务。

用Kimi K2驱动Claude Code，两个方法

Kimi K2是月之暗面推出的开源大模型，其代码生成和Agentic能力表现出色，被认为是国产模型在AI编程和Agent产品领域的突破。
Kimi K2的能力介于Claude 3.5和Claude 3.7之间，足以驱动Agent产品。
替换Claude Code模型有两种方法：最简单的是通过设置环境变量直接切换到Kimi K2 API；另一种是使用Claude Code Router项目，该项目支持多种模型服务商的API配置。

Dify × MCP：让工作流不再是孤岛

Dify新增双向MCP功能，允许用户在Dify中添加MCP服务器，并可将Dify工作流转换为MCP服务器对外输出。
该功能解决了工作流孤岛问题，使其能融入日常通用场景，极大扩展了Dify的工具范围。
作者重新关注Dify，认为工作流应原子化，作为组件强化特定场景效果。

通用Agent长啥样

命令行Agent是AI发展的重要方向，结合了工具生态、Unix哲学和AI调度能力。
Unix哲学与AI模型的ReAct框架高度契合。
通用Agent = 思考大脑 + 命令行身躯 + MCP感知系统。
大模型负责’思考’，命令行Agent负责’行动’。
MCP是实现’感知’和’循环验证’的关键。
通用Agent的’骨架’是一个善于思考的AI大脑，嫁接在拥有海量工具的命令行身躯之上，并辅以MCP的敏锐感知。

我做了个Obsidian MCP

作者开发了一个Obsidian MCP，提供搜索、读取、创建、移动笔记和管理文件夹等功能。
该MCP支持多种安装方式，包括Claude桌面版的DXT方式、远程NPM包安装和本地安装。
使用该MCP可以摆脱Obsidian内置AI插件的限制，通过熟悉的AI客户端（如Claude、ChatGPT）直接访问和管理笔记。

我的个人IP内核

作者利用Gemini 2.5 Pro分析提炼个人IP内核，旨在成为超级个体，摆脱对体系的依附。
实现超级个体的两个核心杠杆是代码和叙事，它们在AI时代具有巨大潜力。
作者通过实践摸索出AI时代的学习和生存方法，强调Learning by doing和Go fundamental。

最强AI编程工具Claude Code，五个使用Tips

Claude Code被认为是地球上最强的AI编程工具，因为它与Claude模型深度适配和优化，且不计较上下文长度消耗。
/init命令用于初始化项目，创建CLAUDE.md文件，记录项目背景信息，提高效率和上下文一致性。
Plan Mode允许用户在执行复杂功能前，让Claude Code进行规划，尤其适用于不确定如何操作的场景。

用Cursor做UI，最有效的两个方法

作者介绍了两种使用Cursor进行UI设计的方法：免费的通过通用大模型生成JSON配置，以及付费的通过v0模型API。
通用大模型直接生成UI效果不佳，但通过JSON等结构化数据输入能显著提高准确性和效率。
v0模型是专门针对UI和前端开发训练的，通过API接入Cursor可以获得更好的UI生成效果。

写不好代码的模型，没有未来

写代码的能力是衡量大模型优劣和决定其未来的核心标准。
代码能力强的模型智商更高，因为它要求逻辑、精确性和对复杂系统的理解。
编程是模型的复合动作，能扩展其能力边界，使其泛化到更多领域，是通往AGI的必经之路。

用提示词组成工作流

Prompt House是一款用于提示词管理和调用的工具，通过MCP协议实现模型自动获取和使用提示词，从而串联组成工作流。
作者通过Mac版Prompt House演示了如何在一个提示词中嵌套多个MCP工具和提示词，实现复杂任务的自动化。
Prompt House的核心价值在于将MCP工具和提示词结合，形成基于Workflow的自动化能力。

给AI全局记忆

全局记忆对于提升AI对话连贯性、实现个人助理功能以及构建全球知识共享工具至关重要。
OpenMemory项目通过独立存储聊天记录并利用MCP协议，实现了跨客户端和跨对话的AI记忆共享。
OpenMemory的功能实现依赖于大模型（用于语义理解和检索）、本地化存储（确保隐私、数据可移植性和扩展性）以及MCP协议（实现不同客户端间的内存共享）。

我的第一款产品上线！纯Vibe Coding

Prompt House是一款解决提示词管理和调用问题的AI产品，通过MCP协议实现AI自动挑选和调用提示词。
作者通过Vibe Coding方式，利用AI工具（v0、Cursor、Claude 4等）在短时间内低成本开发并上线了Prompt House。
文章强调当前是做产品的最佳时机，因为AI正在重塑流量分配模式（Agent Rank）并显著降低产品开发门槛。

Google：王者归来

Google通过克制赚钱欲望，推出搜索的AI模式，展现了其AI First的战略决心。
Google在AI领域实现了王者归来，其全栈式AI产品体系涵盖基础层（AI搜索、Gemini模型、TPU算力）、赋能层（开发者工具）和体验层（多模态内容创作、Agent平台）。
Gemini系列模型持续迭代，提升了多模态能力和推理能力，如Gemini 2.5 Pro的Deep Think和Flash的速度优化。

Agent经济，要来了

红杉资本认为AI浪潮的量级远超云计算和移动互联网，将颠覆整个软件市场，并重构服务行业。
AI的机会主要在应用层，创业公司可从垂直领域和复杂人力介入问题切入，利用Agent替代外包业务。
Agent经济（Agent Economy）是AI时代新的商业模式，Agent将替代用户进行交互和交易，催生新的通信网络和基础设施需求。

别学提示词，学逻辑

提示词的本质是通用沟通技巧，而非AI独有技术，其底层是逻辑和方法论。
学习提示词应侧重于提升逻辑思维、沟通方法论和写作能力，而非购买提示词课程。
好的提示词需要针对不同AI模型的认知模式进行优化，这需要通过反复尝试和对比来了解。

Raycast + MCP = AI Mac

Raycast通过集成AI插件和MCP（模型控制协议），实现了Mac上的AI功能，打造AI Mac体验。
Raycast作为Mac效率中心，能实现跨应用调度，通过自然语言交互控制软件。
Raycast简化了MCP的部署和配置，用户可轻松安装和使用官方提供的MCP服务器。

Gemini新手教学

Google Gemini提供了教育优惠，可免费使用Gemini Advanced、NotebookLM Plus和2TB网盘空间。
Gemini的超大上下文长度（100万token）使其在处理长文档（如PDF翻译）方面表现出色，远超其他模型。
Gemini与Google生态系统深度整合，能无缝处理YouTube视频总结（带时间戳）、Gmail邮件翻译和回复等。

GitHub项目理解神器：DeepWiki

DeepWiki是一款GitHub项目理解神器，能帮助开发者和爱好者吃透任何项目，通过AI扫描代码仓库并结合代码片段进行问答。
在AI时代，理解代码的重要性，AI工具能降低编程门槛，但仍需具备开发思维。
DeepWiki简化了项目理解过程，用户无需下载代码仓库，直接通过网页或修改链接即可导入。

支持中文！NotebookLM自动生成播客

Google NotebookLM现在支持生成中文播客，对学习和自媒体创作有巨大帮助。
NotebookLM通过结合思维导图、AI播客和AI对话，提供立体化的学习体验，提升知识吸收效率。
AI播客虽然缺少人的感觉，但其质量已达标，且在产量上具有巨大优势，有望催生新的内容形式。

Cursor就是最强知识库应用，没有之一

Cursor作为编程软件，天生具备RAG能力，能对本地文件进行索引和处理，使其成为强大的知识库应用。
Cursor与Obsidian的本地化存储特性完美结合，用户可以通过Cursor直接操作和利用Obsidian的笔记文件。
通过创建cursorrules文档，用户可以自定义Cursor的工作方式，例如优先检索本地文档、进行联网搜索，并调用特定的MCPs。

五款实用MCP推荐

MCP（模型控制协议）是提升AI生产力的关键，本文推荐五款实用MCP。
Tavily和Sequential Thinking组合：Tavily解决信息获取，Sequential Thinking增强模型多步骤推理能力，提升回答质量。
Filesystem和Markitdown组合：Filesystem允许模型访问本地文件，Markitdown将PDF转换为Markdown，使模型能处理PDF文档。

Gemini + Grok：最被忽视的AI生产力工具

Gemini和Grok是两个被低估的顶级AI应用，它们在不同方面展现出强大的生产力。
Gemini提供多功能体验，包括快速回答（Flash）、文章创作（Canvas）和深度报告（Deep Research），并能与Google文档和NotebookLM无缝集成，支持深度学习。
Grok在模型回答上更具人味，产品设计简洁，并拥有独特的Twitter数据源，使其在获取用户真实反馈方面具有优势。

MCP很简单，有手就行

MCP（Model Control Protocol）被比作AI的USB-C，旨在统一AI与各种软件的接口，实现AI按需调用工具。
MCP的快速发展可能受Agent概念影响，因为它为AI提供了手脚，是当前阶段解锁Agent的最佳途径。
相较于通用Agent和复杂的工作流搭建，MCP的配置方法更简单，模型（如Claude-3.7 Sonnet）能自主选择和调用工具。

逆袭のGemini

Google Gemini通过图像生成和修改能力实现逆袭，提供图文并茂的全新交互体验。
Gemini的原生多模态能力是其核心卖点，能理解并处理文字、音频、图片和视频。
Gemini在C端市场具有杀手级体验，集成了AI版的PhotoShop和美图秀秀功能。

详细版！我是如何用AI学习的

AI将成为衡量个人能力的标准，其应用能力将成为基本技能。
作者分享了一套AI学习法：首先对议题进行拆解，梳理个人初步判断和问题，为AI提供上下文。
利用Gemini的Deep Research功能生成多份详细报告，并通过Google文档导入NotebookLM进行AI辅助学习。

AI知识库的终点

传统RAG在处理复杂查询时存在局限性，无法有效捕捉实体关系和层次结构。
Second Me项目通过混合记忆架构（结合RAG、GraphRAG和本地模型微调）来解决传统知识库的局限，旨在打造一个能模仿用户风格、语气和关注议题的第二个我。
混合记忆架构包含三个层级：L0（快速检索层，RAG）、L1（记忆深度处理与结构化层，GraphRAG）和L2（模型个性化微调层）。

AI笔记法

AI正在改变学习和笔记方式，NotebookLM等工具改变了从文档获取知识的方式。
Basic Memory项目旨在解决AI长期记忆问题，通过Markdown格式本地保存笔记，并用MCP连接AI，实现自然语言交互。
作者的AI笔记系统采用漏斗结构，由AI笔记库（Basic Memory创建和管理）和个人管理笔记库（Obsidian）组成。

M4 Mac mini作为轻量级AI服务器，太香了！

M4 Mac mini是轻量级AI服务器的理想选择，功耗低且性能出色，能满足本地运行大模型的需求。
Ollama是本地运行大模型的优秀工具，支持多种模型和精度，可通过设置实现模型常驻内存。
通过修改Ollama的监听地址，可实现局域网内其他设备（如手机）访问本地大模型。

DeepSeek新模型太适合MCP了！

DeepSeek新模型V3 0324在MCP调用方面表现出色，性价比极高，性能接近Claude-3.7 Sonnet。
DeepSeek模型具备清晰的思考和规划能力，能将用户需求拆解为明确任务，并判断所需工具。
DeepSeek在工具调用能力上显著提升，结合其成本优势，将推动MCP的进一步普及。

人人都是宫崎骏

作者介绍了如何使用ChatGPT和Hedra工具生成吉卜力风格的动画视频。
创作流程包括：使用ChatGPT将照片转换为吉卜力风格图片，然后将图片和录制的音频上传到Hedra生成视频。
这种方法成本较低（约30美元），且对分辨率和口型要求不高，适合快速生成动画内容。

AI剪藏公众号文章，全自动总结、提炼、存进Obsidian

Web Clipper插件的Interpreter功能能实现AI自动总结、提炼公众号文章，并保存到Obsidian。
该插件支持桌面端和移动端，可根据预设模板和触发条件自动化剪藏流程。
用户可选择不同大模型（GPT-4o mini、Claude、Gemini、Ollama）进行内容处理。

大模型正在吃掉一切

大模型巨头（OpenAI、Google）的更新正在吃掉小厂商和创业者的市场份额。
OpenAI的GPT-4o通过整合图像生成功能，实现了图文并茂的全新交互体验，拉开了与竞争对手的距离。
Google的Gemini 2.5 Pro在代码能力和推理能力上显著提升，并具备超大上下文窗口，展现了强大的综合实力。

MCP实用指南

MCP（Model Control Protocol）是模型的超级外挂，能显著提升AI生产力，例如通过结合Claude和MCP实现低配版Deep Research。
Sequential Thinking MCP有助于模型进行多步骤推理，保持逻辑性和连贯性；Tavily MCP则提供优化过的搜索引擎功能。
MCP.so是寻找和托管MCP服务器的首选平台，其核心竞争力在于MCP Server Hosting。

有了MCP，AI才完整

MCP（模型控制协议）是AI发展的关键，它将AI从功能机进化到智能机，解决了传统API接口不统一和不理解语义的问题。
MCP为AI提供统一的工具接口，使其能够自由接入和控制海量工具，实现更进阶的任务。
文章通过演示AI工具（Cline）如何通过MCP调用Obsidian（笔记）和Tavily（搜索）等多个工具，展示了MCP的实际应用。

这才是AI电脑该有的样子

Raycast通过其AI插件功能，实现了AI PC/Mac的理想形态，能无缝集成所有软件，并通过自然语言交互进行跨应用调度。
Raycast的AI Extensions提供自然语言交互、跨应用调度（通过Preset）和AI对话功能。
用户可以通过Raycast的AI插件，直接控制终端、预定会议、管理任务等，无需打开具体应用。

Mac必装AI软件

作者分享了MacBook Pro的配置选择，并解释了为何选择14寸M4 Pro而非16寸M4 Max，以及未来将重负载任务交给Mac Studio的规划。
推荐Mac用户安装AI相关软件，如ChatWise，它支持主流闭源模型和开源模型（如Ollama），并提供搜索和Artifacts等工具。
强调了OpenRouter作为统一API管理平台的重要性，避免了多平台注册和绑定信用卡的麻烦。

普通人用AI，从元宝开始

腾讯元宝是普通用户入门AI的最佳启蒙工具，因其全场景覆盖、双模型支持和腾讯加持版R1。
元宝提供网页版、桌面客户端、手机APP和微信小程序，并支持微信文件导入，实现多场景无缝切换。
元宝结合DeepSeek-R1（慢思考）和混元Turbo S（快思考）双模型，兼顾深度和效率。

Ollama + Hugging Face：给Ollama添加任何大模型

Ollama是本地运行开源大模型的最佳工具，但官方模型对中文支持有限。
用户可以通过Hugging Face下载GGUF格式的开源大模型文件，并利用Modelfile和ollama create命令将其添加到Ollama中。
GGUF格式是一种压缩格式，能让大模型在消费级终端上运行，但会牺牲精确度。

Gemini 2.0：性价比之王

Gemini 2.0是目前性价比最高的大模型，其Flash-Lite版本价格极低，Flash版本兼顾性能、价格和速度。
Gemini 2.0 Pro版本上下文窗口提升至200万，适合复杂推理和代码生成。
Flash Thinking版本具备链式推理能力，适合逻辑推理和多跳问答。

AI杀手级应用：Deep Research

Deep Research是AI的杀手级应用，能显著提升职场效率，未来将快速普及。
Deep Research的核心是AI Search的尽头，即AI Research，通过掌握更多信息和控制更多工具实现。
OpenAI的Deep Research效果最佳，但成本高昂；Google Gemini的Deep Research性能不错且性价比高；Perplexity的Deep Search量大但效果一般。

AI学习法：Deep Research + Obsidian + Cursor

作者介绍了一种结合Deep Research、Obsidian和Cursor的AI学习法，旨在实现深度研究、知识提取和知识图谱构建。
Deep Research提供高信息密度的输入，Obsidian通过反向链接功能将报告中的知识点系统性地关联起来。
Cursor的Composer功能能够直接对Obsidian笔记进行知识点提取、解释和内容生成，充当强大的AI辅助工具。

手机也能本地部署DeepSeek R1

DeepSeek R1模型可以在手机等本地设备上部署运行，PocketPal AI等免费APP支持。
本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势，是AI普及的趋势。
DeepSeek R1的发布对AI行业是重大利好，推动了AI普及，促进了模型厂商的竞争，并引发了对算力使用和开源模型价值的反思。

7G显存，训练你自己的DeepSeek-R1

Unsloth框架显著降低了微调大模型的门槛，仅需7G显存即可微调1.5B模型，消费级PC也能实现。
DeepSeek的GRPO强化学习算法能提升模型推理能力和可解释性。
微调技术可用于打造个人AI分身和私域模型，实现本地化、无需联网的AI交互。

三款Obsidian必备插件，我每天都在用

PDF++插件能帮助用户在Obsidian中高效地阅读PDF并做笔记，支持选中内容自动粘贴、颜色区分和跳转原文链接。
Smart Connection插件利用AI的反向链接功能，自动分析笔记相关性，并支持可视化展示，解决了手动关联的痛点。
Copilot插件是Obsidian中功能最强大的AI插件，支持多种大模型、本地知识库功能（RAG）和实用的预设功能（总结、翻译）。

本地微调Flux LoRA，最简单的方法

Fluxgym是一个简单易用的本地微调Flux LoRA工具，支持12G-24G显存GPU，能以假乱真地生成虚拟模特。
LoRA（Low-Rank Adaptation）是一种微调技术，通过添加便签纸式技能包，让大模型适应特定任务和风格。
Fluxgym结合了AI-toolkit的前端和Kohya Sripts的后端，提供直观的用户界面和丰富的进阶调整选项。

我对2025年AI的判断

2025年AI的关键词是Agent，其本质是任务引擎，而非简单的智能体。
AI发展将从信息引擎阶段（大模型引领）进入任务引擎阶段（Agent引领）。
Chatbot只是Agent的初级形态，未来可能被淘汰，因为其缺乏上下文信息，限制了任务完成能力。

每个IP都需要AI分身，每家企业都需要AI客服

AI分身和AI客服的普及是AI技术落地和应用爆发的重要代表，云厂商的加入加速了这一进程。
腾讯云大模型知识引擎通过提供精调知识大模型、灵活的知识库设置（如语义切块）和搜索增强功能，驱动AI分身和AI客服。
知识库设置支持文档和问答集，并强调评测和效果调优的重要性。

秘塔AI：加速知识流动

秘塔AI搜索的专题功能是其核心更新，提供了知识库功能，支持多人协作和API调用。
知识库的创建和分享加速了知识的流动，实现了RAG as Service。
AI要变得有用，需补充领域知识和领域经验，秘塔通过专题和工作流来解决。

让Claude假装思考：Thinking Claude

Thinking-Claude通过提示词让AI假装思考，展示思考过程，提升回答质量。
大模型的输出是一次性完成的，其思考是表演而非真正的反馈循环。
尽管是表演，但这种方式能强制模型产出更有逻辑、更全面的回答，具有实用价值。

Omnivore停运，用啥替代？

Omnivore停运后，Web Clipper成为替代方案，它是一款浏览器插件，能将网页内容剪藏并同步到Obsidian。
Web Clipper支持在桌面端和移动端使用，能保存整篇文章或部分内容，并支持自定义模板和自动触发。
插件设置包括绑定Obsidian Vault、设置存储位置、行为（新建笔记或添加到现有笔记）和触发条件。

谷歌下一个AI爆款：Learn about

Google的Learn about是一款专为学习打造的AI产品，与NotebookLM结合可覆盖所有学习场景。
Learn about能提供系统性的学习框架，并引导用户进行深度学习。
该产品通过AI助理和AI老师的角色，帮助用户从互联网获取、整理和学习知识。

严肃生产，还得看Claude

Claude推出的Analysis tool（数据分析工具）能够帮助用户对数据表格进行分析和可视化呈现。
该工具基于Claude强大的代码能力和Artifacts功能，能够处理CSV文件并进行数据可视化。
AI在数据分析领域的应用，将像AI编程一样，赋能更多非专业人士。

Perplexity使用指南

Perplexity是目前最好的问答引擎，其回答质量和使用体验优于ChatGPT等产品。
Perplexity作为知识的起点，强调建立信任（清晰来源标注）、帮助用户提问（扩展搜索关键词、引导提问）和提供一站式服务（Pages功能）。
文章详细介绍了Perplexity的核心功能、使用技巧和商业模式，展现其在AI搜索领域的领先地位。

Mac跑大模型，首选LM Studio

LM Studio是Mac上运行大模型的首选工具，尤其支持为M系列芯片优化的模型文件，显著提升运行速度。
LM Studio新增对苹果MLX框架的支持，该框架专为M系列芯片优化，能高效部署和运行模型。
文章通过对比演示，展示了优化版模型在M2芯片Macbook Air上运行速度的优势。

ChatGPT最重要的更新：Canvas

OpenAI最新发布的Canvas是ChatGPT的重要更新，提供文本撰写和代码生成功能。
Canvas借鉴了Claude的Artifacts功能，并具有Grammaly的文本撰写风格。
AI产业已进入商业落地阶段，白领和程序员是AI替代的重点目标。

Perplexica：部署完全属于你的问答引擎

Perplexica是一款开源的问答引擎，旨在提供Perplexity的本地部署替代方案，具有高度自由度。
Perplexica支持云端和本地模型，可通过OpenAI、Anthropic、Grok的API调用，或通过Ollama调用开源大模型。
部署Perplexica需要通过Docker，配置搜索引擎（SearXNG）和大模型连接，提供完整的本地问答解决方案。

HuggingChat：用最先进的开源模型，挑战ChatGPT

HuggingChat是一款免费体验最先进开源大模型的应用，提供网页版、iOS版和macOS版，设计简洁。
HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型，并会不定期更新模型列表。
作者日常高频使用问答引擎Perplexity和Chatbot Claude，但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。

2024必备赚钱技能：微调Flux LoRA

微调Flux Lora是一项有价值的技能，能让AI生成指定长相的人物或产品，并可叠加使用多个Lora。
Flux模型生成图片的真实度高，ComfyUI解决了图像生成的可控性问题，Lora解决了模型经验问题。
制作Lora需要准备素材图片（20张起步），并通过微调工具（如Replicate上的项目）进行训练。

Flux + ComfyUI = 量产网红美女

Flux模型结合ComfyUI工作流和网红Lora，能生成高度逼真的AI图片，甚至可以以假乱真。
Flux模型由Stable Diffusion核心团队开发，生成图片真实度高，且能实现精准控制。
ComfyUI通过节点式工作流，解决了传统AI图像生成难以精准控制的问题，实现了精细化产出。

Replit Agent：AI编程的野心

Replit Agent是一款激进的AI编程工具，能通过Agent完成环境设置、代码撰写和项目部署，实现云端开发。
Replit Agent的模式类似于「厨师服务团队」，用户只需提供需求，Agent负责具体执行，适合快速原型开发。
Replit Agent与Cursor等工具相比，更侧重于自动化，减少人工参与，但对于复杂项目仍有局限性。

让Agent自动搜集每日资讯

作者通过运行Python脚本，利用Agent自动搜集Reddit和全球媒体的AI相关资讯，生成每日简报AI内参。
有价值的AI内容主要在国外，掌握英文和直接学习源头信息至关重要。
Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。

会聊天，就会编程

Cursor是一款强大的AI编程IDE，能够原生支持AI功能，实现与AI的纯聊天式编程。
作者通过Cursor在10分钟内不写代码，仅通过与AI对话，开发出Chrome浏览器插件，展示了AI编程的高效性。
Cursor的Apply功能能够自动定位代码修改位置，提升调试效率。

限制大模型的，是输出长度

大模型厂商普遍关注上下文长度，但忽略了输出长度的限制。
目前大模型的输出长度普遍在2-3千字，主要原因是缺乏长文本训练素材。
智谱通过增加长输出数据训练，显著提升了模型的输出长度。

RAGFlow：知识库终极引擎

RAGFlow是一款开源的重型知识库引擎，提供比现有知识库产品更深度、细致的RAG设置，包括Rerank Model、RAPTOR和Self-RAG等高级功能。
RAGFlow通过Docker部署，支持所有主流大模型提供方（云端和本地），并提供丰富的知识库创建和Assistant定制选项。
RAPTOR技术通过多层总结形成树状结构，提升复杂问题的推理能力；Self-RAG则通过大模型自我反省，解决过度检索问题。

微调Llama 3.1，用神器Unsloth

Meta开源Llama 3.1具有里程碑意义，其性能达到GPT-4o水平，可通过知识蒸馏和微调适应特定任务和领域。
微调（Fine-tuning）是将通用大模型（如大学毕业生）训练成掌握特定技能（如公司培训）的过程。
Unsloth是一款开源的微调工具，简化了复杂的微调代码逻辑，支持多种模型和高效训练。

提升AI知识库效果，从PDF转Markdown开始

PDF格式的复杂性（结构、编码、信息丢失）导致AI知识库在处理PDF时精确度不足。
提升AI知识库效果的关键是先将PDF转换为Markdown等方便大模型提取文本的格式。
Mathpix是一款便捷的PDF转Markdown工具，支持PDF和图片上传，可导出多种格式，并能OCR识别LaTeX公式。

ChatGPT的正确打开方式

ChatGPT在iPhone上效率不高，因为它没有与系统和其它APP打通，无法自动化运行。
利用iPhone的快捷指令功能，可以实现ChatGPT的自动化操作，如自动总结公众号文章、语音问答等。
快捷指令的核心逻辑是：输入（网页文字、语音转文本）-> 处理（ChatGPT总结、回答）-> 输出（Markdown格式笔记到备忘录）。

AI时代，如何学习？

AI时代大模型作为知识容器，人类唯一的解是「Go Fundamental」（深入基本原理）。
基本原理相对稳定且具有普遍性，能应对技术快速更新，并应用于多个领域。
人类在AI时代的独特优势在于抽象思考、跨领域联想和创造性思维。

学习Agent，从dify开始

Agent平台分为生态流派（如钉钉）和工具流程流派（如dify），dify通过提供知识库和工具来创建Multi-Agent System。
学习Agent应从dify入手，因为它将代码逻辑以直观的流程图形式呈现，便于理解和实践。
dify的工作流设计强调逻辑和流程的整体性，大模型仅在需要时介入，而非主导一切。

GraphRAG：很好，但很贵！

GraphRAG是微软开源的结合知识图谱的检索增强生成技术，旨在提升AI知识库的精确度。
GraphRAG通过提取实体及其关系，构建庞大的知识图谱，从而实现全局性优势。
部署GraphRAG需要安装相关库、创建目录、存入文档、初始化项目、配置API Key和模型参数。

当浏览器与大模型打通：Brave浏览器 + Ollama

Brave浏览器通过与本地大模型（如Ollama）打通，实现了浏览器内置AI功能，提升了用户上网冲浪时的效率和便捷性。
Brave的AI功能支持直接对话、选中文字总结以及将当前网页内容作为大模型参考。
文章强调了浏览器与AI打通的必要性，并认为Brave在大方向上是正确的，但未来大厂（如Chrome与Gemini）的跟进将带来竞争。

如何让ChatGPT做PPT

ChatGPT无法直接生成PPT，但可以通过Marp和CSS语言作为桥梁，生成Markdown格式的代码，再转换为PPT。
Marp是一款能将Markdown文件转换为PPT的工具，其语法简单，能满足日常PPT需求。
结合VS Code和Marp for VS Code插件，用户可以实现ChatGPT生成PPT代码，并在VS Code中预览和导出。

围绕Obsidian，打造AI知识库

作者通过Omnivore和Readwise两款插件，对Obsidian笔记系统进行了升级，解决了外部信息同步到Obsidian的痛点。
Omnivore负责将网页文章同步到Obsidian，支持桌面端和移动端。
Readwise负责保存文章中的Highlights和Twitter推文，并能将同一文章的不同Highlights汇总到一条笔记中。

LLM = OS

大模型被视为凌驾于所有操作系统之上的操作系统，具备内存管理、文件系统、驱动程序等组成部分。
OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级，如提升上下文长度、Function Call能力等。
大模型的操作系统化将导致其吃掉大量应用赛道，对创业者而言生存空间将受到挤压。

最适合知识库的大模型

Cohere及其Command R+模型是专注于RAG和Agent的业界清流，其创始人是Transformer论文作者之一。
Cohere提供生成模型（Command R+）、嵌入模型（Embed）和重排序模型（Rerank），特别适合复杂RAG工作流和多步骤工具使用。
Command R+在某些方面性能达到GPT-4级别，且有量化版本可本地运行。

如何搭建一套Agent系统

Agent是AI智能体的核心，用于自动化执行任务，其搭建关键在于明确需求和工作流设计。
Multi-Agent System通过角色分工协作，解决复杂任务，例如Researcher、Editor和Note Taker的组合。
Agent除了大模型作为大脑，还需要工具作为手脚，如搜索工具（Tavily）和笔记工具（Obsidian）。

未来三年最值钱的工作

Agent Designer（智能体设计师）是未来三年最有价值的工作，因为AI技术价值的实现依赖于Agent。
Agent可以类比为高达的躯体，大模型是动力源，工具是武器，用户是驾驶员。
Agent设计师需要同时懂AI和业务，能够将人类意图翻译给AI，并设计Agent的工作流。

最适合普通人的知识库

QAnything是一款适合普通用户的知识库产品，支持创建多个知识库，并能处理文档和网页内容。
QAnything的机器人功能可将知识库以链接形式发布，用于团队协作或AI客服。
QAnything在RAG技术上有所创新，采用了Rerank技术（二阶段检索）提升检索精确度。

如何让AI帮你快速看完一本书？

Google的NotebookLM是一款强大的AI学习产品，通过Conversational Learning理念，辅助用户高效学习和消化资料。
NotebookLM新增中文支持和笔记本指南功能，后者包含摘要、建议问题和多种生成选项（如简报文档、常见问答）。
该工具能帮助用户快速建立对文档的框架性理解，并通过AI引导深入细节，提升学习效率。

AI不会替代你，但是…

AI不会替代人，但会使用AI的人将替代不使用AI的人。
AI赋能个体并非平等过程，早期阶段AI的特点是「遇强则强，遇弱则弱」。
学习使用AI的两个关键方法：DYOR（深入研究源头知识）和学习Python编程。

本地跑大模型，需要什么配置

本地运行大模型具有运行稳定、速度快、免费、模型选择丰富和使用自由等优势。
本地运行大模型需要一定的硬件配置，最低建议16G内存和4G显存，理想配置为32G内存和24G显存（或更高）。
LM Studio等工具可以帮助用户直观地了解本地硬件对大模型的支持情况。

两款AI插件，让Obsidian更强大

Obsidian是搭建个人笔记系统的理想工具，结合AI插件可实现「第二大脑」功能。
Text Generator插件能将Obsidian变为内置ChatGPT，支持总结、头脑风暴、拟大纲、生成标签等，且模板可自定义。
Copilot插件提供自由问答、基于笔记交互和知识库查询功能，支持多种大模型和联网搜索。

我的AI笔记系统

作者的AI笔记系统分为外部信息处理（Anything LLM）和笔记内容生成（Obsidian）两部分。
Anything LLM支持多种大模型和向量数据库，能处理PDF和公众号文章，用于资料消化和存储。
Obsidian是作者的终极笔记选择，因其速度快、数据本地化和丰富的AI插件（如Copilot）。

问答引擎，本地部署

问答引擎是搜索引擎的下一个形态，能直接提供组织好的内容而非网页链接。
LLocalSearch是一个开源项目，允许用户在本地部署问答引擎，并可联网搜索。
LLocalSearch的基本逻辑是：本地大模型理解问题 -> 转换为搜索关键词 -> 搜索相关资料并存入本地向量数据库 -> 结合问题和资料推理并输出答案。

本地大模型，免安装！

Llamafile是一个创新的本地大模型运行项目，只需一个文件即可运行，无需安装，极大降低了本地部署门槛。
Llamafile通过整合llama.cpp（模型推理优化）和Cosmopolitan Libc（跨平台可执行文件），实现了单文件运行大模型。
Llamafile支持多模态（如Llava模型），可进行文字生成和图片描述。
Llamafile的免安装特性使其便于分享和在各种终端设备上运行，有助于大模型的普及和应用。

本地知识库，外网也可以访问

本地大模型和知识库可以通过ngrok实现外网访问，兼顾数据隐私安全和使用便捷。
ngrok是一种内网穿透工具，能建立安全的内部和外部通道，实现外网访问内网。
部署ngrok需要安装ngrok、添加认证token，并通过命令将本地端口映射到外网。

部署本地大模型和知识库，最简单的方法

Ollama是本地运行开源大模型的最佳工具，支持多平台，且易于安装和使用。
Open WebUI提供ChatGPT风格的Web界面，支持本地大模型交互和RAG能力，可处理网页和文档。
Anything LLM是更高级的本地知识库管理工具，支持多种大模型、嵌入模型和向量数据库，并提供Workspace概念和对话/查询模式。

NotebookLM：AI时代的笔记应用

NotebookLM是Google Labs发布的一款实验性AI笔记应用，结合了Chatbot和RAG，改变了传统笔记逻辑。
其核心功能区包括来源区（添加文档）、对话区（AI引导提问和回答）和笔记区（手动/自动创建笔记）。
NotebookLM通过AI建议提问、引用来源和笔记生成等功能，显著提升了用户对文档的理解和知识沉淀效率。

Elon Musk：Sam Altman是叛徒

Elon Musk起诉Sam Altman和OpenAI，指控其背弃OpenAI创立时「为全人类造福、开源」的价值观。
诉讼核心在于OpenAI与微软的协议，以及OpenAI是否已实现AGI并将其私有化。
Elon Musk认为OpenAI的AGI技术已被Sam Altman控制并输送给微软，背离了非盈利初衷。

套壳之王：Perplexity

Perplexity是一款现象级的AI原生问答引擎，有望替代传统搜索引擎，其核心价值在于直接提供组织好的答案而非网页链接。
Perplexity通过Copilot模式扩展搜索关键词，并提供Focus选项进行特定类型搜索，提升用户体验。
Perplexity强调答案的严谨性，提供清晰的来源标注，并支持多轮交互和Collection功能。

再见，GPTs

OpenGPTs是LangChain推出的开源项目，旨在替代OpenAI的GPTs，提供更彻底的自定义能力。
OpenGPTs支持更多模型（开源、闭源、云端、本地），可完全本地化运行，数据更安全，隐私性更强，费用更低。
OpenGPTs高度定制化，代码开放，可随意修改，并能生成公开链接供团队共用。

Sora：站在OpenAI的肩膀上

Sora的发布标志着视频生成技术达到能用级别，其真实度远超同期产品。
Sora成功的核心在于OpenAI采用了Transformer架构，并将其应用于视频生成，将视频切分为Spacetime Patch作为Token。
Sora结合了Diffusion Model和Transformer的优势，被称为Diffusion Transformer。

AI需要「影分身」

ChatGPT「裸奔」不足以满足生产力需求，部署Agent能显著提升效率。
GPT Researcher是开箱即用的Agent方案，擅长资料搜集和报告生成，成本低廉。
CrewAI是灵活的Agent框架，通过设定Agent、Tool和Task实现自由搭建Agent系统。

给大模型无限上下文

上下文长度是大模型应用的关键限制，提升其难度高。
MemGPT将大模型视为操作系统，通过分级内存管理（Main Context + External Context）来解决上下文限制问题。
Main Context包含系统指令、对话上下文和工作上下文，External Context包含事件记忆和事实记录。

像用GPT一样使用开源大模型

LM Studio等工具能让用户像使用GPT一样，通过Python脚本和框架（如LangChain、Llama Index）增强和限制开源大模型。
本地运行开源大模型可以实现知识库、搜索引擎等增强功能，并能根据工作流程限制模型发挥。
LM Studio提供本地服务器功能，模拟OpenAI API接口，使得基于GPT开发的应用可以无缝迁移到开源大模型。

现在，你可以让AI自己生成Agent了

降低Multi-Agent System的设计门槛是实现AI私人助理Agent普及的关键。
Agent AutoBuild项目旨在让AI自动生成Agent，简化Agent系统的搭建过程。
Agent AutoBuild通过不到20行代码的配置，能让AI根据任务自动生成并协调多个Agent角色。
AutoBuild支持为Builder和Agent指定不同的LLM，并可保存和调用Agent配置。

GPT4-V的正确用法

GPT4-V作为“眼睛”，GPT-Turbo作为“大脑”，自动化工具作为“手脚”，让AI像人一样操作电脑。
AI操作浏览器通过Puppeteer控制Chrome，实现页面搜索、识别和交互，避免传统Scraping局限。
Self-Operating Computer（SOC）项目以GPT4-V为基础，旨在实现人类级别的电脑操作，但目前仍面临鼠标点击精确度等挑战。