PixelRAG — 用截图替代文字解析,AI 读懂网页的新思路
今天看到一个很有意思的项目叫 PixelRAG,来自 Berkeley SkyLab 团队。核心想法很简单但很暴力:用截图代替文字解析来做 RAG。 问题在哪 我们平时用 AI 问问题,背后大概率在跑 RAG(Retrieval-Augmented Generation)。流程是:抓网页 → 解析成文字 → 分块 → 向量化 → 存起来 → 你问问题时检索相关文字 → AI 回答。 这套流程在大多数情况下没问题,但碰到表格、图表、排版复杂的页面就完蛋了。因为文字解析会把这些视觉结构全部丢掉。一个精心设计的定价页面,解析出来可能就是一堆没有上下文的数字。 PixelRAG 怎么做 不做文字解析,直接截图。网页 → 截图 → 图像分块 → 用专门训练的视觉 embedding 模型向量化 → 存成索引。你问问题时,检索的是图片,AI 直接从截图里读答案。 视觉结构完整保留:表格还是表格,图表还是图表,排版就是原来的排版。 具体能干什么 1. 读论文架构图 arxiv 论文里的模型架构图、流程图,普通 RAG 只有图下面的文字描述(往往是一句「Figure 1 shows the overview of our approach」)。PixelRAG 直接让 AI 看图回答。 2. 查定价页面 SaaS 网站的定价页面通常是精心设计的表格。文字解析出来就是一堆「$9/月」「$29/月」和一堆功能名称,根本对不上号。截图的话,表格结构一目了然。 3. 读排行榜和统计数据 各类 Top N 排行榜、数据对比页面,解析成文字后顺序和对应关系很容易乱。截图就没有这个问题。 4. 查页面设计 要研究某个网站的 UI 设计?文字解析根本没用,你需要的就是截图。 实际用起来 最简单的方式是它的 Claude Code 插件。装了之后: ``bash # 安装 uv tool install pixelrag claude plugin add StarTrail-org/PixelRAG # 用一句命令截图让 Claude 读 claude -p "screenshot https://news.ycombinator.com and summarize the top stories" ` 不需要搭服务,不需要 API key,本地跑。 想自己建索引的话也行: `bash pip install 'pixelrag[index]' # 创建配置 cat > pixelrag.yaml ` 它还有一个现成的 Wikipedia 索引(828 万页),免费 API 直接用: `bash curl -X POST https://api.pixelrag.ai/search \ -H "Content-Type: application/json" \ -d '{"queries": [{"text": "What is the capital of France?"}], "n_docs": 5}' `` 技术上的巧妙之处 它不是简单地把整个页面截一张图就完事了。它会把页面截成多个 tile(瓷砖),这样检索粒度更细。而且 embedding 模型是专门用截图数据微调过的 Qwen3-VL,不是通用的视觉模型,所以在网页检索这个场景下效果好很多。 我的看法 这个方向很有前景。现在 AI Agent 越来越多地需要「看」网页,而不是「读」HTML。HTML 解析会丢掉太多信息。PixelRAG 证明了一个简单的事实:有时候图片比文字更接近事实。 不过也有局限:截图的存储和向量化比纯文本大得多,索引体积会是个问题。828 万页的 Wikipedia 索引估计得不少空间。另外,动态内容(需要滚动才能看到的部分)的处理也是个挑战。 但作为一个思路,「用像素替代文本做检索」这个方向值得关注。 项目地址:https://github.com/StarTrail-org/PixelRAG