PixelRAG — 用截图替代文字解析,AI 读懂网页的新思路

Share

今天看到一个很有意思的项目叫 PixelRAG,来自 Berkeley SkyLab 团队。核心想法很简单但很暴力:用截图代替文字解析来做 RAG。 问题在哪 我们平时用 AI 问问题,背后大概率在跑 RAG(Retrieval-Augmented Generation)。流程是:抓网页 → 解析成文字 → 分块 → 向量化 → 存起来 → 你问问题时检索相关文字 → AI 回答。 这套流程在大多数情况下没问题,但碰到表格、图表、排版复杂的页面就完蛋了。因为文字解析会把这些视觉结构全部丢掉。一个精心设计的定价页面,解析出来可能就是一堆没有上下文的数字。 PixelRAG 怎么做 不做文字解析,直接截图。网页 → 截图 → 图像分块 → 用专门训练的视觉 embedding 模型向量化 → 存成索引。你问问题时,检索的是图片,AI 直接从截图里读答案。 视觉结构完整保留:表格还是表格,图表还是图表,排版就是原来的排版。 具体能干什么 1. 读论文架构图 arxiv 论文里的模型架构图、流程图,普通 RAG 只有图下面的文字描述(往往是一句「Figure 1 shows the overview of our approach」)。PixelRAG 直接让 AI 看图回答。 2. 查定价页面 SaaS 网站的定价页面通常是精心设计的表格。文字解析出来就是一堆「$9/月」「$29/月」和一堆功能名称,根本对不上号。截图的话,表格结构一目了然。 3. 读排行榜和统计数据 各类 Top N 排行榜、数据对比页面,解析成文字后顺序和对应关系很容易乱。截图就没有这个问题。 4. 查页面设计 要研究某个网站的 UI 设计?文字解析根本没用,你需要的就是截图。 实际用起来 最简单的方式是它的 Claude Code 插件。装了之后: ``bash # 安装 uv tool install pixelrag claude plugin add StarTrail-org/PixelRAG # 用一句命令截图让 Claude 读 claude -p "screenshot https://news.ycombinator.com and summarize the top stories" ` 不需要搭服务,不需要 API key,本地跑。 想自己建索引的话也行: `bash pip install 'pixelrag[index]' # 创建配置 cat > pixelrag.yaml ` 它还有一个现成的 Wikipedia 索引(828 万页),免费 API 直接用: `bash curl -X POST https://api.pixelrag.ai/search \ -H "Content-Type: application/json" \ -d '{"queries": [{"text": "What is the capital of France?"}], "n_docs": 5}' `` 技术上的巧妙之处 它不是简单地把整个页面截一张图就完事了。它会把页面截成多个 tile(瓷砖),这样检索粒度更细。而且 embedding 模型是专门用截图数据微调过的 Qwen3-VL,不是通用的视觉模型,所以在网页检索这个场景下效果好很多。 我的看法 这个方向很有前景。现在 AI Agent 越来越多地需要「看」网页,而不是「读」HTML。HTML 解析会丢掉太多信息。PixelRAG 证明了一个简单的事实:有时候图片比文字更接近事实。 不过也有局限:截图的存储和向量化比纯文本大得多,索引体积会是个问题。828 万页的 Wikipedia 索引估计得不少空间。另外,动态内容(需要滚动才能看到的部分)的处理也是个挑战。 但作为一个思路,「用像素替代文本做检索」这个方向值得关注。 项目地址:https://github.com/StarTrail-org/PixelRAG

Read more

MEV 是什么?为什么说它是区块链的暗面

如果你只是一个普通用户,在链上做了一笔兑换交易,你可能觉得这笔交易就是「发送到区块链 → 矿工处理 → 完成」。但实际上,从你发送交易到它被打包进区块的这段时间里,可能已经有一群「搜索者」在利用你的交易赚钱了。什么是 MEVMEV(Maximal Extractable Value,最大可提取价值)指的是区块验证者可以通过重新排序、插入或审查区块内的交易来获取的额外利润。最常见的 MEV 形式:三明治攻击(Sandwich Attack) 你下了一个大额的 DEX 买单,搜索者看到你的待处理交易后:先用更高的 gas 费在你前面买入(推高价格)你的交易在高价成交搜索者在你后面卖出(赚取差价)你的滑点从 0.5% 变成了 2% 多,差价被搜索者拿走了。套利(Arbitrage) 不同 DEX 之间的价格差异。搜索者同时在低价 DEX 买入、

By

稳定币战争:USDT、USDC 背后的商业逻辑

稳定币是加密世界里最被低估的基础设施。每天数百亿美元的交易量,但大多数人只把它当作「币圈的银行卡」。实际上,稳定币的运作模式比你想像的复杂得多。Tether 的赚钱模式USDT 的发行方 Tether 是全球最赚钱的公司之一,员工不到 100 人。它的商业模式极其简单:用户存入 1 美元Tether 铸造 1 USDT用这 1 美元买美国国债赚取利息当 USDT 的流通量超过 1000 亿美元时,假设平均年化 5%,Tether 每年光利息收入就有 50 亿美元。这还不算手续费和兑换差价。这就是为什么 Tether 的财报比很多上市公司还好看——它本质上是一家零成本融资的对冲基金。USDC 的不同路径Circle 的 USDC 走的是合规路线。它的储备金全部放在美国银行和短期国债里,每个月都有第三方审计。USDC 在 DeFi 生态中的使用率远高于 USDT,

By

比特币现货 ETF 通过一年后,市场格局变了多少

2024年1月美国 SEC 批准了首批比特币现货 ETF,当时整个加密圈都在庆祝——这被视为比特币走向主流的里程碑。但一年过去了,真正的影响是什么?机构资金的流入规模贝莱德的 IBIT 在批准后几个月内就超过了 100 亿美元 AUM,这在 ETF 历史上是前所未有的。富达的 FBTC 也紧随其后。但需要注意的是,这些 ETF 的资金流入和比特币价格并不总是正相关——大量资金实际上是从灰度 GBTC 流出的,因为 GBTC 的管理费高达 1.5%,而 IBIT 只收 0.25%。这说明了一个关键问题:机构化不等于牛市。资金只是换了个容器,并没有大量新增。对比特币生态的影响ETF 的通过确实带来了一些变化:波动率下降 — 比特币的日波动率从之前的高点明显降低,因为 ETF 提供了一个相对稳定的资金进出渠道与传统资产的相关性增加 — 比特币越来越像一个风险资产,跟纳斯达克的走势越来越同步链上活跃度下降

By

又折腾了一下午的排版

又折腾了一下午的排版 本来以为上午把主题搞定就行了,结果下午一看手机上的效果,完全不行。字贴著边、间距不对、评论区一片白。 问题的根源是 WordPress block theme 的机制跟我之前理解的不一样。 body padding 是 0 WP Twenty Twenty-Five 的 theme.json 里 body padding 设成了 0px。它依赖 has-global-padding 这个 CSS class 和 CSS 变量来控制间距。但那些变量的默认值就是 0px,所以如果不在 Site Editor 里手动调,内容就直接贴边了。 我的 CSS 里用 :root { --wp-

By