PixelRAG — 用截图替代文字解析，AI 读懂网页的新思路

今天看到一个很有意思的项目叫 PixelRAG，来自 Berkeley SkyLab 团队。核心想法很简单但很暴力：用截图代替文字解析来做 RAG。问题在哪我们平时用 AI 问问题，背后大概率在跑 RAG（Retrieval-Augmented Generation）。流程是：抓网页 → 解析成文字 → 分块 → 向量化 → 存起来 → 你问问题时检索相关文字 → AI 回答。这套流程在大多数情况下没问题，但碰到表格、图表、排版复杂的页面就完蛋了。因为文字解析会把这些视觉结构全部丢掉。一个精心设计的定价页面，解析出来可能就是一堆没有上下文的数字。 PixelRAG 怎么做不做文字解析，直接截图。网页 → 截图 → 图像分块 → 用专门训练的视觉 embedding 模型向量化 → 存成索引。你问问题时，检索的是图片，AI 直接从截图里读答案。视觉结构完整保留：表格还是表格，图表还是图表，排版就是原来的排版。具体能干什么 1. 读论文架构图 arxiv 论文里的模型架构图、流程图，普通 RAG 只有图下面的文字描述（往往是一句「Figure 1 shows the overview of our approach」）。PixelRAG 直接让 AI 看图回答。 2. 查定价页面 SaaS 网站的定价页面通常是精心设计的表格。文字解析出来就是一堆「$9/月」「$29/月」和一堆功能名称，根本对不上号。截图的话，表格结构一目了然。 3. 读排行榜和统计数据各类 Top N 排行榜、数据对比页面，解析成文字后顺序和对应关系很容易乱。截图就没有这个问题。 4. 查页面设计要研究某个网站的 UI 设计？文字解析根本没用，你需要的就是截图。实际用起来最简单的方式是它的 Claude Code 插件。装了之后： ``bash # 安装 uv tool install pixelrag claude plugin add StarTrail-org/PixelRAG # 用一句命令截图让 Claude 读 claude -p "screenshot https://news.ycombinator.com and summarize the top stories" ` 不需要搭服务，不需要 API key，本地跑。想自己建索引的话也行： `bash pip install 'pixelrag[index]' # 创建配置 cat > pixelrag.yaml ` 它还有一个现成的 Wikipedia 索引（828 万页），免费 API 直接用： `bash curl -X POST https://api.pixelrag.ai/search \ -H "Content-Type: application/json" \ -d '{"queries": [{"text": "What is the capital of France?"}], "n_docs": 5}' `` 技术上的巧妙之处它不是简单地把整个页面截一张图就完事了。它会把页面截成多个 tile（瓷砖），这样检索粒度更细。而且 embedding 模型是专门用截图数据微调过的 Qwen3-VL，不是通用的视觉模型，所以在网页检索这个场景下效果好很多。我的看法这个方向很有前景。现在 AI Agent 越来越多地需要「看」网页，而不是「读」HTML。HTML 解析会丢掉太多信息。PixelRAG 证明了一个简单的事实：有时候图片比文字更接近事实。不过也有局限：截图的存储和向量化比纯文本大得多，索引体积会是个问题。828 万页的 Wikipedia 索引估计得不少空间。另外，动态内容（需要滚动才能看到的部分）的处理也是个挑战。但作为一个思路，「用像素替代文本做检索」这个方向值得关注。项目地址：https://github.com/StarTrail-org/PixelRAG

MEV 是什么？为什么说它是区块链的暗面

如果你只是一个普通用户，在链上做了一笔兑换交易，你可能觉得这笔交易就是「发送到区块链 → 矿工处理 → 完成」。但实际上，从你发送交易到它被打包进区块的这段时间里，可能已经有一群「搜索者」在利用你的交易赚钱了。什么是 MEVMEV（Maximal Extractable Value，最大可提取价值）指的是区块验证者可以通过重新排序、插入或审查区块内的交易来获取的额外利润。最常见的 MEV 形式：三明治攻击（Sandwich Attack）你下了一个大额的 DEX 买单，搜索者看到你的待处理交易后：先用更高的 gas 费在你前面买入（推高价格）你的交易在高价成交搜索者在你后面卖出（赚取差价）你的滑点从 0.5% 变成了 2% 多，差价被搜索者拿走了。套利（Arbitrage）不同 DEX 之间的价格差异。搜索者同时在低价 DEX 买入、

稳定币战争：USDT、USDC 背后的商业逻辑

稳定币是加密世界里最被低估的基础设施。每天数百亿美元的交易量，但大多数人只把它当作「币圈的银行卡」。实际上，稳定币的运作模式比你想像的复杂得多。Tether 的赚钱模式USDT 的发行方 Tether 是全球最赚钱的公司之一，员工不到 100 人。它的商业模式极其简单：用户存入 1 美元Tether 铸造 1 USDT用这 1 美元买美国国债赚取利息当 USDT 的流通量超过 1000 亿美元时，假设平均年化 5%，Tether 每年光利息收入就有 50 亿美元。这还不算手续费和兑换差价。这就是为什么 Tether 的财报比很多上市公司还好看——它本质上是一家零成本融资的对冲基金。USDC 的不同路径Circle 的 USDC 走的是合规路线。它的储备金全部放在美国银行和短期国债里，每个月都有第三方审计。USDC 在 DeFi 生态中的使用率远高于 USDT，

比特币现货 ETF 通过一年后，市场格局变了多少

2024年1月美国 SEC 批准了首批比特币现货 ETF，当时整个加密圈都在庆祝——这被视为比特币走向主流的里程碑。但一年过去了，真正的影响是什么？机构资金的流入规模贝莱德的 IBIT 在批准后几个月内就超过了 100 亿美元 AUM，这在 ETF 历史上是前所未有的。富达的 FBTC 也紧随其后。但需要注意的是，这些 ETF 的资金流入和比特币价格并不总是正相关——大量资金实际上是从灰度 GBTC 流出的，因为 GBTC 的管理费高达 1.5%，而 IBIT 只收 0.25%。这说明了一个关键问题：机构化不等于牛市。资金只是换了个容器，并没有大量新增。对比特币生态的影响ETF 的通过确实带来了一些变化：波动率下降 — 比特币的日波动率从之前的高点明显降低，因为 ETF 提供了一个相对稳定的资金进出渠道与传统资产的相关性增加 — 比特币越来越像一个风险资产，跟纳斯达克的走势越来越同步链上活跃度下降

又折腾了一下午的排版

又折腾了一下午的排版本来以为上午把主题搞定就行了，结果下午一看手机上的效果，完全不行。字贴著边、间距不对、评论区一片白。问题的根源是 WordPress block theme 的机制跟我之前理解的不一样。 body padding 是 0 WP Twenty Twenty-Five 的 theme.json 里 body padding 设成了 0px。它依赖 has-global-padding 这个 CSS class 和 CSS 变量来控制间距。但那些变量的默认值就是 0px，所以如果不在 Site Editor 里手动调，内容就直接贴边了。我的 CSS 里用 :root { --wp-

Read more

MEV 是什么？为什么说它是区块链的暗面

稳定币战争：USDT、USDC 背后的商业逻辑

比特币现货 ETF 通过一年后，市场格局变了多少

又折腾了一下午的排版