我用AI开采了一个人的五千篇文章，然后看到了他的灵魂

我关注碧树西风大概三年了。

从2022年开始，我几乎每天都在读他的公众号。他写社会、写投资、写职场、写人性。文风极其犀利，有些话说得你后背发凉，有些话又让你觉得被人看穿了。

后来我发现有人把他的文章系统性地整理到了Notion上——分好了年份、标好了标签。我毫不犹豫地买了这份数码化版本。

你能理解那种心情吗？就是你知道这些东西有价值，你愿意花钱去拥有它，但拥有之后，你发现你依然消化不了。

五千多篇文章。每一篇都是几千字的长文，不像Naval或者Elon Musk的推特，一句话一个道理。碧树西风的文章有大量的上下文——他讲一个投资逻辑，会从自己06年做实习生月薪2000块开始讲起，讲到他怎么在新浪UC房间花500块一个月跟一个"华尔街混不下去的骗子"学交易，讲到他怎么连续60个月稳定盈利却被交易所调查两次，讲到他的祖母在他六岁时对他说的那句"你对别人好，但千万不要指望有好的回报"。

买了，存了，但没有真正读完。这是大多数人对付知识的方式。

信号堆在硬盘里，不会自动变成知识。

从Notion到数据库——一次痛苦但正确的决定

大概两个月前，我开始认真思考：我到底想从他的文章里得到什么？

答案其实很简单——我想真正理解这个人。不是读他某一篇文章的某一个观点，而是像考古学家研究一具出土的遗骸一样，通过碎片还原出完整的骨架。

于是我做了一个决定：把他的全部公开文章，从2017年到2024年，全部数字化、结构化、存入数据库。

这听起来有点疯，但我确实做了。

我写了一套Node.js爬虫脚本，从他的微信公众号历史文章页面，一年一个月地抓取所有文章的URL和元数据。然后逐篇拉取正文，转成Markdown格式，存到本地。

最终的数字是：5,458篇公开文章。

五千多篇。

想象一下。一个人，从2017年写到2024年，几乎日更。有些日子一天两篇三篇。这是什么概念？如果平均每篇2000字，那就是超过1000万字。比《红楼梦》长十倍。

给每一篇文章一个"身份证"

拿到了数据，下一步是什么？

我需要给每一篇文章编一个唯一的编码。就像图书馆给每一本书一个索引号一样。

我设计了一个很简单的编码系统：F240101-1。F代表免费（Free），24是2024年，0101是1月1日，-1是当天的第一篇。如果同一天有两篇，就是-2。付费文章用P开头。

然后我写了一个命令行工具，跑了一遍，给5,572篇文章（包括114篇付费的）全部编了码，写进了数据库，也注入到了每篇Markdown文件的YAML头部。

这一步看起来很无聊。但这是后面所有分析的地基。

没有这层结构，后面的一切都无法实现。

真正的挑战——让AI读完五千篇文章

编码完成之后，才是真正的重头戏。

我的目标是：让AI逐篇阅读这5,458篇文章，从每一篇里提取出结构化的知识。具体来说，我要求AI对每篇文章回答这几个问题：

主题标签是什么？（投资、职场、社会评论、家庭教育……）
核心观点/洞察是什么？（一句话总结）
金句有哪些？（作者说过的最精辟的原话）
提到了哪些人物/实体？（巴菲特、芒格、索罗斯、他的太太、他的师父……）
关于作者本人的事实——这是最重要的一项。从文章里，你能推断出这个人的什么？他的经历、他的信念、他的偏见、他的矛盾？

然后我给每篇文章打了深度分和可操作性分（各1-5分），用来筛选出"重磅文章"。

问题来了：5,458篇文章，AI怎么读？

如果你一篇一篇喂给ChatGPT，大概需要连续不间断地点击几百个小时。

我的做法是：把5,458篇文章切成273个批次，每批20篇。然后我写了一个Node.js并行脚本，同时启动两个AI引擎——Claude从第1批开始正着读，Gemini从第273批开始倒着读。

两个AI同时跑，互不冲突，像两列特快列车分别从北京和上海出发对开。

中间遇到了无数Bug——PowerShell的UTF-8管道会把中文搞成乱码（所谓的"Mojibake"），只好整个换成Node.js。有些批次AI的CSV输出格式不规范，解析会出错，得写容错逻辑。有些文章内容过短导致AI输出空行。

但最终，273个批次全部跑完了。100%。

当碎片变成画像

数据拿到手之后，我把273个CSV文件全部导入一个SQLite数据库。

最后的统计数字让我自己都愣住了：

指标	数量
分析的文章	5,458篇
提取的作者事实	4,949条
识别的实体	4,000+
覆盖年份	2017-2024

4,949条关于一个人的事实。

这些事实散落在他七年来写的五千多篇文章里。任何一个读者，哪怕是他最忠实的粉丝，靠人脑也不可能把这些碎片拼出一个完整的图景。

但AI可以。

我的脚本把这4,949条事实按类别分组——个人经历（1,513条）、职业生涯（2,101条）、信念体系（811条）、人生轶事（287条）、重大事件（233条）。然后对每个类别做了去重和加权——如果同一条事实在五年间被他重复提到过3次，那它的权重就是3。

重复就是信号。一个人反复提起的事情，一定是塑造他的核心因素。

比如，"码农出身"这个事实出现了3次。他在不同年份、不同文章里，反复强调自己是"码农出身的大老粗"。这不是随口一说的谦虚——这是他的身份锚点。

再比如，他的祖母。在personal类别里，关于祖母的事实散落在至少十几条不同的记录里——祖母穿旗袍、煮银耳莲子羹、清明祭祖时对他说的话、在他出生前力排众议保住他（因为B超疑似女婴，差点被打掉）。这些碎片拼在一起，你会发现祖母是他整个价值观形成的原点。

这种"上帝视角"，是纯人工阅读做不到的。

让AI写一份传记

拿到分好类、加了权的事实之后，我做了最后一步：让Gemini把每个类别的碎片"结晶"成一段连贯的传记叙述。

效果让我震惊。

AI写出来的碧树西风，比他任何一篇单独的文章都更立体。因为AI看到的不是某一天他的某一个情绪，而是七年间他反复验证、反复修正、反复表达的那些核心信念。

举几个让我印象极深的细节：

他的笔名"碧树西风"来自大学时代的第一个QQ号，取自王国维的《人间词话》。但他的太太当初和他相亲，是因为把"碧树西风"看成了"玉树临风"——以为他长得帅才答应见面的。这种充满人味的细节，散落在他某一年某一篇文章的某一段里，如果不是AI把它挖出来，我永远不会注意到。

他结婚时买钻戒的故事也很典型。他没有去品牌店，而是买了散钻，找传统珠宝店镶嵌，一共花了两万多比品牌店省了六万。这不是抠门——这是他整个人生哲学的缩影：用最少的资源，达到同等甚至更好的效果。

还有那条让我最触动的事实：他说自己"生下来就有病"，十岁才做手术治好。在那之前，他每年都像过了二十年，"等到十岁病好的那一天，我的心理年龄是105岁。"这解释了他为什么从小就那么老成、那么冷峻、那么不近人情地理性——因为他从记事起就在思考死亡。

我从中学到了什么

这整个项目可能只花了两三天，但对我来说，它验证了几个我长久以来的直觉：

第一，量变一定会产生质变。

当你手上只有十篇文章时，你得到的是零散的观点。当你有一百篇时，你开始看到模式。当你有五千篇时，你看到的是一个人的灵魂。

我从2022年开始一篇一篇地往Notion里存。那个过程挺痛苦的，因为看不到回报。但现在回头看，如果当初我说"算了，存这么多有什么用"，今天这座数据城堡就不会存在。

不要随便丢掉信号。 就算是noise，也有pattern。只要你有足够的算力去提炼。

第二，AI真正的杠杆，不是替你写文案，而是替你读一座图书馆。

我自己读碧树西风的文章，三年下来可能读了几百篇。但他写了五千多篇。那些我没读过的早期文章里，有他最原始、最不加修饰的想法。AI帮我读完了这些，然后告诉我：这个人在2018年说的话和他在2023年说的话之间，有哪些一以贯之的信念，有哪些悄悄发生的转变。

这种跨越时间的全局视角，是人脑做不到的。

第三，最好的学习方式，不是从头到尾读一本书，而是拿不同的透镜去穿透它。

这是我接下来想做的事。

我打算把碧树西风的五千篇文章，当成《红楼梦》或者《西游记》来读。

同一部书，有人读出了爱情。有人读出了政治。有人读出了佛学。

我要用不同的维度去重新扫描他的全部文章：

管理篇——他怎么带团队？怎么淘汰不合格的人？怎么在国企和民企之间切换管理风格？
创业篇——他创业失败的教训是什么？二股东夺权时他怎么应对？
投资篇——他的盈亏同源是什么意思？他的系统交易具体长什么样？
人生哲学篇——他说"向死而生"的底色是真的虚无，还是一种防御机制？
盲点篇——他哪些信念可能是错的？他看世界的滤镜有什么局限？

基建已经打好了。换个透镜，就是换个Prompt的事。

写在最后

说实话，做完这个项目之后，我有一种很奇妙的感觉。

我从来没有和碧树西风说过一句话。我甚至不知道他长什么样。但通过这五千篇文章和这将近五千条事实，我对他的了解，可能比他身边大多数人都更深。

我知道他的外公在核武器绝密文件里夹着手抄的林黛玉葬花词。我知道他高三花了一整年看红楼梦，成绩从全省前50滑到150名以外。我知道他在深夜交易受挫时会自扇耳光，手上留下疤痕。我知道他说"人生没有意义"的时候，不是丧，而是释然。

这些碎片单独看，每一条都只是一个细节。但五千条碎片拼在一起，你看到的是一个完整的人。一个极其清醒、极其冷峻、但骨子里又极其有温度的人。

我突然想到——说不定有一天，我自己写的东西也会被这样分析。

那如果是这样的话，我最好从现在开始，认真地写。

—— Adrian