- Published on
我用AI开采了一个人的五千篇文章,然后看到了他的灵魂
- Authors

- Name
- Adrian Gan
- @AdrianGanJY
我关注碧树西风大概三年了。
从2022年开始,我几乎每天都在读他的公众号。他写社会、写投资、写职场、写人性。文风极其犀利,有些话说得你后背发凉,有些话又让你觉得被人看穿了。
后来我发现有人把他的文章系统性地整理到了Notion上——分好了年份、标好了标签。我毫不犹豫地买了这份数码化版本。
你能理解那种心情吗?就是你知道这些东西有价值,你愿意花钱去拥有它,但拥有之后,你发现你依然消化不了。
五千多篇文章。每一篇都是几千字的长文,不像Naval或者Elon Musk的推特,一句话一个道理。碧树西风的文章有大量的上下文——他讲一个投资逻辑,会从自己06年做实习生月薪2000块开始讲起,讲到他怎么在新浪UC房间花500块一个月跟一个"华尔街混不下去的骗子"学交易,讲到他怎么连续60个月稳定盈利却被交易所调查两次,讲到他的祖母在他六岁时对他说的那句"你对别人好,但千万不要指望有好的回报"。
买了,存了,但没有真正读完。这是大多数人对付知识的方式。
信号堆在硬盘里,不会自动变成知识。
从Notion到数据库——一次痛苦但正确的决定
大概两个月前,我开始认真思考:我到底想从他的文章里得到什么?
答案其实很简单——我想真正理解这个人。不是读他某一篇文章的某一个观点,而是像考古学家研究一具出土的遗骸一样,通过碎片还原出完整的骨架。
于是我做了一个决定:把他的全部公开文章,从2017年到2024年,全部数字化、结构化、存入数据库。
这听起来有点疯,但我确实做了。
我写了一套Node.js爬虫脚本,从他的微信公众号历史文章页面,一年一个月地抓取所有文章的URL和元数据。然后逐篇拉取正文,转成Markdown格式,存到本地。
最终的数字是:5,458篇公开文章。
五千多篇。
想象一下。一个人,从2017年写到2024年,几乎日更。有些日子一天两篇三篇。这是什么概念?如果平均每篇2000字,那就是超过1000万字。比《红楼梦》长十倍。
给每一篇文章一个"身份证"
拿到了数据,下一步是什么?
我需要给每一篇文章编一个唯一的编码。就像图书馆给每一本书一个索引号一样。
我设计了一个很简单的编码系统:F240101-1。F代表免费(Free),24是2024年,0101是1月1日,-1是当天的第一篇。如果同一天有两篇,就是-2。付费文章用P开头。
然后我写了一个命令行工具,跑了一遍,给5,572篇文章(包括114篇付费的)全部编了码,写进了数据库,也注入到了每篇Markdown文件的YAML头部。
这一步看起来很无聊。但这是后面所有分析的地基。
没有这层结构,后面的一切都无法实现。
真正的挑战——让AI读完五千篇文章
编码完成之后,才是真正的重头戏。
我的目标是:让AI逐篇阅读这5,458篇文章,从每一篇里提取出结构化的知识。具体来说,我要求AI对每篇文章回答这几个问题:
- 主题标签是什么?(投资、职场、社会评论、家庭教育……)
- 核心观点/洞察是什么?(一句话总结)
- 金句有哪些?(作者说过的最精辟的原话)
- 提到了哪些人物/实体?(巴菲特、芒格、索罗斯、他的太太、他的师父……)
- 关于作者本人的事实——这是最重要的一项。从文章里,你能推断出这个人的什么?他的经历、他的信念、他的偏见、他的矛盾?
然后我给每篇文章打了深度分和可操作性分(各1-5分),用来筛选出"重磅文章"。
问题来了:5,458篇文章,AI怎么读?
如果你一篇一篇喂给ChatGPT,大概需要连续不间断地点击几百个小时。
我的做法是:把5,458篇文章切成273个批次,每批20篇。然后我写了一个Node.js并行脚本,同时启动两个AI引擎——Claude从第1批开始正着读,Gemini从第273批开始倒着读。
两个AI同时跑,互不冲突,像两列特快列车分别从北京和上海出发对开。
中间遇到了无数Bug——PowerShell的UTF-8管道会把中文搞成乱码(所谓的"Mojibake"),只好整个换成Node.js。有些批次AI的CSV输出格式不规范,解析会出错,得写容错逻辑。有些文章内容过短导致AI输出空行。
但最终,273个批次全部跑完了。100%。
当碎片变成画像
数据拿到手之后,我把273个CSV文件全部导入一个SQLite数据库。
最后的统计数字让我自己都愣住了:
| 指标 | 数量 |
|---|---|
| 分析的文章 | 5,458篇 |
| 提取的作者事实 | 4,949条 |
| 识别的实体 | 4,000+ |
| 覆盖年份 | 2017-2024 |
4,949条关于一个人的事实。
这些事实散落在他七年来写的五千多篇文章里。任何一个读者,哪怕是他最忠实的粉丝,靠人脑也不可能把这些碎片拼出一个完整的图景。
但AI可以。
我的脚本把这4,949条事实按类别分组——个人经历(1,513条)、职业生涯(2,101条)、信念体系(811条)、人生轶事(287条)、重大事件(233条)。然后对每个类别做了去重和加权——如果同一条事实在五年间被他重复提到过3次,那它的权重就是3。
重复就是信号。一个人反复提起的事情,一定是塑造他的核心因素。
比如,"码农出身"这个事实出现了3次。他在不同年份、不同文章里,反复强调自己是"码农出身的大老粗"。这不是随口一说的谦虚——这是他的身份锚点。
再比如,他的祖母。在personal类别里,关于祖母的事实散落在至少十几条不同的记录里——祖母穿旗袍、煮银耳莲子羹、清明祭祖时对他说的话、在他出生前力排众议保住他(因为B超疑似女婴,差点被打掉)。这些碎片拼在一起,你会发现祖母是他整个价值观形成的原点。
这种"上帝视角",是纯人工阅读做不到的。
让AI写一份传记
拿到分好类、加了权的事实之后,我做了最后一步:让Gemini把每个类别的碎片"结晶"成一段连贯的传记叙述。
效果让我震惊。
AI写出来的碧树西风,比他任何一篇单独的文章都更立体。因为AI看到的不是某一天他的某一个情绪,而是七年间他反复验证、反复修正、反复表达的那些核心信念。
举几个让我印象极深的细节:
他的笔名"碧树西风"来自大学时代的第一个QQ号,取自王国维的《人间词话》。但他的太太当初和他相亲,是因为把"碧树西风"看成了"玉树临风"——以为他长得帅才答应见面的。这种充满人味的细节,散落在他某一年某一篇文章的某一段里,如果不是AI把它挖出来,我永远不会注意到。
他结婚时买钻戒的故事也很典型。他没有去品牌店,而是买了散钻,找传统珠宝店镶嵌,一共花了两万多比品牌店省了六万。这不是抠门——这是他整个人生哲学的缩影:用最少的资源,达到同等甚至更好的效果。
还有那条让我最触动的事实:他说自己"生下来就有病",十岁才做手术治好。在那之前,他每年都像过了二十年,"等到十岁病好的那一天,我的心理年龄是105岁。"这解释了他为什么从小就那么老成、那么冷峻、那么不近人情地理性——因为他从记事起就在思考死亡。
我从中学到了什么
这整个项目可能只花了两三天,但对我来说,它验证了几个我长久以来的直觉:
第一,量变一定会产生质变。
当你手上只有十篇文章时,你得到的是零散的观点。当你有一百篇时,你开始看到模式。当你有五千篇时,你看到的是一个人的灵魂。
我从2022年开始一篇一篇地往Notion里存。那个过程挺痛苦的,因为看不到回报。但现在回头看,如果当初我说"算了,存这么多有什么用",今天这座数据城堡就不会存在。
不要随便丢掉信号。 就算是noise,也有pattern。只要你有足够的算力去提炼。
第二,AI真正的杠杆,不是替你写文案,而是替你读一座图书馆。
我自己读碧树西风的文章,三年下来可能读了几百篇。但他写了五千多篇。那些我没读过的早期文章里,有他最原始、最不加修饰的想法。AI帮我读完了这些,然后告诉我:这个人在2018年说的话和他在2023年说的话之间,有哪些一以贯之的信念,有哪些悄悄发生的转变。
这种跨越时间的全局视角,是人脑做不到的。
第三,最好的学习方式,不是从头到尾读一本书,而是拿不同的透镜去穿透它。
这是我接下来想做的事。
我打算把碧树西风的五千篇文章,当成《红楼梦》或者《西游记》来读。
同一部书,有人读出了爱情。有人读出了政治。有人读出了佛学。
我要用不同的维度去重新扫描他的全部文章:
- 管理篇——他怎么带团队?怎么淘汰不合格的人?怎么在国企和民企之间切换管理风格?
- 创业篇——他创业失败的教训是什么?二股东夺权时他怎么应对?
- 投资篇——他的盈亏同源是什么意思?他的系统交易具体长什么样?
- 人生哲学篇——他说"向死而生"的底色是真的虚无,还是一种防御机制?
- 盲点篇——他哪些信念可能是错的?他看世界的滤镜有什么局限?
基建已经打好了。换个透镜,就是换个Prompt的事。
写在最后
说实话,做完这个项目之后,我有一种很奇妙的感觉。
我从来没有和碧树西风说过一句话。我甚至不知道他长什么样。但通过这五千篇文章和这将近五千条事实,我对他的了解,可能比他身边大多数人都更深。
我知道他的外公在核武器绝密文件里夹着手抄的林黛玉葬花词。 我知道他高三花了一整年看红楼梦,成绩从全省前50滑到150名以外。 我知道他在深夜交易受挫时会自扇耳光,手上留下疤痕。 我知道他说"人生没有意义"的时候,不是丧,而是释然。
这些碎片单独看,每一条都只是一个细节。但五千条碎片拼在一起,你看到的是一个完整的人。一个极其清醒、极其冷峻、但骨子里又极其有温度的人。
我突然想到——说不定有一天,我自己写的东西也会被这样分析。
那如果是这样的话,我最好从现在开始,认真地写。
—— Adrian