type
Post
status
Published
date
slug
summary
tags
低代码+自动化+B端
category
低代码+自动化+B端
icon
password
Property
Feb 11, 2026 05:16 PM
文章来源
问题:我感觉互联网从业者充电站这个频道好东西不少,想数据导出之后整体做下分析,好的东西准备存下来看。但是导出的结构比较混乱。
解决办法:
一步接一步
- 先输入粘贴一部分json内容给ai,让它生成解析代码。遇到不认识的结构,就暂停。然后输出从不认识开始接下来的100行到txt。
- 这部分不认识的txt扔给ai,迭代解析代码。
- 重复步骤1、2.
- 基本这个步骤经历个三次,就能很好的处理所有类型的消息了。
写出来的理由
当时折腾了很久,还对ai骂脏话。后来想到了这个办法,觉得可以作为一个通用化的思路。另外,也发现ai面对结构单一的问题解决能力很强,但是稍微复杂点,就容易打转。这个时候,ai使用者的思路就很重要了。
下面是ai 的总结
📊 协作全过程回顾
- 第一阶段:暴力提取(初试挫败)
- 目标:直接解析大体积(9MB,50万行)且部分损坏的 JSON。
- 问题:由于文件在导出或传输中出现结构损坏,标准
json.load()报错,导致提取结果持续为空。
- 第二阶段:手术刀拆分(结构化突破)
- 目标:不再追求整体解析,转为“分块抠取”。
- 突破:利用“花括号平衡算法”将原始 JSON 拆解为每行一个独立消息对象的
jsonl格式。这是整个流程中最关键的转折点,解决了损坏文件无法读取的死局。
- 第三阶段:逻辑迭代(去伪存真)
- 目标:通过积分制(V1-V3)精准剔除博彩广告。
- 演进:从最初的“全词匹配”到移除误杀严重的“体育”、“下分”,再到最终剔除“表情密度”规则。
- 第四阶段:人性化呈现(分类归档)
- 目标:从密密麻麻的 JSON 转为清爽的 Markdown。
- 结果:实现了按标签自动分拣内容,并生成了易读的分类合集。
⚠️ 走过的弯路
- 路径依赖标准库:起初试图用标准的 JSON 处理方式去对付损坏文件,导致浪费了数次尝试。
- 教训:面对“脏数据”,正则和流式读取比标准解析器更可靠。
- 规则设定的“刻板印象”:早期认为“表情包多”和“体育/下分”是广告特征。
- 后果:通过你提供的样本反馈,发现这导致了大量高质量产品心得和行业日报被误杀。
- 忽略运行环境差异:早期脚本因路径定位问题(File Not Found)在本地执行受阻。
- 教训:在 Windows 环境下,自动搜索路径的逻辑比写死路径更稳健。
💡 核心经验沉淀
- “先拆后洗”原则:
- 不要试图在读取数据的同时处理逻辑。先通过物理手段(如花括号匹配)将数据变成标准的单行格式,后续的业务逻辑(过滤、分类)才会变得极度简单。
- “反馈驱动”的积分制逻辑:
- 广告过滤不是非黑即白。通过“绝杀词”、“高权重词”和“敏感词”的梯度加分,可以灵活调整“杀错率”。例如,将“绝杀词”从 10 分降至 0 分(如体育),能迅速找回被误杀的内容。
- 结构化输出的重要性:
- 数据处理得再好,如果最后还是“密密麻麻”的 JSON,人类依然无法利用。将 JSON 转换为 Markdown,并按照 Tag 自动分文件夹,才真正完成了从“原始数据”到“知识库”的转化。
- 作者:Blacksmith
- 链接:https://www.lhuafmaof.cn//article/3042fd79-8cf0-802f-8723-eed10bcdae02
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。

