面对未知结构的数据，如何结构化数据 | B端铁匠铺

技术实践

面对未知结构的数据，如何结构化数据

字数 1094阅读时长≈ 3 分钟

2026-3-27

type

Post

status

Published

date

slug

summary

tags

自动化

category

技术实践

icon

password

Property

Mar 27, 2026 10:24 PM

文章来源

问题：我感觉互联网从业者充电站这个频道好东西不少，想数据导出之后整体做下分析，好的东西准备存下来看。但是导出的结构比较混乱。

解决办法：

一步接一步

先输入粘贴一部分json内容给ai，让它生成解析代码。遇到不认识的结构，就暂停。然后输出从不认识开始接下来的100行到txt。

这部分不认识的txt扔给ai，迭代解析代码。

重复步骤1、2.

基本这个步骤经历个三次，就能很好的处理所有类型的消息了。

写出来的理由

当时折腾了很久，还对ai骂脏话。后来想到了这个办法，觉得可以作为一个通用化的思路。另外，也发现ai面对结构单一的问题解决能力很强，但是稍微复杂点，就容易打转。这个时候，ai使用者的思路就很重要了。

下面是ai 的总结

📊 协作全过程回顾

第一阶段：暴力提取（初试挫败）

目标：直接解析大体积（9MB，50万行）且部分损坏的 JSON。

问题：由于文件在导出或传输中出现结构损坏，标准 json.load() 报错，导致提取结果持续为空。

第二阶段：手术刀拆分（结构化突破）

目标：不再追求整体解析，转为“分块抠取”。

突破：利用“花括号平衡算法”将原始 JSON 拆解为每行一个独立消息对象的 jsonl 格式。这是整个流程中最关键的转折点，解决了损坏文件无法读取的死局。

第三阶段：逻辑迭代（去伪存真）

目标：通过积分制（V1-V3）精准剔除博彩广告。

演进：从最初的“全词匹配”到移除误杀严重的“体育”、“下分”，再到最终剔除“表情密度”规则。

第四阶段：人性化呈现（分类归档）

目标：从密密麻麻的 JSON 转为清爽的 Markdown。

结果：实现了按标签自动分拣内容，并生成了易读的分类合集。

⚠️ 走过的弯路

路径依赖标准库：起初试图用标准的 JSON 处理方式去对付损坏文件，导致浪费了数次尝试。

教训：面对“脏数据”，正则和流式读取比标准解析器更可靠。

规则设定的“刻板印象”：早期认为“表情包多”和“体育/下分”是广告特征。

后果：通过你提供的样本反馈，发现这导致了大量高质量产品心得和行业日报被误杀。

忽略运行环境差异：早期脚本因路径定位问题（File Not Found）在本地执行受阻。

教训：在 Windows 环境下，自动搜索路径的逻辑比写死路径更稳健。

💡 核心经验沉淀

“先拆后洗”原则：

不要试图在读取数据的同时处理逻辑。先通过物理手段（如花括号匹配）将数据变成标准的单行格式，后续的业务逻辑（过滤、分类）才会变得极度简单。

“反馈驱动”的积分制逻辑：

广告过滤不是非黑即白。通过“绝杀词”、“高权重词”和“敏感词”的梯度加分，可以灵活调整“杀错率”。例如，将“绝杀词”从 10 分降至 0 分（如体育），能迅速找回被误杀的内容。

结构化输出的重要性：

数据处理得再好，如果最后还是“密密麻麻”的 JSON，人类依然无法利用。将 JSON 转换为 Markdown，并按照 Tag 自动分文件夹，才真正完成了从“原始数据”到“知识库”的转化。

对”华语乐坛真的在崩溃吗？“的回答

《基层中国的运行逻辑》读书笔记

《基层中国的运行逻辑》读书笔记

作者:Blacksmith
链接:https://www.lhuafmaof.cn//article/3042fd79-8cf0-802f-8723-eed10bcdae02
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

yunohost 部署及使用

Lazy loaded image

评论

Loading...

目录

你好！我是

Blacksmith

❤️怀揣平凡而炙热的心

⚔️努力学习各神兵利器

😎希望让代码触手可及

⏱️时间应该用来创新

😂而不是耗费在无尽的重复之中