Lazy loaded image
低代码+自动化+B端
面对未知结构的数据,如何结构化数据
字数 1094阅读时长 3 分钟
2026-2-11
2026-2-11
type
Post
status
Published
date
slug
summary
tags
低代码+自动化+B端
category
低代码+自动化+B端
icon
password
Property
Feb 11, 2026 05:16 PM
文章来源

问题:我感觉互联网从业者充电站这个频道好东西不少,想数据导出之后整体做下分析,好的东西准备存下来看。但是导出的结构比较混乱。

 

解决办法:

一步接一步
  1. 先输入粘贴一部分json内容给ai,让它生成解析代码。遇到不认识的结构,就暂停。然后输出从不认识开始接下来的100行到txt。
  1. 这部分不认识的txt扔给ai,迭代解析代码。
  1. 重复步骤1、2.
  1. 基本这个步骤经历个三次,就能很好的处理所有类型的消息了。
 

写出来的理由

当时折腾了很久,还对ai骂脏话。后来想到了这个办法,觉得可以作为一个通用化的思路。另外,也发现ai面对结构单一的问题解决能力很强,但是稍微复杂点,就容易打转。这个时候,ai使用者的思路就很重要了。
 
下面是ai 的总结

📊 协作全过程回顾

  1. 第一阶段:暴力提取(初试挫败)
      • 目标:直接解析大体积(9MB,50万行)且部分损坏的 JSON。
      • 问题:由于文件在导出或传输中出现结构损坏,标准 json.load() 报错,导致提取结果持续为空。
  1. 第二阶段:手术刀拆分(结构化突破)
      • 目标:不再追求整体解析,转为“分块抠取”。
      • 突破:利用“花括号平衡算法”将原始 JSON 拆解为每行一个独立消息对象的 jsonl 格式。这是整个流程中最关键的转折点,解决了损坏文件无法读取的死局。
  1. 第三阶段:逻辑迭代(去伪存真)
      • 目标:通过积分制(V1-V3)精准剔除博彩广告。
      • 演进:从最初的“全词匹配”到移除误杀严重的“体育”、“下分”,再到最终剔除“表情密度”规则。
  1. 第四阶段:人性化呈现(分类归档)
      • 目标:从密密麻麻的 JSON 转为清爽的 Markdown。
      • 结果:实现了按标签自动分拣内容,并生成了易读的分类合集。

⚠️ 走过的弯路

  • 路径依赖标准库:起初试图用标准的 JSON 处理方式去对付损坏文件,导致浪费了数次尝试。
    • 教训:面对“脏数据”,正则和流式读取比标准解析器更可靠。
  • 规则设定的“刻板印象”:早期认为“表情包多”和“体育/下分”是广告特征。
    • 后果:通过你提供的样本反馈,发现这导致了大量高质量产品心得和行业日报被误杀。
  • 忽略运行环境差异:早期脚本因路径定位问题(File Not Found)在本地执行受阻。
    • 教训:在 Windows 环境下,自动搜索路径的逻辑比写死路径更稳健。

💡 核心经验沉淀

  • “先拆后洗”原则
    • 不要试图在读取数据的同时处理逻辑。先通过物理手段(如花括号匹配)将数据变成标准的单行格式,后续的业务逻辑(过滤、分类)才会变得极度简单。
  • “反馈驱动”的积分制逻辑
    • 广告过滤不是非黑即白。通过“绝杀词”、“高权重词”和“敏感词”的梯度加分,可以灵活调整“杀错率”。例如,将“绝杀词”从 10 分降至 0 分(如体育),能迅速找回被误杀的内容。
  • 结构化输出的重要性
    • 数据处理得再好,如果最后还是“密密麻麻”的 JSON,人类依然无法利用。将 JSON 转换为 Markdown,并按照 Tag 自动分文件夹,才真正完成了从“原始数据”到“知识库”的转化。
上一篇
对”华语乐坛真的在崩溃吗?“的回答
下一篇
《基层中国的运行逻辑》读书笔记

评论
Loading...