Coup de Grace

干净的数据读后 摘抄

这篇算不上读后,算摘抄比较好.提供一些方法论供以后的场景来使用.

估计不远的将来就会有场景把各部分串起来了.

主要是看方法论吧,要说值不值得买:不值得.

数据科学的过程

  1. 需求
  2. 数据收集与存储
  3. 数据清洗
  4. 数据分析与机器学习
  5. 数据展现与可视化

像这个时代语料已经很丰富了,抓抓公众号/微博/知乎什么的都有的玩.

第四部分我还没实践过,但听别人给我画的大饼里面,基本实践应该不会太难.

数据转换

面对一些特征

我们就有转换的过程,转换方向也不固定

可以从一下内容里面互相转换.

从下向上转换可以考虑拓展属性的方式,毕竟结构化数据的层级可能不是那么丰富.

当然了,可以容忍序列化的形式序列化也没什么不好.

再比如非结构化内容里

Html文件可以通过JSoup/XPATH等抽取DOM树内容.

邮件/PPT等形式各有各的内部结构供解析,库也算比较丰富.

etc

本书剩余部分就是一些具体实践的清洗过程了,清洗PDF内容啊,清洗DB数据啊等等.

可供客制化的地方太多,不算参考了已经.

done.