作为第一本接触到的数据分析书籍,这本书对于刚入门的我来说还算不错,一如 Head First 的轻松风格,书中并没有很多的专业词汇和知识讲解,简单的说明了数据分析的过程和意义,然后就开始列举了几个案例,通过不同的案例来介绍数据分析中需要用到的工具和方法。

咖啡案例

在咖啡案例中,书中提到了如何使用比较法来对数据进行分析,找出数据中的混杂因素,来提升分析结果的正确性。书中并没有提到有什么流程可以帮助你快速尽可能多的找出混在因素,我的理解是,你需要列出所有你怀疑的因素,然后在一个个去进行验证,而验证的方法,则是书中后续所提到的伪证法。一个技巧是:

当你开始怀疑因果关系的走向时(如价值感的下降导致销量下降),请进行反方向思考(如销量下降导致价值感下降),看看结果怎么样。

A/B 测试也可以被认为是一种伪证法,在其他条件相同的情况下,只有你怀疑的因素不同,在这样的情况下来测试怀疑因素,但问题是如果怀疑因素特别多,一个个去测试的成本就会很大。

最优化的问题

第二个案例是产品的组合销售方案,两个同类产品的生产比例应当如何分配才能够使利润最大化。产品的组合方案可以有成千上万种,一个个去尝试很不明智,而通过设定约束条件,以及目标函数就可以通过 Excel 的 Solver 插件来计算出最佳的组合方案。

同样,如何能够在一开始就能够忽略掉混杂因素,一个方法是对数据进行建模。数据建模应当具备对商业模型的理解,在理解企业的盈利模式后,以此为基础来设计目标函数。而所谓的商业建模,我的理解是与概念模型设计类似的事物,需要找出商业与产品以及市场因素之间的关系。

找出数据之后如何向利益相关者展示数据,以便说服相关者理解并接受自己的建议,就需要数据图形化。

数据图形化

在本章中,书中着重介绍了散点图,以及如何利用 R 语言来生成散点图。并且有一部分在介绍如何安装和利用 R 语言,以及基本的 R 语言知识,都是很基础的内容。

假设检验

这个案例很适合深圳的手机壳生产商,案例中的一家手机壳公司需要知道何时生产 iPhone 的手机壳会比较合适,而真正需要解决问题就是要估算出新的 iPhone 合适发布,生产的早了会造成库存积压,晚了则无法抢占市场。

同样是建模,找出所有已知因素与最终结果的关系,根据正负相关的关系来找出最后的结果。因为这些因素都是源自市场或者是网络新闻,因此数据每天可能都在发生变化,需要实时的更新数据并且不断的调整结果。

(假设检验)无法剔除所有假设,但可以判定哪个假设最强。

贝叶斯统计

这是一个比较有趣的案例,假设医生诊断你患了蜥蜴流感诊断,理由是你的实验结果为阳性,但是若某人已患蜥蜴流感:试验结果为阳性的概率为90%;若某人未患蜥蜴流感:试验结果为阳性的概率为9%。所以这个实验结果并不精确,你需要计算出自己患病的概率。

这里用到的方法就是贝叶斯统计,并通过公式计算出自己的概率。

主观概率

主观概率是将人们对某件事情可能发生的概率进行量化,因为信息不对称,对于某一件事情,不同的人的看法可能完全不同,这个案例与手机壳的案例也类似。那么如何标准化人们的主观想法,并且找出统一的标准就是这里要解决的问题。

这里同样也用到了贝叶斯统计,以及标准偏差。

启发法、直方图

在随后的章节中又介绍了启发法和直方图,启发法用于评估难以量化的数据,当数据量非常庞大并且统计的成本非常高的时候,应当如何去做。启发法有点类似于定型的研究方法,如果客户质疑你的推论,那么应当从客户的角度反向思考,来推理出应当使用那种方式和数据来进行说服。

直方图介绍了何时应当使用直方图,以及使用的时候应当注意哪些地方。例如我从来没有注意过直方图两个柱子之间的区域,是应该连着呢还是保持距离,往往我都是从设计的角度去看,但实际上并不是。柱子之间的空白,意味着这个区间没有数据,例如按照天去统计数据,那么第一天与第二天之间可以保持距离,没有一个时间是位于第一天和第二天之间的。

回归

要看懂这一章需要简单理解什么是回归。回归对于具有线性特点相关的数据非常有用,利用散点图可以很容易理解回归。

xian-xing-hui-gui

对大量的数据进行分析之后,并且用散点图的形式展示出来,可以很容易看出数据是否具有线性回归,如何可以使用的话,通过线性回归方程可以对这些数据进行数学描述。帮助客户理解数据和决策。

但是线性回归并不是所有所得数据都处于回归线上,而是有趋向于回归线的趋势,而数据的实际值与回归线之间的距离,就是数据分析中的误差。

误差

因为样本数据的有限性,我们无法对数据进行无限制的预测,对于数据之外的预测基本上只有两种回答:

一是无可奉告;二是提出一个假设,据此进行预测。

数据分析中出现误差似乎是一件不可避免的事情,那么应当提请告知用户误差,并且告知误差范围。有时候误差过大就需要对误差进行管理。

误差管理就是如何能够让误差缩小,因为无法影响显示数据,因此调整的方法就是对模型和公式不断的改进。通过分割数据,将数据分成几个模块,并对每个模块建立单独的模型和公式,在数据满足模块条件的前提下才使用对应的公式。

结尾和参考

书的最后两张介绍了关系型数据库和整理数据,当数据量非常庞大,并且之间的依赖关系很多,仅使用单纯的 Excel 已经无法满足数据分析的需求了,此时就需要建立数据库。入门数据库的书籍可以参考SQL 必知必会

最后一张则是对数据的清理,清理的意思就是对数据进行格式化。原始数据中可能存在没有标准化的数据,例如在手机号码中,有的写了 +86 有的没写,如何统一手机号码的格式就是对数据进行清理。数据清理还包括去除无用和重复的数据。

Head First 系列的书籍向来都是面向行业的初学者,这本《深入浅出数据分析》依然值得想要了解数据分析的读者阅读。