新書推薦:
《
里山资本主义:不做金钱的奴隶,做个安心的里山主人(献礼大地)
》
售價:HK$
67.9
《
欧洲雇佣兵研究(1350-1800)
》
售價:HK$
74.8
《
费里尼的电影
》
售價:HK$
102.4
《
第一性原理:21堂科学通识课(《奇怪的知识增加了》作者马库斯·乔恩全新力作)
》
售價:HK$
90.9
《
过渡劳动:平台经济下的外卖骑手(薄荷实验)
》
售價:HK$
112.7
《
爱的重构:让自己成为家庭幸福掌舵人
》
售價:HK$
112.7
《
春雨杏花急急落,车马春山慢慢行(生活是美好的,人是有诗意的。汪曾祺、沈从文、梁实秋等17位名家写给现代人的诗意生活美学之书)
》
售價:HK$
59.8
《
暗黑历史书系·巴黎伦敦血色历史(伦敦巴黎双城记,城市社会生活的另类书写)
》
售價:HK$
179.4
編輯推薦:
本书的目标读者包括企业家、数据科学家、分析师,以及所有利用用户数据来推动Web产品或移动产品的增长、收入、效率或用户参与度的从业人员。相较其他极具学术性的数据科学类书籍,本书所介绍的知识很好地弥补了读者所欠缺的专业知识,比如:
如何开始一个新的数据科学项目;如何将复杂的想法概念化;如何基于统计学和人口统计学的基础知识建立指标;如何预测企业的消费者群体和物料需求;如何在简单的A/B测试技术、双重差分模型、断点回归、倾向得分匹配和增益建模等技术下进行因果推断。
为了更好地帮助读者理解相关内容,作者借助了大量直观的在线案例和离线案例。同时,为了避免过多的数学解释,她循序渐进地为读者讲解如何为每个应用程序选择正确的技术和算法,如何使用 R 编程语言并分析得到可信赖的答案。
无论面向哪类产品或服务,读者都可以利用书中的知识设计针对性强的营销活动,从而提高消费者满意度和参与度,增加收入和利润。
內容簡介:
本书是为产品分析从业者设计的一本从业指南,主要讲解如何基于消费者数据产生可实践的洞见。这些“可实践的洞见”源于曾经在互联网、移动互联网等领域中驱动过变革的实践。很多企业都曾从其web产品或内部组织获得了TB级的用户数据,然而这些数据都未曾使用过。怎样使用这些数据促进用户增长、增加收入、提升用户参与度并提高组织效率,企业并没有认真思考过。本书将逐步地教你如何从用户数据中收获洞见。通过精心分析基于用户数据构建的理论曲线,观察不同的实验设计及其产生的实验效果,然后再在复杂的开发模式上实现,将这些结果转化为可实践的洞见。
關於作者:
作者简介·
乔安妮·罗德里格斯(Joanne Rodrigues)
一位经验丰富的数据科学家和企业经理,拥有数学(伦敦经济学院)、政治学(加州大学伯克利分校)和人口学(加州大学伯克利分校)硕士学位,以及国际经济学学士学位(乔治城大学)。她热衷于通过分析大量结构化、半结构化和非结构化的数据来解决实际问题。在医疗保健和游戏领域,她拥有6年应用机器学习和统计算法的经验,并能转化为商业洞见。她在 Sony PlayStation 开创了新的分析技术,并领导了 MeYou Health 的所有数据科学工作。此外,她还是医疗技术公司 ClinicPriceCheck.com 的创始人。
译者简介·
安丛
资深项目管理顾问,拥有近十年项目管理经验,曾服务于多个国内外大型数字化项目。目前从事于AI智能语音领域,译有《AI重新定义企业》。
万星
资深解决方案架构师,项目管理专家,有15年数字化从业经验。拥有PMP、ITIL、AWS SAA、ACP、EXIN DevOpsMaster专业认证, 译有《云转型》。
魏玮
资深产品顾问,致力于产品设计和敏捷交付。从业近十年,服务于多个国内外客户产品演进项目,拥有PMP、ACP、ITIL等专业认证。
目錄 :
Contents
推荐序一
推荐序二
推荐序三
推荐序四
译者序
前言
致谢
第一部分 定性方法论
第1章 数据活动:晚宴模型 3
1.1 用户数据中断 4
1.2 晚宴模型 7
1.3 用户数据有何独特之处 13
1.4 为什么因果关系很重要 21
1.5 可实践的洞见 23
第2章 构建社交宇宙理论 24
2.1 构建理论 24
2.2 概念化和测量 33
2.3 Web产品的理论 37
2.4 可实践的洞见 41
第3章 终极目标:如何改变人类
行为 43
3.1 理解可实践的洞见 43
3.2 一切都是为了改变行为 45
3.3 关于人类行为改变的理论 50
3.4 Web产品中的行为改变 54
3.5 行为改变的现实期望是什么 56
3.6 可实践的洞见 60
第二部分 基本统计学方法
第4章 用户分析中的用户分布 63
4.1 为什么指标很重要 63
4.2 可实践的洞见 73
第5章 指标的创建和解释 74
5.1 时期、年龄和队列 74
5.2 指标的制定 80
5.3 可实践的洞见 92
第6章 为什么用户会流失?A/B
测试的来龙去脉 94
6.1 A/B测试 94
6.2 有趣的免费周活动案例 95
6.3 变量之间的相关性 99
6.4 为什么要研究随机性 102
6.5 A/B测试的核心和关键 104
6.6 A/B测试中的陷阱 115
6.7 可实践的洞见 118
第三部分 预测方法
第7章 用户空间建模:k均值和
PCA 123
7.1 什么是模型 123
7.2 聚类技术 124
7.3 可实践的洞见 132
第8章 预测用户行为:回归、
决策树和支持向量机 133
8.1 预测推断 133
8.2 关于预测的许多问题 134
8.3 预测建模 136
8.4 监督学习模型的验证 148
8.5 可实践的洞见 151
附录 151
第9章 预测产品人口变化:人口
预测 152
9.1 为什么我们要花时间在产品
生命周期上 153
9.2 出生、死亡和整个生命周期 153
9.3 不同的留存模式 155
9.4 人口预测的艺术 161
9.5 可实践的洞见 176
第四部分 因果推断方法
第10章 追求实验:自然实验和
双重差分模型 179
10.1 为什么要进行因果推断 179
10.2 因果推断与预测 180
10.3 当A/B测试不起作用时 181
10.4 从真实数据中进行因果推断的
要点和关键 183
10.5 可实践的洞见 191
第11章 持续追求实验 193
11.1 断点回归 194
11.2 估计获得徽章的因果效应 197
11.3 中断时间序列 201
11.4 季节性分解 205
11.5 可实践的洞见 208
第12章 在实践中开发启发式方法 209
12.1 从真实数据中确定因果关系 209
12.2 统计匹配 210
12.3 倾向得分匹配的问题 216
12.4 启发式匹配 218
12.5 佳猜测 218
12.6 总结 221
12.7 可实践的洞见 222
第13章 增益建模 223
13.1 什么是增益 223
13.2 为什么采用增益建模技术 224
13.3 理解增益 225
13.4 预测与增益 225
13.5 增益困难 226
13.6 可实践的洞见 237
第五部分 基于R语言的基本
方法、预测方法和
因果推断方法
第14章 指标的R实现 241
14.1 为什么选择R语言 241
14.2 R基础入门:R语言简介及
安装 242
14.3 分布抽样 247
14.4 汇总统计量 251
14.5 Q-Q图 252
14.6 计算方差和高阶矩 254
14.7 直方图和数据分档 254
14.8 双变量分布和相关性 260
14.9 奇偶进度比 264
14.10 总结 266
第15章 A/B测试、预测建模和人口
预测的R实现 267
15.1 A/B测试 267
15.2 聚类 277
15.3 预测模型 280
15.4 人口预测 289
15.5 总结 297
第16章 断点回归、匹配和增益的
R实现 298
16.1 双重差分建模 298
16.2 断点回归和时间序列建模 301
16.3 统计匹配 310
16.4 增益建模 323
16.5 总结 334
附录 334
参考文献 337
后记 342
內容試閱 :
前 言
当一个观点不能被洞察和理解时,这种观点就会变得危险。
—马歇尔·麦克卢汉
本书是为产品分析从业者设计的一本从业指南,主要讲解如何基于消费者数据生成可实践的洞见。这些“可实践的洞见”源自曾经在Web产品、移动产品或整个组织中驱动过变革的实践。很多组织都曾从其Web产品或内部组织获得了TB级的用户数据,然而这些数据都未曾被使用过。怎样使用这些数据促进用户增长,增加收入,提升用户参与度并提高组织效率,组织并没有认真思考过。
本书将教你逐步地从用户数据中收获洞见。通过精心分析基于用户数据理论曲线构建的高峰和低谷,观察不同实验设计产生的实验效果,再在复杂的开发模式上实现,终将这些结果转化为可实践的洞见。本书是一个产品数据科学工具包的入门级教程。
数据科学是一个多学科交叉领域,其目标就是从数据中收获洞见。数据科学产品的重心是利用用户数据来驱动产品和组织变革,以实现核心业务目标。它强调使用先进的分析策略来理解用户并改变用户,从而帮助初创企业和大型公司构建符合市场的产品,并超额完成销售目标。注意,本书不涉及其他数据科学工作流程,例如构建可扩展的推荐系统、计算机视觉和图像识别或其他类型的应用程序。
数据科学中涉及的分析数据来源非常多。通常情况下,这些数据可能是来自Web产品的用户数据,也可能是电子邮件或邮寄广告类的数据、调查数据、公司内部数据或营销综合数据,还可能是人口统计或普查数据,以及各种其他类型的数据等。
读者对象
本书的目标读者包括企业家、数据科学家、分析师,以及所有利用用户数据来推动Web产品或移动产品的用户增长、收入增加、效率或用户参与度提高的从业人员。如果你想成为产品数据科学家、产品数据分析师、建立企业网站或Web产品的企业家,又或者对处理Web上可用的TB级行为数据感兴趣,那么这本书很适合你。这本书是为从业者编写的,不适合学术读者。如果你想了解现实世界中的产品数据,那么本书就再合适不过了。
产品数据科学要从用户行为中获取洞见,这依赖于多门学科知识。虽然分析工具包更现代化,但它仍然依赖计算方法和统计方法,会涉及一些新的机器学习和因果推断技术。在过去的400年,社会科学家一直在研究人类行为,“可实践的洞见”还需要充分整合社会科学方法和分析工具才能得以生成。
通常,从业人员只使用一种工具包,不会同时使用多个工具包。许多数据科学家精通新的机器学习技术,但是缺乏用户专业知识和定性技能,导致不能使用这些技术从用户数据中提取“可实践的洞见”。当面临开发大量社会过程理论和将概念落实到具体实践时,他们常常会陷入困境。
相比之下,许多对人类行为有充分了解的用户专家,由于缺乏统计和机器学习的知识,因此无法充分测试他们的想法和模型数据。本书的目标是为主题专家和机器学习专家架起一座桥梁,将主题专家的上下文洞察力与机器学习专家的复杂方法相结合,从而在Web或移动分析领域生成有意义的洞见。
本书内容
本书结合Web分析领域的实际案例介绍 :
如何像社会科学家一样思考,将社会环境中的个人行为情景化,探索人类行为的发展方式,并为改变行为创造条件;
如何为Web产品定制核心指标和用户分析的关键绩效指标;
如何理解统计推断、相关性和因果关系间的差异,以及在何时应用这些技术;
如何进行更有效的A/B 测试;
如何构建直观的预测模型,帮助捕获产品中的用户行为;
如何使用准实验设计技术和统计匹配技术,从观察数据中梳理出因果关系;
如何实施复杂的目标定位方法,例如针对营销活动的增益建模;
如何使用高级人口预测方法,预测业务成本和人口子群体之间的变化关系。
本书主题
本书包含3个主题:
(1)将社会学、心理学和人口统计学的定性工具与统计学、机器学习和计算机科学的定量工具进行整合,应用于Web分析领域。
(2)因果推断(不是预测)方法,它对于改变人类行为不可或缺。
(3)以非数学解释和R语言演示应用程序的方式讨论机器学习和因果推断主题。因为这些领域的大多数著作都不是为从业者编写的。
主题1:定性工具与定量工具
第一个主题是本书的核心。该部分的目标不仅是为读者提供分析工具,还为读者提供应用这些分析工具和示例所需的资源。这些工具和示例适合用于Web应用程序。数据科学或机器学习领域中的许多书籍都只是简单地介绍了底层算法。尽管这些算法确实发挥了重要的作用,但我的脑海不禁浮现出“垃圾进,垃圾出”这句话。没有适当的数据,算法将毫无用处。将错误的算法应用于错误的问题可能会导致一大堆问题。
要正确应用算法或设计实验,我们需要回顾一下整个过程:理论构建、概念化、操作化、指标构建、假设检验、证伪等。我们可以使用大量定性工具来准确地模拟人类行为和社会过程。如果不使用这些工具,就会丢失大量的信息、细微差别和洞见,还可能完全误解用户在我们的Web产品中的行为。第1~3章主要向读者介绍那些用来理解和建模用户行为的定性工具。
获得可实践的洞见需要了解上下文和每个变量中存储的信息。如果无法清楚地将概念想法与分析结果关联起来,那么什么结论也获取不到。我的一个好朋友拥有物理学博士学位,他目前在一家女装公司担任数据科学家,正好面临这样的情况。他热爱物理学,也喜欢将物理学算法应用于各种数据集,但他很难将结果与具体的商业环境联系起来。我经常会问他对女装业务有何见解,但他总是回答说,他通过“一些极其复杂的调整”应用了新的“ X”模型。尽管将复杂的、经过优化的算法应用于正确的上下文非常棒,但这些算法也有可能被应用于错误的数据集,还可能被人们用来掩盖自己对于某个主题缺乏真正洞见的事实。
“可实践的洞见”实际上并不依赖于人们是否使用新的算法。通常来说,好的算法的确能稍微改善结果,但是一旦使用错误的数据,获得有价值洞见的希望将会彻底破灭。还有一个问题是人们对准确数据的误解,这在行业中非常普遍。
因此,在开始数据分析之前,选一个好的定性方法是非常重要的,这样就可以避免以
“垃圾出”告终。不过,由于原始数据通常不容易被记录,因此由变量测量或统计的内容就很容易被误解。我们必须准确理解用户采取哪些必要步骤才能获得特定变量,以及用户完成哪些操作后才能获得特定的变量结果。如果用变量代表一个概念复杂的想法,那么这个变量实际上测量的是这个概念的哪些部分呢?适当地具备相关的理论知识和正确的定性框架知识,便能对数据进行更合理的解释和更正确的使用。
主题2:因果推断
第二个主题更偏重于因果推断,而不是预测。许多数据科学书籍都专注于预测算法。本书提供了由以下算法组成的基本预测工具包:k均值、主成分分析(PCA)、线性回归、逻辑回归、决策树、支持向量机以及一些时间序列建模技术。更高级的主题(例如双重差分模型、统计匹配和增益模型)都与因果推断相关。
不过,我们在第9章中提到了先进预测技术,即人口统计学中的人口预测技术。在第9章中,我们通过一种比较新颖的方式使用预测建模技术来创建更好的核心用户指标(例如留存指标),以此了解Web产品中不同子群体的变化,从而预测未来用户的变化。通常,对于用户行为的分析,因果推断优于预测。
主题3:产品分析的入门指南
之所以撰写这本书,是因为我发现大多数有关数据科学、因果推断统计或人口统计学的书籍都非常学术化,需要很强的论证思维。尽管这些知识在某些情况下很重要,但是这超出了普通人在数学领域的认知。因果推断工具的使用大多数时候不需要过多的数学知识,在对R语言不了解的情况下,也可以非常容易地使用。统计数据科学和因果推断工具在许多业务环境中都很有用,但由于缺乏数学领域的复杂知识,往往无法在实际中应用。
本书的目标就是让所有完成高中数学和统计学的人都可以学习和掌握数据分析的方法。这可能有些乐观,因为某些主题(例如统计匹配、增益建模和人口预测)在数学上的确非常复杂。所以,我们首先要使它们在概念上易于理解。数学知识比较缺乏的读者需要先了解一些算法的工作原理和应用场景。阅读本书后,读者需要找到符合设计或者能应用到自己的特定案例的模型来进行练习。在确定正确的设置和算法后,读者应该能够在 R中运行自己的分析程序。本书的核心目标是向读者介绍这些算法的工作原理,在哪些情况下应该在用户或Web分析上下文中应用特定的算法,以及可以应用 R 中的哪些工具来获得正在寻找的答案。
在本书中,我们很少使用数学符号,因为这会让很多读者没有阅读下去的兴趣。第1~6章将尽可能少地使用数学符号,只从文字上描述一下方程式。第6章之后可能会依赖一些数学素材,所以随后的章节将偶尔使用数学符号。
本书结构
本书的目标是更好地建模、理解和改变Web产品和移动产品中的用户行为。本书将按如下结构分五大部分进行阐述 :
第1~3章讲解用来建模用户行为的定性工具及理论;
第4~6章介绍入门级的产品分析中的统计方法;
第 7~9 章探讨预测建模和预测方法;
第 10~13 章介绍真实世界中数据的因果推断方法;
第 14~16 章用R实现定量方法。
第 1 章是一个介绍性章节,通过晚宴的比喻向读者阐述不利于理解用户行为的常见陷阱,例如将社交数据视为一个“过程”而不是一个问题。社交数据往往信息非常不完整,没有明确的结果,而且还有大量相互关联的变量,是一个容易被扰乱的系统,因此我们很难推断因果关系。
第2章回顾科学方法,并介绍量化人类行为的社会学工具。在探索概念化想法的同时,我们也在思考“量化”这个词,包括它代表着什么,以及在量化过程中会丢失什么。当今,一切量化都在朝着指标发展。人们尝试用一些定量指标来替换复杂的定性指标,这是一件非常困难的事情,因为这些指标很少能捕捉到原始人类在探索过程中的一些高级行为或一些出乎专家预料的复杂行为。从业者很少深入研究所使用指标的缺点,这导致了更多的误导策略。
第 3 章介绍人类行为改变。用户分析已从人口统计分析的形式转变为更复杂的形式,即在Web产品中定位用户和改变