数据专栏

智能大数据搬运工,你想要的我们都有

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

今天,谷歌首席执行官桑达尔·皮查伊宣布了「谷歌 AI 研究七大准则」,为公司近期在军事 AI 项目上的争议作出了官方回应。与此同时,美国智库 New American Security 研究员 Gregory C.Allen 认为,谷歌 人工智能 研究员合乎道德的做法应该是参与选择国家安全项目,而不是关闭所有项目。
今年 1 月,谷歌 CEO Sundar Pichai 曾表示 人工智能 的影响会比电力「更深刻」。他遵循谷歌领导者的悠久传统,称其技术是变革性且美妙的。
问题在于变革性的技术也会变革军事力量,AI 也不例外。6 月 1 日,谷歌宣布不会续签与美国军方合作的 Project Maven 合同。该项目是美国军队首次在操作层面上部署「深度学习」AI 系统,使用处理层将数据转换成抽象表征,在此项目中,其目标是将军事无人机收集的摄像片段图像进行分类。在大约 4000 名谷歌员工签署禁止谷歌参与构建「军事技术」的请愿书后,谷歌决定撤出该项目。
这种退却带来了巨大的道德风险。将先进的 AI 技术整合到军事领域和过去将电力应用到军事领域一样,都是不可避免的,这一变迁充斥着伦理和技术风险。它将采用很多天才 AI 研究者的研究成果作为输入,来帮助军队保持伦理道德的正确方向,包括谷歌等大公司的研究者。
去年,我代表美国智能社区进行了一项研究,结果显示 AI 的变革性影响将覆盖国家安全的方方面面。军事机器人、 网络安全 、监控和宣传在面对 AI 支持的破坏行为时是很脆弱的。美国、俄罗斯和中国都期望 AI 成为未来军事力量的基础,美国及其盟友在重要军事技术方面的垄断(如隐形战机和精确制导武器)正走向结束。
我很同情面临是否支持军队难题的学界和业界研究者。一方面,保护美国及其盟友的安全、自由和强大,以阻止潜在威胁一如既往地重要。帮助军队利用新技术能够减少战区士兵和公民的危险,同时增强国家安全。
另一方面,帮助军方的研究者有时又会后悔。一些为曼哈顿项目工作的科学家(该项目开发了二战中使用的原子弹),后来认为如果没有原子弹研究,世界会变得更好。很多 AI 应用在伦理和法律上可能存在问题,比如帮助警察侦察和判刑的软件所遇到的麻烦。
幸运的是,美国 AI 研究者可以自由选择项目,并影响他们的员工和合作者。
然而,即使研究员拒绝参加一个项目,他们也不能真的选择不关心国家安全的后果。很多业余爱好无人机制造商惊恐地发现他们的产品被伊斯兰教恐怖分子组织 ISIS 用于对美国军队投掷炸弹。毫无疑问很多开发无人驾驶汽车的研究员并没有完全考虑该技术对无人坦克或无人汽车炸弹的影响。但忽略潜在的应用并不能阻止它们的发生。
此外,AI 科学家将他们的很多工作开源。在这些案例中,发表算法、代码库和训练数据集将使这些构建模块对所有军方可用,本来温和的项目也可能带来有害的应用。技术公司全面拒绝和美国国家安全组织合作将会事与愿违,即使其它公司选择了合作。国家的 AI 研究员需要倾听军方对技术安全后果的声明,而军方也需要广泛的专家建议来合乎道德和有效地应用 AI。
这并不是说 AI 研究人员应该随意支持美国军方设计的每个项目。一些提议可能是不道德以及愚蠢的,研究人员应该拒绝这些提议。
但是有些 AI 项目真的能提升国家安全,并符合法律与道德上的准则。例如美国国防部高级研究计划局在对抗由 AI 构建的伪造视频和音频上的工作。人工智能研究社区应该考虑这一类的项目,或者至少不要妖魔化这些研究项目。
还记得细菌学家 Theodor Rosebury,他在 20 世纪 40 年代为美国军队研究生化武器。在第二次世界大战后,Rosebury 将它的生化武器限制在防御性研究,并主张将防御作为美国军队的唯一策略,他的立场最终被载入 1972 年的「生化武器公约」。现在,我们再回到谷歌和 Project Maven。
多年来我都参与提倡美国军方增加高级 AI 技术的使用,并且是以谨慎和具备道德意识的方式。Project Maven 执行的是 non-safety-critical 的任务,和暴力并没有直接联系,这正是我所希望的。系统使用 AI 计算机视觉来自动化无人机视频分析的大部分枯燥工作:人群、车辆和建筑的计数。企业的参与涉及的是应有的信用,而不是批评。
全或无的立场是危险的过度简单化。企业的和学术界的 AI 专家拥有独特的和必不可少的机会来帮助军方整合 AI 技术,并以合乎道德的方式支持国家和国际安全。
谷歌 AI 研究的七条准则
在上周五决定退出军事 AI 项目 Project Maven 之后不久,谷歌首席执行官桑达尔·皮查伊于今天发布了公司在 AI 研究,特别是 AI 军事研究上的道德准则。长达两个月的争议和抵制之下,谷歌改变了其在军事领域上的指导方向。值得注意的是,在新的准则之下,谷歌表示其将继续和军队保持合作。
谷歌认为人工智能应用应该实现的目标如下:
1. 有益于社会
新技术的扩展对社会的影响越来越大。AI 领域的进展将对医疗、安全、能源、交通、制造业等大量行业带来革命性影响。谷歌考虑 AI 技术的潜在开发和使用,以及大量社会和经济因素,决定将继续进行其认为整体益处远远大于可预见风险和弊端的领域。
AI 还增强了理解大规模内容的能力。谷歌将继续努力,利用 AI 提供高质量、可获取的准确信息,同时继续尊重各个国家的文化、社会和法律规范。谷歌将继续审慎评估何时能够在非商业的基础上推广技术。
2. 避免创造或增强偏见
AI 算法和数据集能够反映、强化或减少偏见。谷歌意识到区分公平和不公平偏见不总是那么简单,且在不同文化和社会背景下有所不同。谷歌将寻求避免对人类的不公平影响,尤其是在敏感话题方面,如种族、民族、性别、国家、收入、性取向、能力和政治或宗教信仰。
3. 为保障安全而建立和测试
我们将继续开发和应用强大的安全保障和安全的实践以避免不希望发生的导致风险的结果。我们将把 AI 系统设计得适当的谨慎,并探索按照 AI 安全研究的最佳实践来开发的方式。在合适的案例中,我们将在受限的环境中测试 AI 技术,并在部署之后监控它们的运行。
4. 对人们有说明义务
我们将设计能为反馈、相关解释和上诉提供合适机会的 AI 系统。我们的 AI 技术将服从合适的人类指导和控制。
5. 整合隐私设计原则
我们将把我们的隐私原则整合进 AI 技术的开发和使用中。我们将为通知和准许提供机会,鼓励架构中结合隐私保护,并对数据的使用提供合适的透明度和控制。
6. 坚持高标准的科学探索
技术创新根植于科学方法和开放式的调查、严谨的思考、诚信和合作。人工智能工具可能在生物、化学、医药、和环境科学等关键领域具有开拓新科学研究和知识的潜力。我们致力于促进人工智能的发展,追求高标准的科学探索。
我们将与一系列志同道合的人合作,以科学性的严谨和多学科的方式促进这一领域领导力的发展。我们将通过发布教育资源、最佳时间和研究项目来负责任地分享 AI 知识,并令更多的人开发强大的 AI 应用。
7. 根据原则确定合适的应用
许多技术有多种用途。我们将努力限制可能有害或滥用的技术应用。在我们开发和部署 AI 技术时,我们将根据以下因素评估可能的用途: 主要目的和用途:技术和应用的主要目的和用途,包括解决方案与危险使用的关联或它是否能适应于危险使用。 自然和独特性:我们提供的是独特的技术还是普遍的应用。 规模:这种技术的使用是否会产生重大的影响。 谷歌在项目中的性质:我们是提供通用目的的工具、为客户集成的工具还是开发定制版的解决方案。
谷歌不会推动的 AI 应用
除了上面的目标,谷歌不会设计或者将 AI 应用到以下领域: 只带来或者可能只会带来伤害的技术;虽然有些技术有实质性的危害风险,我们将只会进行大体上收益大于危害的技术,同时也会做出合适的安全保证。 武器、其目标或者实现是为了直接/间接伤害人类的技术。 违背国际可接受的标准,收集或者使用监督信息的技术。 违背国际可接受的律法、人权等普世原则的技术。
谷歌希望澄清,虽然该公司决定不开发用于武器的 AI,但其将继续与政府、军队在其他许多领域合作,包括网络安全、训练、军人招募、军人健康、搜索与营救。这些合作非常重要,谷歌称自己将积极寻求更多方法来增强这些组织的重要工作,保证服务人员与平民的安全。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-07-06 23:06:07
作者 Rajat Harlalka 编译  Geek AI、张倩 本文转自机器之心 机器学习 算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢?福利来啦~本文将教你慧眼识精,快速挑选出满意的算法!
机器学习既是一门科学,也是一种艺术。纵观各类机器学习算法,并没有一种普适的解决方案或方法。事实上,有几个因素会影响你对机器学习算法的选择。
有些问题是非常特别的,需要用一种特定的解决方法。例如,如果你对推荐系统有所了解,你会发现它是一类很常用的机器学习算法,用来解决一类非常特殊的问题。而其它的一些问题则非常开放,可能需要一种试错方法(例如:强化学习)。监督学习、分类、回归等问题都是非常开放的,可以被用于异常检测或建立更加广泛的预测模型。
此外,我们在选择机器学习算法时所做出的一些决定与算法的优化或技术层面关系并不大,而更多地与业务决策相关。下面,让我们一起来看看有哪些因素能帮你缩小机器学习算法的选择范围。
数据科学过程
在你开始研究不同的机器学习算法前,你需要对自己拥有的数据、面对的问题及相关约束有清晰的了解。
理解你的数据
当我们决定使用哪种算法时,我们所拥有的数据的类型和形态起着关键性的作用。有些算法可以利用较小的样本集合工作,而另一些算法则需要海量的样本。特定的算法对特定类型的数据起作用。例如,朴素贝叶斯算法对处理待分类的输入特别有效,但是对于缺失值则一点都不敏感。
因此,你需要做到:
了解你的数据
1. 查看总结统计和 数据可视化 的结果 百分比可以帮助你识别大多数数据的范围 平均数和中位数可以描述集中趋势 相关系数可以指出强的关联性
2. 数据可视化 箱形图可以识别出异常值 密度图和直方图可以显示出数据的散布情况 散点图可以描述二元关系
数据清洗
1. 处理缺失值。缺失的数据对于某些模型的影响比对其它模型更大。即使是对于那些被用于处理缺失数据的模型来说,它们也可能对缺失数据很敏感(某些变量的缺失数据可能导致预测性能变差)
2. 选择处理异常值的方法 异常值在多维数据中十分常见。 有些模型对异常值的敏感性比其它模型要低。通常而言,树模型对于异常值的存在不太敏感。然而回归模型、或者任何试图使用方程的模型都会受到异常值的严重影响。 异常值可能是糟糕的数据收集造成的,也可能是合理的极值。
3. 数据需要被聚合吗?
数据增强
1. 特征工程是从原始数据中产生能够被用于建模的数据的过程,可以起到以下几种作用: 使模型更容易被解释(如数据分箱(binning)) 捕获更复杂的关系(如神经网络) 减少数据冗余并降低数据维度(如主成分分析(PCA)) 重新缩放变量(如标准化或归一化)
2. 不同的模型可能有不同的特征工程的要求。有的模型有内置的特征工程。
对问题进行分类
下一步是对问题进行分类。这是一个需要分两步实现的过程。
1. 根据输入分类: 如果你拥有的是带标签的数据,那么这就是一个监督学习问题。 如果你拥有的是未标注过的数据,并且希望从中找到有用的结构,那么这就是一个无监督学习问题。 如果你想要通过与环境的交互来优化一个目标函数,那么这就是一个强化学习问题。
2. 根据输出分类: 如果模型的输出是一个(连续的)数字,那么这就是一个回归问题。 如果模型的输出是一个类别,那么这就是一个分类问题。 如果模型的输出是一组用输入数据划分出的簇,那么这就是一个聚类问题。 你想发现一个异常点吗?此时你面对的就是一个异常检测问题。
理解你要满足的约束条件 你需要考虑你能够存储数据的容量有多大?这取决于系统的存储容量,你可能无法存储若干 GB 大小的分类、回归模型或者若干 GB 的用于聚类分析的数据。例如,在嵌入式系统中,你就会面临这种情况。 对预测过程的速度是否有要求?在实时应用中,很显然,尽快得出预测结果是十分重要的。例如,在自动驾驶问题中,应用必须尽可能快地对道路标志进行分类,以免发生交通事故。 对学习过程的速度是否有要求?在某些情况下,快速训练模型是十分必要的:有时,你需要使用不同的数据集快速地实时更新你的模型。
寻找可用的算法
当对自己的任务环境有了一个清晰的认识后,你就可以使用你所掌握的工具确定适用于待解决的问题并切实可行的算法。一些影响你选择模型的因素如下: 模型是否满足业务目标 模型需要多少数据预处理工作 模型有多准确 模型的可解释性如何 模型运行的速度有多快:构造模型需要多久?模型做出预测需要多长时间? 模型的可伸缩性如何
模型的复杂度是一个影响算法选择的重要标准。一般来说,一个更复杂的模型具备下列特征: 它依赖于更多的特征进行学习和预测(例如,使用十个而不是两个特征来预测目标) 它依赖于更复杂的特征工程(例如,使用多项式特征、交互特征或主成分) 它有更大的计算开销(例如,需要一个由 100 棵决策树组成的随机森林,而不是一棵单独的决策树)
除此之外,同样的机器学习算法可以基于参数的个数和某些超参数的选择而变得更加复杂。例如: 回归模型可以拥有更多的特征,或者多项式项和交互项。 决策树可以拥有更大或更小的深度。
将相同的算法变得更加复杂增加了发生过拟合的几率。
常用的机器学习算法
线性回归
这可能是机器学习中最简单的算法。例如,当你想要计算一些连续值,而不是将输出分类时,可以使用回归算法。因此,当你需要预测一个正在运行的过程未来的值时,你可以使用回归算法。然而,当特征冗余,即如果存在多重共线性(multicollinearity)时,线性回归就不太稳定。
在下列情况下可以考虑使用线性回归: 从一个地方移动到另一个地方所需的时间 预测下个月某种产品的销售情况 血液中的酒精含量对协调能力的影响 预测每个月礼品卡的销售情况,并改善年收入的估算
Logistic 回归
Logistic 回归执行二进制分类,因此输出二值标签。它将特征的线性组合作为输入,并且对其应用非线性函数(sigmoid),因此它是一个非常小的神经网络的实例。
logistic 回归提供了许多方法对你的模型进行正则化处理,因此正如在朴素贝叶斯算法中那样,你不必担心你的特征是否相关。该模型还有一个很好的概率化的解释。不像在决策树或者支持向量机中那样,你可以很容易地更新你的模型以获取新的数据。如果你想要使用一个概率化的框架,或者你希望在未来能够快速地将更多的训练数据融合到你的模型中,你可以使用 logistic 回归算法。logistic 回归还可以帮助你理解预测结果背后起作用的因素,它不完全是一个黑盒方法。
在下列情况下可以考虑使用 logistic 回归算法: 预测客户流失 信用评分和欺诈检测 评价市场营销活动的效果
决策树
决策树很少被单独使用,但是不同的决策树可以组合成非常高效的算法,例如随机森林或梯度提升树算法。
决策树很容易处理特征交互,并且决策树是一种非参数模型,所以你不必担心异常值或者数据是否是线性可分的。决策树算法的一个缺点是,它们不支持在线学习,因此当你要使用新的样本时,你不得不重新构建决策树。决策树的另一个缺点是,它很容易发生过拟合,而这就是像随机森林(或提升树)这样的集成学习方法能够派上用场的地方。决策树也需要大量的内存空间(拥有的特征越多,你的决策树可能会越深、越大)
决策树能够很好地帮助你在诸多行动路径中做出选择: 做出投资决策 预测客户流失 找出可能拖欠银行贷款的人 在「建造」和「购买」两种选择间进行抉择 销售主管的资质审核
K-均值
有时,你完全没有数据的标签信息,并且你的目的是根据对象的特征来为其打上标签。这种问题被称为聚类任务。聚类算法可以在这种情况下被使用:例如,当你有一大群用户,你希望根据他们共有的一些属性将其划分到一些特定的组中。
如果在你的问题声明中有这样的问题:例如,找出一群个体的组织形式,或将某些东西分组,或找出特定的组。这时,你就应该使用聚类算法。
该方法最大的缺点是,K-均值算法需要提前知道你的数据会有多少簇,因此这可能需要进行大量的试验去「猜测」我们最终定义的簇的最佳个数——K。
主成分分析(PCA)
主成分分析能够对数据进行降维。有时,你拥有各种各样的特征,这些特征之间的相关性可能很高,而模型如果使用如此大量的数据可能会产生过拟合现象。这时,你可以使用主成分分析(PCA)技术。
主成分分析(PCA)能够起作用的关键因素是:除了低维的样本表征,它还提供了各种变量的一种同步的低维表征。同步的样本和变量的表征提供了一种能够可视化地找到能够表示一组样本的特征的变量的方法。
支持向量机
支持向量机(SVM)是一种在模式识别和分类问题中被广泛应用的监督机器学习技术——当你的数据恰好有两类时。
支持向量机准确率高,对于防止过拟合很好的理论保障。当你使用一个合适的核函数时,即使你的数据在基(低维)特征空间中是线性不可分的,他们也可以很好地工作。支持向量机在文本分类问题中非常流行,在该问题中,输入是一个维度非常高的空间是很正常的。然而,SVM 是一种内存密集型算法,它很难被解释,并且对其进行调优十分困难。
在下列现实世界的应用中,你可以使用支持向量机: 发现患有糖尿病等常见疾病的人 手写字符识别 文本分类——将文章按照话题分类 股票市场价格预测
朴素贝叶斯
这是一种基于贝叶斯定理的分类技术,它很容易构建,非常适用于大规模数据集。除了结构简单,据说朴素贝叶斯的表现甚至比一些复杂得多的分类方法更好。当 CPU 和内存资源有限时,朴素贝叶斯算法也是一个很好的选项。
朴素贝叶斯非常简单,你仅仅是在做大量的计数工作。如果朴素贝叶斯的条件独立假设确实成立,朴素贝叶斯分类器的收敛速度会比 logistic 回归这样的判别模型更快,因此需要的训练数据更少。即使朴素贝叶斯的假设不成立,朴素贝叶斯分类器往往也能很好地完成任务。如果你想使用一种快速的、简单的、性能也不错的模型,朴素贝叶斯是一个很好的选择。这种算法最大的缺点就是它不能学习到特征之间的相互作用。
在下列真实世界的应用中,你可以使用朴素贝叶斯: 情感分析和文本分类 类似于 Netflix、Amazon 这样的推荐系统 识别垃圾邮件 人脸识别
随机森林
随机森林是一种决策树的集成方法。它能够同时解决具有大规模数据集的回归问题和分类问题,还有助于从数以千计的输入变量中找出最重要的变量。随机森林具有很强的可伸缩性,它适用于任何维数的数据,并且通常具有相当不错的性能。此外,还有一些遗传算法,它们可以在具有最少的关于数据本身的知识的情况下,很好地扩展到任何维度和任何数据上,其中最简单的实现就是微生物遗传算法。然而,随机森林学习的速度可能会很慢(取决于参数设置),并且这种方法不能迭代地改进生成模型。
在下列现实世界的应用中,你可以使用随机森林: 预测高危患者 预测零件在生产中的故障 预测拖欠贷款的人
神经网络
神经网络中包含着神经元之间连接的权重。这些权重是平衡的,逐次对数据点进行学习。当所有的权重都被训练好后,如果需要对新给定的数据点进行回归,神经网络可以被用于预测分类结果或一个具体数值。利用神经网络,可以对特别复杂的模型进行训练,并且将其作为一种黑盒方法加以利用,而在训练模型之前,我们无需进行不可预测的复杂特征工程。通过与「深度方法」相结合,甚至可以采用更加不可预测的模型去实现新任务。例如,最近人们已经通过深度神经网络大大提升了物体识别任务的结果。深度学习还被应用于特征提取这样的非监督学习任务,也可以在人为干预更少的情况下,从原始图像或语音中提取特征。
另一方面,神经网络很难被解释清楚,其参数设置也复杂地让人难以置信。此外,神经网络算法也都是资源密集型和内存密集型的。
SCIKIT 参考手册
Scikit learning 为大家提供了一个非常深入的、解释地很清楚的流程图,它能够帮助你选择正确的算法。我认为此图十分方便。
结论
一般来说,你可以根据上面介绍的要点来筛选出一些算法,但是要想在一开始就知道哪种方法最好是很难的。你最好多迭代几次选择算法的过程。将你的数据输入给那些你确定的潜在优秀机器学习算法,通过并行或串行的方式运行这些算法,最终评估算法性能,从而选择出最佳的算法。
在最后,我想告诉你:为现实生活中的问题找到正确的解决方案,通常不仅仅是一个应用数学方法的问题。这要求我们对业务需求、规则和制度、相关利益者的关注点有所了解,并且具备大量的专业知识。在解决一个机器学习问题的同时,能够结合并平衡这些问题是至关重要的,那些能做到这一点的人可以创造最大的价值。
原文链接:
https://hackernoon.com/choosing-the-right-machine-learning-algorithm-68126944ce1f
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-07-05 09:09:00
编译 | Debra
编辑 | Natalie
微信公众号“AI 前线”(ID:ai-front) Github 收藏平均数量:764⭐️ 机器学习 Github Top10 开放源代码,https://github.com/Mybridge/machine-learning-open-source。 主题:NLP 架构、视频分类、Mlflow、经典游戏、Dragonfire、Opencv、计算机视觉、Star GAN、Glow、生成压缩
这些开源项目对程序员很有用,希望你能找到一个能引起你兴趣的有趣项目。
Top1 Nlp-architect
英特尔 人工智能 实验室的 NLP 架构 :探索最先进的 NLP 深度学习拓扑和技术的 Python 库[Github 1194 颗星]
当前版本的 NLP Architect 包含了从研究角度和实际应用都非常有趣的特性: NLP 核心模型可以为 NLP 工作流程提供强大的语言特征提取功能:例如分析器(BIST)和 NP chunker 提供一流性能的 NLU 模块:例如意图提取(IE),名称实体识别(NER) 解决语义理解的模块:例如,内涵提取,最常见词义,NP 嵌入表示(如 NP2V) 会话式 AI 组件:例如 ChatBot 应用程序,包括对话系统,序列分块和 IE 使用新拓扑的端到端 DL 应用程序:例如 Q&A,机器阅读理解
感谢 Intel Nervana[英特尔人工智能实验室对 NLP 架构的介绍: Introducing NLP Architect by Intel AI Lab
github 链接:
https://github.com/NervanaSystems/nlp-architect
Top2 视频非局域网
Video-nonlocal-net :用于视频分类的非局部神经网络,用 Caffe2 开发[Github 592 颗星]
Facebook Research 介绍:https://medium.com/@FBResearch
论文地址:https://arxiv.org/pdf/1711.07971.pdf
GitHub 链接:
https://github.com/facebookresearch/video-nonlocal-net
Top3 Mlflow
整个机器学习生命周期的开源平台 [Github 1282 颗星]
目前的 MLflow 是 alpha 版本,意味着 API 和数据格式有可能发生变化,且不支持 Windows 运行。
GitHub 链接:
https://github.com/databricks/mlflow
Top4 Gym Retro
经典游戏强化学习平台 [Github 905 颗星]
OpenAI 使用 Gym Retro 来研究强化学习(RL)算法并研究泛化。 RL 之前的研究主要集中在优化代理解决单个任务上。 通过 Gym Retro,我们可以研究在概念相似但外观不同的游戏之间进行概括的能力。此外,OpenAI 还为新游戏添加了新的整合工具。
视频地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/retro-heavy/output2.mp4
此版本包括世嘉创世纪和世嘉主系统的游戏,以及任天堂的 NES,SNES 和 Game Boy 游戏机。它还包括对世嘉 Game Gear,任天堂 Game Boy Color,任天堂 Game Boy Advance 和 NEC TurboGrafx 的初步支持。 一些已发布的游戏集成(包括 Gym Retro 的数据 / 实验文件夹中的那些游戏)处于测试状态。由于涉及的变化规模很大,代码暂时只能在一部分游戏上使用。
OpenAI 介绍:https://blog.openai.com/gym-retro/
GitHub 链接:
https://github.com/openai/retro/tree/develop
Top5 Dragonfire v1.0
基于 Ubuntu 的 Linux 发行版的开源 AI 助手 [Github 688 颗星]
支持环境:
Dragonfire 执行命令步骤: 搜索内置命令并评估代数表达式 尝试学习使用高级 NLP 和数据库管理技术 询问无所不知的 Q&A 引擎(感谢所有为维基百科做贡献的人) 使用 Deep Conversation 系统进行响应,这是一个使用 Cornell Movie-Dialogs Corpus 训练的 seq2seq 神经网络
Dragonfire 使用 Mozilla DeepSpeech 来理解你的语音命令,并使用 Festival Speech Synthesis System 来处理文本到语音的任务。
你可以到 Gitter 聊天室(https://gitter.im/DragonComputer/Lobby),或者 Twitter 帐户与 Dragonfire 体验亲自与她交谈的乐趣。
DRAGON.COMPUTER 介绍:
https://github.com/DragonComputer/Dragonfire
GitHub 链接:
https://github.com/DragonComputer/Dragonfire
Top6 FaceAI
人脸、视频、文字检测和识别项目(使用自动翻译器:中文 – >英文) [Github 1482 颗星]。
功能 人脸检测、识别(图片、视频) 轮廓标识 头像合成(给人戴帽子) 数字化妆(画口红、眉毛、眼睛等) 性别识别 表情识别(生气、厌恶、恐惧、开心、难过、惊喜、平静等七种情绪) 视频对象提取 图片修复(可用于水印去除) 图片自动上色 眼动追踪(待完善) 换脸(待完善)
开发环境 Windows 10(x64) Python 3.6.4 OpenCV 3.4.1 Dlib 19.8.1 face_recognition 1.2.2 keras 2.1.6 tensorflow 1.8.0 Tesseract OCR 4.0.0-beta.1
GitHub 链接:
https://github.com/vipstone/faceai
Top7 Sod
嵌入式计算机视觉和机器学习库(CPU 优化和 IoT 功能)[Github 557 颗星]
SOD 是嵌入式的现代跨平台计算机视觉和机器学习软件库,公开了一套用于深入学习的高级媒体分析和处理 API,包括实时、多类别对象检测和嵌入式系统上的模型训练计算资源和物联网设备,旨在为计算机视觉应用提供通用基础设施,并加速在开源和商业产品中使用机器感知。
SOD 目前的计算机视觉算法支持但不限于移动机器人、AR/VR、基因学、人机交互、机器自动化等。
值得注意的 SOD 功能: 专为真实世界和实时应用程序而打造。 最先进的 CPU 优化深度神经网络,包括全新的独家 RealNets 架构。 无需专利,先进的计算机视觉算法。 支持主要的图像格式。 简单,干净且易于使用的 API。 深入了解有限的计算资源,嵌入式系统和物联网设备。 易于使用 OpenCV 或任何其他专有 API 进行插补。 预训练模型可用于大多数体系结构。 支持 CPU 的 RealNets 模型训练。 已完备、跨平台、高质量的源代码。 SOD 是免费的,用 C 语言编写,几乎可以在所有平台和体系结构上编译和运行。合并 – 将所有 SOD 源文件合并为一个 C 文件(sod.c)以便于部署。 开源,积极开发和维护产品。 开发者友好的支持渠道(https://sod.pixlab.io/support.html)
SOD 编程指南:https://sod.pixlab.io/intro.html
Symisc Systems 主页介绍:https://sod.pixlab.io/
GitHub 链接:https://github.com/symisc/sod
Top8 StarGAN-Tensorflow
StarGAN 的简单 Tensorflow 实现(CVPR 2018 Oral)[Github 382 颗星],感谢 Junho Kim。
StarGAN 是一个使用单个数据集解决多域图像到图像转换问题的框架,可以合并包含不同标签集的多个数据集,并灵活地使用这些标签进行图像翻译。
论文链接:https://arxiv.org/pdf/1711.09020.pdf
GitHub 链接:
https://github.com/taki0112/StarGAN-Tensorflow
Top9 Glow
神经网络硬件加速器编译器 [Github 603 颗星],致谢 PyTorch。
Glow 是针对各种硬件目标而设计的机器学习编译器和执行引擎,被用作高级机器学习框架的后端。该编译器可以进行最先进的编译器优化和神经网络图的代码生成。这个库还在实验和发展阶段。
工作原理
Glow 将传统的神经网络数据流图降低到两阶段强类型中间表示(IR)。高级 IR 允许优化器执行特定域的优化。较低级别的仅基于指令的 IR 允许编译器执行与内存相关的优化,例如指令调度,静态内存分配和复制消除。在最底层,优化器执行特定机器代码生成,以利用其硬件特性。Glow 的降低阶段特点在于使编译器无需在所有目标上实现所有运算符,从而支持大量的输入运算符以及大量的硬件目标。降低阶段的设计旨在减少输入空间,让新的硬件后端专注于少数线性代数基元。其设计理念在 arXiv 论文中有所描述。
论文链接:https://arxiv.org/abs/1805.00907
GitHub 链接:
https://github.com/pytorch/glow
Top10 生成压缩
Generative-compression :GAN 极端学习图像压缩的 TensorFlow 实现。[Github 225 颗星],致谢 Justin-Tan。
Generative-compression 的方法由 Agustsson 等人在 Generative Adversarial Networks for Extreme Learned Image Compression 一文中提出。
论文链接:https://arxiv.org/pdf/1804.02958.pdf
GitHub 地址:
https://github.com/Justin-Tan/generative-compression
原文链接:
https://medium.mybridge.co/machine-learning-open-source-projects-of-the-month-v-june-2018-d87e2ca3e13f
本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56938.html 。
数据分析
2018-07-03 18:55:00
基础
我在series hub中介绍过最基本的强化学习的内容。在强化学习里有四个基本的概念会经常出现在相关的文章中,策略、奖励、价值函数以及环境模型。我会跳过模型这个部分,因为我们现在讨论的是不基于模型的学习理论。
策略 :是 强化学习机 的核心,代表着决策进行的方式。它可能是一个表格,一个函数或者一个复杂的深度神经网络。
奖励信号 :一个数值,代表着强化学习机采取行动后的即时奖励。最大化所得奖励是强化学习机的最终目标,为了完成这个目标,我们不断地调整策略。这就像是训练狗狗一样。
价值函数 :一个函数,用于描述给定状态下的可能获得的远期奖励。这样看来,一个较小的但恒定的常数有可能会优于浮动范围很大的结果。当然,也可能是相反的情况。
探索与利用
Exploration(探索)会放弃一些已知的奖励信息,而去尝试一些新的选择——即在某种状态下,算法也许已经学习到选择什么行动让奖励比较大,但是并不能每次都做出同样的选择,也许另外一个没有尝试过的选择会让奖励更大,即Exploration希望能够探索更多潜在的信息。
Exploitation(利用)指根据已知的信息最大化奖励。
其区别也可以简单地理解成,Exploration 算法在搜索全局最优解,是不基于已有经验的;Exploitation 在搜索局部最优解,且最大程度地利用已有经验信息。
强化学习机就像是个小宠物。它们能够发现第二个碗中包含的东西比第一个碗里的更好,但是当它们开始进食后,就难以发现藏在角落里的大牛排。贪婪的学习机行为也差不多。它会死抓住第一桶金,为自己“谋利”。它总是采取最大化奖励的行动,但是从不会考虑采取其他行为能否在几步之后获得更大的奖励。这就是为什么我们需要探索,因为很有可能一些偶然因素导致我们的学习系统采取了一些随机的行为。
然而,这里有个问题。我们不能只是盲目地探索最大奖励,因为一个学习机会浪费太多的时间来寻找答案,却没有利用它所学习的经验。一个解决办法就是以高探索率开始,然后在系统积累一定经验后逐渐降低探索率。这种权衡也是很著名的数学问题,没有最合理的答案。
多臂老虎机
你肯定知道著名的单臂老虎机,如果你没有达到目标,你不会得到任何奖励。不管怎样,你都是要拉一下杠杆,然后我们假设能随机地获得金钱奖励。由于结果是完全随机的,所以我们训练强化学习机只拉这一个杠杆也无济于事。但是假设一台老虎机有K个杠杆,并且每个杠杆都有随机的奖励,只不过有细微的金额差距。这样的话,一些杠杆和其他杠杆会有些许不同。我们就可以训练一个学习机来帮助我们,而且此处我们还想测试 贪婪算法 和探索算法的好坏。
数据
假设我们考虑的老虎机有十个杠杆,我假定了两个效用函数来生成数据。数据基本都是基于正态分布来获得的,这样以来一些策略行为可能会比其他行为更好,更有区分度。 def generate_problem (k): return np.random.normal(loc=0.0, scale=1, size=10) def generate_reward (problem, action): return np.random.normal(loc=problem[action], scale=1)
算法
再次强调一下,问题与想法都来自一本书:强化学习简介 (Reinforcement Learning: An Introduction) 。
在介绍代码之前还是要提一些东西。价值函数我们记作 q*(a) 是一个实值函数。它是给定行动下获得的平均奖励。但是如果学习机知道了价值函数,就没有训练的必要了。这个算法中,我们将要 估计 价值函数并且利用它来进行决策指导。估计的函数我们记作 Q(A) (注意:我试着让数学公式尽量少而简单,所以更多地使用代码来)。 def k_bandit (problem, k, steps, exploration_rate): Q = {i: 0 for i in range(k)} # 1. Value function N = {i: 0 for i in range(k)} # 2. Number of actions, for update rule for i in range(steps): # 3. Main loop explore = random.uniform(0, 1) < exploration_rate if explore: action = random.randint(0, k - 1) # 5. Exploration: Choosing random action else : action = max(Q, key=Q.get) # 6. Choose action with maximum mean reward reward = generate_reward(problem, action) # 7. Get reward for current action N[action] += 1 # 8. Update action number Q[action] += (1 / N[action]) * (reward - Q[action]) # 9. Update value dict
这个算法适用于每个多臂老虎机问题。 创建价值字典。我们把行动编号当做关键词,平均奖励作为数值,这是最简单的方式。把所有关键词的数值初始化为0。 创建行动记录字典。我们需要它来更新价值字典的规则。同样都初始化为0. for 循环,给定循环次数;或者利用 while 循环,直到停止规则。 探索步骤。我们考虑算法是否需要进一步探索。为了达到目的,我生成一个0到1之间的随机数,并且用它来和探索率进行比较。 如果代码需要进一步探索,就随机选择一个行动。 另一种方法,我们选择用 Q 字典中具有最大数值的关键词所代表的行动。 得到相应的回报奖励。 增加行动记录词典中对应的行动次数。 更新规则。书的作者强调了这很重要,在后续的强化学习任务中都会用到。
这样就完成了我们的第一个简单的强化学习机。我知道学会强化学习是个很困难的过程,但是这个入门级的例子非常简单且有启发性。
结果
我使用不同的探索率运行了这个算法:0.0(贪婪算法),0.01,0.02,0.1,0.2. 而且结果给出了非常有趣的现象,让我们来看几个单独的运行结果:

但是我们没法从这些孤立的运行结果得到合理的结论。探索算法似乎表现的更好,但也不是一直都好。如果贪婪算法在第一次尝试中就成为最优的方法,就很难说明探索算法的优势。接下来应该参考2000次运行的平均结果:
现在结论很明显了。在训练的前期,所有算法都几乎一致;接下来,学习速率最快的方法更占优;在训练的后期,那些基于已有经验的方法达到最优。贪婪算法是效果最差的。
完整的代码见 Vsnipp 。
总结
如果你已经跟着我完成了全部内容,恭喜你,我们一起完成了第一个强化学习任务。虽然问题很简单(甚至没有意义),但是它解释了探索与利用之间的矛盾,从第一天就开始了解这个问题是很重要的。如果继续学习相关内容,会遇到更多类似的矛盾。 作者:Jeremi
本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56839.html 。
数据分析
2018-07-01 11:38:00
大数据 文摘编辑组出品
DeepMind又来搞事情了!而且这次的事情还搞上了Science杂志。
今天,Science杂志公开发表了一篇DeepMind的论文《神经场景表示和渲染(Neural scene representation and rendering)》。包括DeepMind老板Demis Hassabis在内,这篇论文共有22名作者。这也是DeepMind的新研究首次在Science杂志发布。
如此庞大的作者军团,po出的论文成果也非常有趣其重磅,具体来说就是, 通过少量二维的局部图片,想象整个三维空间的立体结构。
通常来说,算法需要几百万张人类标注过的图片才能识别视觉传感器的数据。而GQN的工作原理类似人眼,是一种 无监督学习方法 ,不依赖带标记的数据,而且能够推广到各种不同的场景中。
DeepMind自己的总结是:生成查询网络(Generative Query Network)在没有人为监督的情况下学习:(1)抽象地描述场景元素;(2)通过从任何摄像机角度渲染来“想象”场景中的未观察部分。
有点抽象?拿一个最常见的场景——走迷宫来举例。GQN能观察迷宫的片段截图,从多个视角推想出迷宫的整体构造。
尽管目前这一成果还仅限于受过合成场景的训练,但是,已经有不少业内人士开始想象其使用场景了。比如说,想象一下把这一网络应用在视频游戏甚至VR游戏中,你可以因此实时获取精准提炼各种视角的游戏场景,就像置身真实世界一样。
想想是不是有点激动,DeepMind创始人哈比萨斯也一样,今天他也难得发推特,介绍了这一成果:我一直着迷于大脑如何在大脑的眼睛中构建图像。我们新推出的Science论文介绍了GQN:一种新模型,能够从一些2D快照中重新创建各角度3D场景。
先来看看DeepMind这篇新论文到底在讲什么吧!
公众号后台回复 “GQN” 下载论文~
一个可以“想象”场景的计算机程序
为了训练计算机“识别”由视觉传感器提供的场景的元素,计算机科学家通常使用数百万张人类煞费苦心地标记的图像。DeepMind开发了一种人工视觉系统,称为生成查询网络(GQN)。在这一网络下,不需要繁杂的标记数据即可创建场景。
GQN首先使用从不同视点获取的图像,并创建一个场景的抽象描述,学习它的本质。接下来,基于这种表示,网络从一个新的、任意的视角来预测场景的样子。
一个计算机视觉系统可以从其他任意视点的几个2D视图中,预测一个3D场景。
当涉及到我们如何理解一个视觉场景时,我们的眼睛所能看到的不仅仅是直观的视觉,因为我们的大脑会运用头脑中的储备知识,将感性认识转化成理性认识。
例如,当你第一次进入一个房间时,你会立刻认出里面的物品以及它们的位置。如果你看到一张桌子的三条腿,你会推断桌子的第四条腿被藏了起来。即使你不能看到房间里的所有东西,你也很可能可以勾画出它的布局,或者想象从另一个角度看它会是什么样子。
这些视觉和认知任务对人类来说似乎毫不费力,但它们对我们的人工系统构成了重大挑战。
当前,最先进的视觉识别系统都是用人类产生的带注释图像的 大数据 集来训练的。
获取这些数据是一个代价高昂且耗时的过程,需要每个人对数据集中每个场景中的每个对象进行标记。因此,通常只有一小部分场景的总体内容被捕获,这限制了在这些数据上进行训练的人工视觉系统。当我们开发出在现实世界中运行的更复杂的机器时,我们希望它们充分了解它们的环境:最近的座位在哪里这沙发是什么料子的哪个光源产生了所有的阴影电灯开关可能在哪里
让机器学会脑补
论文作者之一Ali Eslami自述研究过程
在这项发表在Science上的成果中,DeepMind介绍了生成查询网络(GQN)。在这个框架内, 机器学习 只通过对他们在场景中移动时获得的数据进行训练来感知周围环境。 就像婴儿和动物一样,GQN尝试理解其观察到的周围世界,通过这种方式来学习。 通过这些,GQN学习了可能合理的场景及其几何属性,而不需要任何对场景内容的人为标注。
GQN模型由两部分组成:表示网络和生成网络。 表示网络将代理人的观察结果作为其输入并产生描述基础场景的表示(矢量)。 然后生成网络从以前未观察到的角度预测(“想像”)场景。
到底什么是GQN?
表征网络无法获知,生成网络将被要求预测哪些视角,因此,它必须尽可能准确地找到描述场景真实布局的有效方式。
通过简洁的分布式表征,其可以捕获最重要的特征(如对象位置、颜色和房间布局)来实现此目的。 在训练期间,生成器学习环境中的典型对象、特征、关系和规律。 这一共享的“概念集”使表征网络能够以高度压缩和抽象的方式描述场景,并将其留给生成网络,以在必要时填写详细信息。
例如,表示网络将简洁地将“蓝色立方体”表示为一小组数字,而生成网络将知道如何将其自身表现为来自特定视点的像素。
我们在模拟3D世界的一系列程序性生成环境中,对GQN进行了受控实验,其中包含随机位置、颜色、形状和纹理中的多个对象,并使用随机光源和重度遮挡。在对这些环境进行设置后,我们使用GQN的表示网络来形成新的、以前未观察到的场景的表示。 在实验中我们展示了GQN的几个重要特性:
GQN的生成网络可以以非常精确的方式,从新视角去“想象”以前未观测到的场景。 当给出场景表征和新的摄像机视角时,它就可以生成非常清晰的图像,而不需要事先规定透视法、遮挡法或照明法。
因此我们可以说,这种生成网络是一个从数据中学习的渲染器:
GQN的表示网络可以学会对对象进行计数、本地化和分类,而无需任何对象级标签。 即使它的表示可能非常小,但GQN在查询视点处的预测具有高度的准确性,几乎无法与基本事实区分。
这意味着表示网络的准确感知,例如识别组成下面这个场景的方块的精确配置:
GQN能够表示、衡量和减少不确定性。 即使场景内容不完全可见,GQN也能够解释其信息的不确定性,并且可以将场景的多个局部视图组合起来,形成一个整体。
下图显示了它的第一人称和自上而下进行的场景预测。
该模型通过预测的多样性来表达其不确定性,这种不确定性随着它在迷宫中的移动而逐渐减小(灰色锥体指示观察位置,黄色锥体指示查询位置):
正如全文开头所说, GQN的这一特性,在游戏场景中可以完美应用。
此外,GQN的表征允许鲁棒式的数据高效强化学习。 当给定GQN的紧凑表示时,与无模型基线智能体相比,最先进的深度强化学习智能体会以更高效的数据方式完成任务,如下图所示。 对于这些智能体,编码在生成网络中的信息可以被看作是对环境的“先天”知识:
使用GQN,我们可以观察到,与使用原始像素的标准方法相比,策略学习的迭代次数少了 4 倍,但收敛表现一致且有更加数据高效。
DeepMind表示,GQN的诞生基于近期在多视图几何、生成建模、无监督学习和预测学习方面的有关工作的大量成果。它演示了一种学习紧凑、基础的物理场景表示的新方法。更重要的是,这一方法不需要特定领域的工程或耗时的场景内容标记,它允许将相同的模型应用于各种不同的环境。它还可以使用一个强大的神经渲染器,能够从新的视角生成精确的场景图像。
与更传统的计算机视觉技术相比, DeepMind承认,这一新方法仍然有许多限制,且目前只接受过合成场景的训练。 然而,随着新的数据源可用以及我们的硬件功能取得进展,DeepMind期望能够获取GQN框架在更高分辨率下,真实场景图像中的应用。
在未来的工作中,探索GQN在场景理解的更广泛方面的应用也很重要,例如通过跨空间和时间的查询来学习物理和运动的常识概念,以及在虚拟和增强现实中的应用。
尽管在方法准备付诸实践之前我们还有很多研究需要完成,但DeepMind相信,这项工作是迈向完全自主场景理解的一大步。
相关报道:
https://deepmind.com/blog/neural-scene-representation-and-rendering/
http://science.sciencemag.org/content/360/6394/1204
本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/55930.html 。
数据分析
2018-06-27 23:10:00
计算机可以学习并建立从输入图像到输出图像的映射,对图片进行多种类型的风格转换。近日,康奈尔大学和 英伟达 的研究人员提出了多模态、无监督的风格转换新方法,其抛弃了以往方法的确定性假设条件,可让模型生成多样性的输出结果。据称,该方法已经达到了和当前最佳监督方法相当的表现。
Demo:
论文:Multimodal Unsupervised Image-to-Image Translation
论文地址:https://arxiv.org/pdf/1804.04732.pdf
摘要: 无监督 Image-to-Image 变换是 计算机视觉 领域一个重要而富有挑战的问题:给定源域(source domain)中的一张图像,需要在没有任何配对图像数据的情况下,学习出目标域(target domain)中其对应图像的条件分布。虽然条件分布是多模态的,但现有方法都引入了过于简化的假设,而将其作为一个确定性的一对一映射。因此,这些模型都无法在特定的源域图像中生成富有多样性的输出结果。为突破这一限制,我们提出了多模态无监督 Image-to-Image 变换(Multimodal Unsupervised Image-to-image Translation,MUNT)框架。我们假设,图像表征可以分解为一个具有域不变性(domain-invariant)的内容码(content code)和一个能刻画域特有性质的风格码(style code)。为了将图像转化到另一个域中,我们将:1. 原图像的内容码,2. 从目标域中随机抽取的某个风格码 进行重组。(在下文中)我们分析了 MUNT 框架,并建立了相应的理论结果。我们进行了大量实验,将 MUNT 与其他目前最先进方的法进行了比较,结果进一步展现出了 MUNT 的优越性。最后,通过引入一个风格图像(style image)样例,使用者可以利用 MUNT 来控制转化的输出风格。
预训练模型及相关代码可在这里查看:https://github.com/nvlabs/MUNIT
图 1. 方法演示。(a)各个域 Xi 中图像的编码形式为:共享目标空间 C 和域特有的风格空间 Si。每个编码器都有对应的反编码器(未在图中展示)。(b)为了将某个 X1 中的图像(如猎豹)变换到 X2 中(如家猫),我们将输入图像的内容码和目标风格空间中的某个随机风格码进行重组。不同的风格码会得到不同的输出。
图 2. 模型概述。我们的 Image-to-Image 转化模型(MUNT)由分别各属于一个域的两个自编码器组成(在图中分别用红色和蓝色箭头表示),每个自编码器的隐编码由一个内容码 c 和一个风格码 s 构成。我们利用对抗目标(adversarial objectives)(图中点线)和双向重建目标(bidirectional reconstruction objectives)(图中短线)训练模型,其中对抗目标能保证转化的图像和目标域中真实图像难以区分,双向重建目标则用于同时重建图像和隐编码。
实验
实现细节
图 3. 自编码器架构展示:由一个内容编码器、一个风格编码器和一个联合解码器组成。更详细的信息和相关超参数在附录中。我们提供了 PyTorch 下的开源实现
内容编码器:由多个用于对输入降低采样的 Strided Convulsion 层和多个进一步处理输入的 Residual Block 组成,其中所有的 Convulsion 层都进行了 Instance Normalization 处理。
风格编码器:由多个 Strided Convulsion 层、一个全局的 Average Pooling 层和一个全连接(Fully Connected)层组成。在这里我们没有使用 IN 层,因为 IN 会去除原始特征的均值和方差,而很多重要的风格信息都包含在其中。
解码器:我们的解码器根据输入图像的内容码和风格码对其实现了重建。解码器通过一组 Residual Blocks 处理内容码,并最终利用多个上采样和 Convulsion 层来生成重建图像。另外,最近有研究通过在 normalization 层中使用仿射变换(Affine Transformation)来表征风格。受其启发,我们在 Residual Block 中引入了自适应实例标准化(Adaptive Instance Normalization,AdaIN)层,AdaIN 层中的参数可以利用多层感知器(MLP)在风格码上动态生成:
其中 z 是前一个卷积层产生的激活(Activation),µ 和 σ分别表示各个通道的均值和标准差,γ 和 β是 MLP 从风格码中生成的参数。注意:这里的仿射参数是通过训练出的神经网络生成的,而不是像 Huang et al. [53] 研究中一样,根据预训练的神经网络的统计量计算得到的。
判别器:我们使用了 Mao et al. [38] 所提出的 LSGAN 目标,并利用 Wang et al. [20] 提出的多尺度判别器,来确保生成器同时生成了真实细节和正确的全局结构。
具有域不变性的感知损失(perceptual loss):通常,以输出图像和参考图像在 VGG [74] 特征空间中的距离作为感知损失,在有配对图像的监督数据中,这种方法已被证明可以有效地帮助 Image-to-Image 变换;但在无监督场景下,我们并没有目标域中的参考图像。为此,我们提出了一个具有更强的域不变性的修正感知损失,进而可以将输入图像作为参考图像。具体而言,在计算距离前,我们利用 Instance Normalization 处理了 VGG 特征 [70](没有使用仿射变换),去除了原始特征中包含大量域特定信息的均值和方差 [53,57]。我们发现,修正后的感知损失能够加速高分辨率(≥ 512 × 512)数据集上的训练过程,因此在这些数据集上,我们使用的是这一修正感知损失。
图 4. 线图→鞋子变换的定性比较。第一列展示了输入和对应输出的真实图像。第二列开始每一列展示从某种方法中得到的 3 个随机的输出结果。
表 1. 线图→鞋子/手提包变换的定量分析。多样性得分使用的是 LPIPS 距离均值,质量评分使用的是「人类偏好得分」:人们相较于 MUNIT 更偏好该方法的百分比。两个指标中,都是数值越高表现越好。
图 5. 例:(a)线图↔鞋子(b)线图↔手提包
图 6. 例:动物图像变换结果
表 2. 动物图像变换的定量分析。这个数据集中共包含 3 个域,我们在任意两个域对之间完成双向变换,共 6 个变换目标。在每个目标上使用 CIS 和 IS 来度量表现效果。
图 7. 示例:街景变换结果
图 8. 示例:约塞米蒂国家公园的夏天↔冬天(HD 分辨率)
图 9. 示例:有引导图像变换。其中每一行内容相同,每一列风格相同
图 10. 现有风格变换方法的比较
结论
我们展示了一个多模态无监督 Image-to-Image 变换框架,我们的模型在(输出图像的)质量和多样性上都超过了现有的无监督方法,达到了和如今最先进的监督方法相当的结果。我们下一阶段的研究方向会是将这一框架推广到其他域,如影像、文本中。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-06-27 23:03:00
大数据 文摘出品
编译:Apricock、睡不着的iris、JonyKai、钱天培
“ 损失函数 ”是 机器学习 优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦!
机器学习中所有的算法都需要最大化或最小化一个函数,这个函数被称为“目标函数”。其中,我们一般把最小化的一类函数,称为“损失函数”。它能根据预测结果,衡量出模型预测能力的好坏。
在实际应用中,选取损失函数会受到诸多因素的制约,比如是否有异常值、机器学习算法的选择、梯度下降的时间复杂度、求导的难易程度以及预测值的置信度等等。因此,不存在一种损失函数适用于处理所有类型的数据。这篇文章就讲介绍不同种类的损失函数以及它们的作用。
损失函数大致可分为两类:分类问题的损失函数和回归问题的损失函数。在这篇文章中,我将着重介绍回归损失。
本文出现的代码和图表我们都妥妥保存在这儿了:
https://nbviewer.jupyter.org/github/groverpr/Machine-Learning/blob/master/notebooks/05_Loss_Functions.ipynb
分类、回归问题损失函数对比
均方误差
均方误差(MSE)是最常用的回归损失函数,计算方法是求预测值与真实值之间距离的平方和,公式如图。
下图是MSE函数的图像,其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。
MSE损失(Y轴)-预测值(X轴)
平均绝对值误差(也称L1损失)
平均绝对误差(MAE)是另一种用于回归模型的损失函数。MAE是目标值和预测值之差的绝对值之和。其只衡量了预测值误差的平均模长,而不考虑方向,取值范围也是从0到正无穷(如果考虑方向,则是残差/误差的总和——平均偏差(MBE))。
MAE损失(Y轴)-预测值(X轴)
MSE(L2损失)与MAE(L1损失)的比较
简单来说,MSE计算简便,但MAE对异常点有更好的鲁棒性。下面就来介绍导致二者差异的原因。
训练一个机器学习模型时,我们的目标就是找到损失函数达到极小值的点。当预测值等于真实值时,这两种函数都能达到最小。
下面是这两种损失函数的python代码。你可以自己编写函数,也可以使用sklearn内置的函数。
# true: Array of true target variable
# pred: Array of predictions
def mse(true, pred):
return np.sum((true – pred)**2)
def mae(true, pred):
return np.sum(np.abs(true – pred))
# also available in sklearn
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
下面让我们观察MAE和RMSE(即MSE的平方根,同MAE在同一量级中)在两个例子中的计算结果。第一个例子中,预测值和真实值很接近,而且误差的方差也较小。第二个例子中,因为存在一个异常点,而导致误差非常大。
左图:误差比较接近 右图:有一个误差远大于其他误差
从图中可以知道什么?应当如何选择损失函数?
MSE对误差取了平方(令e=真实值-预测值),因此若e>1,则MSE会进一步增大误差。如果数据中存在异常点,那么e值就会很大,而e²则会远大于|e|。
因此,相对于使用MAE计算损失,使用MSE的模型会赋予异常点更大的权重。在第二个例子中,用RMSE计算损失的模型会以牺牲了其他样本的误差为代价,朝着减小异常点误差的方向更新。然而这就会降低模型的整体性能。
如果训练数据被异常点所污染,那么MAE损失就更好用(比如,在训练数据中存在大量错误的反例和正例标记,但是在测试集中没有这个问题)。
直观上可以这样理解:如果我们最小化MSE来对所有的样本点只给出一个预测值,那么这个值一定是所有目标值的平均值。但如果是最小化MAE,那么这个值,则会是所有样本点目标值的中位数。众所周知,对异常值而言,中位数比均值更加鲁棒,因此MAE对于异常值也比MSE更稳定。
然而MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。这样不利于模型的学习。为了解决这个缺陷,我们可以使用变化的学习率,在损失接近最小值时降低学习率。
而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练结束时,使用MSE模型的结果会更精确。
根据不同情况选择损失函数
如果异常点代表在商业中很重要的异常情况,并且需要被检测出来,则应选用MSE损失函数。相反,如果只把异常值当作受损数据,则应选用MAE损失函数。
推荐大家读一下这篇文章,文中比较了分别使用L1、L2损失的回归模型在有无异常值时的表现。
文章网址:
http://rishy.github.io/ml/2015/07/28/l1-vs-l2-loss/
这里L1损失和L2损失只是MAE和MSE的别称。
总而言之,处理异常点时,L1损失函数更稳定,但它的导数不连续,因此求解效率较低。L2损失函数对异常点更敏感,但通过令其导数为0,可以得到更稳定的封闭解。
二者兼有的问题是:在某些情况下,上述两种损失函数都不能满足需求。例如,若数据中90%的样本对应的目标值为150,剩下10%在0到30之间。那么使用MAE作为损失函数的模型可能会忽视10%的异常点,而对所有样本的预测值都为150。
这是因为模型会按中位数来预测。而使用MSE的模型则会给出很多介于0到30的预测值,因为模型会向异常点偏移。上述两种结果在许多商业场景中都是不可取的。
这些情况下应该怎么办呢?最简单的办法是对目标变量进行变换。而另一种办法则是换一个损失函数,这就引出了下面要讲的第三种损失函数,即Huber损失函数。
Huber损失,平滑的平均绝对误差
Huber损失对数据中的异常点没有平方误差损失那么敏感。它在0也可微分。本质上,Huber损失是绝对误差,只是在误差很小时,就变为平方误差。误差降到多小时变为二次误差由超参数δ(delta)来控制。当Huber损失在[0-δ,0+δ]之间时,等价为MSE,而在[-∞,δ]和[δ,+∞]时为MAE。
Huber损失(Y轴)与预测值(X轴)图示。真值取0
这里超参数delta的选择非常重要,因为这决定了你对与异常点的定义。当残差大于delta,应当采用L1(对较大的异常值不那么敏感)来最小化,而残差小于超参数,则用L2来最小化。
为何要使用Huber损失?
使用MAE训练神经网络最大的一个问题就是不变的大梯度,这可能导致在使用梯度下降快要结束时,错过了最小点。而对于MSE,梯度会随着损失的减小而减小,使结果更加精确。
在这种情况下,Huber损失就非常有用。它会由于梯度的减小而落在最小值附近。比起MSE,它对异常点更加鲁棒。因此,Huber损失结合了MSE和MAE的优点。但是,Huber损失的问题是我们可能需要不断调整超参数delta。
Log-Cosh损失
Log-cosh是另一种应用于回归问题中的,且比L2更平滑的的损失函数。它的计算方式是预测误差的双曲余弦的对数。

Log-cosh损失(Y轴)与预测值(X轴)图示。真值取0
优点:对于较小的x,log(cosh(x))近似等于(x^2)/2,对于较大的x,近似等于abs(x)-log(2)。这意味着‘logcosh’基本类似于均方误差,但不易受到异常点的影响。它具有Huber损失所有的优点,但不同于Huber损失的是,Log-cosh二阶处处可微。
为什么需要二阶导数?许多机器学习模型如XGBoost,就是采用牛顿法来寻找最优点。而牛顿法就需要求解二阶导数(Hessian)。因此对于诸如XGBoost这类机器学习框架,损失函数的二阶可微是很有必要的。
XgBoost中使用的目标函数。注意对一阶和二阶导数的依赖性
但Log-cosh损失也并非完美,其仍存在某些问题。比如误差很大的话,一阶梯度和Hessian会变成定值,这就导致XGBoost出现缺少分裂点的情况。
Huber和Log-cosh损失函数的Python代码:
# huber loss
def huber(true, pred, delta):
loss = np.where(np.abs(true-pred) < delta , 0.5*((true-pred)**2), delta*np.abs(true – pred) – 0.5*(delta**2))
return np.sum(loss)
# log cosh loss
def logcosh(true, pred):
loss = np.log(np.cosh(pred – true))
return np.sum(loss)
分位数损失
在大多数现实世界预测问题中,我们通常希望了解预测中的不确定性。清楚预测的范围而非仅是估计点,对许多商业问题的决策很有帮助。
当我们更关注区间预测而不仅是点预测时,分位数损失函数就很有用。使用最小二乘回归进行区间预测,基于的假设是残差(y-y_hat)是独立变量,且方差保持不变。
一旦违背了这条假设,那么线性回归模型就不成立。但是我们也不能因此就认为使用非线性函数或基于树的模型更好,而放弃将线性回归模型作为基线方法。这时,分位数损失和分位数回归就派上用场了,因为即便对于具有变化方差或非正态分布的残差,基于分位数损失的回归也能给出合理的预测区间。
下面让我们看一个实际的例子,以便更好地理解基于分位数损失的回归是如何对异方差数据起作用的。
分位数回归与最小二乘回归
左:b/wX1和Y为线性关系。具有恒定的残差方差。右:b/wX2和Y为线性关系,但Y的方差随着X2增加。(异方差)
橙线表示两种情况下OLS的估值
分位数回归。虚线表示基于0.05和0.95分位数损失函数的回归
附上图中所示分位数回归的代码:
https://github.com/groverpr/Machine-Learning/blob/master/notebooks/09_Quantile_Regression.ipynb
理解分位数损失函数
如何选取合适的分位值取决于我们对正误差和反误差的重视程度。损失函数通过分位值(γ)对高估和低估给予不同的惩罚。例如,当分位数损失函数γ=0.25时,对高估的惩罚更大,使得预测值略低于中值。
γ是所需的分位数,其值介于0和1之间。
分位数损失(Y轴)与预测值(X轴)图示。Y的真值为0
这个损失函数也可以在神经网络或基于树的模型中计算预测区间。以下是用Sklearn实现梯度提升树回归模型的示例。
使用分位数损失(梯度提升回归器)预测区间
上图表明:在sklearn库的梯度提升回归中使用分位数损失可以得到90%的预测区间。其中上限为γ=0.95,下限为γ=0.05。
对比研究
为了证明上述所有损失函数的特点,让我们来一起看一个对比研究。首先,我们建立了一个从sinc(x)函数中采样得到的数据集,并引入了两项人为噪声:高斯噪声分量ε〜N(0,σ2)和脉冲噪声分量ξ〜Bern(p)。
加入脉冲噪声是为了说明模型的鲁棒效果。以下是使用不同损失函数拟合GBM回归器的结果。
连续损失函数:(A)MSE损失函数;(B)MAE损失函数;(C)Huber损失函数;(D)分位数损失函数。将一个平滑的GBM拟合成有噪声的sinc(x)数据的示例:(E)原始sinc(x)函数;(F)具有MSE和MAE损失的平滑GBM;(G)具有Huber损失的平滑GBM,且δ={4,2,1};(H)具有分位数损失的平滑的GBM,且α={0.5,0.1,0.9}。
仿真对比的一些观察结果: MAE损失模型的预测结果受脉冲噪声的影响较小,而MSE损失函数的预测结果受此影响略有偏移。 Huber损失模型预测结果对所选超参数不敏感。 分位数损失模型在合适的置信水平下能给出很好的估计。
最后,让我们将所有损失函数都放进一张图,我们就得到了下面这张漂亮的图片!它们的区别是不是一目了然了呢~
相关报道:
https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0
本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56326.html 。
数据分析
2018-06-22 14:56:00
作者 | PRANAV DAR 译者 | SAMBODHI 编辑 | Debra 微信公众号“AI 前线”,(ID:ai-front)
对我而言,GitHub 和 Reddit 都提供了有趣的发现平台。在这两个平台中,我不仅学习到了 数据科学 的一些最佳应用,而且还了解了它们是如何编写的,并希望将来有朝一日能为这些开源库做出贡献。
微软最近斥资数十亿美元收购了 GitHub。一直以来,GitHub 是开发人员之间协作的终极平台,我们看到,数据科学和 机器学习 的社区对 GitHub 也是青睐有加。我们也希望,这一状况,在微软收购 GitHub 之后还能持续下去。
至于 Reddit,它依然是数据科学家们的一个极好的知识和观点的来源。人们在 Reddit 上分享他们的代码、其他人的代码、一般的数据科学新闻、寻求帮助和意见、发表研究论文等链接。这是一个真正强大的社区,为与其他数据科学爱好者互动提供了可靠的平台。
今年 5 月,我们在 Reddit 上看到了一些精彩的讨论,其中包括未来 3 年数据科学家的作用,以及一组有史以来最好的机器学习论文集。在 GitHub 社区中,Intel 开放了它的 NLP 架构库,微软发布了 ML.NET 来支持 Dot Net 开发者的机器学习等等。
让我们深入这个列表,看看 GitHub 上的最热门的库以及上个月发生在 Reddit 上有趣的讨论。
你可以查看以下过去四个月的 GitHub 最热门的库和 Reddit 上最热门的讨论(截止到四月):
一月:https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/
二月:https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018
三月:https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018
四月:https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/
GitHub 库
ML.NET
(https://github.com/dotnet/machinelearning)
ML.NET 是一个开源的机器学习框架,旨在让 ML 面向.NET 开发人员。有了 ML,开发人员得以能够在.NET 开发自己的模型,而所有这些都不需要构建机器学习模型的经验。目前是个预览版,包含基本的分类和回归算法。
ML.NET 最初由 Microsoft 开发,现已广泛应用于 Windows、Excel、Access、Bing 等产品中。这个版本还捆绑了.NET API,用于各种模型训练模型的任务。
NLP Architect
(https://github.com/NervanaSystems/nlp-architect)
NLP Architect 是一个开源的 Python 库,旨在让数据科学家能够得以探索自然语言处理(Natural Language Processing,NLP)和自然语言理解(Natural Language Understandings,NLU)领域中最先进的深度学习技术。该库由 Intel Lab 的研究人员开发并开源。
这个库中,我最喜欢的组件之一是可视化组件,它以整洁的方式显示模型的注释。访问这个网址来查看我们对 NLP Architect 的报道:
https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/
Amazon Scraper
(https://github.com/tducret/amazon-scraper-python)
这个 Python 包使你能够从 Amazon 搜索和提取产品信息。与其编写几行代码来确定需要分析哪些产品,不如使用这个包就可以了。你需要做的就是输入想要搜索的关键词和最大产品数量(这是可选的)。你可以使用 CSV 格式获得输出,然后将其插入你最喜欢的工具中并开始分析。
PIGO – Face Detection in Go
(https://github.com/esimov/pigo)
PIGO 是一个用 Go 编程语言开发的人脸检测库。它是基于这篇研究论文 Pixel Intensity Comparison -based Object detection(https://arxiv.org/pdf/1305.4537.pdf)开发的。根据该库的说明,这个库的一些主要特点是:
处理速度快;在检测之前无需对图像进行预处理;无需计算积分图像、图像金字塔、HOG 金字塔或任何其他类似的数据结构;人脸检测是基于二进制文件数据树结构编码的像素强度比较。
RL-Adventure-2: Policy Gradients
(https://github.com/higgsfield/RL-Adventure-2)
这个库是为所有的强化学习爱好者开发的。深度学习已经推动了强化学习编程 人工智能 以人类专家水平技能进行 Atari 游戏。这个库涵盖了策略梯度算法的有趣的新扩展,这是解决强化学习问题的最受欢迎的默认选择之一。这些扩展带来了训练时间的改善,提升了强化学习的整体表现。
Reddit 讨论
实时多手姿态判断演示(https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/)
作者将上述概念以视频的形式发布后,讨论就开始了。这是一个令人着迷的概念,使用深度学习来看到它变得生动起来,这真是一件美妙的事情。它引起了数据科学家和机器学习爱好者的关注,正如你可以通过讨论中的问题数量看得出。我鼓励大家去浏览一下这些讨论,你们会对这项技术是如何实现的有一个很好的认识。
为了证明机器学习之美,你们会选择哪篇研究论文来证明这一点?(https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/)
如果你是机器学习的菜鸟,或者正在寻找需要阅读或者参考的论文,那么这就是一条很棒的线索。在这场讨论中提到的一些优秀的机器学习研究论文,每一个有远大抱负或有所建树的数据科学家都会从中受益。这场讨论包含了从基本的机器学习概念(如高斯模型)到高级概念(如神经艺术风格转换)、使用简单功能的提升级联来实现快速目标检测等论文。
我们目前对泛化了解多少?接下来该问些什么呢?(https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/)
深度学习中的泛化问题一直是人们争论不休的话题。正如这篇文章的作者所提到的,我们仍然有不少场景需要努力去实现任何泛化。这就引起了对目前的泛化现状的深入讨论,以及为什么泛化在深度学习和强化学习中很难理解。这些讨论中,包括冗长的帖子,如果你是这个领域的菜鸟,这些帖子对你来说可能有点复杂。尽管如此,我还是建议你,无论如何都要通读这些帖子,因为这些帖子都是由一些经验丰富、知识渊博的数据科学家提出的看法。
医疗行业中的机器学习状况(https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/)
这个话题深入研究了医疗行业(不是研究领域)当前的机器学习现状。这个行业的数据科学家分享了他们在工作中得到的经验和观点。当谁找你询问生命科学领域中有关机器学习和深度学习的任何问题时,你就可以参考这个话题。
未来三年数据科学家的职业发展前景(https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/)
这个话题,也是大多数人在进入该领域之前都会问的一个非常相关的问题。随着自动化机器学习工具的迅速普及,企业在几年内还会需要数据科学家吗?这个话题收集了数据科学领域中不同人士的观点,他们认为数据科学家在未来几年内将会扩展或者多样化。这里有一些很好的职业建议,所以一定要来看一下。
原文链接: Don’t miss out on these awesome GitHub Repositories & Reddit Threads for Data Science & Machine Learning (May 2018)
本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56264.html 。
数据分析
2018-06-21 08:50:00
近日公布的美国专利申请记录显示,Uber(优步,类似滴滴打车)申请了一个非常有意思的专利,即 用 人工智能 来识别醉酒乘客 。Uber 申请的这项专利名为“Predicting User State Using Machine Learning”,即“以 机器学习 预测用户状态”,由 Uber 的信任和安全团队提交。在专利描述中,Uber称他们将研发一个协调系统,该系统使用关于过去在Uber上的行程和行为数据来训练计算机预测提交行程请求的用户的状态(原文提到:The system uses the data about past trips to train a computer model to predict a user state of a user submitting a trip request)。简单来说, Uber 会根据用户使用 Uber App 的方式来识别异常行为,预测用户是否处于醉酒(不清醒)状态 。比如,假设周末的凌晨 1 点,你站在酒吧街区域打车,输入目的地时缓慢且多次出错,跟平常工作日的雷厉风行完全不一样,那么系统将可以判定你处于不清醒状态。
当Uber 的这套系统识别出“不清醒状态”,这个系统将因此调整 Uber 所提供的服务。 比如为这些用户安排经过培训、有相关经验的司机,并提前告知司机乘客的状态。另外,还可以将上下车地点改在光线较足的地方,并关闭拼车功能保证安全等。而 Uber 在专利描述中称,希望通过这个系统,可以减少人身安全或嘴角、冲突等让人不快的乘车体验。 但这个模型如果使用不当,也会产生负面的影响,其中一个担心是 人工智能 可能会被部分居心叵测的司机所利用。数据显示,过去 4 年里在美国至少有 103 名 Uber 司机被指控对乘客进行性侵犯,其中不少受害者就是在醉酒情况下乘车的。目前,这项专利还未投入使用。
本文不打算从伦理道德来分析这个专利的影响,毕竟这个专利还没有正式投入使用,本文只是从学术角度来研究模型实现的原理。下图是整个模型的架构,包括所需求的数据、算法和结果。模型整体的架构如下:当用户输入信息将乘坐请求(Request data,图中1)生成到用户设备(即手机)中时,系统同时收集关于用户设备上的用户活动的信息(Current User Activity Data,图中2),系统同时同步已经自动生成好的用户画像数据(User Profile,图中3)。 基础数据准好了以后,并进入特征工程模块 ,即系统会基于数据用户画像数据(图中3)和当前用户活动数据(图中2)构建用户特征数据(图中4),同时实时收集行程特征数据(Trip Features,图中5)。 用户特征数据和行程特征数据是特征工程中重要的两类模型输入( Input )。
我们重点分析重要的数据源:
(1 )“用户请求数据”和“用户当前活动数据”。 “用户请求数据”是指用户在uber的个中使用请求数据,这些数据生成“用户当前活动数据”。 “用户当前活动数据”指用户对手机用户设备的输入,以及用户设备本身的移动行为。用户当前活动数据可以包括设备处理特性、接口交互特性和文本输入特性数据。 这些数据可能会通过手机中的运动传感器、设备角度传感器、GPS和内置在屏幕中的触摸传感器等方式来收集。如 设备处理特性数据, 包括用户在请求提交时或接近该请求时的速度、用户在请求时保持用户设备的角度、设备移动速度。 文本输入特性数据 如用户输入文本的准确性、选择搜索结果之前被删除的字符数等行为数据。 接口交互特性数据 如在生成uber行程单请求时,用户可以与多个用户界面交互,例如设置行程的起始点位置、选择行程的设置、输入搜索字符串以确定行程的目的地等等;系统会采集用户与这些接口交互的速度(例如,在特定输入屏幕上的平均时间、交互之间的时间),以及用户与搜索查询接口的交互速度。
(2 )“用户特征数据” ,通过统计和分析“用户画像数据”和“当前用户活动数据”而得来。“用户特征数据”是特征工程的一个重要部分,目标是构建更有预测能力的变量。比如文本输入速度以及文本输入速度的变化率、用户平均步行速度以及用户平均步行速度的变化率、点击行为速度和点击行为速度的变化率等等。例如,用户平均步行速度是指在过去的一段时间内步行速度的平均值;而用户平均步行速度的变化率,是指用户在当前一段时间内的速度与用户在过去一段时间内的平均步行速度的比值。
(3 )“行程特征数据”。“行程特征数据”是从用户请求数据提取出行特征的数据,例如与请求的位置、地理和时间特征。 行程特征可以包括用户位置、天气状况、一天的时间和请求提交是在星期几。某些行程特征由系统确定,而不是由请求数据确定,例如时间和星期几、天气条件等。
“用户特征数据”和“行程特征数据”都是特征工程的两类重要数据。 特征工程中,构建这两类数据目标是构建更有预测能力的变量。我们利用这两类数据的历史数据,通过监督机器学习模型来对数据训练建模。所谓监管学习就是给定一组学习样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类,这样的机器学习就被称之为监督学习。 Uber 的专利中提到核心算法主要是分类算法如决策树、支持向量机或神经网络。用户状态预测模型一旦建立了并通过相关的模型检验后,即可以对实时的用户数据进行分析,并利用模型预测用户的状态是否为“清醒”状态。
由于篇幅关系,本文对Uber 专利提到的三个算法进行原理性的介绍:(1 )决策树(decision tree ) 是一类常见的机器学习方法,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。决策树学习是采用自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树; ( 2 )支持向量机。 支持向量机(Support Vector Machine,SVM)是一个常见的分类器,核心思路是通过构造分割面将数据进行分离,一个支持向量机构造一个超平面,或在高或无限维空间,其可以用于分类。 ( 3 )神经网络。 神经网络的作用本质上也是一个分类器,人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。人工神经网络由大量的节点(或称神经元)之间相互联接构成,每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。目前神经网络算法已经有几十种,最近流行的深度学习也属于神经网络的发展方向。
我们用一个简单的示例来更直观的阐述上述过程。在uber的专利文献中提到一个例子, 见以下表“用户状态预测模型数据示例”。 表格中,每一行代表一条用户记录数据。第一列是加密后的用户ID,用来唯一区分每个用户。第二列至第六列是用户特征数据(User Features),包括用户文本的输入精度、用户数据输入速度、按钮点击行为、设备的角度、步行速度。第七至第八列是“行程特征数据(Trip Features)”,包括位置、时间和星期。值得大家注意的是,用户特征数据和行程特征数据只是列了部分变量,并没有列全,只是为了举例方便。最后一列“异常状态识别”是通过模型预测的用户异常状态,1代表异常,0代表正常。正如上文提到,用户的“异常状态预识别”是通过基于用户特征数据(User Features)和行程特征数据(Trip Features)进行训练,通过有监督学习的机器学习算法(上文提到的三种算法),建立“用户状态识别预测模型”计算得出。
从预测结果我们可以看到,第一列用户(用户ID为28HQ5)为预测为异常用户,即醉酒的可能性很大。第二列用户(用户ID为B24L9)为预测正常用户。这两位用户的差异在于数据输入精准度(异常用户精准度更低)、按钮点击次数(异常用户点击次数更多)、设备角度(异常用户角度更倾斜)、位置的差异、时间(异常用户在凌晨两点多打车)、星期的差异(异常用户在周末)。从典型的用户分析也能看到正常和异常用户的用户特征数据和行程特征数据有显著的差异。
Uber通过其APP收集到的数据,利用机器学习算法实现的是否处于醉酒状态的预测,在其他领域也有非常多的应用场景,包括保险、交通安全、金融、安防等领域。在保险领域,如果我们了解到某个用户经常酗酒,那么该用户很可能出险的概率就高,对于保险公司来说,并不是最优质的客户;在交通安全领域,畅想一下,相关的交通管理机构联合大型互联网企业做用户不清醒状态的预测,如果某用户醉酒的可能性很大,那么可以通过互联网应用来提醒该用户酒后不要驾驶;在金融领域,以小额贷款为例,如果发现某个用户老是醉酒,其征信得分应该有所降低,贷款审核也应该更加慎重。
参考专利文献:
Predicting User State Using MachineLearning,Poeppel; Scott; (Pittsburgh, PA) ; Letwin; Nicholas G.; (Pittsburgh,PA) ; Kelly; Sean J.; (Pittsburgh, PA), Uber Technologies, Inc
专利文献链接:
http://appft.uspto.gov/netacgi/nph-ParserSect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=3&p=1&f=G&l=50&d=PG01&S1=uber.AANM.&OS=aanm/uber&RS=AANM/uber
本文为专栏文章,来自:傅志华,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56167.html 。
数据分析
2018-06-19 15:05:00
传统的征信系统,其数据来源比较单一,但是这些系统当中记录的都是关于个人和企业比较核心的金融数据,如信贷、保险、税收等,都是“真金白银”,与个人信用关联度比较强。互联网公司积累的数据虽然多,但是这些数据和个人信用关联度比较弱,如何用这些关联度弱的数据,分析出与个人信用的关系,是个难题。
此外,数据来源单一、数据的第三方问题、隐私保护问题等,也是公众和监管层对芝麻信用的担忧和顾虑。芝麻信用该如何破解这些顾虑
数据来源是哪
打开手机支付宝APP,点击首页淡绿色空心的水滴“芝麻信用分”,授权开通后,每个用户都可以看到自己的芝麻信用分。从350分到950分,分数越高代表信用程度越好,违约可能性越低。
“芝麻信用分,是芝麻信用‘皇冠上的明珠’,它是每个人信用程度的浓缩。但是,这个分数只是冰山一角,它的下面还有一座巨大的冰山。”胡滔介绍。
数据来源,是这座冰山的重要构成部分。芝麻信用分正是依据芝麻信用能够用到的数据打出来的,这些数据包括芝麻信用所在的蚂蚁金服集团多年积累的数据和与外部合作机构的数据。
芝麻信用管理有限公司,是蚂蚁金服集团旗下的子品牌。阿里巴巴和蚂蚁金服本身积累的数据,是芝麻信用的一大优势。这些数据包括淘宝、天猫等电商平台网络购物的相关行为数据,支付宝平台水电煤电信缴费数据、各种生活服务场景相关数据,还有千万级以上的贷款数据。其中,贷款数据包括阿里巴巴平台上接近两百多万的小企业贷款数据,千万级的天猫分期购的数据,以及消费者无忧支付产品蚂蚁花呗的数据。
“集团自有的数据,只占我们所有数据的一小部分,我们还有一大部分数据是和外部合作的。”胡滔介绍。
外部的数据源大致可以分为政府公共部门的数据、合作企业的数据、金融机构的数据、用户自主上传的数据等几个方面。
政府数据目前完全开放的还不多。胡滔介绍,目前政府已经开放的工商、学历、学籍、公安四个方面的数据,芝麻信用已经全部接入。今年7月1日,芝麻信用和最高人民法院实现专线连接,实时更新“老赖”(失信被执行人)数据。芝麻信用是最高法首个接入的市场化征信机构。接受媒体采访的当天早上,芝麻信用和最高人民法院执行局签署《合作备忘录》,双方将在此前失信被执行人(老赖)专线同步的基础上,进一步加大对老赖的信用惩戒力度,包括扩大信用惩戒范围、加大消费限制内容等。
“政府的数据公开这一块,我们也在思考政府为什么要开放数据给你。在现阶段唯一的解就是为他创造价值。”胡滔举例说,比如和最高法执行局的合作,就是芝麻信用接入之后,老赖们在网络上的消费会受到限制,这对案件执行来讲是有价值的。芝麻信用分是每月6日更新的,胡滔透露,很多老赖都开通了芝麻信用分,接入最高法执行局后,有人看到自己分数下降的很厉害,就打电话来问,感受到了失信者受限的麻烦。
目前,芝麻信用的合作企业有30多家,神州租车是首家与芝麻信用合作的企业。此外还有婚恋网站、酒店等各种生活场景中的商家。当用户的芝麻分达到一定数值,租车、住酒店时可以不用再交押金,网购时可以先试后买,办理签证时不用再办存款证明,贷款时可以更快得到批复、拿到比别人低的利率,甚至相亲时也可以最大程度避免婚骗。
互联网公司与银行的合作并非易事。之前媒体报道,银行目前都有自己的违约概率模型,数据来源是央行征信中心或银行自身,数据类型都是和信贷违约息息相关的“硬数据”。目前中国银行业风控效果良好,低于世界平均水平,因此银行未必有动力与芝麻信用合作。同时,有银行业人士接受媒体采访时表示,蚂蚁金服旗下有蚂蚁小贷做小贷业务,还有网商银行,这对银行而言都属于竞争者,因此不可能将核心数据提供给竞争者。
但是,6月25日,北京银行成为芝麻信用的首家合作银行,双方将开展信用信息查询和应用、产品研发、商业活动等多个方面的合作。胡滔透露,还有几家银行的合作也正在谈,但是合作并不是数据共享,而是全流程的信用风险管理。
其他的金融机构,芝麻信用也在谨慎地尝试接入个别的P2P平台,但是目前接入的P2P数量并不太多,大概不到10家。
目前,芝麻信用与合作伙伴之间的合作都是免费的。其他更多的合作方式,胡滔表示,芝麻信用给每个行业都有定制的解决方案,将择时公布。
除了合作伙伴的数据之外,在支付宝9.0版本中,芝麻信用在“芝麻信用分”的下面,添加了一个“+”按钮,用户可以点击添加自己的相关信息,以获得更准确的信用评分。
怎么做 数据分析
通过多种渠道汇集的数据,在芝麻信用分的评分当中,被分为五个维度:身份特质、履约能力、信用历史、人脉关系、行为偏好。芝麻信用首席信用数据科学家俞吴杰向媒体详细解释了每一项的具体含义。
身份特质是指在使用相关服务过程中留下的个人基本信息,包括从公安、学历学籍、工商、法院等公共部门获得的个人资料,未来还可能包括网络使用习惯等可以用于推测个人性格的数据。
履约能力包括享用各类信用服务并确保及时履约,例如租车是否按时归还,水电煤气是否按时交费等,还包括通过消费情况、消费稳定性、消费层次等等来判断用户未来履约有什么样的能力。
信用历史是指过往信用账户还款记录及信用账户历史。俞吴杰介绍,这些历史包括用户的在蚂蚁微贷、蚂蚁花呗等蚂蚁金服旗下服务的信用历史、用支付宝还款的历史,还包括用户在合作伙伴处产生的信用历史,“我们把信用历史看得非常重要。因为大量的研究已经表明,如果一个人有持续的好的借贷还款行为的话,他在其他各个场景当中都会有类似的延续、惯性。”
人脉关系是指好友的身份特征以及跟好友互动的程度。根据“物以类聚人以群分”的理论,通过转账关系、校友关系等作为评判个人信用的依据之一。俞吴杰解释,当我们在判断关系的时候,要看两个人之间联系的紧密程度如何,以及历史的一贯的行为表现是怎样的,这些都是通过一个一个的模型判断出来的,而每个模型在判断一个指标的时候,都会用到几十上百个变量。
行为偏好是指在购物、缴费、转账、理财等活动中的偏好及稳定性。“比如讲一个用户你是否经常做一些与家庭责任相关的、跟社会责任相关的事情,在你购物的行为当中能不能体现出这种特征,如果是的话可能对你的个人信用会有正向的作用。”俞吴杰解释。
这些维度的评价,如何与个人信用建立联系
美国个人消费信用评估公司FICO的信用评分在美国的应用是最为广泛的,美国三大信用局都使用FICO的信用分。FICO信用分计算的基本原理是,把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。
俞吴杰告诉环球照明网,芝麻信用的 大数据 评分的原理是类似的。“传统的方法当中,每个变量与信用的关联比较强,可能有某个特征就是好的,没有某个特征就是坏的。大数据的场景下的很多关联不像传统的方法当中强,可能很多的特征都是弱关联,有关联但是彼此之间并不是很直接。但是当我们把很多个弱关联的特征联合在一起的时候就变成了一个非常强的预测变量,可以来判断这个人未来可能会守约还是违约。”
他举了个例子:“比如说要判断一个人的家庭责任感,购物中的哪些类目会体现出家庭责任感呢没有一个类目能说完。但是如果研究很多不同的类目,比如说你是不是在购买跟生活相关的纸巾类的物品、或者购买婴儿类相关的物品、学习类书籍,当把这些不同的类目联合在一起去看的时候,当一个人有众多的弱变量都指向是一个行为特征,他就变成了一个组合起来的强特征。”
这需要对大量的数据进行处理。俞吴杰进一步说:“当我们要去处理那么多变量那么多弱特征的时候,技术以及需要投入的处理能力就需要非常强。”
他接着解释:“一方面,我们人平时思考到的那些东西,比如地址稳定性、手机号码稳定性和个人信用到底有没有关系,数据和算法可以帮我们去检验;另一方面,我们人想不到的维度,只要把足够的数据放进去,机器能够帮我们两两比对,不同的关联组合起来以后,就可以知道违约和守约的区分。”
这是一个不断调整、优化的过程,随着数据源的扩大、应用场景的不断丰富,实际检验效果会越来越清晰。同时,俞吴杰也指出:“实际上,很多时候也不需要掌握所有的信息才能对一个人做出最完整的、客观的评价,因为很多信息是具有代表性的,只要我们在足够有说服力的方面拿到核心的信息,就可以对一个人做出相对比较准确的判断。”
他介绍,目前比较前沿的一些算法,如决策树、随机森林、支持向量机、神经网络等,芝麻信用都在研究尝试。
目前,芝麻信用分在实践中检验的结果,其产生的坏账率在合作伙伴可以接受的范围内,这也是让芝麻信用充满信心的原因。
芝麻信用整个团队有130人,其中2/3是数据和技术团队。胡滔介绍, 数据分析 团队是芝麻信用的核心。芝麻信用从国外引入了做征信模型做得最好的FICO的首席科学家,还有美国三大征信局之一艾可菲( Equifax) 专门做产品和业务的优秀华人。
胡滔对自己的团队充满信心:“他们在国外积累的经验,结合我们今天大数据和技术的优势,包括整个中国的市场,一定可以做出成绩。我经常也跟团队说,今天芝麻一小步就是中国一大步,因为我们做的每件事情在中国都是没有先例的。今天我们的征信才刚刚起步,美国是170年前起步的,我们的今天是他们的昨天,但是我们的明天可能是他们的后天。”
如何保护隐私
此前,有业内人士告诉环球照明网,利用大数据进行信用评估,目前只对特定人群、特定服务有效,比如对年轻人进行小额消费贷款。
芝麻信用分目前的适用范围是不是仅限于年轻人的小额消费贷款胡滔对此予以否认。她告诉环球照明网,芝麻信用希望对所有人的信用进行评估,而不仅仅是年轻人。
芝麻信用分开始公测之后,网上有人声称可以“刷分”,即帮助提高芝麻信用分。俞吴杰强调,现在声称可以“刷分”的都是骗子。
他解释,芝麻信用分的整个模型有极其复杂的机器算法,算法下面有很多的变量,如果追溯到源头的数据可能就有成千上万个,每个变量都很重要但是又是有限的。他说:“而且我们会加很多很稳定的机制,比如说转帐也好还款也好,我们不会看你昨天一天前天一天,我们会看你很长一个历史是不是持续在做这样一件事情。所以这个就会导致,第一你找不出任何一个点能够给你的信用带来巨大提升,第二机器算法本身是一个相对黑匣子的东西,你不知道你的这个行为最后到底是否有直接关系,尤其是当我们应用了更加复杂的算法以后都不是一个线性的关系,不是做了一件事就一定对结果有正向的影响。它是一个非常复杂的网络系统,网上看到的各种涨分秘籍在我个人看来非常可笑。”
此前,据财新报道,央行给予八家征信机构六个月准备期可能出于两条顾虑:其一是数据的第三方问题,其二便是如何保护隐私。
当时,俞吴杰在关于隐私保护方面介绍,芝麻信用从信息的调用、运算、应用等层面保护用户个人信息:
第一,很多数据,不是存在芝麻信用,而是在各数据源,如政府机构、合作伙伴、电商平台等。
第二,得到芝麻用户的授权,我们的系统才会调用各数据源和用户相关的数据,这个调用过程是没有人工参与的,都是系统运营的。
第三,系统运营的过程,会通过运算规则的设置,按照法规要求,不碰种族、血型、宗教、信仰等等信息。
第四,整个数据开发团队有很好的防护墙,只有核心成员知道系统运营的内核是什么。但即使他们知道运营规则,也不能接触到用户的信息,整个计算是在黑匣子里。
第五,只有在用户授权的情况下,第三方才可以调用用户的芝麻分等信用数据。
其表示,从用户数据的调用、运算,到第三方对信用分等的使用都是在用户授权的前提下进行,芝麻评分全过程工作人员不接触用户的信息,一切均由系统运营,确保用户隐私全程保密。
关于独立第三方的问题,当时芝麻信用商务拓展负责人邓一鸣的解释是,一方面芝麻信用仅有少部分数据来自“阿里系”,另一方面蚂蚁金服和阿里巴巴都是平台,本身不买卖货物,基本没有自营,因此产生的数据本就属于第三方数据。“对于这个解释,监管层是认同的。”邓一鸣说。
现在,芝麻信用对这个问题给出了更好的答案。胡滔介绍,芝麻信用是独立的一家注册在杭州的征信公司,这个是物理上、组织架构上的独立。另外在董事会层面,芝麻信用邀请了金融界一位非常有影响力的华人董事,他将在芝麻信用董事会中拥有相当的权限,每一次会议和董事会的决议都可追溯、可查询。“希望他能够参与到我们整个公司的监督里面。其实最核心的是保护消费者的利益,特别是个人隐私权保护能不能很好的落到实处。第二个非常重要的,就是我们独立性这块,和集团内其他的业务单元和子公司的关联交易的独立性保障。” 文章来源:《环球照明网》(原文题为“芝麻信用的数据来源以及评分的五个维度”)
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-06-30 01:12:00
了解事物之间的相互关系可以丰富你的信息,让你了解真相,使你立于不败之地。
发现事物之间的相互关系:相关与回归。
数据类型探讨
单变量数据考虑的是一个单一变量的频数或者概率。
二变量数据给出两个变量的数值,如果其中一个变量以某种方式受到控制,或者被用来解释另一个变量,则这个变量被称为自变量或者解释变量,另一个变量则称为因变量或者反应变量。
二变量 数据可视化
散点图或者散布图,描述二变量数据。
散点图显示出数据对之间的相关性。
相关关系与因果关系
两个变量存在相关关系并不一定意味着一个变量会影响另一个变量,也不意味着二者存在实际关系。
用最佳拟合线预测数值
能最好地接近所有数据点的线被称为最佳拟合线。
误差最小化
误差平方和
最小二乘回归总结
用相关系数衡量直线与数据的拟合度
相关系数计算公式
要点
总结
1回归和相关的概念
2线性回归的确立
3最小二乘法的应用
练习
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2015-07-18 00:01:00
摘要:近两年,精益创业、Growth Hacking这些概念和方法论在国内越来越普及,而大多数人却只停留在从流量的角度去理解Growth Hacking,比如利用一些传播手段来获取大量的新增用户,这确实很好,但Growth Hacking远远不止这些。就像我们只看到了Facebook的病毒式传播,却没有看到他们为用户的激活和长期留存所做的大量努力,而后者也是Growth Hacking的一部分,而且是更为重要的一部分。
所以,我们应该站在用户整个生命周期的角度去理解Growth Hacking,只有大量的新增,却没有有效的核心行为转化和良好的留存,就无法实现真正的增长。 如果有机会深入观察用户的行为,你会发现只有少量的访客了最终成为了产品的忠实用户, 更多的只是过客。 – 《精益 数据分析 》
要实践真正的Growth Hacking,必须以有效的数据作为支撑,以 数据驱动 的方式去对产品的各个部分进行实验、调优,以达到真正的用户增长。所幸,McClure早在2007年就提出一个有效的数据模型,它在这些年彻底改变了众多企业看待数据的方式,并帮助大量的产品实现了用户增长。
它就是AARRR 模型(也称海盗指标):
AARRR 模型引领人们从虚荣指标(有多少人看过我的页面、我的累计用户达到了多少)到思考整个用户的生命周期,提供了一个最有效的分解用户生命周期的方式,并告诉我们各个部分如何改善。
一旦你深入到了用户生命周期各个部分的细节中去,你就能像一个黑客一样去设定你的增长策略,以达到真正的Growth。
说到AARRR 模型,其实也存在大量错误的理解 ,在模型的每一部分,都有一些被经常使用的「虚荣指标」,这些虚荣指标掩饰了你产品中紧迫的问题,提供了一些夸张的、没有意义的数据,这通常会将你带入歧途,而很多人却天真的以为这就是所谓的数据驱动。好在,在这些「虚荣指标」之外,同时也存在一些「可行动指标」,而这些指标可以向你展示现在有什么问题以及为什么,并告诉你可以做些什么以改进你的产品。
使用「可行动指标」的时候,需要外科手术般的精度,而「虚荣指标」用起来就简单了,它们是为懒汉准备的。你选择使用哪一种,决定了你将成为一个高手还是一个弱鸡。
OK,就让我们逐个部分的来搞清楚究竟是什么是虚荣指标,什么是可行动指标,以及如何通过可行动指标来帮助你践行Growth Hacking吧。
获取对比不同渠道的价值
比如你已经推出了你的app并准备作一些推广,然后你花钱在两个不同的渠道上做了推广活动,你还去研究如何提高在AppStore的排名,还找人撰写软文发到媒体上为你的应用引流,你所做的这一切是为了什么
下载量。当然,越多的人下载你的应用,下载量就会变得越好。可问题是,「下载量」是最靠不住的虚荣指标指标之一,下载应用是一个超级低成本的事情。一味的推广并不能支撑你的成功,不像删除一个应用那么简单。
当你看获取指标的时候,你需要关注哪个渠道给你提供了最好的投资回报 。如果你只关注下载量,你可能看到类似于下面的一张图,它貌似说明了你推广的成功:
但在这张图中,无论如何你都无法得知:下载你应用的那些用户到底有没有去使用你产品。
有一些人会去对比不同渠道的下载量,觉得这就是可执行指标。但这同样没有用,即使你发现一个渠道得到了2倍于另一个渠道的下载量,你还是无法知道那些额外的用户实际是怎么使用你的产品的。
若要改进你的获取指标,除了对比渠道,你还要关注那些真正使用了你产品的用户。
可执行指标:不同渠道从下载到注册的转化率
如果你从用户打开你的产品到完成注册都进行了跟踪,那么可以把这些跟踪结果按渠道拆分,你就会精确的知道你的推广怎么样。任何人都可以下载一个应用,但只有一部分用户是真正感兴趣,并进行了注册,这些用户才你是想密切关注的。
要这样做,只需设置一个从启动应用到注册的两步漏斗,然后对比不同渠道的转化率:
你可以看出一个问题,从A 渠道来的75%的用户和从 B 渠道来的63%的用户只是下载了你的应用,但并没有注册。
这包含一个坏消息,也包含一个好消息。
如果你只是跟踪了下载或者打开应用,你可能会看到仅一个月的A 渠道推广,就得到了超过90,000的用户。这是一个非常大的数字,但事实上它会引起人的误解。所以坏消息是:绝大多数用户连试都没试你的应用,75%的投入打水漂了。
而好消息是:在B 渠道,有一个值得关注的更好的结果:这个渠道有更多的用户完成了从下载到注册的转化。
现在你有工作要做了(所谓可执行指标,就是能告诉你可以做点什么):
快速频繁迭代你的启动页与注册流程以提升整体注册转化率。这没有固定的成功公式,就像一句话说的:「做大量的测试和 A/B 测试,做大量的猜测并快速的迭代」。
持续不断的检查你的转化率,当你发现迭代优化的收益变小的时候,就先暂停一下。
加倍投入那些低成本、高转化率的渠道。
这并不意味着你要完全放弃那些低质量的渠道,因为广告也有收益递减:你花费20,000也可能得不到与之前花费5,000相同的结果。但只要保持对转化率的关注,你就可以把产品推进到正确的方向上,不用过多的担心。
把尽可能多的用户带到你真正的产品里面,这就是在AARRR 模块中的获取部分你要做的所有努力。没错,登录和注册的提升并不能完全表示你的产品会变得更好,但是它们仍然是一个非常重要的市场指标。正确的使用,它们可以让你引领尽可能多的用户进入激活阶段。
激活为了更快的Aha!Moment而改进你的漏斗
下面的话你可能经常听到: 「我们服务过数百万的客户」 「我们的用户之间发送了数亿条消息」 「我们处理了1亿张照片」
这样的指标,都是累计的价值,它确实能在某种程度上反映产品现在的规模,也可能会让人们相信你产品的能力。但对你自己来说,这些数字稍微看看就是了,它对你理解真正的问题毫无用处。
那些在你的产品上花的时间比平均用户多的多的小部分用户,会把你的累计或整体数据拉得相当高,「处理了1亿张照片」,是的,但那些大量的、压根就没有上传过照片的用户呢换言之,那些大量的、根本就没有激活的用户呢
我们来明确一下,打开应用不是激活,注册也不是激活,这些都只能代表用户在尝试你的产品,而只有当用户在发现并认可了产品的价值,并决定继续使用的时候,才代表这个用户激活了(Aha! 这玩意儿不错,正是我想要的)。
所以真正重要的是,那些大量未激活用户的问题是什么换言之他们的问题才是你的机会,如果你自己也只是关注那些巨大的虚荣数字的时候,你不会接近这些问题和机会。
你需要明白是: 有多少用户没有正确的激活 用户在哪些地方迷路了 哪些流程是你需要去改善的
可执行指标:转化漏斗和拆分测试
从注册到激活的过程像是一次冒险,用户会在其中流失掉,而且他们可能永远不会再回来了。解决激活问题的最好的方式是创建一个包含这个过程中每一个步骤的漏斗,跟踪每一步转化率,然后当你看到用户在哪个地方流失的时候进一步的深入进去。
我们假设你创建了一个社区应用,里面有不同的兴趣小组,在小组中可以对相关的主题进行交流。你发现,一旦用户开始参与交流,他们就基本认可了产品的价值,趋向于留下来。但是,你也发现有一些人明显没有触达这个点(参与交流),而且他们流失掉了。
要理解为什么用户没有激活以及如何修复这个问题,只需创建一个漏斗,把漏斗的转化时间调至一天(特别是移动应用,你最好能让你的用户尽可能快的激活,是以小时以天计,而不是几周几月)。
在这个漏斗中,你将跟踪用户从注册之后,是如何一步步到达「评论话题」(参与交流)的:
在漏斗中,两个现象已经很明显了: 80%的用户没有加入任何一个小组 绝大多数加入小组的用户,都会评论话题,他们激活了
一旦用户加入了一个小组,大多数情况下就会发表至少一个评论并有一个不错的长期留存,问题是有相当多的用户根本就没有加入小组。在你看到这个漏斗之前你很难发现这个问题,当你开心看着评论话题的总量时,你没有看到那80%的用户根本都没有到达这个点。
好的一面是,这也向你提供了一个巨大的机会,80%的用户在从注册到加入一个小组的过程中流失掉了,你有一个巨大的空间去提高这个数字 。而且从你知道加入一个小组关系到用户的留存和满意度后,你就有了一个基本清晰的、数据驱动的途径去把你的产品真正的做的更好。显然这种方式比虚荣指标更有价值,而且可能会让你感觉更好。
要解决这个问题,为你从注册到加入小组的流程和体验多构建几个新的版本,然后分离测试它们以观察它们是如何工作的。不要担心把事件变得更复杂,如果它可以帮助新用户触达你的产品核心价值。Twitter这样做过,他们发现促使用户完成他们的Profile并且根据账号提供个性化的内容,能引导用户触达Aha!moment。
拆分测试你不同的想法,不断的做,直到你拥有一个坚如磐石的引导流程,能让用户以闪电般的速度触达Aha!moment。
不久,你的情况就会变得越来越好,你会开始感到兴奋,一切都是让人惊喜的,直到你想起来一个词:流失。
留存使用 用户分群 来识别留住用户的Feature
用户流失是产品的头号公敌,如果没有强大的激活和留存,用户流失会削减你的用户规模,而且从长远来看,它会逐渐毁掉你的产品。
最流行的衡量留存的方法是 DAU和MAU——日活跃用户数和月活跃用户数,衡量每天或每月有多少用户在你的应用上活跃。这听起来是 OK 的。但是,它存在一些问题:
这太容易夸大这些数字的意义,定义「活跃」是一件很难的事情,而企业通常会选择让他们 DAU 最大化的定义。
如果你的业务正在增长,新用户注册量会扭曲这些数字,从而妨碍你看到这些用户实际上有多少回来了。
即使前两个问题不存在,「活跃用户」的最简单的定义也不能让你找到识别提高留存方法的点在哪里。
比如你做了一个视频分享平台,近期通过各种手段做了大肆宣传,你的DAU会突然爆炸式的增长:
看起来非常棒不是吗但接下来我们看一下,把实际拍过视频的人数加进来会发生什么:
当暴涨的下载量似乎证明你已经成功了,但你的播放视频人数会告诉你一个不同的故事。当你的下载量仍然在逐步增加,你的实际播放视频的人数反而在增少。一方面你成功了:用户在下载你的应用,另一方面你也有明确的证据表明有些事情正在变得非常糟糕。如果没有干预,你将会在这里结束:
可执行指标:用户分群分析
要真正在你的应用中构建良好的用户留存,你需要分析你的用户行为。
一些用户被你的应用吸引而且频繁的使用你的应用;而另一些用户下载之后根本看不到价值,然后把它删掉。为了获得更多的前者,而非后者,你需要从你的超级用户(比其它用户更多更频繁的使用你的产品)中学习。
问题来了,是什么东西粘住了用户这不能用直觉来回答。Facebook和Linkedin不用直觉去创造用户粘性,而是用严谨的分析和实验。
这里可能是你开始看留存图的样子–在某一天注册了一批用户,然后有多少在后续一个月的每一天中回访了:
这是7日的留存:
然后这是只看1日后的留存(次日留存)
你会发现这个例子中的次日留存把问题反映的最明显:有大概一半多一点的用户在初次使用你的应用后就不再回来了。在你开始担心30天或90天留存这些东西之前,你需要先弄清楚怎么能让用户在第二天回来。
这同样没有固定的成功公式,你必须通过「用户分群」来针对不同的可能性做实验。在我们这个例子中,你将会看到,当你对比「所有新增用户」与「关注过一个人的用户」的次日留存时会发现什么:
次日留存有了30%多的跳跃,非常棒是吗但是如果这些用户都是在第2天、第3天才开始流失呢
有一件关于移动应用的事实:用户会非常快的流失,实际上平均下来,移动应用70%的用户会在一天后流失,但那些非常优秀的应用的这个值只有30%。但是,在安装应用后的第3天开始,再往后,流失速率会趋于稳定:所有应用会以同样的流失速率失去他们的用户。
所以问题的关键就在你如何在用户安装之后立刻留住用户,如果你能在一开始粘住他们,你基本就能保留他们一段时间。
这是我们例子中「所有用户」与「关注过一个人的用户」在7天里的留存情况对比:
在30天后,「关注过一个人的用户」的留存率是17.5%,「所有用户」的是10.9%。这可能看起来不是那么显著,但在长期留存上,即便是一个小凸起,对你来说也是意义重大。
更为重要的是,你已经识别出了一个提高留存的因素,现在你可以寻找更多。一个可行的方法是,你现在可以把「关注一个人」不是「注册」设为起点。也就是说,你之前分析的是「注册」之后的留存情况,而下一步,你可以分析「关注一个人」之后的留存情况。这就是在你重新设计了引导流程以促进用户关注他人之后,接下来你应该努力提升什么。
然后,你可以看到其它因素是怎样促进留存的,比如,你可以比较「播放了三个视频的用户」与「全部用户」,比较两个用户群在「关注了一个人」后的留存情况。
当你搞清楚了哪些行为导致你的用户继续回来使用你的产品之后,你就需要把这些行为的用户体验放在首位。在早期粘住你的用户,他们就会很难离开你的产品。
正确的使用 AARRR 模型,并不是换了一组更好的数字,而是完全不同的数字。这些数字向你展示着人们如何使用你的产品,是什么让他们离开,是什么让他们离下来,是什么让他们大呼过瘾。
换句话说,有什么不是数字呢。
本文为专栏文章,来自:诸葛IO,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/11418.html 。
数据分析
2016-03-23 05:00:00
最近有很多用户说到了年终需要回顾这一年的工作,根据这一年的数据看看有没有异常的情况,那么哪种图能够清晰直观地展现出这一信息呢?
答案只有一个,那就是…
箱形图
箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。
箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。
想要搞懂箱形图,那么一定要了解…
五大因“数”
我们一组序列数为例:12,15,17,19,20,23,25,28,30,33,34,35,36,37讲解这五大因“数”
1、下四分位数Q1
(1)确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。
(2)根据位置,计算相应的四分位数。
例中:
Q1所在的位置=(14+1)/4=3.75,
Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;
2、中位数(第二个四分位数)Q2
中位数,即一组数由小到大排列处于中间位置的数。若序列数为偶数个,该组的中位数为中间两个数的平均数。
例中:
Q2所在的位置=2(14+1)/4=7.5,
Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5
3、上四分位数Q3
计算方法同下四分位数。
例中:
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25。
4、上限
上限是非异常范围内的最大值。
首先要知道什么是四分位距如何计算的?
四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR
5、下限
下限是非异常范围内的最小值。
下限=Q1-1.5IQR
讲了这么多的“数学知识”,那么箱形图到底如何通过BDP应用到实际的工作呢?我们还是用一个实例来帮助大家理解。
现在有“2017年各季度各地区分公司销售业绩”工作表,我们想要找出各季度哪些分公司业绩属于不正常范围内。
数据示例如下图:
BDP箱形图结果:
从上图可以清晰的找出异常点,例如第二季度北京分公司的销售额为22147元,该值比上限10759元还要大,所以定义为异常值。
具体操作在这里就不讲解了,可以参考“ 各位久等了,全新的炫酷图表终于上线啦! ”
箱形图的价值
1.直观明了地识别数据批中的异常值
上文讲了很久的识别异常值,其实箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。
2.利用箱线图判断数据批的偏态和尾重
对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);
而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
3.利用箱线图比较几批数据的形状
同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。如上图,可直观得看出第三季度各分公司的销售额大体都在下降。
但箱形图也有他的局限性,比如:不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性。
本文为专栏文章,来自:海致BDP,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/50088.html 。
数据分析
2018-02-04 16:55:00
当我们用 搜索引擎 搜索资料时,选择关键词的关键性是毋庸置疑的。正确分析和处理关键词,是提高搜索结果满意度的必然前提。
关键词的选择最好是:搜索次数多,竞争程度小,这也是核心要求。
我们究竟该怎么来判断自己选择的关键词是否符合这个核心要求呢
关键词确认后,我们需要研究关键词的竞争程度。因为如果是一个新网站,直接用了那些竞争程度很大的关键词,推广效果则需要花很长的时间才能见效。所以为了能在短期内获得一个好的推广效果,建议采用一些竞争适中的关键词,先易后难。99click为大家整理了四种分析方法,分享给大家。
一、分析SEO竞争对手的数量
方法的核心是,分析有多少网站在重点优化这个词,以此来判断竞争程度。
操作具体方法是,在百度中搜索输入优化的关键词,比如“北京旅行社”,观察前五页的搜索结果,如果前五页的搜索结果都是网站首页,那么通常属于竞争比较激烈的关键词。
如下图所示:从搜索结果看,排名靠前的有很多,都是一些网站。
一般而言,前面用的词语通常是属于竞争比较激烈的词,关键词竞争是否激烈?有时还要再分析一下这些网站是否做了SEO。如果都做了,则证明竞争激烈;如果没有做,是自然排上去的,则是属于不激烈。
如何判定网站是否有做SEO?简单的办法就是看搜索到的网站标题,如果网站标题中堆积了大量的关键词,比如“北京旅行社/旅行社/排名第一/5A级”等,基本可以判定是做了SEO的。
二、看搜索结果页的相关搜索数
在百度搜索结果中,看看你想优化的这个关键词有多少个页面,页面越多,竞争就有可能激烈。比如“北京旅行社”,找到相关结果数约758000个,也就是说有758000个网站包含了这个关键词,如果要优化这个关键词,就要排到7580000个网页的前面。
但这也是有分水岭的:
结果数值在十万以下,说明竞争很小,几乎没有竞争;
结果数值在几十万,关键词有一定难度结果数值在百万以上,说明关键词比较热门;
结果数值在千万以上,说明竞争异常激烈,通常是行业通用词。
三、分析intitle结果数
其实,上面收索出来的结果很大时也不用立即放弃,试试在您搜索的关键词前面加上“intitle:”这样搜出来的结果才是您真正的竞争对手。
如果在这个结果页收索出的结果也在千万级别的话,您就不用在犹豫了,在选择一个吧!
四、看关键词搜索量
分析关键词的搜索量,每天有多少人搜索。一个关键词的搜索量越大,竞争程度也越大。
如何查询一个词的搜索量有多大?很简单,百度指数就能轻松搞定。
百度指数为我们提供每一天的搜索指数,包括PC端和移动端。百度指数越高,说明用户搜索量越大,竞争的程度也会大。
通过上面几步,我们可以把核心关键词和竞争程度分析完毕,如果这些词能够代表用户的直接购买需求,竞争对手不超过50个,那么就可以优化。如果超过了,则建议从容易的关键词着手优化。
四种方法,主要是针对新手。判断一个关键词的激烈程度,还有其它的方法和指标,相对而言,这四种比较容易掌握,简单易懂。但凡事不是绝对的,不能确保百分百的准确率,但对于初学者,掌握这四种方法足矣。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-01-30 16:00:00
留存用户和 留存率 通常能够反映不同时期 App 获得的用户流失情况,分析这个结果不仅能帮助 App 找到用户流失的具体原因,还能够通过这些数据来更深入的了解你的App,从而进行运营策略调整。但是很多用户对留存的计算有疑问,下面较详细的解释了日/周/月留存数据的使用价值和算法。
什么是留存用户?
一段时间内的新增用户,经过一段时间后,仍继续使用应用的被认作是留存用户,这部分用户占当时新增用户的比例即是留存率。
统计留存用户的时间粒度有哪些?
·自然日:包括1天后、2天后、3天后、4天后、5天后、6天后、7天后、14天后和30天后
·自然周:包括1周后、2周后、3周后、4周后、5周后、6周后、7周后、8周后、9周后
·自然月:包括1月后、2月后、3月后、4月后、5月后、6月后、7月后、8月后、9月后
日留存率:快速判断App粘性
日留存率:可以很快的帮助我们判断 App 的粘性到底强不强。我们可以通过日留存率的数值来判断一个 App 的质量,通常这个数字如果达到了 40% 就表示产品非常优秀了。我们可以结合产品的新手引导设计和新用户转化路径来分析用户的流失原因,通过不断的修改和调整来降低用户流失,提升次日留存率。
留存用户表- 日留存率
日留存率计算方式:
举例说明:假设某App在1月3日的新增用户有100个,这100个用户在1月4日中启动应用的有55个,在1月5日中启动应用的有45个,在1月6 日启动应用的有30个,则1月3日的新增用户在1天后留存是55/100=55%,2天后留存是45/100=45%,3天后留存是30 /100=30%,4-7天后,14天后和30天后同理,依次类推。
周留存率:判断App用户忠诚度
周留存率:我们可以通过周留存率来判断一个用户的忠诚度,在一周的时间段里,用户通常会经历一个完整的使用和体验周期,如果在这个阶段用户能够留下来,就有可能成为忠诚度较高的用户。
留存用户表 -周留存率
周留存率计算方式:
举例说明:假设3月的第1周某 APP 的新增用户有200个,这200个用户在3月的第2周中有100个再次启动了应用(无启动次数限制),3月的第3周中 有80个再次启动应用,3月的第4周中有50个再次启动应用,则3月第1周的新增用户在1周后(即第2周)的留存率是100/200=50%,在2周后的留存率是80/200=40%,在3周后的留存率是50/200=25%。4周后到9周后的留存同理,依次类推。
月留存率:了解App版本迭代效果
月留存率:通常移动 App 的迭代周期为 2 – 4 周一个版本,所以月留存率是能够反映出一个版本的用户留存情况,一个版本的更新,总是会或多或少的影响用户的体验,所以通过比较月留存率能够判断出每个版本更新是否对用户有影响。
留存用户表-月留存率
月留存率计算方式:
举例说明:假设某App 5月份新增用户有1000个,这1000人在6月份启动过应用的有600人,7月份启动过应用的有450人,8月份启动过应用的有300人,则5月的新增 用户在一个月后的留存率是600/1000=60%,二个月后的留存率是450/1000=45%,三个月后的留存率是300/1000=30%。4月后 到9月后的留存同理,依次类推。
特别强调一下,App 的留存率并不一定会按照日期呈递减状态。
比如:
结合日留存的例子,假如1月3日的新增用户在1月7日有40个再次启动了应用,则1月3日的新增用户在4天后的留存是40/100=40%,4天后留存 (40%)>3天后留存(30%),这是正常的,各天/周/月的留存率数据都是独立的,取决于用户的启动行为。
99click商助深耕 大数据 收集和解析,帮助企业找到更多更精准的用户,跨屏全渠道追踪广告投放效果,提升用户转化和留存率。关注cn99click,免费领取产品,体验大数据下的精准营销。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-01-29 16:29:00
参数是一个可灵活调整的变量,这个变量目前支持在BDP个人版的计算字段中使用(未来可能会支持更多应用),实现单个计算字段甚至整个图表的动态逻辑方案。
那么图表传参是什么意思呢?简单来说就是通过传递参数来切换图表和数据~
大家还是晕乎乎吗?下面就举个几个典型的应用场景来帮助大家理解吧:
场景一:灵活的对比维度切换
通过切换参数可以展示不同的维度下的可视化图表,此例可解释为:将原本“各地区每年季度消费额”、“各类产品每年季度消费额”、“不同客户每年季度消费额”这三张表,通过切换参数而实现了在一张表中展示。
场景二:快速搜索图中的某个点
通过切换参数可以快速查找到对应数据,并且本例中可通过颜色的区分明显看出该地区利润在全国范围内的情况,方便用户分析。
场景三:根据即时输入进行动态分类对比
通过输入不同的参数值可立刻展示当下的对比情况,本例中参数为“按销售额划分”,当参数值为200时,就会显示各地销售额大于200的订单数量占总订单量的份额,方便我们查看不同参照值下的数值情况。
看了上面的三个应用场景是不是觉得“图表传参”真的很方便,那么下面为你具体介绍参数功能及如何使用。
1、参数列表
若你已经有添加好的参数了,可以在参数列表中查看已有的参数,并可以对每个参数进行编辑或删除操作。
2、创建参数
若你还没有添加任何参数,并且想要体验下这一神奇的功能,就跟着小草莓往下看吧!看完包你学会哟~(以场景一为例)
step1、添加参数
step2、命名备注并选择参数类型
目前提供3种参数类型供选择:文本类型、数值类型和日期类型。
例如当你希望实现上述的维度切换,则需要选择文本类型,因为让用户灵活输入的“维度名称”是文本;当你希望实现上述的动态分类对比,则需要选择数值类型。
step3、添加参数字段
eg1、对比维度:对比维度的参数类型为文本,可设置多个字段作为可选项,这些可选项可以通过手动单个添加(即添加自文本),也可以通过字段或批量文本添加(即添加自字段)。
示例中可在“添加自字段”中选择“类别”、“地区”、“细分”;也通过可以“添加自文本”在下方输入“类别”、“地区”、“细分”。

实际参与计算字段的运算逻辑,只是可选项中的一项。你可以设置可选项中的任意一项为默认值,即默认使用此项参与计算字段的运算。
eg2、按销售额划分:这里用到的就是数值类型参数,它支持2种格式:普通数值和百分比。你可以为参数设置可选数值范围,也可以不对范围进行限制。
示例中直接“添加自字段”选择“销售额”,最大值和最小值就会自动填充,无需手动设置。
与文本类型相同,你需要提供一个默认值以保证正常计算。
3、使用参数
目前参数只支持在计算字段中使用,使用方法非常简单,你只需要在计算字段中正常输入表达式,当需要添加某个参数的时候,在参数列表中单击即可。
4、图内参数
当包含参数的计算字段在图表中使用时,右侧边栏将显示被使用的参数。(不使用是不会出现的哟)你可以随时调整参数的值并实时查看调整后计算字段的结果。
默认状态下,所有图表使用的参数都允许其他用户在仪表盘界面自由调整。
以上就是关于参数的添加及使用全过程了,操作其实很简单但是给用户们带来的价值可是大大滴!
以上作图工具为:BDP个人版
本文为专栏文章,来自:海致BDP,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49993.html 。
数据分析
2018-01-22 16:12:00

[摘要]:
在上篇SaaS指标革命(一)指标驱动中,我们探讨了SaaS指标的重要性,以及SaaS利润的构成公式。本篇文章,我们将与您一起携手深入指标丛林的腹地,将至关重要的“客户成功指标”纳入囊中。
该系列包括四篇文章:
(一)开篇:指标驱动型SaaS业务模式
(二)关键:客户成功指标
(三)如何获客
(四)SaaS指标成熟模型
[作者简介]:
Joel York,敏捷营销管理软件初创公司Markodojo的CEO与创始人,具有20余年B2B高管经验,拥有关于SaaS管理的Blog——Chaotic Flow。“Chaotic”既指的是企业混乱与迅速变化的本质,也指的是Joel York本人对于企业时而混乱并迅速变化的思考。
[主文]:
在过去几年中,SaaS从业者们已经对SaaS财务指标有了深入的理解,并且明确了实现这些财务指标所需的运营原则。然而,发现客户流失率降低50%将导致经常性收入增加2倍是一回事,实现这一目标又是另一回事。通常减少50%流失率都是一件单调乏味、毫无保障的反复试错的过程。
这种情况即将改变。随着SaaS行业的成熟,我们见证了SaaS指标从简单、历史性的财务度量向复杂、运营性质的指标变革,而所谓“复杂、运营性的指标”,指的就是新的SaaS客户成功指标,以及预测分析。
“客户成功”数据的海洋
客户成功指标如若把握得当,前景非常可观。不幸的是,它所面临的挑战也一样可观。指标驱动型SaaS业务将收集并分析客户数据,而这些数据是非常庞杂的。
在SaaS客户生命周期的最初阶段,当网络访问转化为试用账户时,Cookie将被丢弃,正式进入使用期。初始邮件由注册表单捕获,并被添加到第三方数据库中。销售及市场切入跟进,各种活动行为将被记录在CRM系统以及营销自动化系统当中。最终,电商引擎捕捉到购买行为(终于买了!),并推送至财务系统用于未来的费用计算。
然后,真正的行动才开始。客户们一次又一次登录产品。每一个重要的点击都被记录下来,每一个客户成功行为都被载入史册。
产品使用、客户调查、客户统计资料、购买数据、互动数据共同汇聚成为客户成功指标与预测分析的“数据池”,然后,再变成我们能看懂的KPI、根因分析、早期预警系统、自动化的客户沟通等等。
SaaS客户成功指标的挑战,本质上是一个数据问题,需要强大的数据收集引擎与复杂的统计模型。收集数据只是一个开始。 指标驱动型SaaS业务还必须利用好数据,将数据转化成信息,再将信息转化成行动。
通过指标驱动SaaS客户的成功
还记得我们在上篇文章中提到过的SaaS利润公式吗?
SaaS利润=当前客户x(平均经常性收入 – 平均经常性成本) – 新客户x平均购置成本
作为SaaS的管理人员,我们的财务目标非常简单:做出商业决策,将财务杠杆推向正确的方向,以增加收入并降低成本。
公式中的减号将SaaS利润最大化的挑战分为两个部分——“当前客户”与“新客户”。SaaS商业组织与运营计划同样也经常分为“服务当前客户”与“获取新客户”两部分。本篇文章主要关注点在“当前客户”,而在下一篇文章中,我们将讨论有关“新客户”的那一部分。如前所述,推动这些财政杠杆说起来容易做起来难。
以下内容我们将介绍公式中的前三个杠杆:当前客户(客户流失),平均服务成本(客户成功效率)和每位客户的平均经常性收入(增值销售),以及SaaS客户成功指标在创建、执行操作计划中的主要作用。
利用根因分析 减少SaaS流失
对于一个合理规模的SaaS业务来说, 客户流失率 通常是SaaS增长与利润方面最大的资金流失。如果我们要开始探索SaaS客户成功指标,从流失率开始,是个不错的开端。
流失率本质上是一个统计学概念,所以对其进行建模从根本上说是一个统计问题。 SaaS流失率代表着一个客户在特定周期内退出的概率。 这个概率取决于很多因素: 客户在您的产品中看到的价值,客户对产品的依赖度,竞争对手产品的潜在价值,以及客户组织内部的优先级和政治因素。 指标驱动型SaaS需要收集和分析所有这些预测变量的信息。
我们可以运用统计学方法来识别客户流失的根源(NPS为“净推荐值”,其公式为:=[推荐者数/总样本数]×100%-[贬损者数/总样本数]×100%)
一旦我们收集到相关信息,我们就可以运用统计学方法来确定流失的根源了。 从简单的流失列队交叉表,到更高级的逻辑回归与生存分析,有许多描述性统计方法都可以适用。撇开这些统计学方法不谈,我们期待能够发现一些诸如此类的见解:医疗行业的客户比金融服务业客户更容易流失;如果一个客户在过去的30天没有登录,则极有可能流失;经常使用报告模块(而非其它模块)的客户是我们产品最好的倡导者,等等。
借助正确的数据与恰当的分析,我们可以不断识别客户流失的根本原因,比起我们当初宣称要将客户流失率从15%降至10%,却说不出如何实现,是个巨大的突破。
预测分析以及如何创建客户成功指标的KPI
一旦我们更好地了解客户流失的原因,我们就可以创建模型,来预测当前客户流失的风险。基于这些良好的预测,客户成功部门就可以采取行动,预防流失。也因此, 我们模型中的预测变量以及模型本身就可以用于创建客户成功指标中的KPIs, 用来追踪客户日常行为。举个简单的例子,我们发现两周没有使用产品的客户流失风险较高,并且,随着时间的增加,流失的风险也不断上升。这个指标和产生它的回归都可以用来创建KPI。
SaaS客户成功指标和产品使用
基于产品使用数据 制定的客户成功指标是指标驱动型SaaS成功的秘诀。从某种意义上说来,流失就是使用的反面。客户使用产品越多,就越不容易流失。使用产品的程度越深,转换成本就越高。
追踪不当使用,我们就有了可以用来预测流失的指标;追踪深度与频繁的使用,我们就有了找到产品死忠粉的线索。
既然是基于产品使用来制定的客户成功指标,那么最明智的做法当然还包括推动产品使用本身。我们识别出正在与产品作斗争的用户之日,就是我们找到改善用户体验的机会之时。我们可以优化相关的产品细节,为客户提供精准的帮助与课程,当然也可以减少客户流失。
产品使用数据是指标驱动型SaaS的成功秘诀。从某种意义上说,客户流失就是使用的反面。
通过指标 为SaaS客户成功提效
相同的KPI,不但可以用来减少流失率,也可以用来提高客户成功部门的工作效率,降低服务成本。 关键就在于不仅仅用指标来监控与建模,而是将其嵌入到客户成功经理的日常工作流程当中。 比如,我们已经知道停用产品两周的客户需要立即关注,那么我们就可以利用这个指标,为客户成功经理创建仪表盘和预警。 主要目标就是将客户成功经理的注意力转向最容易产生财务变化的那部分客户身上。 然后,不要把时间浪费在不会对客户的成功产生任何影响的活动上。
比起SaaS财务指标, 客户成功指标的魅力就在于它们可以精细到单个客户级别。 此外,还可以根据时间、客户类型、产品模块、客户成功经理等各种维度进行过滤,呈现一副客户成功运营的立体全景。我们可以为单个客户打分,还可以将正确的客户成功经理安排给最适合的客户。
客户成功经理通常习惯按照小型、中型、大型账户的方式来规划自己的工作。然而,这可能之时因为您的大客户流失风险最小、增值销售的空间也最小。SaaS客户成功指标可以在这方面为经理们提供更多的思考维度以及更强大的指导。
用SaaS客户成功指标 驱动增值销售
SaaS客户成功指标还可以促进增值销售,以提高每位客户的平均经常性收入。这是我们SaaS利润公式中的另一个财务杠杆。就像我们在流失率分析中所做的那样,通过分析过去发生增值购买的客户的人口统计学信息、产品使用数据等,我们可以开发出关于增值销售的预测模型与计分方式。而且,我们还是可以将这些模型与KPI嵌入客户成功经理的日常工作流程中,让他们随时可以向最可能产生购买的客户发力。最后,我们还可以将预测模型嵌入到产品内部,当发现潜在客户时,自动触发沟通,促进购买。
在下一篇文章中,我们将一起走入兴奋的获客世界。敬请期待!
本文为专栏文章,来自:数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49976.html 。
数据分析
2018-01-20 15:01:00
当下,逢运营必谈 数据分析 , APP 运营更是如此。 数据分析 的用意本不在于数据本身,而是要打造一个数据反馈闭环。收集数据,设计基础数据指标,多维度交叉分析不同指标,以数据甄别问题,再反向作用产品,最终形成数据驱动产品设计的闭环。从运营小白到产品经理,提到APP数据分析,必谈DAU、MAU、留存率、频率、时长…..那么,究竟如何将这些数据分析和日常运营结合起来呢?
针对同一款产品的数据分析,一定要根据产品的生命周期(PLC, Product Lifetime Cycle)来做分析工作,不同时期数据分析的重心也有所区别,下面就从产品的几个重要时期——初创期、成长期、成熟期、衰退期,结合案例来聊聊。
一、初创期
这一阶段是检验产品定位和运营对用户与市场判断是否正确的时期,即验证产品或服务是否解决了某个群体的问题,也即常说的痛点;对运营来说,则是能否找到用户与产品的契合点,并根据用户的反馈快速迭代调整产品,以此获取第一批种子用户并扩大他们的影响力。
产品和运营阶段要有MVP思想,要用比较小的成本来验证产品和运营手段等。在产品同质化的互联网环境下,获取长尾用户的成本比抢占巨头的用户成本要小的多,因此,初创时期的产品一定要找准自己的定位,否则很容易陷入运营的困境。
举个例子:
网易云音乐在音乐市场已经拥有几大巨头的时候,刚上线时将目光聚焦在“民谣”,独立音乐人等相对比较小众的类型上。在上线之初,网易云音乐用一个月时间跑遍成都丽江等地的知名live house,签下许多独立自由的民谣创作人,吸引了一批小众的群体用户,结果这个小众组织内部越积越大,用户越来越多,为网易云音乐用4年时间突破4亿用户打下坚实的基础。
关键数据——目标人群画像
任何产品在上线之前,都会有自己的目标人群画像设定,惟有这样,才能具有强针对性,强吸引力。
初期需要分析的用户数据一般包括:性别,地域,年龄,客户端。有了一定数据后,再根据用户浏览界面等分析用户的喜好等,并以此来制作内容,在产品——用户——运营之间形成良性循环。同时通过这些数据对app的界面、流程、推送内容做优化,最终实现精准的用户个性推荐等。

关键数据——留存率
当前用户符合目标受众特征时,核心关注这些用户的留存率、使用时长/频率、用户的黏性等指标,这里就产品和运营比较关注的留存率展开来讲。
留存率的分析,对运营和产品人员来说非常重要。在前期没有参考指标的情况下,可以通过了解行业数据,知道自己的APP在整个行业的水平,然后从新增用户、活跃用户、启动次数、使用时长等多个维度去对比自己产品与行业平均水平的差异以及自己产品的对应的指标在整个行业的排名,再考虑优化调整产品。
二、快速成长期
经过了产品打磨的初始阶段,产品有了一定累积用户,加以运营手段让产品进入快速成长期。这一时期,需要关注用户留存、用户时长、用户画像的变化等数据,但可以将侧重点关注在用户的整个生命周期的管理,其中以新用户的增长、激活、转化到产品稳定活跃用户的整个漏斗分析为主。
新用户的增长和激活 这个阶段对运营来说,就是小步快跑、快速试错的营销突击战,最大程度和范围内实现病毒式营销,实现用户的自增长。所谓的“小步快跑”,就是快速地、不停歇地执行一个个的营销项目,不要花费太多时间在项目前的讨论中,而是要用实际效果去检验项目质量。看看网易云音乐在这一步怎么做的,在2015年春节前的几个月,几乎每周都有创意并且传播,大约4-5个H5,投放十几篇的软文在各种公众号、论坛等,发布几十篇的PR稿件,邀请几十位KOL发表关于云音乐的评测等,同时,还以几乎每周一次的频率举办“校园音乐开放日”的线下活动。他们还抓住刚刚兴起的Uber,进行跨界营销。
而且,据网易内部人员透露,像这种投放的创意,每个大概花费在4万元左右,其实很多公司对这个成本还是可以承受的,而效果如何,则是对运营人员素质的一次检验了。
三、成熟期
当产品进入成熟期,意味着:技术稳定,成本降低,实现规模化生产,潜在的购买者逐渐转向为现实的购买者,有很多的忠实用户;竞争对手也比较多和强大。运营人员需要采取比较主动的策略,延长成熟期。这时候需要关注的数据主要在:总用户数、新增用户、流失用户、回流用户;各渠道的日活跃(DAU)、周活跃(WAU)、月活跃(MAU);
流失与回流
用户流失无法避免,但产品和运营人员必须了解用户流失的原因,同时加入运营手段进行流失用户的召回和沉睡用户的唤醒。
营销广告投放渠道转化率
对于一些稳定的投放渠道,要多关注转化率,并进行渠道的优化,此时可以采用一些第三方数据分析服务的产品,监控广告的播放与转化,采取一些运营手段,提升转化率;
例如,先关注各渠道的投放和转化率,并分析各落地页面以及跳出页面的比率,随之调整优化产品页面。 99click商助科技的广告监播页面,可以看到用户来源、浏览轨迹和跳出率等,分析出跳出率高的原因,辅助用户调查,得出比较准确的结论,最后进行产品的优化和改进。
四、衰退期
任何产品都可能随着科技的发展和市场消费的升级等,进入衰退期。而产品想要不断有新的用户进来,就需要用优良的内容和卓越的产品功能吸引用户。作为一款APP,不论是用户调查还是算法分析都要分析出用户的关注点,只有这样才能紧跟用户需求,抓住他们的吸引力。
例如,一款音乐APP,他的主要用户群体是大学生,用户最关注的是“音乐资源丰富”这一点,那么后续就要在这块下一些成本。如果反其道而行,只是在营销上下功夫,而不扩充资源库,那么将互失去很多用户。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-01-19 16:00:00

摘要:SaaS利润构成与传统软件利润的构成有何区别?SaaS业务模式具有什么独特的优势?连接SaaS客户成功与业务成功的关键是什么?如果您也是日益增长的SaaS大军中的一员,本次数据观推出的系列文章或许会对您有所启发。
该系列将包括四篇文章:
(一)开篇:指标驱动型SaaS业务模式
(二)关键:客户成功指标
(三)如何获客
(四)SaaS指标成熟模型
[作者简介]:
Joel York,敏捷营销管理软件初创公司Markodojo的CEO与创始人,具有20余年B2B高管经验,拥有关于SaaS管理的Blog——Chaotic Flow。“Chaotic”既指的是企业混乱与迅速变化的本质,也指的是Joel York本人对于企业时而混乱并迅速变化的思考。
关于SaaS指标的重要性,我学到的第一课是在大约六年前的一次董事会会议上。当时我刚刚提交了本年度的预定计划,一位董事说这个计划很好,但我们确实需要提高我们的预订率。
当时我的第一反应是:“我们目前的预订率已经很高了,而且我们是SaaS公司,即使没有立即改善预定状况,我们还是会逐季增加收入,对吗?
错!我完全忽略了“流失”带来的影响。那时,SaaS投资人与管理人员还在钻研经常性收入业务模型,没有什么资源可以寻求支持。然而作为需要对业务增长负责的那个人,我必须得到答案。
时间快进到今天。我们不仅对驱动SaaS业务成功的金融杠杆有了更好的了解,而且亲临了SaaS业务管理方式的一场指标革命。
与企业许可软件不同,SaaS经常性收入业务模式具有更高的稳定性、可测量性与可预测性。这三个因素成为了SaaS管理者利用更多分析方法来推动SaaS成功的基础。SaaS管理者正在探索连接SaaS客户成功与SaaS财务成功的新的运营指标。今天我们见证的是“指标驱动型SaaS业务”的崛起。
指标在SaaS业务中的独特性
为什么指标在SaaS业务中具有独一无二的重要性?每个企业都在追踪相关的财务与运营指标。是什么使SaaS业务与众不同?答案就是——经常性收入订阅模式(recurring revenue subscription model)。“基于订阅”的业务与“基于交易”的业务在其经济学方面截然不同。这种差异来自于一个简单的概率问题。在SaaS模式中,只要我们保持客户的满意度,今天的客户很可能就是明天的客户。在交易型业务中,则不存在这种可能性。
SaaS业务的稳定性
经常性收入订阅模式创造了业务的稳定性。由于经常性收入的不断累积,短期预定对短期收入的影响越来越小。短期收入与支出等成为长期历史预定的一个变量。时富时贫、以订单为中心的企业许可软件,让位于稳定的经常性收入流以及以过程为中心的业务运营。当你知道明天你会有客户的时候,你可以更自信地对已有客户进行支持,并为获取新客户而投资。
SaaS业务的可衡量性
SaaS业务在可衡量性方面也是独一无二的。 SaaS产品在公司和客户之间建立了一个永不中断的沟通渠道,可以直接衡量您与客户的互动。比起单纯的财务指标,企业可以从这种独特的运营指标中得到更细节的客户视图。每个企业都能计算现金,但只有SaaS企业才能计算产品内的客户点击次数。经过适当的收集与分析,产品使用数据将是一座运营金矿,帮助SaaS业务推进客户成功、减少流失并增加销售。此外,SaaS业务可以将其业务流程与沟通直接集成到SaaS产品中,让“产品指标”不仅限于客户登陆次数。业务与产品之间结合的越深,业务就越容易被衡量。
SaaS客户成功指标提供了将SaaS客户成功与SaaS财务成功相结合的粘合剂。
SaaS业务的可预测性
可预测性的提高,来源于稳定性和可衡量性的共同提升。SaaS业务可获得大量的历史财务数据、运营数据与用户行为数据,能够实现那些B2B公司闻所未闻的预测分析。在成熟的指标驱动的SaaS业务中,财务预测是以客户成功指标和预测分析为基础的科学。
SaaS指标体系
在SaaS业务模式中,不间断的客户关系是收入、成本、业务活动与风险的持续来源。这与传统软件始终以交易为中心的状况形成了鲜明的对比。传统软件供应商制作、销售软件副本,而SaaS供应商则制作、出租不间断的服务订阅。每一位新的SaaS客户都带来新的收入与成本,汇入到更大的客户池中,构成完整的SaaS经常性收入流以及相关的SaaS服务总成本。从副本到客户的转移,颠覆了许可软件的经济优势。
客户构成SaaS体系的中心
在传统授权软件中,价值等于代码的知识产权,并以类似书籍、音乐和电影版权的方式进行变现。它是一个产品。产品数量以销售数量为准,产品价值以每个副本的价格来衡量。
在SaaS模式中,服务数量以客户订阅数量为准,服务价值以每个订阅的经常性收入来衡量。
一家软件供应商投资开发代码,然后进行销售与市场运作,以扩大销售量。
一家SaaS企业则投资获客,然后进行服务交付能力的运作,以提升客户订阅。
如果用数学公式来表达,即:
软件利润=(每份价格 – 每笔交易成本)× 销售份数 – 研发成本
SaaS利润=(平均经常性收入 – 平均经常性成本)× 当前客户 – 平均购置成本x新客户
客户,而非交易,是SaaS业务模式的基本衡量单位。有利可图的交易推动了许可软件的财务成功,而有利可图的客户推动了SaaS的财务成功。SaaS客户的成功就是SaaS业务的成功。
在SaaS客户成功与SaaS业务成功之间搭一座桥
衡量和监控SaaS财务指标对于管理SaaS业务来说至关重要。如果SaaS管理人员不了解经常性收入、购置成本、客户流失与增值销售,那么他们就无法发展业务。然而,尽管财务指标非常重要,它们只能衡量结果,而不能衡量手段。它们无法解释这些结果是如何达成的,也无法告知我们未来如何对它们进行改进。一个聪明的SaaS 企业CFO可以根据历史的财务指标构建SaaS业务预测,将流失率从20%降到15%,提高20%的增值销售,降低10%的获得成本,让来年的前景看起来一片光明。不幸的是,这样一个高层次的模型,却没有提供如何把预测变成现实的见解。
[结语]:
新兴的指标驱动型SaaS业务将深入挖掘SaaS的财务指标,揭开驱动SaaS业务成功的运营杠杆。比如,使用SaaS产品的客户比从来不用产品的客户流失的可能性要小。因此,如果你想要减少流失,就必须认真衡量产品的使用状况。这样做,最不济您也会对客户流失的原因产生更好的理解;而最好的状况,则是你从中发现了某种模式,实现了预测分析,可以在客户真正流失之前就采取预防措施。以客户为中心的SaaS运营指标,或仅仅是SaaS客户成功指标,将SaaS客户成功与SaaS财务成功紧紧关联起来。
总而言之,SaaS财务指标与SaaS客户成功指标,将构成指标驱动型SaaS业务的基础。
在下一篇文章中,我们将深入介绍什么是SaaS客户成功指标。敬请期待!
本文为专栏文章,来自:数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49975.html 。
数据分析
2018-01-18 14:00:00
在2017年的多次营销文案刷屏事件中,产品和运营人越来越清楚地看到,流量≠转化。而 转化率 ,才是衡量一个产品和一次活动最为核心和关键的数据。因此,转化率是网站最终能否盈利的核心,提升网站转化率,提升销量才是王道。今天,我们就聊聊从产品和运营的角度,如何通过 大数据 做转化分析?
首先要清楚, 转化率究竟是什么?受哪些数据的直接影响?这些数据的影响因素又是哪些?
转化率指在一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率。简单地以下面这个公式来说明:
以电商平台购物为例,总流量一定的情况下,购买人数越多,转化率越高。
而一个用户一次成功的购买行为依次涉及搜索(曝光)、浏览、加入购物车、结算、支付等多个环节,任何一个环节出现差错,都能让用户立刻放弃这次购买行为。根据有关数据,多数电商的转化率只有0.5%左右,这意味着有99.5%的流量被浪费了。(听着好心痛哦)
那么,怎么才能提升购买人数呢?产品和运营,又能怎样进行操作来提升产品销量呢?
一、基础分析:转化的直接影响者都需要设计
转化分析的基础阶段,主要是转化步骤的分析和转化率趋势的监测。
大家都知道,流量是呈漏斗形状的,把流量变为消费者,大约会经历这么5个步骤。就是这5步,足以滤掉 99.5%的潜在用户 。另外根据统计,在几个较大的B2C网站中,流量数据在增大,但是客户停留在网站上的时间在减少,在被称为眼球经济的时代,每个网民在电子商务网站停留的时间大约 在17分钟 。
在这一分析阶段,网站运营和产品人员都应该了解什么数据呢?
这一阶段,网站平台能直接获取的数据多而杂,运营人员在收集数据后,对数据进行分类整理,一般分为以下几类: 人口属性,社会属性,行为习惯,兴趣偏好 等几个方面。 人口属性,包含年龄,性别,身高,地域,学历,收入和教育
社会属性,包括社会职务,婚姻状况,住房车辆,社交关系等等
行为习惯,包括运动,休闲旅游,酒店住宿,饮食起居等偏好
兴趣偏好,包括购物,游戏,体育,文化等
这一阶段的收集分析为用户画像提供基数。为后期的运营方案,文案策划,渠道规划等提供一定的数据支撑。
二、中阶分析:从不同维度分析转化情况
过去人们认为数据是企业的资源,实质上数据是资产,是可以为销量创造价值的资产 。要想更好地提升转化率,需要对不同维度的因素进行考虑,也是对上一阶段数据的细分。例如:访问来源、操作平台、跳出页面、操作系统、浏览器类型等。
本阶段,首先要了解,正在网站上浏览的客户,哪些是明确要来买东西的,哪些只是随便来逛逛的,以及他们从什么入口进入;
其次,没有购买的用户,到底看了多少产品页,多少放进购物车没有付款,多少是一个产品页都没有看的;
第三,多少客户产生了购买行为。
第四,非常重要的是,客户登录网站首页之后,除了有40%的弹出率之外,剩下60%的用户分别从哪些渠道进入到产品页面,这些渠道进入之后付款的比例分别是多少。
最后,多少人将产品加入购物车,是否有召回的可能?
通过对网站平台庞大的数据库进行细分整理,才能发现这背后隐藏的用户行为逻辑,从而实现产品人员从产品角度进行优化,运营人员则负责对活动,专题,商品详情页等进行优化。

例如,之前合作过的一个用户,后台数据显示,很多人都将某一款产品加入购物车,但是都没有付款。为了召回这部分客户,网站即时推送了一条优惠券,最后召回30%的订单。
三、高阶分析:多维度交叉分析,不断优化迭代产品
互联网行业的产品都有一个共识: 小步快跑,快速迭代 。唯有如此,才能打造出受用户喜爱的产品。
通过上两段的数据收集和分析,网站的工作人员对网站的优势以及存在的问题,心中已经有概念了。在这一阶段,就需要沉下来,从具体的维度和点进行分析和修正。这一阶段,可以说是数据驱动产品和运营决策。
例如,
广告投放哪个渠道的流量更优质?什么样的品牌内容更容易被消费者传播?
网页内容,如何组织安排更符合访客的个性化需求;
老客户如何才能回访网站,反复购买产品;
如何减少支付失败的订单?
四、分析转化的进阶之旅:思维与工具
提升转化率,既需要有数据驱动的意识,也需要熟练掌握一定的 数据分析 工具 。正所谓,工欲善其事必先利其器。
99click商助科技在大数据营销领域已经实践多年,全面抓取用户的行为数据,根据企业需要获取页面,产品,用户之间的关系。
企业可以知道用户从哪个落地页进入产品,又是在哪一个转化过程中流失掉,切分维度和用户人群,定位流失原因,为运营决策提供数据支撑,提高产品的转化率。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-01-16 19:59:00
1. 定义
消费者研究也称消费市场研究,是指在对市场环境(政治、法律、社会、文化、技术)、人口特征、生活方式、经济水平等基本特征进行研究的基础上,运用各种市场调研技术和方法,对消费群体通过认知、态度、动机、选择、决策、购买、使用等阶段实现自身愿望和需要的研究。
消费者研究是市场调研领域应用最多的消费品市场研究的一个最基础、主要的组成部分,包括消费者基本特征研究、消费者行为研究、消费者动机研究三大部分。通过这三个层面的研究,为相关行业和企业提供:市场细分、产品定位、品牌管理、定价策略、新品开发、渠道建设、广告投放、促销活动、销售预测等行为的理论、数据基础。消费者研究的组成、作用和目的基本上由下面的图示体现出来:
通常以市场产品销售和市场服务为主的行业和企业会经常需要市场潜力研究,这些典型的行业包括:快速消费品行业(食品、饮料、化妆品、烟草、日用品)、家电业、医药业、保险业、电信业、IT等以及其它服务性、制造性行业和企业。
2. 消费者研究的一般内容
1)消费者基本情况分析、具体特征、变动情况和发展趋势等,包括对年龄、性别、文化程度、职业、婚姻状况、个人收入、家庭收入,是否独生子女等众多基本变量的了解与分析。
2)消费者购买动机及认知能力分析。而购买动机又可以从不同层次加以分析,比如:从消费者对动机的表达方式上可以分为表面动机和实际动机,从习惯上讲又分为偏好动机,习惯购买和从众动机。
3)随着对消费者行为研究的深化,人们越来越深刻地意识到,消费者行为是一个整体,是一个过程,获取或者购买只是这一过程的一个阶段。因此,研究消费者行为,既应调查、了解消费者在获取产品、服务之前的评价与选择活动,也应重视在产品获取后对产品的使用、处置等活动。只有这样,对消费者行为的理解才会趋于完整。
3. 消费者研究的技术方法
1)定性分析技术:焦点座谈会、小组讨论、投影法、观察法、实验法等。
2)定量分析技术:聚类分析、回归分析、因子分析、相关分析、方差分析、对应分析、判别分析与结合分析等。
3)市场分析技术:需求与效能匹配矩阵、职业、收入与消费成长模型等。
一、U&A模型
在消费者行为研究中,使用习惯和态度的研究是其核心问题(简称 U&A )。目前,消费者使用习惯和态度研究是一种相对比较成熟和常用的市场研究模型,广泛应用于家电、食品/饮料、化妆品/ 洗涤品、日用品等快速消费品和耐用消费品的消费者研究中。
1. U&A研究的应用
U&A是一种相当成熟和完整的消费者研究模型,它广泛的被国内外的专业研究机构所采用。通过 U&A 模型,企业可以准确的测量出被测产品的市场状况、目标消费者状况、竞争对手状况,还可以有效的了解消费者特征和消费者行为,从而为企业下一步的市场策略或市场推广提供指导性依据。U&A 的主要的研究内容包括消费者对产品/广告的认知、消费者使用和购买习惯、消费者满意度评价、消费者媒体习惯、消费者对市场推广活动的态度等一系列指标。同时,消费者的产品态度研究还可以用于市场细分和确定目标市场。进行市场细分的方法是根据消费者对产品的偏爱程度。在同等条件下,商家应将目标市场定位于消费者偏爱程度较高的市场,因为消费者对喜爱的产品总是赋予更多的关注。即使采取其它市场细分法,如以地理位置为标准,也需努力检测各个细分市场对产品的相对偏好程度。细分市场对产品的喜好程度越大,成功的可能性也就越大。
2. U&A 研究方法
在实际研究过程中,我们通常采用的研究方法包括费歇宾模式和理想点模式。
A.费歇宾模式 (TheFishbcin Model):费歇宾模式是最广为人知的测试模式。根据费歇宾模式,消费者对于一个给定的产品的态度定量评价为:该产品具有各显著特性的程度与特性的评价值乘积的和。
菲什宾在1963年提出菲什宾模型亦称为多属性态度模型。认为某一客体或行为的态度是由下面两个要素组成:(1)一是消费者对于购买此种产品的态度,即自我认知;(2)是消费者认为其他人对此种产品可能有的态度,即从众心理。该模型的研究发源于美国,现已被用于解释较为广泛的产品的购买行为,该模型的3个变量是:
因此用数学表示即为:
AO:代表消费者对待品牌的总体态度;
Bi:表示消费者对待品牌拥有的第i个属性的信念强度;
Ei:表示消费者对属性i的偏好程度;
n:代表品牌具有属性的数量。
费希宾模式告示我们:人的情绪反应,虽然有时处于不自觉状态,但是却对人的行为极有关联。人的外显行为离不开个人的意向作用,而个人意向又直接受消费者情感(态度)的驱动。没有情感的存在,便没有人的消费行为。
B.理想点模式(TheIdeal—Point Model):理想点模式的独特之处在于提供了消费者认为是理想品牌的信息和消费者对现在品牌的看法。 在理想点模式下,消费者被问及某种品牌产品在某一特性中所处的位置,以及他认为“理想”的品牌应处于什么位置。根据模式,品牌具有特性值越接近理想值,则该品牌越受到消费者偏好,也就是AB值越趋近于零越好。
3. 影响购买行为的因素分析
影响消费者购买行为的因素有许多,主要包括心里因素、内部因素和外部因素。通常按如下模式开展消费者行为研究:
4. 模型的优点
全面性-从不同角度了解消费者行为的内因的形成过程。 有效性-准确了解消费者决策的影响因素,从而确定可行的市场策略。 准确性-准确界定目标消费群。
二、AIDMA
1、简介
AIDMA是消费者行为学领域很成熟的理论模型之一,由美国广告学家E.S.刘易斯在1898年提出。该理论认为,消费者从接触到信息到最后达成购买,会经历这5个阶段:
A:Attention(引起注意)——花哨的名片、提包上绣着广告词等被经常采用的引起注意的方法
I:Interest (引起兴趣)——一般使用的方法是精制的彩色目录、有关商品的新闻简报加以剪贴。
D:Desire(唤起欲望)——推销茶叶的要随时准备茶具,给顾客沏上一杯香气扑鼻的浓茶,顾客一品茶香体会茶的美味,就会产生购买欲。推销房子的,要带顾客参观房子。餐馆的入口处要陈列色香味具全的精制样品,让顾客倍感商品的魅力,就能唤起他的购买欲。
M:Memory(留下记忆)—— 一位成功的推销员说:“每次我在宣传自己公司的产品时,总是拿着别公司的产品目录,一一加以详细说明比较。因为如果总是说自己的产品有多好多好,顾客对你不相信。反而想多了解一下其他公司的产品,而如果你先提出其他公司的产品,顾客反而会认定你自己的产品。”
A:Action(购买行动)——从引起注意到付诸购买的整个销售过程,推销员必须始终信心十足。过分自信也会引起顾客的反感,以为你在说大话、吹牛皮。从而不信任你的话。
2. 优点和缺陷
该理论将消费者的购买行为模型化,有助于广告主系统的研究消费者后更有效的进行的商品的宣传。但是,该理论并没有具体细化到不同的商品类别,实际上,该理论更多的适合高卷入度的商品(价格高,需要小心做决策),而对于低卷入度商品,消费者的决策过程往往没有那么复杂。
3. 演变
这个理论可以很好的解释在实体经济里的购买行为,但在网络时代,该理论的解释无法准确的概况一些消费者的典型特征。2005年,日本电通集团提出了基于网络购买消费者行为的AISAS理论。AISAS的前两个阶段和AIDMA模型相同,但在第三个阶段S为Search,即主动进行信息的搜索,第四个阶段为A,即达成购买行为,最后一个阶段S为Share,即分享,将购买心得和其他人进行分享。这一学说,更加准确的概括了在网络条件下,消费者获得信息,分享信息的能力。是AIDMA理论的发展。
三、AISAS模型
1、简介
AISAS模式是由电通公司针对互联网与无线应用时代消费者生活形态的变化,而提出的一种全新的消费者行为分析模型。强调各个环节的切入,紧扣用户体验。
营销方式正从传统的AIDMA营销法则(Attention注意Interest 兴趣 Desire 欲望 Memory 记忆 Action 行动)逐渐向含有网络特质的AISAS发展。
A:Attention——引起注意
I:Interest——引起兴趣
S:Search——进行搜索
A:Action——购买行动
S:Share——人人分享
AISAS模式的转变。在全新的营销法则中,两个具备网络特质的“s”——search(搜索),share(分享)的出现,指出了互联网时代下搜索(Search)和分享(Share)的重要性,而不是一味地向用户进行单向的理念灌输,充分体现了互联网对于人们生活方式和消费行为的影响与改变。
2、模式形成
从传统时代到网络时代,互联网(WEB)与移动应用(Mobile)得到了爆发性的普及。我们知道,在中国,截至06年7月,互联网使用人数已达到1.23亿,手机的应用则更为普及。从应用的绝对人口数和接触时长来说,这些后起之秀达到甚至超越了电视、报纸等传统媒介。
如果说第一代互联网同电视、报纸一样承担了信息发布者的角色,网络搜索引擎则提供了与传统媒介完全不同的、主动、精准获取信息的可能性。
紧接着,Web2.0带来了传统媒体无可取代的全新传播理念——以生活者为主体的传播——消费者不仅可以通过网络主动获取信息,还可以作为发布信息的主体,与更多的消费者分享信息。由于将生活者也吸引进来的网络工具(如Blog/Wiki/BBS)的崛起,生活者的行为模式和媒体市场也随之变化。个人Blog通过像“Google AdSense”这样的广告定向发布与利益共享机制,不断提高其作为广告媒体的功能,而且各种搜索网站的精度也在不断的得到改进,从而,媒体市场由之前的扁平式发展,逐渐呈现深度、精准发展的趋势。
针对这种趋势,电通提出的CGM(ConsumerGenerated Media)消费者发布型媒体概念:以Blog、Wiki、BBS、SNS等为主要形式的个人媒体,不仅停留在个人信息发布和群体信息共享,还涉及到将新闻和企业信息(也包括广告)进行比较讨论等各种各样的传播形式;信息发布由从前的B2C——由商家向消费者发布的模式,转化为“B2C2C”——由商家向消费者发布之后,消费者向消费者发布与共享的模式。
3、消费者的变化
(1)媒体接触时间的变化。
互联网与移动应用改变了人们的生活、工作、娱乐、学习的方式,在消费者的生活时钟里,除了看电视、看报纸、行车、逛街、差旅等等传统行为,收邮件、搜索信息、上论坛、写Blog、收发短信/彩信、在线交易等藉由互联网与手机创造的生活方式,亦已成为消费者的生活环节。
(2)主动性消费的增加。
由于互联网为消费者主动获取信息提供了极大的便利,消费者在购买决策过程中,可以在互联网上搜索、收集商品/服务的信息作为依据,再决定其购买行为,进行较之以前更为理性的消费。CNNIC历次调查数据显示,对商品/服务等的信息检索始终是网民对互联网的主要用途之一。
(3)心理的改变,“不愿失败”的消费心理有了更充分的信息依据。
在传统时代,营销的手段万变不离其宗,是刺激需求的手段,消费者亦在种种商品信息与营销宣传中混沌迷糊地进行着购买决策。在网络时代,行业频道、行业垂直网站、专业评论网站、专业博客的出现,使消费者有机会从多种渠道获得详尽的专业信息,从而确保其尽可能进行“正确的”购买决策。
4、消费模式
传播环境与消费者是营销过程中的一体两面。依据电通的接触点管理理论(Contact Point Management),生活者(消费者)因使用互联网及手机而产生的生活接触点,都将成为整合营销过程中不容忽视的传播媒介。
重构消费者行为模式
由于传播环境与生活方式的改变,生活者的购买探讨过程也随之变化。营销者需要重新考虑这样的问题,在消费者的购买探讨过程中,商品认知阶段,消费者的信息来源是什么?适合的媒体是什么?理解商品和比较探讨的阶段,消费者的信息来源是什么?适合的媒体是什么?购买商品的阶段,消费者的信息来源是什么?适合的媒体是什么?
根据电通公司的调查数据,在商品认知阶段,消费者的信息来源以电视、报纸、杂志、户外、互联网等媒体广告为主;在理解商品及比较探讨和决定购买的阶段,除了亲临店头之外,互联网及口碑相传是其主要信息来源与决策依据。
基于以上一系列的研究与探讨,电通公司对作为营销基础的消费者行为模式进行了重构。
传统的AIDMA模式(Attention 注意Interest兴趣 Desire 欲望 Memory 记忆 Action 行动),消费者由注意商品,产生兴趣,产生购买愿望,留下记忆,做出购买行动,整个过程都可以由传统营销手段所左右。
基于网络时代市场特征而重构的AISAS(Attention 注意Interest兴趣 Search 搜索 Action 行动 Share 分享) 模式,则将消费者在注意商品并产生兴趣之后的信息搜集(Search),以及产生购买行动之后的信息分享(Share),作为两个重要环节来考量,这两个环节都离不开消费者对互联网(包括无线互联网)的应用。
5、未来发展:跨媒体全传播体系的进化
新的消费者行为模式(AISAS)决定了新的消费者接触点(Contact Point)。依据电通的Contact Point Management(接触点管理),媒体将不再限于固定的形式,不同的媒体类型不再各自为政,对于媒体形式、投放时间、投放方法的考量,首先源于对消费者与产品或品牌的可行接触点的识别,在所有的接触点上与消费者进行信息沟通。
同时,在这个信息沟通圆周的中央,详细解释产品特征的消费者网站,成为在各个接触点上与消费者进行信息沟通的深层归宿。消费者网站不仅提供详细信息,使消费者对产品的了解更深入并影响其购买决策;对消费者之间的人际传播也提供了便利;同时,营销者通过对网站访问者数据进行分析,可以制定出更有效的营销计划。
由于互联网无可替代的的信息整合与人际传播功能,所有的信息将在互联网聚合,以产生成倍的的传播效果,以网络为聚合中心的跨媒体全传播体系随之诞生。
四、AIDEES
AIDEES是基于AIDMA原则、强调在CGM环境下的消费者心理行为模型,它把消费者在CGM环境下的心理发展分为六个阶段:注意Attention、感兴趣Interest、欲望Desire、体验Experience、热情Enthusiasm、分享Share,AIDEES即是这六个阶段每个阶段英文名称第一个字母的组合。
所谓AIDEES是在CGM—消费者产生媒体(ConsumerGenerated Media)环境下,口碑影响消费者行为的6个阶段,而这个理论是日本的片平秀贵先生所提出。其中CGM的环境,泛指消费者互相传递信息的媒体(自媒体),诸如BLOG、SNS、BBS等等。
AISAS並不強調在CGM的環境達成的細節,它所要強調的是跟AIDMA的資訊流差異。講了這麼多外星人語言,相信應該有人頭開始暈了吧?為了看清楚AIDEES跟AISAS的差異,我畫了以下這張圖供大家參考:
我們可以看出AIDEES提出了一些AISAS沒有指出的細節(黑線箭頭),不過AISAS所指出的行為,其實也可以插入在AIDEES中(紅線箭頭)。兩相結合之後,就形成了在CGM影響下的「消費者購物的流程」。 還是有鬼打牆的感覺?那我來舉個例子好了。
我是一個擁有部落格的人,而我也經常會瀏覽其他人在網路上所發表的文章。有一天我從某個地方發現了一個特別引起我注意的商品(Attention),並且發現這個商品其實就是我一直想要的東西(Interest)。
在我深入了解它之後,越來越想要(Desire)把它買回家,於是我到處找資訊(Search),看哪裡能比較便宜的買到它,也順便看看其他人對它的評價如何。
終於,在適當的時間、空間我買(Action)下了它,並立刻享受(Experience)它帶給我的快感,我發現這個商品真的是棒到沒話說,真是愛死它了(Enthusiasm),於是我立刻在自己的部落格上跟大家分享(Share)這個商品,並積極加入有關於這個商品的討論。
看完以上的例子後,我想您不難發現這是一個人與人互動的無限迴圈。 在我開始跟別人分享我所買到的商品時,很可能我也引起了下一個人注意這個商品;如此,我所形成的口碑又有可能會成為另外一個人AIDEES過程,就像下圖所示,在人與人之間不斷循環著。
当然,行銷人必須為了口碑行銷想一些策略。
自然產生的口碑往往散落在每個人活動的領域中,難以拼湊出一個具體的商品形象,雖然我們可以透過像富士通的部落格商品評價技術知道口碑變化,但我們始終得有個地方讓行銷人發揮口碑行銷的專才,促進口碑的發酵。
而這個地方,我們稱為口碑平台,它在AIDEES中扮演著讓一個人的「S」順利跟另一個人的「A」接軌的角色,不僅讓口碑的傳輸過程可視化,也可以讓行銷人在這個空間中在「資訊媒介」上多做一些努力,如下圖:
在互联网上,用户轻轻地划一下鼠标就可以对自己感兴趣的东西进行Search(深入了解),甚至马上可以在线购买。互联网也是一个新的通讯渠道,人与人的沟通变得更加畅通,用户在购买前后的感想和行为很方便地能形成口碑与其他人分享。
市场研究公司Jupiter Research调查数据显示:77%的网民在线采购商品前,会参考网上其他人所写的产品评价;超过90%的大公司相信,用户推荐和网民意见在影响用户是否购买的决定性因素中是非常重要的。举例而言,拿一个上网的女孩子来说,如果她注意(Attention)到了一款看上去不错的化妆品,一般会第一时间带着兴趣(Interest)在搜索引擎或自己常逛的消费类网上社区搜一搜,如果她觉得化妆品详细介绍以及社区内网友评价都不错的话,一般就会建立信心选择购买(Action),一段时间之后,她也可能会在社区上写出她的感受(Share),而她分享的意见,又能成为下一个或下下个消费者购买该化妆品的参考信息源。
AIDMA VS AISAS对比流程图
社区营销掀起第三次网络营销浪潮社区营销是继门户广告、搜索广告之后的新型互联网营销模式是从注意力经济向体验经济转换的最好载体。
五、消费者用户价值分析模型
用户价值分析模型
用户价值的高低基于以下两个维度:占用企业资源而发生不同费用的用户对企业的贡献率和单位资源可能给企业所创造的平均利润比较差值,形成经济价值;不同费用水平用户的基于满意度研究基础上的忠诚度研究,形成市场价值;通过上述两个维度的分布结果可以得出以下四类群体:
1. 经济价值比较低,市场价值较低;
2. 经济价值比较低,市场价值较高;
3. 经济价值比较高,市场价值较低;
4. 经济价值比较高,市场价值较高;
第二层级模型:经济价值模型

六、TOFA模型
1、简介
L.凯纳(L.R.Kahle)等人于1992年提出了研究区域消费差异的概念模型亦称TOFA模型。
在众多的区域文化和消费的差异面相中,如何区分出基本类别或典型类型除了饮食文化和习俗的差别,是否接受外部文化,是否敢于花钱是消费文化价值的两个基本维度, 前者导致区域消费形态的变化,后者主导区域消费的基本风格。
由此CMC引入时尚指数S(Style)以衡量在时尚——传统之间的区域位置; 引入花钱指数R(Risk) 以衡量在勤俭——享乐之间的区域位置。TOFA模型如图所示:
高S:追逐新潮、变化快, 乐于接受外部文化、崇尚品牌, 重视品牌的象征价值,群体影响大。
低S:对外来文化谨慎甚至抗拒,崇尚经典与传统价值,保守稳定,注重长远功能。
高R:决策快, 敢冒消费风险,勇于尝试新品,主张享乐主义、及时行乐。
低R:对价格和SP敏感,追求性价比,忧虑未来、安全感低,跟随与后动。
2、区域消费的四种基本类型
用S和R这二个指数可以区分出区域消费行为差异的4种基本面相,其各自的特征如下:
A型(高S高R):前卫型(Advance),时尚而敢花钱,如深圳、重庆 ;
F型(高S低R):理财型(Fashion,Financing),时尚而精明,如上海、宁波;
O型(低S高R):乐天型(Optimism),传统而敢花钱,如贵阳、新疆;
T型(低S低R):保守型(Traditionalism),传统而节俭,如西安、昆明。
严格地说,每一区域都是上述4种典型类别的不同比例的混合体,
如某城市为F型55%+A型15%+O型20%+K型10%,但其主导性或主特征决定了其消费特征倾向,可通过调查测量得出实证的结果。
七、VALS系统
1. 简介
VALS系统全称价值观和生活方式系统,是由美国斯坦福国际研究院创立的一种观察理解人们生存状态的方式,通过人的态度、需求、欲望、信仰和人口 统计学 特征来观察并综合描述人们。这套1978年创立的系统现在被广泛认同和引用。
2. 内容
一位名为阿诺德·米歇尔(Arndd Mithchell)的研究者,根据20世纪80年代对大约1600户美国家庭进行的冗长的全面询问,开始设计出一个把消费者放于九个生活方式群体的的系统,也称为VALS类型。
需求驱使类(Need-Driven),总人口11%,国民收入$ =7.5%
1、求生者(Survivor)4%,$ = 2.7%:绝望、压抑,为社会所抛弃的“处境不佳者”
2、维持者(Sustainer)7%,$ = 4.8%:敢于为摆脱贫困而作斗争的处境不佳者
外部控制类(Outer-Directed) 67%,国民收入$ = 36.9%
3、归属者(Belonger)39%,$ = 7.6%:维护传统、因循守旧、留恋过去和毫无进取心的人,这类人宁愿过那种“顺应型”的生活方式,而不愿有所作为。此类人群上升趋势明显
4、竞争者(Emulator)8%,$ = 10.3%:有抱负,有上进心和追求地位的人,这类人总希望“出人头地”。此类人群比例略有下降。
5、有成就者(Acheiver)20%,$ = 19%:能够影响事物发展的领袖们,他们按制度办事,并享受优裕的生活。此类人群比例有所下降。
内部控制类(Inner-Directed)20%,国民收入$ = 37.2%
6、我行我素者(I-Am-Me)3%,$ = 6.8%:年轻,自我关注,富于幻想的人。有所下降。
7、经验主义者(Experiential)6%,$ = 14.1%:追求丰富的精神生活,希望直接体验生活会向他提供什么的人。比例略有下降。
8、有社会意识者(SociallyConscious)11%,$ = 16.3%:具有强烈的社会责任感,希望改善社会条件的人。比例有所上升。
内外部控制类(Outer & Inner Directed),2%,国民收入$ = 18.4%
9、综合者(IntegratedLifestyle):心理成熟,能够把各种内向型因素和外向型因素中的最佳部分有机结合起来的人。
一个人可能会经过多个阶段,如经过了需求驱使阶段,可能进入外部控制阶段,然后进入内部控制阶段,但很少有人会达到综合者阶段。
由于需求驱使类缺乏经济资源,营销人员极少关注这部分细分市场。而其他群体却是兴趣集中的目标,那是因为这些群体具有明确的人口统计、职业和媒体特征。所以,贵重皮箱制造商会想方设法了解有成就者的各种特征以及如何有效地对其开展促销活动。同样,桑拿浴桶制造商不会向经验主义者群体推销其产品,垃圾处理商会对归属者群体和有社会意识者群体采取不同的促销战略方法。目前已有很多大公司赞成这种价值观念和生活方式结构,并运用这些资料来有效地接触目标生活方式群体。
3. 应用
VALS系统已被200多家公司和广告代理商运用于行销实践中,现在该系统经过更新成为VALS2。
起初VALS综合于两个视角来建立生活方式群体。一是基于马斯洛需求等级。二是基于美国社会学家戴维·瑞斯曼(David Reisman)提出的内在驱动者,即那引些受从个性表达和个人品味上来判断价值的人,和外在驱动者,却那些受他人行为和反应和影响而动摇决策的人之间的区别。
VALS类型学把人们归集到“成就者”、“社会自觉者”和“归属者”这三类,这主要依据人们在马斯洛等级中的位置以及他们达到目标的动力是内在还是外在的。例如,“成就者”和“社会自觉者”都是富足的,但外在驱动型的“成就者”会倾向于获得“权力象征”(例如拥有一间外观给人深刻印象的房子),而一个内在驱动型的“社会自觉者”更可能买一间具备有效动力装置的房子(如具备太阳能的)。
梅里尔·林奇公司(Merrill Lynch)设计的广告创意是运用VALS数据去瞄准有此需要的生活方式的细分市场的经典诠释。当此金融中介机构在1978年迁移其代理处机构前,已采用“美国处在高涨期”这一主题12年了。广告是由一群牛狂野地冲过平原这样一组画面组成的。
一项VALS分析揭示了这一广告形态主要对VALS类型中“归属者”那类占据大量市场的、只想适应而不想突出的消费者群有吸引力。另一方面,梅里尔的目标顾客是“成就者”,即那些富裕的商界和政界的领袖人物,他们具有领导才能和自信心,并打算成为批量的投资者。广告代理商就改换了画面,只出现一头牛(象征强烈的个性特征),主题也变为“一头离群的牛”。
八、VALS2模型
VALS2模型是由VALS系统演变出来的。在二十世纪70年代,VALS基于人口统计、价格观念、姿态/倾向和生活方式变量,对美国消费者进行了广泛的研究。尽管大多数公司利用VALS来验明潜在的目标市场以及怎样与消费者进行沟通,但到80年代后期,研究人员开始批评VALS。因为VALS已经过时,并且不能很好地预测消费者的消费行为。由于人们行为差异性的巨大变化、媒体选择的多样化、人们生活方式和价值观念的变化,使VALS在90年代成为描述消费者的一个无效的工具。
基于这些批评,SRI国际公司开发出了VALS2。VASL2仅包括与消费行为有关的项目。所以,它比VALS更接近消费。VALS2模型基于四个人口统计变量和42个倾向性的项目。
VALS2验明美国消费者的细分市场是基于对170个产品目录上产品的消费状况进行调查的结果。细分市场基于两个因素:
1) 消费者的资源:包括收入、教育、自信、健康、购买愿望、智力和能力水平。
2)自我导向,或者说什么激励他们,包括他们的行为和价值观念。被验明的有三种自我导向:
一是以原则为导向的消费者,他们被知识而不是感觉或其它人的观点所左右。
二是以地位为导向的个体,他们的观点是基于其他人的行为和观点,他们为赢得其他人的认可而奋斗。
三是面向行为的消费者,他们喜欢社会性的和物质刺激的行为、变化、活动和冒险。
根据自我导向变量,消费者被划分为8个细分市场:
现代者(Actualizers):乐于赶时髦。善于接受新产品,新技术,新的分销方式。不相信广告。阅读大量的出版物。轻度电视观看者。实现者(Fulfilleds):对名望不太赶兴趣。喜欢教育和公共事务。阅读广泛。成就者(Achievers):被昂贵的产品所吸引。主要瞄准产品的种类。中度电视观看者,阅读商务、新闻和自助出版物。享乐者(Experiencers):追随时髦和风尚。在社交活动上花费较多的可支配收入。购买行为较为冲动。注意广告。听摇滚乐。信任者(Believers):购买美国造的产品。偏好变化较慢。寻求廉价商品。重度电视观看者。阅读有关退休、家庭/花园和感兴趣的杂志。奋斗者(Strivers):注重形象。有限的灵活收入,但能够保持信用卡平衡。花销主要在服装和个人保健产品上。与阅读相比,更喜欢观看电视。休闲者(Makers):逛商店是为了体现舒服、耐性和价值观。不被奢侈所动。仅购买基本的东西,听收音机。阅读汽车、家用机械、垂钓和户外杂志。挣扎者(Strugglers):忠实品牌。使用赠券,观察销售。相信广告。经常观看电视。阅读小型报和女性杂志。
挣扎者(16%的美国人口)在所有细分市场中是收入最低、资源最少的人。因为他们主要是为生存而战,所以他们并没有任何的自我导向。
信任者(17%的美国人口)是以原则为导向,具有适度资源的人。他们是VALS2的细分市场中最大的细分市场。他们受教育的程度很低,他们的信仰被传统的道德观念深深束缚着。他们中的三分之一以上的人已经退休。
实现者(12%的美国人口)也是以原则为导向。处于这个细分市场中的人是成熟的、负责任的、接受过较好的教育、知道较多的信息并且年龄较大(他们中50%的人已经在50岁以上)。他们乐于跟家庭在一起,具有高的收入,在他们的消费中更加面向价值观念。
奋斗者(14%的美国人口)是以地位为导向。他们具有蓝领背景,并且努力超过他们认为比他们更成功的人。
成就者(10%的美国人口)也是以地位为导向。他们具有多的资源。他们关心他们的工作和家庭,并努力在工作伤有所成功。他们在政治上较为保守,尊重执政当局。这种理念不会变化。
休闲者(12%的美国人口)是面向行为的一个细分市场。他们相对年轻,并且在价值观上易于满足。他们对物质财富或世界事件不感兴趣。他们主要关心家庭、工作和身心娱乐。
享乐者(11%的美国人口)也是面向行为的一个细分市场。他们年轻,精力充沛。他们花费大量的时间在身体锻炼和社交活动。他们不吝惜在衣服、快餐和音乐上的花费。略低于20%的人已经完成了大学教育(无学位),但他们正在努力获得一个大学的学位。他们喜欢新产品,与其它细分市场相比,具有更大的冒险性。
现代者(8%的美国人口)。他们具有最大的资源。他们高度自信、高收入和高的受教育水平。他们可以融入所有的自我导向之中。他们利用自己的财富来显示他们个人的格调、品味和特点。他们具有广泛的兴趣。
尽管VALS和VALS2是基于美国消费者开发出来的,但它目前也被应用于欧洲的消费者。这种技术在略加修改后同样被用于日本市场。如日本的 VALS模型用三个导向代替了两个导向:自我表现者、成功者和传统者。利用这些导向,日本的VALS模型产生了10个细分市场。
九、Sheth-Newman-Gross消费价值模型
1. 简介
希斯(Sheth)、纽曼(Newman)和格罗斯(Gross)在1991年提出的以价值为基础,评价消费相关的价值的消费行为模式,认为产品为顾客提供了五种价值,提出五种消费价值来解释消费者在面临某一商品时选择购买或不购买、选择此产品而不是另一个产品、和选择此品牌而不是另一品牌的原因。这五种消费价值分别为功能价值、社会价值、情感价值、认知价值、条件价值。
2.内容
功能价值:功能价值强调的是商品本身所具有的实体或功能价值。当一个产品或品牌具有某些功能上的属性,且能满足消费者使用该产品功能上的目的,则此产品即具有功能价值。
社会价值:当产品能使消费者与其它社会群体连结而提供效用时,则此产品具有社会价值。在社会价值的影响下,消费者选择产品并非理性的注重其真实特性与功能为何,而是产品是否能提升自身的社会地位,塑造社会形象,或是满足内在的自我欲求。在消费者行为的领域中与社会价值相关之研究主题,包括了社会阶级,符号价值,以及参考团体;
情感价值是指消费者的选择可能取决于消费者渴望情感的抒发,消费者所获得的价值系来自于所选择的产品引起的感觉或喜爱感受,则具有情感性价值;
认知价值是指消费者选择取决于产品是否具有满足好奇心、新鲜感和追求新知,则产品具有认知价值;
条件价值是指消费者面临特定情况时所作的选择。指在某些情况之下,产品能暂时提供较大的功能或社会价值。产生条件价值的产品通常会和消费者的前序状态相连结。这些产品因为条件使其产生外部效用,而改变了消费者原先的行为。条件价值基本上并非长期持有而是短暂的。
Sheth认为上述五种影响消费者市场选择行为的价值,在各种的选择情境都有不同的贡献。消费者选择商品时,可能只受上述五种价值中其中的一种价值影响,但是大部分情况可能受到两种以上,甚至是五种价值的影响。
十、详尽可能性模型
1. 简介
详尽可能性模型(ELM)是由心理学家理查德·E.派蒂(RichardE.Petty) 和约翰·T.卡乔鲍(JohnT.Cacioppo)提出的。是消费者信息处理中最有影响的理论模型。根据这一模型信息处理和态度改变的一个基本量纲是信息处理的深度和数量。
ELM模型的基本原则是:不同的说服方法依赖于对传播信息作精细加工的可能性高低。当精细加工的可能性是高时,说服的中枢路径特别有效;而当这种可能性是低时,则边缘的路径有效。
2. 内容分析
消费者在形成对广告品牌的态度时能够有意识地认真考虑广告提供的信息,他们对广告产品或目标的信息仔细思考、分析和归纳,最终导致态度的转变或形成。就是消费者以高参与度对待广告。这种劝导过程被称为态度改变的核心途径。
与核心途径相对的,是态度改变的外围途径,在外围途径中,态度的形成和改变没有经过积极地考虑品牌的特点及其优缺点,劝导性的影响是通过将品牌与广告中积极或消极的方面或技巧性暗示联系起来而产生的。
3. 消费者会选择的两条劝导路线
选择哪一种途径?ELM模型中两个重要因素是受众分析信息的动机和分析信息的能力。假设消费者一旦接收到广告信息就会开始其加工和消化的过程。在个人情况与信息相关程度的基础上消费者会选择两条劝导路线:
当动机和能力都较高时,消费者更可趋向于遵从核心途径;核心途径包括诉诸于理性认知的因素——消费者进行一系列严肃的尝试,以逻辑的方式来评价新的信息。顾客的知识水平较高时往往倾向于理性的选择。当其中之一较低时,便趋向于遵从外围途径。外围路线通过把产品和对另一个事物的态度联系起来,从而涵括了感情因素。例如,促使新新人类购买其崇拜的青春偶像在广告上推荐的某种饮料的原因,实际上与该饮料的特性毫无关系,起作用的是对歌星的喜爱。这是因为人们在对该饮料本身的特性不太了解的情况下,只能通过该信息的外围因素(如产品包装、广告形象吸引力或信息的表达方式)来决定该信息的可信性。
4. 影响动机和能力的因素
广告媒体。消费者越能控制广告展示步骤,就越可能遵循中心途径。例如,印刷广告比速度较快的电视广告和广播广告导致更高的认识详尽程度,广播媒体更可能形成周边途径态度。参与或动机。消费才对广告内容越有兴趣,参与度就越高,就越能产生总体的更详尽的认识,从而以中心途径形成态度。如果消费者不在意广告说了些什么,那么就可能从周边途径形成态度。项目的知识水平。知识丰富的人比缺乏知识的人可以产生更多的与信息相关的思想,将更倾向于从中心途径形成态度。如果消费者不太清楚广告说了些什么,那么就可能从周边途径形成态度。理解。不管是因为其知识水平较低还是时间不允许,只要消费者无法理解广告的信息,他们就将倾向于从广告来源或其他周边暗示里去理解广告,而不是通过广告去理解广告信息。注意力分散。如果观看广告的环境或广告本身使消费者注意力分散,他们将很少产生与信息相关的思想,这将减少中心途径的可能性。情绪。如果广告引发消费者的积极情绪,使消费者心情舒畅,他们则一般不愿花精力去思考广告内容,这样就产生较少认识思想,态度形成更遵从周边途径。认识的需要。一些人本身就愿意思考问题(也就是说他们认识问题的需要较大),他们经常产生与信息相关思想,其态度形成更遵从中心途径。
5. 详尽可能性模型的启示意义
对经理们的启示在目标确定过程中,目标受众的动机和能力是两个关键指标。当两者均较高且中心途径最为可能时,应着眼于强调“为什么这一品牌更好”来改变态度。 内容来源:网络
作者:袁帅( 数据分析 运营者),互联网 数据分析 运营实践者,会点网事业合伙人,运营负责人。CEAC国家信息化计算机教育认证:网络营销师,SEM搜索引擎营销师,SEO工程师。数据分析师,永洪数据科学研究院MVP。中国电子商务协会认证:中国电子商务职业经理人,畅销书《互联网销售宝典》联合出品人之一。中国国际贸易促进委员会:今日会展会员联盟VIP个人会员,全经联园区委秘书处成员,中国低碳智慧园区联盟理事,周五咖啡媒体人俱乐部发起合伙人。百度VIP认证站长,百度文库认证作者,百度经验签约作者,百家号/一点资讯/大鱼号/搜狐号/头条号/知乎专栏/艾瑞专栏等媒体平台入驻作者,互联网数据官(iCDO)原创作者,互联网营销官CMO原创作者。
本文为专栏文章,来自:袁帅,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49751.html 。
数据分析
2018-01-15 12:33:00
2018年转眼已经过了两周之余,是不是又到了一年一度该制作年终报告的时候了呢?其实写年终总结本身就是成长的过程,可以客观地看待过去一年的工作,正视自己的问题,当然也会明确自我价值。
大部分人觉得说起来轻松,写起来却不知从何下手,坐在电脑前半天也敲不出来一个字,那么今天就教你三步做出高质量年终报告PPT。
一、梳理思路
很多人就要说了:我就是没有思路所以才写不出来啊!别急啊,这就讲了~
1、从现状定目标
首先要清楚自己工作目前的现状,比如你是PM,那么今年共上线了哪些新功能,谈成了哪些新项目, 按照优先级和参与度列举,因为领导大多关注重要的项目,若把次要或是自身参与度不高的项目放在前面说,可能体现不出你的自身价值。
当你简述了这一年的工作情况后,就需制定未来发展的目标了,若是 企业的管理层以结果指标为主,若是 基层员工最好着重于行为指标,当然需要根据当前行业及市场做出合理的展望,定的过高显得不专业,定的过低显得不上进。
2、从问题找对策
当你描述过现状之后,就可以提出造成目前这种工作情况的优缺点,陈述优点时最好精简准确直观,但谈及缺点时可着重分析原因,踩过的所有雷都应心中有数,并且提出怎样才能避免再次踩这些雷。
3、从团队到个人
“团队而非个人、付出而非索取、责任而非荣誉”,无论你是团队的leader还是executor,都不能把工作成果一人独揽,从团队出发,谈谈整个团队沟通力与执行力,最后才是你个人在团队中扮演的角色、负责的工作完成情况以及对于管理上的一些建议,这样会更有效地体现出你的“大局观”哟~
二、充实内容
充实内容第一步: 讲故事!
重点项目的工作要交代清楚,上线时间,遇到什么样的困难,是怎样解决的,就像讲故事一样;对于那些无关紧要或是效益不佳的项目可以一笔带过。
其次呢,老板最关注的是什么? 指标啊!老板最爱看的是什么? 数据啊!
展现指标数据及其变化最直观的方式是什么? 图表啊!
每个岗位、项目都有不同的关注指标,比如销售人员:商机转化率、购买量、成交量、成交额等;运营人员:网站新增用户量、用户活跃率、留存率等;推广人员:点击率、留电率、投资回报率等。
小心机:业绩一般或以下,着重用表,让老板“似懂非懂”
业绩优异,着重用图,让老板第一时间“重视你”
比如:
1、 数据分析 :
全年新增用户为37980人,目标为40000人,完成进度为95%。其中2017年第3季度环比增长率骤升至47%,原因一:双十一营销活动带来大量新用户;原因二:加大了广告渠道投放的力度。预计2018年全年新增用户50000人,增长趋势会进一步提高。(这样简单的罗列数据也可以,但是没有图表给人的感觉更专业。)
2、可视化图表:

简单的几张图表清晰直观地从多个角度展示了这一年用户的新增情况,在交代清楚工作的同事又轻松的减轻了老板阅读压力,一举两得哟~
三、美化效果
无论你是套用模板还是自己原创,但毕竟是严肃的年终报告PPT,建议最好是选择简洁明朗的商务主题。
tips:
1、配色:
黑白灰——经典中的经典
蓝色系——万年不出错
深浅配——沉稳又不失鲜明
2、一张PPT写个200字以上?说实话,真的没人看。一句话:能用图表,别用文字。
3、批量添加logo:可以让老板知道你具有超强的品牌意识。(在幻灯片母片中插入logo图片即可)
4、一些特别的工具:
文字云制作工具–Tagul
色彩采集工具–Colorpicker for data
模板素材网站–花瓣网
晶格化背景制作工具– image Triangulator
生动形象的图标网站–findicons
中文字体下载网站–字体传奇网
交互式数据可视化工具–BDP个人版
不久之前我还有一个一直困扰我的问题:在BDP个人版中做好的图表怎样才能让它在自己的PPT中以动态的效果展示呢,而且每次数据更新都要替换,好麻烦的…
没想到,就在最近BDP已经解决了这个问题,这对于将要做年终报告PPT的大家来说无疑是一个天大的好消息。
成功使用PPT插件后,再添加图表点击放映时,将鼠标放置到指定的地域会出现相应的数值,实现了 动态交互的效果,而且会随仪表盘中的图表 实时变化~
大家如果对这个PPT插件感兴趣的话可参考“ 新年新神器:教你如何在PPT中与BDP零距离互动 ”
欢迎更多PPT达人来一起交流探讨咯~
本文为专栏文章,来自:海致BDP,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49755.html 。
数据分析
2018-01-12 08:45:00
2018年新年伊始,就被网易的年终听歌报告H5刷了屏,其实网易并不是报告的创始人,但它却又一次点燃了朋友圈。从报告关注的点,你听了多少歌,花了多少时间,哪首歌听得最多,最喜欢的歌手又是谁,哪天又熬夜了,无疑是对用户心理需求的又一次洞察。
有人说,这些 大数据 记录的音乐风格喜好感觉比我自己还了解自己,也有人说,这样的大数据根本不准,“感觉只记录了上半年,没有记录下半年“。
《大数据时代》的作者曾说,大数据提供的并不是精确的数据。这份对个人来说没有那么准确的数据,记录的是个体用户的行为轨迹,汇总以后就是用户的心理。

在网易H5又一次刷屏的背后,我们不难看到大 数据分析 带来的巨大营销价值,数据驱动营销策略,营销打动更多用户,网易的用户增长数据是最有力的证明。
网易云音乐诞生的时间并不长,但是在很短的时间内能积累4亿用户,APP活跃用户数排在音乐类APP第三,这离不开网易云音乐一次次线上线下的营销刷屏。但刷屏的背后,正是它通过大数据对音乐市场的用户洞察。
许多人被收割是因为网易的别致的日推,大概也是国内首次尝试用大数据做个性化推荐的音乐软件。在日推的上方,有这样一句话“根据你的音乐口味生成,每天6:00更新”,听日推,你可能会问,“它怎么知道我喜欢什么样的歌?”
知乎上有人猜想网易云音乐是这样做日推的:
step1 建立音乐评分规则
step2 建立用户模型
step3 找相似
除了实现音乐个性化推荐,对大数据的分析也能帮助营销人员洞察把握用户的情绪。2亿用户,每天产生若干评论点赞,而这些数据的汇集就是这群人每天的心理描写。透过 数据分析 ,网易云音乐即时抓住用户心理需求,因此一次又一次做出刷屏的营销活动。
其实,早在2016年,网易云音乐就发布了《听歌多元化时代到来——网易云音乐2016上半年用户行为大数据》报告。根据网易云音乐大数据分析,2016年上半年音乐市场和用户听歌行为呈现出了以下十大现象和趋势:
*听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为;
*个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好音乐;
*独立音乐人迅速崛起,社交互动助推音乐人涨粉;
*90后已成为音乐消费主力人群;
*用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛;
*综艺影视对音乐的影响依旧强大,热门歌曲中7成来源于综艺或影视;
*听歌进入多元化时代,民谣、电音、二次元音乐崛起;
*偶像流行乐保持高热度,欧美歌曲受众提升;
*音乐市场正在构建一种新的评价体系,评论数成为歌曲热度重要评价指标;
*男歌手受喜爱度高于女歌手,女性歌迷消费群体经济崛起;
在这份简易的数据分析的驱动之下,网易云音乐在2017年的营销可谓上天入地,最多刷屏的当然是“地铁乐评”展、与农夫三泉的跨界营销。
那么,作为这些营销背后功不可没的大数据究竟给了怎样的指引呢?先看一下这份报告的部分内容:




用户年龄以及他们的喜好关注消费能力都一一在这份数据分析里呈现,网易云音乐再运用自己擅长的情怀+讲故事的营销手段,2018年的开端,他们就做出了刷屏的活动。
随着大数据 人工智能 越来越热,由大数据驱动更多的营销策略在2018年将越来越多,毕竟你不了解用户就不知道让用户看到什么,而相比传统的问卷调查,甚至用户访谈来获取用户需求,大数据其实更准确一点,因为大数据不会骗人。
越来越多的公司会通过自己或者第三方建立自己的数据库,由此驱动营销决策。关注微信公众号cn99click,免费获取大数据监测软件,网站、APP、微信等大数据全面掌握,自动生成用户行为轨迹分析,帮助企业找到更多用户,并提升用户留存和转化。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-01-09 01:27:00
作者:Bernard Marr
大数据 ”炙手可热,很多企业都不会错失机会,谷歌已经从一个网页索引发展成为一个实时数据中心枢纽,可以估量任何可以测量的数据,将输入的查询与所有可用数据相匹配,确定用户查找的信息;对脸谱网来说 大数据 就是“人”,公司也利用这一点在十几年之内成为世界上最大的公司之一;亚马逊通过分析用户习惯,将用户与其他可能符合用户需求的产品和建议相匹配;领英帮助求职者根据自己的技能和经验来匹配空缺职位,帮助招聘人员找到与特定资料相匹配的人才,这些都是大数据应用的典型例子,但也只是其中一部分,越来越多的数据易获得,复杂工具也会随之涌现,大数据的利用可以改变我们个人生活和商业活动。
当下,每个人都听说过人们如何利用大数据治愈癌症、终结恐怖主义和养活饥饿人口来改变世界。
当然,也很明显,有些人正利用它来赚大钱——据估计,到2030年,世界经济将增加15万亿美元。
很多人可能会想“那太好了,但实际上和我没什么关系。”只有拥有数百万美元资产的大型科技公司才会真正受益。那你需要大量的数据才能开始一项新的研究吗
其实并不是这样的。事实上,利用近年在数据收集、分析上的巨大突破,很容易改善我们的个人和商业生活。很多人先前可能没有认识到这点。
以下是大数据作为日常生活工具和服务的一部分的一些细节。
谷歌——语义分析与用户画像
尽管谷歌并没有把自己标榜成数据公司,但实际上它的确是数据宝库和处理问题的工具。它已经从一个网页索引发展成为一个实时数据中心枢纽,几乎可以估量任何可以测量的数据(比如:天气信息、旅行延迟、股票和股份、购物……以及其他很多事情)。
大 数据分析 ——也就是说,当我们进行搜索时大数据就会起作用,可以使用工具来对数据分类和理解。谷歌计算程序运行复杂的 算法 ,旨在将输入的查询与所有可用数据相匹配。它将尝试确定你是否正在寻找新闻、事实、人物或统计信息,并从适当的 数据库 中提取数据。
对于更复杂的操作,例如翻译,谷歌会调用其他基于大数据的内置算法。谷歌的翻译服务研究了数以百万计的翻译文本或演讲稿,旨在为顾客提供最准确的解释。
经常利用大数据分析的对象从最大的企业到单人乐队,当他们通过谷歌的Adwords进行广告宣传时就是对大数据的利用。通过分析我们浏览的网页(很明显能看出我们喜欢什么网页),谷歌可以向我们展示我们可能感兴趣的产品和服务的广告。广告商使用Adwords和谷歌分析等其他服务,以吸引符合其客户资料的人员到其网站和商店时,广告商就利用了大数据分析。
脸谱网——图像识别与“人”的大数据
尽管脸谱网与谷歌在 市场营销 上差异巨大,但实际上它们的业务和数据模式非常相似。众所周知,两个公司都选择将自己的企业形象定位重点放在大数据方面。
对谷歌来说,大数据是在线信息、数据和事实。对脸谱网来说大数据就是“人”。脸谱网让我们与朋友和家人保持联系越来越方便,利用这个巨大的吸引力,该公司在十几年之内成为世界上最大的公司之一。这也意味着他们收集了大量的数据,同时我们也可以自己使用这些大数据。当我们搜索老朋友时,大数据就会发挥作用,将我们的搜索结果与我们最有可能联系的人进行匹配。
由脸谱网开创的先进技术包括图像识别——一种大数据技术,通过利用数百万种其他图像进行训练,能教会机器识别图片或视频中的主题或细节。在我们告诉它图片中的人是谁之前,机器可以通过标签来识别图片中的人。这也是为什么,当我们的朋友分享或给图片“点赞”时,如果它发现我们喜欢看例如婴儿或猫的图片,在我们的信息流中就会看到更多这种类型的图片。
对人们兴趣及其利益的详细了解也使脸谱网能够向任何企业出售极具针对性的广告。脸谱网可以帮助企业根据详细的人口统计数据和兴趣数据找到潜在客户,或者可以仅仅让他们通过查找与企业已有客户相似的其他客户来完成他们的大数据“魔术”。
亚马逊——基于大数据的推荐引擎
亚马逊作为世界上最大的在线商店,也是世界上最大的数据驱动型组织之一。亚马逊和本文提到的其他互联网巨头之间的差别很大程度上取决于市场营销。与谷歌和一样,亚马逊提供了广泛的在线服务,包括信息搜索、关注朋友和家人的账号以及广告,但其品牌建立在最初以购物闻名的服务上。
亚马逊将我们浏览和购买的产品与全球数百万其他客户进行比较。通过分析我们的习惯,可以将我们与其他可能符合我们需求的产品和建议相匹配。大数据技术在亚马逊的应用就是推荐引擎,而亚马逊是推荐引擎的鼻祖,其也是最复杂的。除了购物,亚马逊还让客户利用自己的平台赚钱。任何在自己的平台上建立交易的人都会受益于数据驱动的推荐,从理论上讲,这将吸引合适的客户来购买产品。
领英——被筛选过的精准大数据
如果你是一名雇主,或是正在找工作的人,领英会提供一些可以帮助你的大数据。
求职者可以根据自己的技能和经验来匹配空缺职位,甚至可以找到与公司其他员工以及其他可能竞争该职位的员工的数据。
对招聘人员来说,领英的大数据可以找到与特定资料相匹配的人才,例如现任员工或前雇员。
领英对其数据采取了“围墙的花园”方式(注:“围墙花园”是相对于“完全开放”的互联网,把用户限制在一个特定的范围内,允许用户访问指定的内容),当你选择在何处寻找和使用大数据时,这个不同之处值得考虑。领英的招聘人员和申请人的服务都是由公司内部和由服务本身控制的数据进行的,而谷歌是(在美国也提供招聘信息)从大量外部资源中获取收数据。领英的方法提供了潜在的更高质量的信息,而另一方面,它可能不全面。谷歌的方法提供了更大容量的数据,但这些数据可能是你想要的,也可能不是。
这些只是应用大数据的几种方式——远非资源丰富的公司和技术精英的工具,而是我们大部分人在日常生活中已经从中受益的东西。随着越来越多的数据变得容易获取,越来越复杂的工具涌现出来,从中获得价值,肯定会有更多的数据产生。
End.
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-01-05 15:01:00
电商网站就好比是公司的一个名片,好的网站,能够攫取用户的眼光,能够放慢用户浏览的脚步,能够引导用户完成订单转化,这对于拉新、留存有很重要的作用。
如何对电商网站进行优化?优化的方法很多,本期内容为大家说说如何从核心页面、站内搜索来做网站优化。
一、核心页面优化:
对于一个企业网站来说,网站一定要有核心页面,从用户的角度来说,核心页面能够让他们快速的了解企业的核心竞争力或者说实力;从搜索引擎优化的角度来说,核心页面能够集中权重,让网站的核心关键词获得比较好的排名。所以,我们企业网站建设要注意建设自己网站的核心页面。
一般来说,核心页面指的是:在完整的网站结构中不可缺少,并且受关注度最高的页面。 包含:首页、分类页、列表页、商品详情页。
1、核心页面的重要性:
说起核心页面的重要性,我们可以看一个案例:这是某电商网站统计的核心页面占比情况。
通过上面的数字不难看出,这四部分在网站中占比重比较高,页面的好坏直接影响了网站的各种数据。同时核心页面的优劣也直接影响着用户体验的好坏,也直接决定着用户印象、访问深度、弹出率等重要问题,所以,可以说,核心页面是人们最终想要看到的东西,从而能够产生深远的影响,所以是我们网站运营优化的重点。
2、核心页面的优化,首页是关键。
核心页面优化第一步就是首页,因为首页担负着重要的使命:
标识,告诉用户这是什么网站;
体现层次,通过导航和分类给出网站提供的服务的概貌;
提供搜索,帮助用户查找目标信息;
导读,用重点推荐来吸引用户;
建立可信度和信任感,传达网站整体形象;
注册/登录;
其他。
什么样的首页才是最吸引人的?
案例分析 — 麦考林首页
我们选取了麦考林的首页为大家分析,通过这个首页我们发现具有一些特点:
网站色调活泼柔和,传达甜美的年轻女性特征,切合品牌定位和所售商品属性;
导航清晰全面,易于查找;
商品分类提供多维度索引(按属性按性别特 价断码..),帮助用户快速定位目标商品;
主打当季新品,季节特征明显;
价格信号突出;
服务信息,周到完善;
活动丰富,热点突出;
商品二级分类中的常用分类和主推品牌再次安排在主视觉区下,方便用户直接使用等。
3、优化首页 — 哪些问题值得关注?
在运营人员在优化首页时,哪些问题是关键呢?我们为大家整理了一下,大致有6点:
网页上的重点推广内容 是否是访客关注的热点?
顶部和左侧导航的使用 频率一致吗?
页面各版块的访问情况如何?
哪些内容的点击情况和预期差别很大?
页面加载速度是否平稳?浏览体验是否正常?
第一屏和第二屏的点击落差是否很大?
应用案例 – 页面布局合理化
我们再做页面优化时,常见的问题就是页面布局不合理,比如商品详情页,产品摆放不合理,比较杂乱,用户搜索一个产品要花费很长的时间,对于这种问题,我们应该如何解决呢?
这就需要通过页面热点分析来实现,通过页面点击分析,可以准确地了解用户对页面内容的关注情况,以及页面导航的使用情况,尤其是区分相同内容在不同版块的点击差异,从而进行内容布局优化调整。
二、关于站内搜索
1、搜索的重要性
“如果在商城的搜索引擎里搜不到我要找的东东,而且也没有提供任何替代品,我会马上离开!不再回来!”-某网购达人说


可以说,一个网站的搜索体验是非常重要的。搜索可以为我们提供这些信息:
搜索是否可以带来购买;
访客对搜索结果是否满意;
访客在找了多长时间后,开始求助;
搜索的当搜索结果为空,访客会做什么;
最热门的搜索内容是什么;
站内搜索的使用频率;
如何搜索是否可以带来购买等等。
2、如何优化站内搜索
通过分析用户的搜索行为,为用户补充网站内容/品类、优化搜索结果页结构、优化搜索推荐等提供数据支持。我们以“关键词”为例,通过分析用户的搜索行为,了解设置的“关键词”搜索的频率,哪些内容搜索的频率最高用户对使用关键词搜索的结果是否满意?网站的搜索功能是否存在问题,如何优化等等。如下图:

上图中可以明显看到该关键词的设置不理想,各项数据指标都很低,这时候就需要根据这些 数据分析 原因,对关键词设置进行优化。
通常来说,搜索词的浏览量、用户数、用户比,用户平均搜索量(浏览量不搜索用户数的比值),综合分析出搜索的热门、高频次关键词,参考进行热门关键词推荐,内容调整策略;搜索词的点击率和转化率,综合反映用户对搜索结果满意的程度,用于优化搜索结果。
概括总结一下,可以通过四步骤来实现。
增加搜索结果筛选功能;
补充搜索结果为空的商品,或提供可替代品;
优化热门关键词的搜索结果;通过商品分析,对于销量比较好的商品,可设置为热搜的商品。 培养访客使用站内搜索的习惯,提供人们关键词列表。
结语:企业的网站不再是一个单纯的展示信息的平台,做好网站优化,使网站在搜索引擎中有好的排名,不仅会给一个网站带来极大的流量,同时订单也会随之增加。
关注微信公众号cn99click,免费获取试用产品!
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-01-03 00:58:00

为什么拿到数据仍然不能做出有效的决策?很可能是因为缺少了有效的分析模型。今天就给大家分享9款经典的企业战略决策、营销决策、服务决策的分析模型,这些模型已经过诸多成功企业和顶尖企业家、经理人的实践验证,被证明是能决定企业成败,影响管理工作效率,有助于企业领导及管理者更好地迎接挑战的最有效的工具。
1、波特五力分析:行业竞争战略最流行的分析模型
波特认为在任何行业中,无论是国内还是国际,无论是提供产品还是提供服务,竞争的规则都包括在五种竞争力量内。这五种竞争力就是企业间的竞争、潜在新竞争者的进入、潜在替代品的开发、供应商的议价能力、购买者的议价能力。这五种竞争力量决定了企业的盈利能力和水平。该模型如下图所示:
竞争对手
企业间的竞争是五种力量中最主要的一种。只有那些比竞争对手的战略更具优势的战略才可能获得成功。为此,公司必须在市场、价格、质量、产量、功能、服务、研发等方面建立自己的核心竞争优势。
影响行业内企业竞争的因素有:产业增加、固定(存储)成本/附加价值周期性生产过剩、产品差异、商标专有、转换成本、集中与平衡、信息复杂性、竞争者的多样性、公司的风险、退出壁垒等。
新进入者
企业必须对新的市场进入者保持足够的警惕,他们的存在将使企业做出相应的反应,而这样又不可避免地需要公司投入相应的资源。
影响潜在新竞争者进入的因素有:经济规模、专卖产品的差别、商标专有、资本需求、分销渠道、绝对成本优势、政府政策、行业内企业的预期反击等。
购买者
当用户分布集中、规模较大或大批量购货时,他们的议价能力将成为影响产业竞争强度的一个主要因素。
决定购买者力量的因素:买方的集中程度相对于企业的集中程度、买方的数量、买方转换成本相对企业转换成本、买方信息、后向整合能力、替代品、克服危机的能力、价格/购买总量、产品差异、品牌专有、质量/性能影响、买方利润、决策者的激励。
替代产品
在很多产业,企业会与其他产业生产替代品的公司开展直接或间接的斗争。替代品的存在为产品的价格设置了上限,当产品价格超过这一上限时,用户将转向其他替代产品。
决定替代威胁的因素有:替代品的相对价格表现、转换成本、客户对替代品的使用倾向。
供应商
供应商的议价力量会影响产业的竞争程度,尤其是当供应商垄断程度比较高、原材料替代品比较少,或者改用其他原材料的转换成本比较高时更是如此。
决定供应商力量的因素有:投入的差异、产业中供方和企业的转换成本、替代品投入的现状、供方的集中程度、批量大小对供方的重要性、与产业总购买量的相关成本、投入对成本和特色的影响、产业中企业前向整合相对于后向整合的威胁等。
2、BCG矩阵法:制定公司层战略最流行的工具
这个模型主要用来协助企业进行业务组合或投资组合。在矩阵坐标轴是的两个变量分别是业务单元所在市场的增长程度和所占据的市场份额。每个象限中的企业处于根本不同的现金流位置,并且应用不同的方式加以管理,这样就引申出公司如何寻求其总体业务组合。该模型如下图所示:
金牛: 在低增长市场上具有相对高的市场份额的业务将产生健康的现金流,它们能用于向其他方面提供资金,发展业务。
瘦狗: 在低增长市场是具有相对低的市场份额的业务经常是中等现金流的使用者。由于其虚弱的竞争地位,它们将成为现金的陷阱。
明星: 在高增长市场上具有相对高的市场份额通常需要大量的现金以维持增长,但具有较强的市场地位并将产生较高的报告利润,它们有可能处在现金平衡状态。
问题: 在迅速增长的市场上具有相对较低市场份额的业务需要大量的现金流入,以便为增长筹措资金。
3、GE矩阵:企业決定发展战略的分析工具
企业通过该矩阵可以保证其资源的合理配置,企业也可以尝试按照发展中业务和已发展业务的混合,与现金产生和现金使用的内在一致性来平衡业务。绘制GE矩阵,需要找出外部(行业吸引力)和内部(企业竞争力)因素,然后对各因素加权,得出衡量内部因素和市场吸引力外部因素的标准。当然,在开始搜集资料前仔细选择哪些有意义的战略事业单位是十分重要的。该模型如下图所示:
“市场吸引力”需要考虑的因素主要有:
行业:绝对市场规模、成长率、价格敏感性、进入壁垒、替代品、市场竞争、供应商等;
环境:政府法规、经济气候、通货风险、社会趋势、技术、就业、利率等。
采取五级评分标准评分:1=毫无吸引力,2=没有吸引力,3=中性影响,4=有吸引力,5=极有吸引力
“业务单位的实力或竞争地位”需要考虑的因素主要有:
目前优势:市场份额、市场份额变化趋势、盈利能力、现金流、差别化、相对价格地位等。
持久性:成本、后勤、营销、服务、客户形象、技术等。
采取五级评分标准评分:1=极度竞争劣势,2=竞争劣势,3=同竞争对手持平,4=竞争优势,5=极度竞争优势
4、波特价值链分析模型:寻求确定企业竞争优势的分析工具
价值链分析方法是企业为一系列的输入、转换与输出的活动序列集合,每个活动都有可能相对于最终产品产生增值行为,从而增强企业的竞争地位。企业通过信息技术和关键业务流程的优化是实现企业战略的关键。企业通过在在价值链过程中灵活应用信息技术,发挥信息技术的使能作用、杠杆作用和乘数效应,可以增强企业的竞争能力。该模型如下图所示:
进料后勤: 与接收、存储和分配相关联的各种活动,如原材料搬运、仓储、库存控制、车辆调度和供应商退货。
生产作业: 与将投入转化为最终产品形式相关的各种活动,如机械加工、包装、组装、设备维护、检测等。
发货后勤: 与集中、存储和将产品发送给买方有关的各种活动,如产成品库存管理、原材料搬运、送货车辆调度等。
销售: 与提供买方购买产品的方式和引导它们进行购买相关的各种活动,如广告、促销、销售队伍、渠道建设等。
服务: 与提供服务以增加或保持产品价值有关的各种活动,如安装、维修、培训、零部件供应等。
采购与物料管理: 指购买用于企业价值链各种投入的活动,采购既包括企业生产原料的采购,也包括支持性活动相关的购买行为,如研发设备的购买等;另外亦包含物料的的管理作业。
研究与开发: 每项价值活动都包含着技术成分,无论是技术诀窍、程序,还是在工艺设备中所体现出来的技术。
人力资源管理: 包括各种涉及所有类型人员的招聘、雇佣、培训、开发和报酬等各种活动。人力资源管理不仅对基本和支持性活动起到辅助作用,而且支撑着整个价值链。
企业基础制度: 企业基础制度支撑了企业的价值链条。如:会计制度、行政流程等
对于企业价值链进行分析的目的在于分析公司运行的哪个环节可以提高客户价值或降低生产成本。对于任意一个价值增加行为, 关键问题在于 :
1)是否可以在降低成本的同时维持价值(收入)不变;
2)是否可以在提高价值的同时保持成本不变;
3)是否可以降低工序投入的同时有保持成本收入不变;
4)更为重要的是,企业能否可以同时实现1、2、3条。
价值链一旦建立起来,就会非常有助于准确地分析价值链各个环节所增加的价值。价值链的应用不仅仅局限于企业内部。随着互联网的应用和普及,竞争的日益激烈,企业之间组合价值链联盟的趋势也越来越明显。企业更加关心自己核心能力的建设和发展,发展整个价值链中一个环节,如研发、生产、物流等环节。
5、STP分析:现代营销战略的核心分析工具
STP 理论是指企业在一定的市场细分的基础上,确定自己的目标市场,最后把产品或服务定位在目标市场中的确定位置上。具体而言,市场细分是指根据顾客需求上的差异把某个产品或服务的市场划分为一系列细分市场的过程。目标市场是指企业从细分后的市场中选择出来的决定进入的细分市场,也是对企业最有利的市场组成部分。而市场定位就是在营销过程中把其产品或服务确定在目标市场中的一定位置上,即确定自己产品或服务在目标市场上的竞争地位,也叫“竞争性定位”。
Step1:确定细分市场
市场细分是指企业按照某种标准(如人口因素、心理因素等)将市场上的顾客划分为若干个顾客群,每个顾客群构成一个细分市场(或称子市场),并描述每个细分市场的整体轮廓。在同一个市场细分中的消费者,他们的需求和欲望极为相似;而不同市场细分的消费者,对同一产品的需求和欲望存在着明显的差别。细分标准见下图:
Step2:确定目标市场选择策略
根据企业资源或实力、产品同质性、市场同质性综合评估进行选择,一般有以下5种模式:
Step3:确定产品定位
市场定位包括对企业整体形象的定位和企业产品的定位,指企业根据目标市场上的竞争状况,针对顾客对某些特征或属性的重视程度,为本企业的形象和产品塑造强有力的、于众不同的鲜明个性,并将其传递给顾客,求得顾客的认同。产品定位可以参考下图所示流程进行:
6、4Ps营销组合模型:制定市场战略最经典的营销理论工具
该模型认为营销活动的核心就在于制定并实施有效的市场营销组合。企业营销活动的实质是一个利用内部可控因素适应外部环境的过程,即通过对产品、价格、分销、促销的计划和实施,对外部不可控因素做出积极动态的反应,从而促成交易的实现和满足个人与组织的目标。该模型如下图所示:
产品(Product): 是指现有产品本身及其特征(商品,质量,包装,品牌,售后服务等),另外也指要重视产品的更新换代与开发创新。要求产品有独特的卖点,把产品的功能诉求放在第一位。
价格 (Price): 是指企业制订价格的方法和竞争定价的策略,也是企业出售产品追求的经济回报。根据不同的市场定位,制定不同的价格策略,产品的定价依据是企业的品牌战略,注重品牌的含金量。
分销 (Place): 在于根据产品的性质,市场的细分和顾客的区隔研究,所采取的分销渠道、储存设施、运输设施、存货控制等,它代表企业为使产品进入和达到目标市场所组织和实施的各种活动。
促销(Promotion): 企业注重销售行为的改变来刺激消费者,以短期的行为(如让利,买一送一,营销现场气氛等等)促成消费的增长,吸引其他品牌的消费者或导致提前消费来促进销售的增长,包括广告,人员推销,营业推广与公共关系等。
4Ps 提示企业经营者: 做好营销工作,其实就是找到下面四个问题的答案 :
(1)我们提供什么样的产品是市场最需要的?
(2)什么样的定价是最适合的?
(3)通过什么样的渠道推广我们的产品最好?
(4)采取什么样的手段促销能达到销售目的?
延伸:4Ps-4Cs-4Rs策略对比
7、产品生命周期模型:描述产品和市场运作方法的有力工具
产品生命周期曲线又称成长曲线。它是指新产品研制成功后,从投入市场开始发展到成长、成熟以至衰退被淘汰为止的整个市场产品销售过程的全部时间。产品生命周期可划分为四个阶段:投入期,成长期,成熟期,衰退期。该模型如下图所示:
产业在其生命周期中如何变化以及它如何影响战略:
产品生命周期是一个很重要的概念,它和企业制定产品策略以及营销策略有着直接的联系。管理者要想使他的产品有一个较长的销售周期,以便赚取足够的利润来补偿在推出该产品时所做出的一切努力和经受的一切风险,就必须认真研究和运用产品的生命周期理论,此外,产品生命周期也是营销人员用来描述产品和市场运作方法的有力工具。
8、服务质量差距模型:服务质量简单有效的分析工具
服务质量差距模型(5GAP模型)是专门用来 分析质量问题的根源 ,可以作为服务组织改进服务质量和营销的基本框架,有助于分析服务质量问题产生的原因并帮助管理者了解应当如何改进服务质量。
顾客差距(差距5)即顾客期望与顾客感知的服务之间的差距——这是差距模型的核心。要弥合这一差距,就要对以下四个差距进行弥合:差距1 ——不了解顾客的期望;差距2——未选择正确的服务设计和标准;差距3——未按标准提供服务;差距4——服务传递与对外承诺不相匹配。该模型如下图所示:
差距1是质量感知差距: 该差距是指服务企业不能准确地感知顾客服务预期;
差距2是质量标准差距: 该差距是指服务提供者所制定的服务标准与公司管理层所认知的顾客的服务预期不一致而出现的差距;
差距3是服务传递差距: 该差距是指服务生产与传递过程没有按照企业所设定的标准来进行而产生的差距;
差距4是市场沟通差距: 该差距是指市场宣传中所做出的承诺与企业实际提供的服务不一致而产生的差距;
差距5是感知服务质量差距: 该差距是指顾客所感知的或者实际体验的服务质量与其所预期的不一致而产生的差距。
而这5个差距中,前4个是导致服务质量缺陷的主要因素,第5个是由顾客感知的服务与期望的服务所形成的。
9、服务利润链:服务管理最经典、最有效的分析工具
服务利润链的基本逻辑是: 企业获利能力的强弱主要是由顾客忠诚度决定顾客忠诚是由顾客满意决定的;顾客满意是由顾客认为所获得的价值大小决定的;价值大小最终要由工作富有效率.对公司忠诚的员工来创造:而员工对公司的忠诚 取决于其对公司是否满意、满意与否主要应视公司内部是否给予了高质量的内在服务。简言之,客户的满意度最终是由员工的满意度决定的。该模型如下图所示:
该模型的核心内容是顾客价值等式 ,顾客价值=(为顾客创造的服务效用+服务过程质量)/(服务的价格+获得服务的成本),该等式和内部员工及外部顾客都有关系。
服务利润链模型的评价工具往往是采用平衡计分卡,对每个元素进行记录和评价,再形成一个整体的评价,注意的是局部和整体的控制和协调。
本文为专栏文章,来自:数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49606.html 。
数据分析
2017-12-27 22:44:00
大数据 作为21世纪的“钻石矿”对于企业的重要性已经不言而喻,各个行业都在搭建自己的 大数据平台 ,构建技术能力,以期待优化生产流程、精准营销,帮助企业获得竞争优势。
然而,Gartner预测:到2018年,90%已经部署的数据湖将因为负荷过多为不确定用途而获取的信息资产,从而失去价值。数据收集和存储已经是可以广泛普及的成熟技术了,然而 数据分析 挖掘,真正助力商业模式的优化却依旧面临巨大的挑战。
在2016 Teradata 大数据 峰会上,连续16年蝉联Gartner数据分析方面排名第一的Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)接受了《哈佛商业评论》中文版的采访,分享了专注数据分析领域多年的行业洞见。
人物小传:辛儿伦(Aaron HSIN)
Teradata天睿公司大中华区首席执行官、全球国际集团副总裁,于2010年3月上任,负责公司在中国大陆、台湾、香港、澳门等地区的业务。中国大数据专家委员会(BDECC)核心成员、中国云计算技术与产业联盟(CCCTIA) 委员会成员代表。此前,曾担任未来科技城信息化规划的特约顾问、任职微软公司大中华区企业及合作伙伴事业部总经理。
HBRC:数据分析领域在中国市场的发展如何?
辛儿伦: 30多年来,Teradata专注于数据及分析领域。记得我刚加入Teradata的时候,我们的客户群是三个行业,而今天,在中国有12大主流行业都是我们的客户,包括金融、通信、互联网、零售、汽车、石油石化、制造、保险等。
而且,数据分析需求已经不只是传统的业务部门的需求,还有像市场部门一些精确营销的需求,这是一个庞大的资源库和生态系统。现在许多客户的需求已经不仅只是把我们看作是乙方提供商,更多的是希望通过我们能够有跨领域、跨行业的大数据解决方案的应用。
近两年,我们新增的客户来自交通运输行业。我们合作的项目场景是从商业领域到物流领域等多个方面。铁路行业的数据量也是非常庞大,北京地铁,一天平均900万到1000万的人流量。北京地铁现有16条地铁线,每一条地铁线的资方是不同的。客户一张票,可能要转乘三到四条地铁线,这些资方都希望能更迅速的结算,而要做到这种几乎是每日式的结算,就需要非常精确和快速、实时或是准实时的 大数据分析 。有了这样一种能力,对他们资源的规划大有益处,比如可以通过人流量分析决定地铁检票口的数量和位置,对于不同位置的广告位也可以进行针对性的投放。
跨界融合是你们看到的一个主要趋势,有什么具体的案例么?
因为外部的项目是跨界的,所以内部给我们一个契机,让公司更多地进行内部跨团队、跨行业的碰撞、交流、协作。比如零售行业也想跟通信行业联系。目前已经上线的项目是西班牙电信Telefonica。他们和当地的零售集团合作,通过电信公司提供的地理位置数据、人流数据帮助自己开店选址。这一模式在中国也有合作,为此我们还专门开发了一个产品叫做选铺通。
我们在中国还有通信运营商和航空公司的合作。通信运营商有很多标签标识了这些客户是不是高价值客户,是不是商旅人士,是不是经常穿梭于某一些城市。因为你的开关机状态,地理位置信息会透漏。航空公司希望将两个数据关联起来,就可以知道那些客户的偏好和习惯,给他们精准地提供个性化的套餐服务或有针对性的服务。
哪些行业会最平坦快速地吸收大数据的改造?哪些行业不太适合?
过去几年,通信、互联网和金融行业想要获取大数据解决方案的需求最旺盛。汽车行业也渐渐开始有需求,包括驾驶行为怎么跟汽车保险公司合作等。
现在,我觉得十几、二十个行业都希望一起来勾画他们在大数据建设的能力,包括零售行业、制造行业等。他们想通过目前传感器技术的发展,机器生成的数据能够实时获取并快速分析,提供给产品设计部门进行改良、改造。
我觉得大数据能力的加载速度还是每个行业的信息化程度、对做数据驱动型企业的理解程度相关。通信行业天生就是一个大数据企业,因为它的数据最完整、最详细,而且存储周期最长。基础比较好,他们需要做的只是在大数据分析上花功夫,把数据价值释放出来。
金融行业也是一样,因为它的客户是与价值相关的,本身就要利用更多的大数据技术去抵御风险、实现监管、发现自己的潜在客户。这就又激发它创造更大的价值,创新商业模式。
而其他一些行业并不是不敏感,只是它们关注的方向不同。传统行业会更加专注具体的大数据分析出来的实际应用,比如医疗行业,病历一直是重要的医疗数据,在电子病历广泛应用前,这些数据一直是非结构化,信息很难产生联系和做分析。使用大数据技术解读电子数据,可以很快从电子病历中解析出每个人身体情况、病史,很好地优化了看病流程。
中国企业在进行培养大数据能力升级的时候所面临的最大的挑战是什么?
在中国,企业和政府单位都想拥有大数据治理、管理、分析的能力。但是我认为高管在做决策时,必须先搞清楚为什么要用大数据,搞清楚他们的企业想要达到的愿景是什么。
搞清楚为什么以后,看看具体落实的场景是什么。有了场景的规划,再进行排序,分析一下哪些场景是立即就可以给企业带来价值,哪些场景的价值会在长期。排序后,每一个场景所需要的解决方案不同。因此,企业可能需要的不是一个大数据解决方案,而是好几个解决方案的组合。
从供给面来看待这个企业的大数据能力,看看他能带来的价值。在这个大数据时代,以公司战略、业务战略、实现的具体业务、细致落地的场景这四个角度来优化企业的大数据能力建设过程会更好。
技术的转变是非常快的,开源技术这段时间比较热门,过几年也可能被新技术取代。这个世界变化非常快,而且是多维度的变动。因此企业要思考的非常清楚,不然很多的投资或当时的投入可能都要打水漂。
大数据分析指导决策对于服务团队行业理解力要求很高,Teradata在这一方法有什么经验?
我们公司的咨询服务团队里,有一个特别的团队叫做Industry Consultant,专门集合了一些对各个行业比较有了解的人才。但是,我们不可能完全取代客户对于行业的工作,我们与客户是一种合作、交流、讨论、相互学习。
我们有这样的团队,能够跟客户有共通的语言,理解客户希望通过大数据的分析达到什么样的业务增长和愿景。有一些热门的行业的人才是要去储备的,我们在雇佣人才时会看背景的,招募的都是非常优秀具有海外深造或相关行业的专业背景的人才。 来源:哈佛商业评论 齐菁|文 李全伟|编辑 齐菁是《哈佛商业评论》中文版新媒体编辑
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-10-01 10:48:00
在 AI 方面取得成功的那1%的企业都是云公司。 AlphaGo只不过是运行一系列程序算法来模拟场景,从中找出最优解。它真的能取代人类吗? 在AI被广泛使用之前,需要先解决技能差距、工具繁多和基础设施这三个重要问题。 让那99%的企业都能使用,实现AI“民主化”,帮助那些远远比不上“ 谷歌 们”的公司利用AI。
原文翻译:
关于 人工智能 (AI)的报道和评论为数众多。有人说它能创造奇迹,也有人说它对人类构成威胁。但Databricks公司联合创始人兼CEO阿里·高德西(Ali Ghodsi)要大家保持克制。Databricks来自加州大学伯克利分校AMPLab实验室,致力于ApacheSpark。
高德西说,在Databricks为其500多位企业客户提供支持的用例中,73%是基于AI。这些公司很多都在努力利用AI。但同时也有众多夸张的故事,讲述AI将如何掌控世界,又有多么强大、多么危险。
“当我们和试图解决预测问题的财富2000强企业交流时,他们的说法和媒体的报道反差极大,”高德西说。
AI的1%问题
他说,大家都想涉足AI,承认其巨大潜力,如果你问首席信息官和C级高管,他们打算如何保持竞争力, 人工智能 的使用很可能在他们的最重要的五个事项之列。高德西指出,人们以为AI无处不在,但事实大相径庭。
AI实际上存在“1%问题”。只有谷歌、亚马逊等少数公司利用人工智能达成了他们的目标。这些科技巨头拥有数以万计的硅谷工程师,其中很多人拥有博士学位,或者本来是麻省理工、斯坦福和加州大学伯克利分校等顶尖学府的优秀教授,他们致力于解决范围很小、为数也不多的问题,比如实现汽车的自动驾驶,或者让人们点击更多的广告。高德西解释说,他们在所从事的有限领域里取得了很大成功,但其余“99%”的公司没有这些资源,发现自己试图解决的问题异常复杂,不知如何下手。
早期应用
Databricks发现,在AI的早期应用方面,工业IT和医疗行业是两个突出的例子。企业从传感器收集数据,然后输入Databricks,预测在某地发现石油的可能性,从而提高勘探效率,改善对环境的影响。在医疗行业,机构利用AI来帮助识别图像中的癌症肿瘤。但这两个行业不仅需要数据科学家和数据工程师,还需要研究相关学科的专家,而这些专家通常不太熟悉AI、数据库系统和数据仓库。
就利用AI识别肿瘤的例子而言,这种应用还远未实现安全自动化。高德西说,谷歌工程师能开发出区分猫和狗的AI技术,“就算搞错了,也只是让人好笑而已。那是猫,但长的像狗。”但在医疗领域,如果某人说这是癌症肿瘤,但实际上并不是,那问题就严重了。
如何扩大AI的使用
高德西说,有三个问题必须解决,才能在更多的公司中更广泛地使用AI。
· 技能差距——首先,需要领域专家。高德西说,比如识别癌症就需要医生,还有懂得利用机器学习软件来建立预测模型的数据科学家。此外还需要了解数据库和数据仓库的数据工程师,他们知道数据应该存储在哪里,如何解决 大数据 的多样性、速度和其他问题。在充满政治色彩、关系到管理和权力的氛围中,让所有这些不同的角色协同工作,这不是件容易的事。
· 工具繁多——高德西说,现在有太多的工具需要整合,其中很多都是开源的。这些工具涵盖数据清洗、摄取、安全、预测和监控。想要使所有这些开源工具协同工作,企业必须雇佣开发人员,成功地实现软件互操作,而这只是为了让软件协同工作。
· 基础设施——高德西眼中的第三个挑战是运营基础设施,确保所有机器和集群处于安全状态,数据以受控的方式流动,因为在受到严格监管的行业里,黑客入侵或信息泄露会使公司面临严重的后果。
云是关键
高德西说,在踏上AI之旅时,这些是需要尽早解决的三个问题。为了解决它们,需要工具来实现协作、系统整合以及通过云加强基础设施的一致性和可用性。
· 协作工具——拥有能够实现多角色协作的工具,这是解决技能差距的最好方法。高德西说,这非常重要。
· 技术整合——技术需要整合起来,更好地协同工作,这样才能清洗数据,把它转换成数学格式以用于预测,添加更多数据,建立预测模型,让软件自动运行。高德西说,能否添加更多数据以丰富原始数据集,这关系到预测的准确性。
· 云——高德西说,想要确保基础设施始终运行良好,云是很好的解决之道。云能带来自动化、外包和确保基础设施始终运行良好的能力。在AI方面取得成功的那1%的企业都是云公司。这也许是巧合,也许不是,但在AI方面真正取得成功的谷歌、Facebook、亚马逊和其他公司都是云公司。他说:“我们认为,重要的区别就在于此。”
什么是AI,什么不是AI
高德西说,在AI被广泛使用之前,还有很长的路要走,很多人担心AI将取代人类大脑,但目前最先进的AI研究志不在此;AI实际上是人脑的补充,帮助人类更好地完成富有挑战性的任务。
谷歌拥有世界各地所有网站的大量信息。它是AI,还是一个仅仅拥有很多信息的数据库?高德西说,我们可以把这视为一个哲学问题。但毫无疑问,AI使人类能够非常高效地查找信息,因为没人可以在自己的电脑上存储所有那些数据,并识别所需信息的来源。如果你有一幅地图,想找出两点之间的最近路线,软件可以很好地做到这一点。但高德西说,在需要创造力、并非超结构的事情上,AI进展甚微。
高德西说,谷歌的AlphaGo之所以能战胜人类围棋冠军,是因为它进行模拟的速度比人脑更快。但他说,如果你让AlphaGo回顾其胜利,指出使它在比赛中取胜的关键落子,它就无能为力了。而人类可以大谈特谈他们迂回曲折的决策过程。AlphaGo只不过是运行一系列程序算法来模拟场景,从中找出最优解。它真的能取代人类吗?显然不行。
结论
“我认为,从本质上来讲,AI对人类不是件坏事。”高德西说。他指出,AI没有减少可供人类使用的资源,比如食物、教育和医疗。
但他认为,在AI被广泛使用之前,需要先解决技能差距、工具繁多和基础设施这三个重要问题。
哪些基因引起某些疾病这样的问题实际上很难回答,但人人都说他们正在取得“巨大进展”。高德西说:“没人会说‘这相当困难,充满挑战性。’”
他指出,另一个问题在于,关于AI的过分宣传使人们误以为AI对人类构成迫在眉睫的威胁,忽视了它的巨大潜力。
高德西说,Databricks的目标是尽可能地简化这项技术,让那99%的企业都能使用,实现AI“民主化”,帮助那些远远比不上“谷歌们”的公司利用AI。 原文: Artificial Intelligence Has a 1% Problem
来源: http://www.dbta.com/Editorial/News-Flashes/Artificial-Intelligence-Has-a-1-percent-Problem-119827.aspx
本文为专栏文章,来自:车品觉,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/48325.html 。
数据分析
2017-10-10 11:00:00
最近读了阿里的《 大数据 之路- 阿里巴巴 大数据实践》,对于其 机器学习 平台也蛮感兴趣,正好阿里出了本新书《解析阿里云机器学习平台》,顺便读了下,感触也不少,结合最近团队机器学习的一些思考,特别在此分享于你。
一、机器学习的门槛降得更低了
这本书的第一章是这么描述阿里云机器学习平台的,“阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离网预测、在线预测为一体的机器学习算法平台,用户通过拖曳可视化的操作组件来进行试验,使得没有机器学习背景的工程师也可以轻易上手玩转 数据挖掘 。”
这说得对也不对,对的是机器学习平台的易用性的确很重要,不对的是机器学习平台只解决功能性问题,数据挖掘其实大多时候是在做业务分析、处理数据和分析数据,而不是选择算法和跑通流程,再便捷的可视化平台对于降低机器学习的成本还是非常有限的,否则,要那么多数据建模师干嘛?
相对于SASS,SPSS等,阿里云机器学习平台在易用性、算法完整性及数据处理上是有其特点的,甚至是有一些优势的,因为它有MaxCompute平台的背书,笔者相信任何企业的业务人员只要懂点基本的数据概念,上手这个平台是非常容易的,体现了阿里云机器学习平台在企业级市场的雄心。
怎么个使用简便法呢?看下面一张示意图,任何的机器学习都采用简单的流程就可以描述出来,步骤清晰而简洁,大多非常雷同。
(1)离散值特征分析:就是分析离散变量与标签的关系,阿里云提供了很多变量分析方法,诸如直方图啥的
(2)拆分:就是将数据集拆分为训练和测试集
(3)随机森林:就是选择的算法,我看了下,包括逻辑回归、朴素贝叶斯、逻辑回归、GBDT、文本分析(比如LDA),协同过滤等大多算法,还支持TensorFlow,但只是打个包
(4)预测:就是用测试集数据进行验证
(5)评估:就是ROC,AUC诸如此类的传统评估方法
所有操作基本都是拖曳和配置,比较方便,对于不懂机器学习的人来讲,可以通过这个平台理解机器学习整体的流程,入门是相当的好,即使对于懂机器学习的人,也有助于开阔视野,加速自己的模型验证过程。
二、业务人员迎来新的机会
笔者以前提过,要做好数据挖掘,首先要有一定的业务积淀,这样做成的数据模型才可能有效, 数据挖掘中业务理解和数据准备占据70%以上的时间,外来和尚无法念好经往往不是算法不行,而是业务和数据理解力不行,因此,精通业务的人员其实至少已经是半个专业数据挖掘师了。
业务人员缺的倒是一些IT技能,以往这剩下的30%并不容易掌握,比如业务人员搞个逻辑回归可能还要学习一下语言,这个挑战还是比较大的,现在在这类易用的机器学习工具帮助下,他有可能基于丰富的业务经验让 数据分析 达到一个新的阶段。
当前在一些企业内部分业务人员已经开始自行进行取数,分析及挖掘了,但大多数企业仍然走的是取数流程或项目的方式,这个争议还是比较大的,但笔者相信,随着大数据应用的深入,由于其天生的创新性、迭代性的要求可能会引导业务人员逐步转型,或者组织上进行大的调整,比如数据挖掘师直接归属到业务部门。
IT人员则要专注于研发和改进诸如机器学习平台等中台类的工作,提升平台的体验,千方百计让业务人员用好这些平台,这也许是未来IT正确的姿势,也是双赢的局面。
现在很多企业的IT人员在从事数据挖掘、取数等工作,其处于IT,数据和业务的中间地带,从效率的角度讲,划到业务部门也未尝不可。
三、数据仓库建模师的机会
笔者相信未来这种易用型的机器学习平台将越来越多,意味着通用算法这部分技能行业门槛变得很低,仅仅懂几个算法的工程师在企业内的价值会贬值。
机器学习算法门槛的降低变相的提升了数据仓库建模师的价值,随着机器学习需求的增加,机器学习前期的数据理解、数据清洗和数据准备变得更为重要,谁能深入的理解业务,设计出好用的数据挖掘中台数据模型(这里的数据模型类似数据仓库建模),将极大降低数据挖掘的成本。
以前搞数据挖掘的数据中台其实笔者并不赞成,现在还是觉得有一定必要性了,一个当然是机器学习需求增长,数据中台的共享价值体现出来了,另一个则是当前的数据仓库模型并不能很好的支撑很多数据挖掘场景,团队的数据挖掘师各自为战,好的变量设计无法沉淀。
以下是阿里的关于电商购买预测中数据准备的一个案例,我觉得是需要有业务和数据经验的人体系化的去设计的,靠个人临时去准备一方面代价太大,另一方面也想不全面。
影响某个用户对某个品牌是否购买的特征有哪些呢?
首先是用户对品牌的关注,譬如:点击、发生过购买行为,收藏和假如过购物车,而在这些因素中,关注的行为离现在越近,即将购买的可能性就越大,所以我们会关注最近3天、最近一周、最近1个月、最近2个月、最近3个月和有记录的所有时间的情况,于是有了如下一些特征。 最近3天点击数、购买数、收藏数和加入购物车次数 最近1周点击数、购买数、收藏数和加入购物车次数 最近1个月点击数、购买数、收藏数和加入购物车次数 最近2个月点击数、购买数、收藏数和加入购物车次数 最近3个月点击数、购买数、收藏数和加入购物车次数 全部点击数、购买数、收藏数和加入购物车次数
有了关注时间段细分的关注次数还不够,还希望知道该数值的变化率,来刻画该关注的持续程度,我们还可以构造如下特征: 最近3天点击数变化率(最近3天点击数/最近4-6天点击数)、购买数变化率、收藏数变化率、加入购物车次数变化率 最近1周点击数变化率(最近1周点击数/上周点击数)、购买数变化率、收藏数变化率、加入购物车次数变化率 最近1月点击数变化率(最近1月点击数/上月点击数)、购买数变化率、收藏数变化率、加入购物车次数变化率
如果用户对该品牌曾有过购买行为,我们希望了解,通过多少次点击产生了一次购买,多少次收藏转化为一次购买,即购买转化率,构造特征如下: 最近3天点击转化率、收藏转化、加入购物车转化率 最近1周点击转化率、收藏转化、加入购物车转化率 最近1月点击转化率、收藏转化、加入购物车转化率 整体点击转化率、收藏转化、加入购物车转化率
其次,我们将注意力放在用户上,需要构造特征将用户的特点表现出来,重点是该用户对其关注的所有品牌的总体行为,用户最近对所有品牌的关注度,有如下特征: 最近3天点击数、购买数、收藏数和加入购物车次数 最近1周点击数、购买数、收藏数和加入购物车次数 最近1个月点击数、购买数、收藏数和加入购物车次数 最近2个月点击数、购买数、收藏数和加入购物车次数 最近3个月点击数、购买数、收藏数和加入购物车次数 全部点击数、购买数、收藏数和加入购物车次数 最近3天点击转化率、收藏转化、加入购物车转化率 最近1周点击转化率、收藏转化、加入购物车转化率 最近1月点击转化率、收藏转化、加入购物车转化率 整体点击转化率、收藏转化、加入购物车转化率
最后,单独看品牌这个因素的影响,有的热门品牌,关注度很高,而我们更关心其近期的情况,有如下特征。 最近3天被点击数、被购买数、被收藏数和被加入购物车次数 最近1周被点击数、被购买数、被收藏数和被加入购物车次数 最近1月被点击数、被购买数、被收藏数和被加入购物车次数 最近3月被点击数、被购买数、被收藏数和被加入购物车次数 全部被点击数、被购买数、被收藏数和被加入购物车次数 最近3天点击转化率、收藏转化、加入购物车转化率 最近1周点击转化率、收藏转化、加入购物车转化率 最近1月点击转化率、收藏转化、加入购物车转化率 整体点击转化率、收藏转化、加入购物车转化率
综上,某个用户对某个品牌是否购买的特征由刻画该用户对该品牌关注的各种特征,描述该用户的特征,以及描述该品牌的特征共同构成。
这么复杂的特征变量设计不应该每次做机器学习的时候去生成,而应该沉淀下来,其实每个企业都有类似的场景,但我们在做特征设计的时候,往往难以考虑的这么周全,想到哪做到哪,这体现出了数据挖掘数据中台的价值。
四、机器学习工程师价值的思考
读完阿里这本书,虽然更像是在看一本机器学习平台的说明书,也许专业人士会觉得LOW,但笔者是能体会到其在平台易用性上花的功夫的,团队也在做类似的一些事情,但还是有很大差距的,做了就知道了。
这本书引发的数据挖掘中台思考,也是不经意看案例时体会到的,企业实践的东西有这个好处,它在说一个事情,但过程却透露了很多实践的秘密,类似的东西还要很多,比如逻辑回归变量重要性的判断,我以前一直理解有误,比如特征哑元化的使用场景,比如KNN和随机森林在一些场景的表现,又如LDA的解释,由于案例放在那里,你很容易感性的得到理解,还有GBDT,笔者以前没听说过,团队说要用这个算法的时候,当时是一脸懵逼。
这周在与成员回顾某个数据挖掘的过程中,成员提到将矩阵算法换成GBDT时候付出了很大的代价,持续了很长时间,但效果提升了一点点,笔者也只能惭愧的笑笑了,要为自己的无知付出代价。
很多时候数据挖掘师很努力,但成果寥寥,我觉得最大问题是不理解客户的最终诉求,视野窄了,把算法当成了结果,数据挖掘师经常说案头苦干了1个月,XX算法提升了XX个点,非常不错,我说,到底带来了多少收入和用户?
其实不同企业的情况不同,在腾讯将推荐算法提升平均1个点当然是牛逼,但在我这个企业内,也许毫无价值,大家的起点完全不同。
其实作为客户,也根本不关注手段,要的就是效果,手段能简化就简化,用一个新数据往往好过新算法,以最低的代价获得最大的收益就是要做的事情,阿里云机器学习平台就是希望降低那个30%的成本时间,但也仅此而已。
未来是 人工智能 的时代,人工智能也在逐步平台化,今天你说掌握个深度学习好像还很先进,但被集成后就大幅贬值了,只有差异化才有价值,现在TensorFlow技术文章其实还不多,我们在试用TensorFlow On Spark的时候进度偏慢,这个时候你懂就有价值。
未来也许只有三类机器学习工程师有前途,一类是能改进和创造新的算法的,这是算法大师,二是做机器学习平台的,含功能,算法和数据,这是产品大师,三是能够深刻理解客户需求的,在某个行业有足够业务和数据底蕴,因此能够利用高效的平台工具创造价值的,这是应用大师。
有机会,你也可以去读读这本书。
本文为专栏文章,来自:傅一平,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/48331.html 。
数据分析
2017-09-24 13:30:00
ViZDoom 是一个 AI 研究平台,允许你训练机器人来玩 Doom,这是 1993 年最初由 id Software 发布的经典第一人称视角射击游戏。ViZDoom 使用一款开源 Doom 引擎 ZDoom 与游戏进行交互。
ViZDoom 包含了一系列用 C ++,Java,Lua 和 Python 编写的 示例机器人 。在许多情况下,模型本身依赖于各种潜在的深度学习库,如 TensorFlow 和 Theano 。
使用 ViZDoom,机器人将针对场景进行训练。ViZDoom 在发布源代码中包含几种场景。场景定义了 Doom 地图,机器人可用的控件(如左转,攻击等),玩家模式和技能水平。
在这篇博文中,我将通过设置 ViZDoom 和 TensorFlow ,并训练机器人在 Doom 中扮演恶魔。
ViZDoom 启动运行
以下是在全新安装的 Ubuntu Desktop 14.04.4 上运行。通常我使用了分布式服务器,但是我想看到机器人在完成训练后玩游戏。
我将使用 Google 的深度学习框架 TensorFlow 进行机器人培训。为了方便起见,我将描述如何使用 CPU 运行所有内容,但是如果要使用 GPU 进行训练,那么请进一步了解参阅基于 GTX 1080 的 TensorFlow 博客 ,以 GPU 为中心的安装说明。在许多情况下,TensorFlow 将在 GPU 上比常规桌面 CPU 快一至二个数量级。
我正在使用的机器配置 Intel Core i5 4670K,频率为 3.4 GHz,32 GB DDR3 内存,SanDisk SDSSDHII960G 960 GB SSD 驱动器和 Nvidia GeForce GTX 1080 显卡。
首先,我将安装各种包依赖。 $ sudo apt-get update $ sudo apt-get install \ build-essential \ cmake \ gfortran \ git \ libatlas-base-dev \ libblas-dev \ libboost-all-dev \ libbz2-dev \ libfluidsynth-dev \ libgme-dev \ libgtk2.0-dev \ libjpeg-dev \ liblapack-dev \ liblua5.1-dev \ libopenal-dev \ libsdl2-dev \ libwildmidi-dev \ nasm \ openjdk-7-jdk \ python-dev \ python-pip \ python-virtualenv \ tar \ timidity \ zlib1g-dev
然后我将设置 Java 的主文件夹。
$ export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
ViZDoom 是用 Python 编写的,所以我将创建一个虚拟环境并激活它。 $ virtualenv vz $ source vz / bin / activate
然后我将安装五个基于 Python 的依赖。其中包括 TensorFlow 的分布式 CPU 驱动的 wheel。如果要使用 CUDA 支持的 GPU 加速版本,有一个单独的分布式。 $ pip install \ cython \ numpy $ pip install \ scikit-image \ https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.0-cp27-none-linux_x86_64.whl \ tqdm
然后,我将克隆 ViZDoom git 存储库,构建 Python 模块并进行安装。 $ git clone https://github.com/mwydmuch/ViZDoom.git $ cd ViZDoom $ cmake -DCMAKE_BUILD_TYPE=Release \ -DBUILD_PYTHON=ON \ -DBUILD_JAVA=ON \ -DBUILD_LUA=ON $ make $ pip install.
基于 TensorFlow 的模型通常与 CPU 和 GPU 无关,但如果你使用 CPU 驱动的分布式 TensorFlow 进行训练,则可能会看到警告:所使用的 wheel 没有为你的 CPU 进行优化编译。如果你正在运行第四代或更高版本的 Intel Core i5 CPU,则将缺乏对 SSE3,SSE4.1,SSE4.2,AVX 和 FMA 指令的支持。
训练 Doom 机器人
有一个示例模型 「learning_tensorflow.py」 位于 examples/python 文件夹中,该文件夹将加载机器人在空房间的场景,一个敌人在另一端。机器人有能力左右移动攻击。机器人基于在比赛时间结束之前能够快速杀死对手的得分。
以下是此方案的配置文件:
$ cat scenarios/simpler_basic.cfg doom_scenario_path = simpler_basic.wad # Rewards living_reward = -1 # Rendering options screen_resolution = RES_640X480 screen_format = GRAY8 render_hud = true render_crosshair = false render_weapon = true render_decals = false render_particles = false # make episodes start after 20 tics (after unholstering the gun) episode_start_time = 14 # make episodes finish after 300 actions (tics) episode_timeout = 300 # Available buttons available_buttons = { MOVE_LEFT MOVE_RIGHT ATTACK }
下面花了 14 分钟训练机器人。 $ cd examples/python $ python learning_tensorflow.py
一旦训练完成,底层的开源 Doom 引擎 ZDoom 开始并且可以看到机器人在 10 局不同的游戏中对付敌人。
机器人每回合拥有 50 发弹药,并给予 300 个游戏动作来杀死单个恶魔。在这种情况下,恶魔并没有反抗,也没有太大的动作。不幸的是,即使有这么好的设置,在超过 20% 的游戏中,机器人很少杀死恶魔。以下是10场比赛的得分。 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: 56.0 Total score: -404.0 Total score: -1.0 Total score: -404.0
保卫中心
ViZDoom 附带的其他场景是「保卫中心」场景,其中机器人在一个竞技场中是静止的,只允许左右转动并进行攻击。有一列的敌人会稳定地接近机器人,在敌人攻击之前有时间杀死他们。ViZDoom 的主要开发者之一,Micha Kempka 上传了这种情况下视频的到 YouTube。
在我的 GTX 1080 上使用 GPU 加速 TensorFlow 分布式来训练机器人之前,我修改了以下五行代码的示例 /python/ learning_tensorflow.py。训练了41分钟才能完成。 learning_rate = 0.002 epochs = 5 learning_steps_per_epoch = 4000 test_episodes_per_epoch = 1000 config_file_path = "../../scenarios/defend_the_center.cfg"
每杀死一个敌人,机器人获得一分,并且如果死亡,它会失去一分。每轮有 26 发弹药。在这过程中,我注意到机器人开始非常乱开枪,它的弹药库消耗有一点太快,遗漏一些恶魔。它值得在射击时瞄准目标。
十次运行后,机器人死亡前平均每场杀死 5.9 名恶魔, Total score: 5.0 Total score: 3.0 Total score: 5.0 Total score: 5.0 Total score: 4.0 Total score: 5.0 Total score: 6.0 Total score: 5.0 Total score: 7.0 Total score: 4.0
作者:Mark Litwintschik
本文地址: http://tech.marksblogg.com/tensorflow-vizdoom-bots.html
本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/48323.html 。
数据分析
2017-09-23 09:00:00
1.常见算法套路
电商行业中,对于用户的商品推荐一直是一个非常热门而且重要的话题,有很多比较成熟的方法,但是也各有利弊,大致如下: 基于商品相似度:比如食物A和食物B,对于它们价格、味道、保质期、品牌等维度,可以计算它们的相似程度,可以想象,我买了包子,很有可能顺路带一盒水饺回家。
优点:冷启动,其实只要你有商品的数据,在业务初期用户数据不多的情况下,也可以做推荐
缺点:预处理复杂,任何一件商品,维度可以说至少可以上百,如何选取合适的维度进行计算,设计到工程经验,这些也是花钱买不到的
典型:亚马逊早期的推荐系统 基于 关联规则 :最常见的就是通过用户购买的习惯,经典的就是“啤酒尿布”的案例,但是实际运营中这种方法运用的也是最少的,首先要做关联规则,数据量一定要充足,否则置信度太低,当数据量上升了,我们有更多优秀的方法,可以说没有什么亮点,业内的算法有apriori、ftgrow之类的
优点:简单易操作,上手速度快,部署起来也非常方便
缺点:需要有较多的数据,精度效果一般
典型:早期运营商的套餐推荐 基于物品的协同推荐:假设物品A被小张、小明、小董买过,物品B被小红、小丽、小晨买过,物品C被小张、小明、小李买过;直观的看来,物品A和物品C的购买人群相似度更高(相对于物品B),现在我们可以对小董推荐物品C,小李推荐物品A,这个推荐算法比较成熟,运用的公司也比较多
优点:相对精准,结果可解释性强,副产物可以得出商品热门排序
缺点:计算复杂,数据存储瓶颈,冷门物品推荐效果差
典型:早期一号店商品推荐 基于用户的协同推荐:假设用户A买过可乐、雪碧、火锅底料,用户B买过卫生纸、衣服、鞋,用户C买过火锅、果汁、七喜;直观上来看,用户A和用户C相似度更高(相对于用户B),现在我们可以对用户A推荐用户C买过的其他东西,对用户C推荐用户A买过买过的其他东西,优缺点与 基于物品的协同推荐 类似,不重复了。 基于模型的推荐:svd+、特征值分解等等,将用户的购买行为的矩阵拆分成两组权重矩阵的乘积,一组矩阵代表用户的行为特征,一组矩阵代表商品的重要性,在用户推荐过程中,计算该用户在历史训练矩阵下的各商品的可能性进行推荐。
优点:精准,对于冷门的商品也有很不错的推荐效果
缺点:计算量非常大,矩阵拆分的效能及能力瓶颈一直是受约束的
典型:惠普的电脑推荐 基于时序的推荐:这个比较特别,在电商运用的少,在Twitter,Facebook,豆瓣运用的比较多,就是只有赞同和反对的情况下,怎么进行评论排序,详细的可以参见我之前写的一篇文章: 应用:推荐系统-威尔逊区间法 基于 深度学习 的推荐:现在比较火的CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)都有运用在推荐上面的例子,但是都还是试验阶段,但是有个基于word2vec的方法已经相对比较成熟,也是我们今天介绍的重点。
优点:推荐效果非常精准,所需要的基础存储资源较少
缺点:工程运用不成熟,模型训练调参技巧难
典型:苏宁易购的会员商品推荐
2.item2vec的工程引入
现在苏宁的商品有约4亿个,商品的类目有10000多组,大的品类也有近40个,如果通过传统的协同推荐,实时计算的话,服务器成本,计算能力都是非常大的局限,之前已经有过几篇应用介绍: 基于推荐的交叉销售 、 基于用户行为的推荐预估 。会员研发部门因为不是主要推荐的应用部门,所以在选择上,我们期望的是更加 高效高速且相对准确的简约版 模型方式,所以我们这边基于了word2vec的原始算法,仿造了itemNvec的方式。
首先,让我们对itemNvec进行理论拆分:
part one:n-gram
目标商品的前后商品对目标商品的影响程度
这是两个用户userA,userB在易购上面的消费time line,灰色方框内为我们观察对象,试问一下,如果换一下灰色方框内的userA、userB的购买物品,直观的可能性有多大?
直观的体验告诉我们,这是不可能出现,或者绝对不是常出现的,所以,我们就有一个初始的假设, 对于某些用户在特定的类目下,用户的消费行为是连续影响的 ,换句话说,就是我买了什么东西是依赖我之前买过什么东西。如何通过算法语言解释上面说的这件事呢?
大家回想一下,naive bayes做垃圾邮件分类的时候是怎么做的?
假设“我公司可以提供发票、军火出售、航母维修”这句话是不是垃圾邮件? P1(“垃圾邮件”|“我公司可以提供发票、军火出售、航母维修”)
=p(“垃圾邮件”)p(“我公司可以提供发票、军火出售、航母维修”/“垃圾邮件”)/p(“我公司可以提供发票、军火出售、航母维修”)
=p(“垃圾邮件”)p(“发票”,“军火”,“航母”/“垃圾邮件”)/p(“发票”,“军火”,“航母”)
同理 P2(“正常邮件”|“我公司可以提供发票、军火出售、航母维修”)
=p(“正常邮件”)p(“发票”,“军火”,“航母”/“正常邮件”)/p(“发票”,“军火”,“航母”)
我们只需要比较p1和p2的大小即可,在 条件独立的情况下 可以直接写成: P1(“垃圾邮件”|“我公司可以提供发票、军火出售、航母维修”)
=p(“垃圾邮件”)p(“发票”/“垃圾邮件”)p(“军火”/“垃圾邮件”)p(“航母”/“垃圾邮件”)
P2(“正常邮件”|“我公司可以提供发票、军火出售、航母维修”)
=p(“正常邮件”)p(“发票”/“正常邮件”)p(“军火”/“正常邮件”)p(“航母”/“正常邮件”)
但是,我们看到,无论“我公司可以提供发票、军火出售、航母维修”词语的顺序怎么变化,不影响它最后的结果判定,但是我们这边的需求里面前面买的东西对后项的影响会更大。
冰箱=>洗衣机=>衣柜=>电视=>汽水,这样的下单流程合理
冰箱=>洗衣机=>汽水=>电视=>衣柜,这样的下单流程相对来讲可能性会更低
但是对于naive bayes,它们是一致的。
所以,我们这边考虑顺序,还是上面那个垃圾邮件的问题。
P1(“垃圾邮件”|“我公司可以提供发票、军火出售、航母维修”)
=p(“垃圾邮件”)p(“发票”)p(“军火”/“发票”)p(“军火”/“航母”)
P1(“正常邮件”|“我公司可以提供发票、军火出售、航母维修”)
=p(“正常邮件”)p(“发票”)p(“军火”/“发票”)p(“军火”/“航母”)
这边我们每个词只依赖前一个词,理论上讲依赖1-3个词通常都是可接受的。以上的考虑顺序的bayes就是基于著名的马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词下的联合概率问题,相关详细的理论数学公式就不给出了,这边这涉及一个思想。
part two:Huffman Coding
更大的数据存储形式
我们常用的user到item的映射是通过one hot encoding的形式去实现的,这有一个非常大的弊端就是数据存储系数且维度灾难可能性极大。
回到最初的那组数据: 现在苏宁的商品有约4亿个,商品的类目有10000多组,大的品类也有近40个 ,同时现在会员数目达到3亿,要是需要建造一个用户商品对应的购买关系矩阵做 基于用户的协同推荐 的话,我们需要做一个4亿X6亿的1/0矩阵,这个是几乎不可能的,Huffman采取了一个近似二叉树的形式进行存储:
我们以易购商品购买量为例,讲解一下如何以二叉树的形式替换one hot encoding存储方式:
假设,818苏宁大促期间,经过统计,有冰箱=>洗衣机=>烘干机=>电视=>衣柜=>钻石的用户下单链条(及购买物品顺序如上),其中冰箱总售出15万台,洗衣机总售出8万台,烘干机总售出6万台,电视总售出5万台,衣柜总售出3万台,钻石总售出1万颗
Huffman树构造过程 1.给定{15,8,6,5,3,1}为二叉树的节点,每个树仅有一个节点,那就存在6颗单独的树 2.选择节点权重值最小的两颗树进行合并也就是{3}、{1},合并后计算新权重3+1=4 3.将{3},{1}树从节点列表删除,将3+1=4的新组合树放回原节点列表 4.重新进行2-3,直到只剩一棵树为止
针对每层每次分支过程,我们可以将所有权重大的节点看做是1,权重小的节点看做是0,相反亦可。现在,我们比如需要知道钻石的code,就是1000,也就是灰色方框的位置,洗衣机的code就是111;这样的存储利用了0/1的存储方式,也同时考虑了组合位置的排列长度,节省了数据的存储空间。
part three:node probility
最大化当前数据出现可能的概率密度函数
对于钻石的位置而言,它的Huffman code是1000,那就意味着在每一次二叉选择的时候,它需要一次被分到1,三次被分到0,而且每次分的过程中,只有1/0可以选择,这是不是和logistic regression里面的0/1分类相似,所以这边我们也直接使用了lr里面的交叉熵来作为loss function。
其实对于很多机器学习的算法而言,都是按照先假定一个模型,再构造一个损失函数,通过数据来训练损失函数求argmin(损失函数)的参数,放回到原模型。
让我们详细的看这个钻石这个例子:
第一步
p(1|No.1层未知参数)=sigmoid(No.1层未知参数)
第二步
p(0|No.2层未知参数)=sigmoid(No.2层未知参数)
同理,第三第四层:
p(0|No.3层未知参数)=sigmoid(No.3层未知参数)
p(0|No.4层未知参数)=sigmoid(No.4层未知参数)
然后求p(1|No.1层未知参数)xp(0|No.2层未知参数)xp(0|No.3层未知参数)xp(0|No.4层未知参数)最大下对应的每层的未知参数即可,求解方式与logistic求解方式近似,未知参数分布偏导,后续采用梯度下降的方式(极大、批量、牛顿按需使用)
part four:approximate nerual network
商品的相似度
刚才在part three里面有个p(1|No.1层未知参数)这个逻辑,这个NO.1层未知参数里面有一个就是商品向量。
举个例子:
存在1000万个用户有过:“啤酒=>西瓜=>剃须刀=>百事可乐”的商品购买顺序
10万个用户有过:“啤酒=>苹果=>剃须刀=>百事可乐”的商品购买顺序,如果按照传统的概率模型比如navie bayes 或者n-gram来看,P(啤酒=>西瓜=>剃须刀=>百事可乐)>>p(啤酒=>苹果=>剃须刀=>百事可乐),但是实际上这两者的人群应该是同一波人,他们的属性特征一定会是一样的才对。
我们这边通过了随机初始化每个商品的特征向量,然后通过part three的概率模型去训练,最后确定了词向量的大小。除此之外,还可以通过神经网络算法去做这样的事情。

Bengio 等人在 2001 年发表在 NIPS 上的文章《A Neural Probabilistic Language Model》介绍了详细的方法。
我们这边需要知道的就是,对于最小维度商品,我们以商品向量(0.8213,0.8232,0.6613,0.1234,…)的形式替代了0-1点(0,0,0,0,0,1,0,0,0,0…),单个的商品向量无意义,但是成对的商品向量我们就可以比较他们间的余弦相似度,就可以比较类目的相似度,甚至品类的相似度。
3.python代码实现
1.数据读取 # -*- coding:utf-8 -*- import pandas as pd import numpy as np import matplotlib as mt from gensim.models import word2vec from sklearn.model_selection import train_test_split order_data = pd.read_table('C:/Users/17031877/Desktop/SuNing/cross_sell_data_tmp1.txt') dealed_data = order_data.drop('member_id', axis=1) dealed_data = pd.DataFrame(dealed_data).fillna(value='')
2.简单的数据合并整理 # 数据合并 dealed_data = dealed_data['top10'] + [" "] + dealed_data['top9'] + [" "] + dealed_data['top8'] + [" "] + dealed_data['top7'] + [" "] + dealed_data['top6'] + [" "] + dealed_data['top5'] + [" "] + dealed_data[ 'top4'] + [" "] + dealed_data['top3'] + [" "] + dealed_data['top2'] + [" "] + dealed_data['top1'] # 数据分列 dealed_data = [s.encode('utf-8').split() for s in dealed_data] # 数据拆分 train_data, test_data = train_test_split(dealed_data, test_size=0.3, random_state=42)
3.模型训练 # 原始数据训练 # sg=1,skipgram;sg=0,SBOW # hs=1:hierarchical softmax,huffmantree # nagative = 0 非负采样 model = word2vec.Word2Vec(train_data, sg=1, min_count=10, window=2, hs=1, negative=0)
接下来就是用model来训练得到我们的推荐商品,这边有三个思路,可以根据具体的业务需求和实际数据量来选择:
3.1 相似商品映射表 # 最后一次浏览商品最相似的商品组top3 x = 1000 result = [] result = pd.DataFrame(result) for i in range(x): test_data_split = [s.encode('utf-8').split() for s in test_data[i]] k = len(test_data_split) last_one = test_data_split[k - 1] last_one_recommended = model.most_similar(last_one, topn=3) tmp = last_one_recommended[0] + last_one_recommended[1] + last_one_recommended[2] last_one_recommended = pd.concat([pd.DataFrame(last_one), pd.DataFrame(np.array(tmp))], axis=0) last_one_recommended = last_one_recommended.T result = pd.concat([pd.DataFrame(last_one_recommended), result], axis=0)
考虑用户最后一次操作的关注物品x,干掉那些已经被用户购买的商品,剩下的商品表示用户依旧有兴趣但是因为没找到合适的或者便宜的商品,通过商品向量之间的相似度,可以直接计算出,与其高度相似的商品推荐给用户。
3.2 最大可能购买商品
根据历史上用户依旧购买的商品顺序,判断根据当前这个目标用户近期买的商品,接下来他最有可能买什么?
比如历史数据告诉我们,购买了手机+电脑的用户,后一周内最大可能会购买背包,那我们就针对那些近期购买了电脑+手机的用户去推送电脑包的商品给他,刺激他的潜在规律需求。 # 向量库 rbind_data = pd.concat( [order_data['top1'], order_data['top2'], order_data['top3'], order_data['top4'], order_data['top5'], order_data['top6'], order_data['top7'], order_data['top8'], order_data['top9'], order_data['top10']], axis=0) x = 50 start = [] output = [] score_final = [] for i in range(x): score = np.array(-100000000000000) name = np.array(-100000000000000) newscore = np.array(-100000000000000) tmp = test_data[i] k = len(tmp) last_one = tmp[k - 2] tmp = tmp[0:(k - 1)] for j in range(number): tmp1 = tmp[:] target = rbind_data_level[j] tmp1.append(target) test_data_split = [tmp1] newscore = model.score(test_data_split) if newscore > score: score = newscore name = tmp1[len(tmp1) - 1] else: pass start.append(last_one) output.append(name) score_final.append(score)
3.3 联想记忆推荐
在3.2中,我们根据了这个用户近期购买行为,从历史已购用户的购买行为数据发现规律,提供推荐的商品。还有一个近似的逻辑,就是通过目标用户最近一次的购买商品进行推测,参考的是历史用户的单次购买附近的数据,详细如下:
这个实现也非常的简单,这边代码我自己也没有写,就不贴了,采用的还是word2vec里面的 predict_output_word(context_words_list, topn=10) ,Report the probability distribution of the center word given the context words as input to the trained model
其实,这边详细做起来还是比较复杂的,我这边也是简单的贴了一些思路,如果有不明白的可以私信我,就这样,最后,谢谢阅读。
——本文由作者 沙韬伟 投稿至 数据分析 网,并经编辑发布,版权归作者所有。
作者:沙韬伟,苏宁易购高级算法工程师。曾任职于Hewlett-Packard、滴滴出行。主要研究方向包括自然语言分析、机器学习和风控深度学习。目前专注于基于深度学习及集成模型下的用户行为模式的识别。
本文由 沙韬伟 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/47739.html 。
数据分析
2017-08-30 14:07:00
“为什么我的论文总发表不了,是不是我天生就不是做研究的料?”很多同学在写论文中遇到挫折,经常会发出这样的疑问。那么今天我就用星座,真实的数据和“高大上”的 机器学习 来帮大家分析一下原因。首先声明,我不是宿命论的支持者,也不懂占星术。本文也不是教大家如何成功,但利用本文的研究成果,可以帮助大家少走些弯路。现在网络上充斥着各种星座分析,但和本文相比都弱爆了。不管大家之前对星座分析持何种态度,我希望大家耐心读完本文之后,能对星座与天赋有全新的认识。(本文中的“天赋”其实用“本性”更合适些,因为它还包括了性格等因素。)本文的研究方法很简单:聚天下之天才而观察之。把各行各业中的天才们收集起来,看看他们哪个星座人数多,哪个星座人数少。方法简单,人人都会。但操作细节很重要,这样做出来的结果才会有意思(本文研究方法的具体细节见【附录】)。我们先来看一下有哪些天才被我当成了“小白鼠”。“表一”总结了本文所使用的数据。 表一:数据总结表
本文共选择了27个行业,总共5700多个样本,其中华人约占350个,女性约占600个,南半球约占300个。如果没有特别注明,各行业数据的历史一般是从该奖项(如果有的话)设立开始,直到2017年为止。有些行业有严格的筛选过程,比如每年评选的诺贝尔奖,各种体育竞技项目的国际比赛等,我们就可以利用它们来确定样本。然而,另一些行业没有固定的筛选过程,尤其是艺术类。所以,我们只能靠“时间”来筛选。具体来说,就是用搜索引擎搜索“历史上著名XXX”(XXX为职业名,比如,建筑师,作家等),来挑选举世公认的行业领军人物。本文使用的数据的总时间跨度大约是最近300年左右。
既然介绍了数据,那么我们就来看一下使用所有的数据统计出的星座分布(图一)(注:由于每个星座内的天数稍有不同,我用得到的每个星座的人数除以该星座的天数,从而算出星座分布的日均数,以排除天数不同带来的影响。本文之后所有的计算和结论都建立在诸如此类的日均数上)。图一的四种颜色分别代表土(黄色),水(蓝色),火(红色),风(灰色)四大星象。从图一中,我们看到射手人数最少,而与之相邻的摩羯座人数最多,两者的平均数接近全部星座的平均数15.5。另外,两头的白羊座和双鱼座人数也不少。除此之外,就很难看出有其它什么规律了。如果本文的星座分析是这样的话,就太”图样图森破“了。所以,让我们接着往下看。
图一:星座人数总分布图
关于天赋的星座分析
我把判断显著差别的计分法则(见【附录一】)运用到“表一”的27个行业上,我们就得到了“表二”(简单理解,正2分表示“人数非常多”,正1分表示“人数比较多”,负1分表示“人数比较少”,负2分表示“人数非常少”,0分则表示“人数不多不少,处于平均水平”)。请记住“表二”,因为它是本文上半部分最重要的成果!
表二:十二星座行业得分表
我在表的上方标注了每个行业所可能需要的"(主要)能力"(以我这个外行的角度),有些能力是几个行业共享的。另外,“表二”是仅仅基于北半球的样本所得结果(至于为什么分南北半球,我将在本文下半部分作详细解释)。行文至此,星座与天赋之间的关系就在“表二”建立起来了。是不是表中出现2分的情况比你想的要多得多?有同学可能会问: “表中某星座在某行业得了2分,说明这个星座在这个行业的领军人物的人数要超过其他星座,会不会是因为这个星座从事这行业的人本来就多呢?” 要回答这个问题,就得调查这个行业的所有从业人员的星座了,可惜相关数据很难获得。另外,如果从事这行业的人本来就多,这本身就是一个很有意思的现象。与本文的研究并不矛盾。
言归正传,鉴于此表的信息量很大,我们可以先计算各个星座的大类(科研,艺术,体育)平均得分,这样看起来可以更直观一些。如下表所示,在科研方面,处女座和狮子座这两个相邻星座分别占据着科研的头名和末名。在艺术方面,白羊座是当仁不让的第一,而双子座,处女座和摩羯座则并列最后。在体育方面,摩羯座表现突出,而天蝎座则表现不佳。总的来说,这些星座如果在某一方面特别强,那么在其它方面就会差一点,甚至很差。反倒是巨蟹座和天秤座虽然没有最强的某一方面,但是在全部三个方面都优于平均水平,属于均衡发展型。
表三:十二星座大类行业平均得分表
下面我就基于“表二”对十二个星座依次进行分析。(请注意,下文括号内的代表人物是一些个例,是按影响力大小选择的,并不一定符合这里统计意义上的性格特征描述)
一,白羊座(代表人物:欧拉,格里高利·派克,黑泽明,卡拉扬,达芬奇,梵高)
白羊座在艺术类得分之高,无人能出其右,尤其是需要运用感情和强烈的肢体语言来表达的表演,指挥和钢琴演奏。再加上导演和绘画,网络上对白羊座的评价是:冲动,积极,思维活跃。我觉得还是有些靠谱的。同时,也说明他们擅长表达和诠释事物的内涵。这样才能做出出色的数学研究,去诠释世间美妙的真谛!白羊座在计算机和围棋上得分很低,说明他们不喜欢按部就班地进行计算和算计。
二,金牛座(代表人物:高斯,萨缪尔森,哈耶克,贝聿铭,范斯哲,奥黛丽·赫本)
金牛座在艺术类中的导演和时装设计得分比较高但绘画得分一般,说明他们画面感很强,而且善于运用到实际中。金牛座在斯诺克和宇航员这两项中得分较高,说明网络上流传的“金牛座可靠,有耐心”并非空穴来风。优秀的斯诺克选手需要时刻保持绅士风度,斯诺克本身就是一项需要克制情绪的运动,如果过度兴奋或者过度悲观,都难以打好。至于宇航员更是如此。众所周知,宇航员的选拔条件非常严苛,必须具有非常坚强的意志品质和忍耐力来面对各种恶劣的生存环境。金牛座在网球项目上得到了为数不多的负2分,这更说明他们 “稳重,缺少爆发力” 。至于金牛座的其它性格,比如,吝啬,古板,我们无法从行业表现中得到答案。
三,双子座(代表人物:纳什,赫伯特·西蒙,特朗普,吴清源)
双子座不擅长做“大生意”,而喜欢“耍小聪明”,摆弄“小玩意儿”,比如,下个棋,照个相。他们也不擅长需要热情冲动的行业,比如,表演,绘画,时装设计等,而且在斯诺克上表现也不好。这倒挺符合网络对双子座的评价:“机智,善变,不安分”。即使是做研究也是关注“小”的方面,比如,在诺贝尔经济学奖获得者中,有10位是双子座的,竟无一人研究宏观经济学。倒是有4人研究博弈论(John Harsanyi,Lloyd S. Shapley,Robert Aumann,John Nash),4人研究微观经济学(Maurice Allais ,Herbert Simon,George Akerlof,William Vickrey)。
四,巨蟹座(代表人物:图灵,梅丽尔·斯特里普,乔治·阿玛尼,伊隆·马斯克)
巨蟹座在表演,尤其是时装设计中得了高分。如果把表演细分成男演员和女演员,巨蟹座在女演员分布中的得分比在细分前还要高(仅次于天蝎座,“蛇蝎美人”原来是有数据支持的!呵呵。)。再结合他们在时装设计中的抢眼表现,果然如同网络所说,这是一个“母性泛滥”的星座!照这个情况,巨蟹座不应该在钢琴演奏中获得低分。获得低分的原因可能是因为它们对于枯燥的反复训练缺乏坚持下去的毅力。这一点得到了宇航员的佐证。在重压之下,巨蟹座早早地就躲进了自己的蟹壳中,呵呵。尽管如此,巨蟹座因为他们的小心谨慎使得他们在玩德州扑克时立于不败之地。难道这是传说中的凯利公式(KellyFormula)的真实写照?(注:在重复赌局中,凯利公式根据赢输的概率及获利多少来决定投资(赌注)的大小使得(长期的)总预期收益最大,使用此公式就永远不会有破产无注可投的情况出现。)而且,巨蟹座的小心谨慎帮助他们在科研中取得成就,巨蟹座在科研中的得分超过十二星座的平均水平。
五,狮子座(代表人物:香奈尔,聂卫平,雷-达里奥,索罗斯,李嘉诚)
自信大胆且具有大局观的狮子座在商界和投资界傲视群雄,果然名不虚传!这点也体现在了下棋,建筑,文学和时装设计上。另一方面,过分自信的狮子座就会变得武断鲁莽,做事不仔细考虑,观察力不强,这一点在高尔夫球和哲学上表现尤具代表性。与之相关的,他们在绘画,作曲,物理,医学表现也不佳。
六,处女座(代表人物:黎曼,安藤忠雄,歌德,小泽征尔,巴菲特)
处女座是个很有意思的星座。他们在科研类中的得分是十二个星座里最高的,尤其擅长关注结构里的细节。而他们在艺术类的得分是最低的之一。另外,如同金牛座,处女座的忍耐力也是杠杠的,他们在斯诺克和宇航员这两项中取得高分。由此可见,处女座既仔细又有忍耐力,但不按部就班,还有很强的观察力,这是他们在搞科研时的制胜法宝。但另一方面,不感情用事的处女座缺少艺术创作中的那“神来一笔”。处女座在网上的评价, “完美主义,吹毛求疵,头脑清晰”。这一点在这里应该是说得通的。
七,天秤座(代表人物:霍洛维茨,李云迪,李安,艾略特,张爱玲,杨振宁)
天秤座的平衡感强,擅长分析处理结构问题,比如,化学,建筑,尤其是文学 。天秤座出人意料地在网球项目上得了高分,这可能也得益于他们的平衡感吧。在十二个星座中,天秤座在27个行业里得负分最少的星座,没有明显的短板。这里,我们无法验证天秤座是否如网络所说“平易近人,轻浮,优柔寡断”。
八,天蝎座(代表人物:费雯丽,居里夫人,比尔盖茨,毕加索,莫奈,屠格涅夫)
天蝎座在哲学和绘画上都得到了超高分,而且在表演方面也很强。这表明他们敏感,思想复杂,具有很强的洞察力。仅凭他们在哲学上的优异表现,天蝎座就无愧于十二星座中“最理性星座”的称号!由此可以推断,他们已把感性的绘画和表演提升到了理性的高度。然而,过分强调“形而上”的天蝎座在实际科研(比如,计算机,化学)及其它行业(比如,钢琴演奏,网球,斯诺克)中显出了缺乏耐心,不注意细节的弱点。天蝎座不擅长变魔术,应该也是理性思考的后遗症吧。这里无法验证网络上评价天蝎座的“疑心,善妒,报复心强”。
九,射手座(代表人物:劳伦斯萨莫斯,马克吐温,斯皮尔伯格,李政道)
与天蝎座正好相反,射手座在哲学和数学方面表现不佳,这可能与他们热情开放的性格,以及缺乏缜密思维的特质有关。而且,缺少耐心和忍耐力的他们在斯诺克,宇航员,及商业等行业中难有建树。所以,网上评价射手座“浮躁,做事易半途而废”,好像有点道理。不过,值得一提的是,射手座在经济研究方面的表现突出。一共有六位诺贝尔经济学奖获得者,以及五位克拉克奖获得者。 与双子座相比,研究宏观经济学的射手座经济学家的数量明显增加,比如,Finn Kydland,Gunnar Myrdal,Eric Maskin,Trygve Haavelmo,Martin Feldstein,Lawrence Summers等。有意思的是,双子座与射手座在经济研究上都表现很好(尽管擅长的方面不同),但他们在商业领域表现都很糟糕。
十,摩羯座(代表人物:牛顿,史蒂文·索德伯格,舒马赫,老虎伍兹)
摩羯座是十二星座里唯一一个在德州扑克和(尤其是)F1赛车都得高分的星座,难怪他们被网上评为“最有原则”的星座。如同小心谨慎的巨蟹座一样,脚踏实地的摩羯座在计算机研究领域优于其它星座。然而,专注有余的摩羯座想象力和创造力有点不足,这点可以从他们在建筑,时装设计,和魔术上的不佳表现看出。与此相关,分析处理结构问题也需要想象力和发散性思维(比如,化学,建筑,文学,尤其是物理),但过于严谨的摩羯座并不擅长此类问题,即使有牛顿这样的巨擎撑腰也无济于事。
十一,水瓶座(代表人物:保罗纽曼,莫扎特,舒伯特,狄更斯,爱迪生)
都说水瓶座充满智慧,可是“表二” 并没有反应出这点。相反,水瓶座在科研类和文艺类的得分都处于十二个星座的下游。在体育类中,也只有高尔夫球是个亮点。崇尚自由的水瓶座确实不适合从事德州扑克,斯诺克和摄影等需要克制情绪的行业。顺便提一下,水瓶座在表演行业中处于中游,但如果把表演行业细分成男演员和女演员,水瓶座可以在男演员中排第二位(仅次于白羊座),接近一个标准差。所以,水瓶座的男同学们只要负责耍帅,打打高尔夫球就行啦。
十二,双鱼座(代表人物:乔布斯,默多克,肖邦,爱因斯坦,雨果,加加林)
在我看来,双鱼座大概是十二星座里最神奇的星座了。首先,与天蝎座相似,双鱼座依靠缜密的思维来思考“形而上”的哲学问题,但面对需要具体计算的计算机研究和德州扑克时都表现不佳。但与天蝎座不同的是,双鱼座有较强的忍耐力和专注力,这帮助他们在商界大展身手。而且,双鱼座是唯一一个既擅长高尔夫有擅长网球的星座,真是“静如处子,动如脱兔”。更重要的是,双鱼座还是个会耍酷炫魔术的高手,说明他们在理性之中还带有感性,可能还具有一定的胆量。总之,许多事物的两面性都体现在这个星座中,真是件奇妙的事情。这些表现与网络上对双鱼座的评价“感性,滥情,意志力薄弱”很不相同。我觉得《名侦探柯南》中那个神出鬼没,风流倜傥的怪盗基德更像是双鱼座的(仅管他被设定为与漫画作者本人一样的双子座),呵呵。
行文至此,我把每个星座所擅长和不擅长的能力都分析了一遍,而且还借此验证了网上流行的星座性格分析是否靠谱。尽管性格与能力有密切联系,但是它们终究是两个概念。所以,正如大家在上文中看到的,在大多数情况下,我只能验证其中的一部分。验证的结果总结如下(见表四):有些星座的分析,经过验证是比较靠谱的,比如表最左侧的双子座,狮子座,处女座,巨蟹座和摩羯座。但还有一些,我只能检验其中的一部分。有时甚至一点也不能,比如,表最右侧的天秤座和双鱼座。
表四:十二星座验证表
在这里我想插一个花絮:大家可能知道菲尔兹奖首位(也是迄今唯一一位)女性获得者,伊朗著名数学家玛丽安·米尔扎哈尼(MaryamMirzakhani)最近(2017年7月)英年早逝,年仅40岁。当我在阅读她的生平时(见【1】),发现了一些有意思的事情。
玛丽安的家里没人是科学家,她从没想过要学数学,但一直被鼓励自立和追求兴趣。跟所有女孩一样喜欢看小说。想当小文青的她非但不是学霸,还对数学很头痛,老师也说她没天分。直到高二,她才在一个偶然的情况下发现了自己的数学天赋。米尔扎哈尼说自己很慢,是个“慢”数学家。到高二才发掘天分,解题也是耐心组合出办法。当她从事数学研究时,她的心思都在研究上,说自己是“慢人”,不靠灵光一闪解决难题,“有些问题已经研究了十几年,但经过数月甚至数年,你才能发现问题不同的一面。”有斯坦福大学同事说,她最独特的是研究方法,能创新地将不同事物连接在一起,对难题特别兴奋,毫无惧色。这种“慢”和“稳”的性格不光在工作上,生活上也一样。玛丽安的丈夫也是科学家。两人一起去跑步。老公高大健壮,一开始跑前面,她体格娇小,一直没有放慢脚步,半个小时以后,老公精疲力竭,她还保持着最初的速度。米尔扎哈尼给世界留下过一句话:“只要有耐心,孩子总会发现数学之美。我不认为每个人都应该成为数学家,但我相信许多人不曾给数学一个真正的机会。”
当我读完她的生平,我几乎能90%地肯定她应该是金牛座。于是去查了她的生日(5月3日),发现果然就是!当然,这毕竟只是一个个例。在上文的星座分析中,我不做个例分析,是为了强调结果的统计属性,避免给大家造成“以偏概全”的错觉。不过,玛丽安·米尔扎哈尼的例子是最近发生的,且非常具有传奇性,所以就谈一下,在下文中还会被提及。
言归正传,这里需要指出的是,我对这27个行业中的大部分都不是很熟悉,所以,只能从外行的角度给这些行业加上所需的能力。这样能够帮助完成分析,并尽量避免无法解释某些星座表现的情况发生。每个人对这些行业的理解不同,就有可能导致分析的结论不同。非常欢迎大家提出宝贵意见。
上述的十二星座分析只停留在文字描述,下面我要对“表二”进行量化分析。对数学不感兴趣的同学可以略过,直接跳到小结部分。
星座量化分析
上文“表二”中的每一列是一个行业,也可以看成是一列数组,所以我们可以计算它们之间的关联系数。按道理,这应该是一个27乘27的相关系数矩阵,但篇幅有限,我只报告相关性最高的那些行业。而且,我比较关心大类与大类之间的行业相关性,而不是大类内部行业的相关性(比如,数学和物理属于科研大类,绘画和作曲属于艺术大类,等等)。注意,这里的相关性不一定是我们平常认知里行业间的相关性,而可能是由于十二个星座在行业中的表现造成的相关性。所以,我们会看到一些出乎意料的结果。
“表五”列出了相关系数大于0.5的行业(不等于零的显著性都超过至少95%)。其中有些比较容易理解,比如,商业和投资。有一些乍看不明白,但稍微想一下就理解的,比如,德州扑克和计算机,哲学与绘画,宇航员和斯诺克。但有好些就不那么容易理解了,比如,相关系数高达0.83的指挥与数学,以及紧接着的作曲与医学(相关系数0.82)。就拿指挥与数学来说,其相关系数高的原因是白羊座在这两项都得了高分,而双子座都得了低分,其它星座没有一高一低相冲突的情况出现。
表五:行业相关性列表
具体来说,双子座得低分可能是因为他们机智善变的性格不擅长思考“形而上”的数学或哲学问题(双子座绘画也不行,而绘画与哲学相关性高达0.8)。同样,这种性格也不适合从事需要投入感情的行业,比如,指挥。另外,他们在斯诺克的低分和围棋的高分,更证实了他们机智而不稳重的一面。再看白羊座,情况稍稍复杂一些。冲动的白羊座不仅在指挥,还在表演和钢琴演奏中取得高分,这是可以理解的。但他们在数学中的优异表现就不能单单用“冲动”来解释了,我只能认为他们还擅长发掘事物的内涵,尤其从抽象的角度。这点可以由他们在绘画中的表现来佐证。
纵向看完“表二”后,我们再横向看一下。表中的每一行也是一列数组,按道理,我们也可以计算行与行的相关性。不过,我在这里使用一个新方法:层次聚类(Hierarchical Clustering)。这个方法的原理很简单:每列数组在初始时刻各自为一个类别,然后由下往上(agglomerative),每一次迭代选取距离最近的两个类别(这里使用的是Euclidean距离),把他们合并,直到最后只剩下一个类别为止,这样“一棵树”就构造完成了。这种方法的好处是不用在一开始就确定聚类数(number of clusters),可以等到建立树形图后再确定。这也是机器学习中的一种分类方法(非监督学习)。“表二”的聚类树形图和8个聚类(红框)如下。
图二:十二星座层次聚类树形图
如“图二”所示,水瓶座与双鱼座,还有金牛座与处女座距离很近,所以它们最先分别组成一个聚类。倒是巨蟹座与射手座的结合有点出乎意料。再向上一层,天秤座与狮子座相近,所以他们归为一个聚类。在树形图中,越往上,差异越大(距离越远),例如,双子座,摩羯座,白羊座,天蝎座。另外,除了同为土象的金牛座与处女座距离较近以外,土水火风四大星象的说法并没有从“图二”得到支持。顺便提一下,本方法用到的距离与相关系数实际上是一回事:(已标准化的)数组间的相关系数等于数组间的距离(Euclidean距离)的倒数,即两个数组相关系数越大,它们之间的距离就越小。这个结论符合一般认知,也可以从它们的数学定义中证得。由于篇幅有限,此处不再赘述。
最后,我对“表二”进行主成分分析(PCA,也属于机器学习中非监督学习的一种)。如“图三”所示,第一个因子(PC1),也是最重要的因子,只能解释“表二”中20%的方差。要想累计贡献率达到90%,必须用到前8个因子。这种情况是符合一般认知的,因为我们知道十二个星座之间有明显差异,很难用一两个因子就解释全部信息。在进行主成分分析时,原有的分类被打破,所以很难解释所得到的结果。这也是主成分分析的一个弱点。
图三和表六:主成分分析方差累计贡献率及相关星座
因此,我计算了前四个主成分因子与12个星座的相关性,并把其中系数绝对值最大的星座列在了 “表六” 。这样我们可以大致了解这些主成分因子所代表的含义。比如说,第一个因子与双子座的相关性高达93%,与白羊座为-70%。那么,我们可以大致认为双子座与白羊座的反面是十二星座里最主要的星座,尽管它们只能解释所有信息中的五分之一。以此类推,由于越往后,所剩信息越少,所以因子与星座的相关性会变弱。但我们还是能够看出个大概。值得注意的是, “表六” 列出的星座与前文中的层次聚类树形图最上方的星座大体相符,例如,双子座,摩羯座,狮子座,白羊座等,说明这些星座的确比较特别一些(类似于矩阵中的基)。
小结与应用
我在本文(上半部分)考查了星座与天赋之间的关系。通过观察十二星座在总共27个行业中的表现,我们把每个星座和它们各自的强项和弱项联系了起来。其次,借助星座们在行业中的表现,我对网络上的星座评价进行验证。有些星座经过验证是靠谱的(比如,双子座,狮子座),但有些我们只能验证一部分,甚至于还有一些我们无法验证(比如,天秤座,双鱼座)。最后,通过量化分析,我们了解了十二星座大致可以分成8个聚类(cluster),其中有些星座比较相似,比如,水瓶座与双鱼座,还有金牛座与处女座。但有些星座与其它星座比起来更不同一些,比如,双子座,摩羯座,狮子座,白羊座等。另外,我们需要至少8个主成分因子,才能使累计贡献率达到90%。
看到这里,有同学可能会问:“我只是个普通人,你分析了一大堆关于天才的数据,那与我何干?” 这个可以从三方面来回答: 挖掘个人潜能,改进个人短处,以及人际交往。
虽然本文探讨的不是如何挖掘普通人的潜能,但本文的研究结果可以提供一个参考。从体育类及艺术类行业来说,一个初入某一新行业的成年人,要想通过挖掘潜能成为这一行业的领军人物不太现实,但经过一定课时的基本训练,把潜能发展成兴趣爱好还是可行的。当然,我不是说其它星座的同学不能做,而是说这些星座的同学的性格比较适合玩这些项目。举个例子,机智灵巧的双子座同学可以试着学学围棋,玩玩摄影。小心谨慎的巨蟹座同学可以玩玩德州扑克。冲动热情的白羊座同学可以开发的项目就更多了,从表演,绘画,到钢琴,甚至导演。在如今“自媒体”横行的时代,白羊座有了一个很好的施展的平台。说不定哪天,又会出来一个类似papi酱(水瓶座)的网红。
另一方面,本文可以帮助大家更有的放矢地改进自己的短处。比如,小心谨慎的巨蟹可以试着加强韧劲和自信,在工作和学习中有意识地大声说出自己的想法,遇到困难时不轻易打退堂鼓。当然,我不是说巨蟹座的同学一定就缺乏自信,而是说这种情况较其它星座更有可能发生。而且,我们也不一定要改进得与金牛和狮子不相上下。如果能做到他们的一半,甚至只有三四成,那和原来的巨蟹比起来,已经是不小的进步了。其它星座也可仿效此方法对自己的短处进行改进。无论是挖掘长处,还是改进短处,后天的自我完善和自我升华,无论对个人还是对国家,都会有是有益的。
本文的研究结果也可以应用于平常的人际交往中。举个例子,如果你老板(公司里或学校里)是狮子座,那就经常性地给他(她)带高帽子,让自信的狮子更出风头。这样你即使出点小错,粗心的狮子也不会在意的。相反,你老板如果是处女座,那你只能辛苦一下,必须比他(她)还仔细,否则既仔细又有忍耐力的处女会把你逼疯的。又假如你老板是白羊座,那你做事最好不要拖沓,冲动的白羊总是希望立马看到效果。如果你老板是双子座,那他(她)倒不会怎么为难你,因为他(她)自己也飘忽不定,不过你要时刻准备着应付他(她)不知从哪儿冒出来的“鬼点子”。再假如你老板是金牛座,那就要避免与他(她)正面冲突或争论(即使你是对的一方),否则他(她)会和你死扛到底。剩下的星座,我就不一一点评了,大家自己慢慢琢磨吧。
以上这些观点也适用于恋爱中的男女朋友!而且,本文的量化分析结果也可以帮助大家“速配”。比如,金牛座和处女座,还有水瓶座和双鱼座这两个容易凑到一起,可能他们之间的思维方式和性格比较相似一些吧。不过,如果我说得不准,大家不要怪我,要怪就怪机器学习吧,呵呵。
附录:本文研究方法的具体细节 一,如何选择行业?在“表一”中,27个行业的选择遵循以下三个原则:要能够突显单个星座的特质。比如,诺贝尔和平奖得主没有被选为研究对象,因为他们大多是政治家,后天因素起了主要作用,不符合本文的初衷。又比如,许多体育项目没有被选中,因为大多数项目是集体活动,即使产生了许多体育明星,也很难区分他们的成功是由于团队的力量还是个人的天赋造就的。而且,兴奋剂在体育界的滥用也是另一个重要原因。
要有可靠的(经过筛选的)且样本数不是太小的数据。比如,历年诺贝尔奖得主就是很好的数据,仅管有些科目越来越强调团队合作(比如,化学,医学),从而掩盖了单个星座的特质。
选择范围尽量地广。人类的天赋具有多面性,所以选择的行业要尽可能覆盖它们,比如想象力,逻辑推断力,表达能力,等等。
当然,我也不敢肯定这27个行业就一定能代表人类的所有天赋。但由于数据的限制,要想选出符合上述三个原则的行业并不是很容易。欢迎大家多提宝贵意见。
二,为什么要选择每个行业中的天才?
这是因为在他们身上所体现的某些特质较普通人明显,仅管(在研究前)我们暂时不知道到底是哪些特质。而且,他们在行业中的表现是客观存在的,不会受到他人主观评价的影响。其次,如同上文提及的,天才们是经过了严格的筛选后得到的,数据可靠且容易获得。
最后也是最重要的一点,如上所述,本文不是讨论如何挖掘天赋,而是假设天赋已显露出来后,研究它与星座的关系。我不是宿命论的支持者,一个人的天赋与他(她)最后取得的成就没有必然联系,因为会受到许多后天因素的影响。我使用‘天才’们的数据恰恰可以控制这些后天因素,尤其是学术类和体育类行业,使得我更有效地观察星座与天才之间的关系。打个比方,我们可以不失一般性地认为诺贝尔经济学奖获得者的经济学基本理论知识都很扎实,并且背景相似(都具有博士学位,都在高等学校任教,等等)。而且,我们也无法推断说今年的诺奖获得者比往届的都要勤奋刻苦。至于艺术类,后天因素的影响就更小了,有人天生对声音敏感,而有人天生对色彩敏感,诸如此类。即使有老师指导,也只是起辅助作用。所以,如果在后天因素被控制的情况下,某个星座的人数相较其它星座还存在显著差别,那么我们有理由怀疑造成这种差别的原因不是来自后天,而是先天!
三,如何判断一个星座的人数比另一个星座的人数多(或少)?
这里我使用简单的统计学方法。假设给定一个行业的星座分布(如图一),我可以算出分布的平均值与标准差。如果某个星座在离开平均数1个标准差附近,那么情况就 “有点意思” 了,计正(负)0.5分。如果明显超过1个标准差,那么情况就 “很有意思” 了,计正(负)1分。如果超过2个标准差,那么情况就 “非常有意思” 了,计正(负)2分。如果是在1个标准差以内,则视为 “无差别” ,计0分。这样做的好处是可以排除某些行业样本数过大带来的影响(注1:所有行业的星座分布都是人数分布,除了围棋。每位围棋选手按水平高低有一个实力评分,围棋的星座分布建立在这些评分上)。
参考文献
【1】小时候被指没天分,长大却成天才少女,她的生命很短但惊艳了世界(http://www.weidu8.net/wx/1017150055433484)
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2017-08-29 09:44:00
Tensorflow是Google开发的开源 机器学习 库。本篇文章我们将使用Tensorflow对 线性回归 模型进行训练,并使用模型对数据进行预测。下面我们开始分步骤介绍。
首先导入所需的库文件,包括tensorflow,numpy和matplotlib。Tensorflow用于创建和训练线性回归模型,numpy用于提取数据和计算均方误差MSE,matplotlib用于绘制成本函数变化图。 #导入所需库文件
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
模拟最简单的一种情况,简单线性回归,一个自变量和一个因变量。自变量为广告花费,因变量为获得的点击量。手动创建这两组数据,用于训练和评估模型效果。格式为float32。 #设置广告花费和点击量数据
money=np.array([[109],[82],[99], [72], [87], [78], [86], [84], [94], [57]]).astype(np.float32)
click=np.array([[11], [8], [8], [6],[ 7], [7], [7], [8], [9], [5]]).astype(np.float32)
用最简单的方法将数据集划分为训练集数据和测试集数据。 #粗糙划分训练集和测试集数据
X_test = money[0:5].reshape(-1,1)
y_test = click[0:5]
X_train = money[5:].reshape(-1,1)
y_train = click[5:]
下面开始实现简单回归模型,设置自变量x的占位符,后面进行梯度下降时将作为真实数据输入模型的入口点。同时设置模型的参数权重值W和偏置量b。我们将赋予参数不同的值来试图找到最小化成本函数的取值。 #设置自变量x的占位符,梯度下降时真实数据输入到模型的入口点
x=tf.placeholder(tf.float32,[None,1])
#设置斜率(权重值)W变量
W=tf.Variable(tf.zeros([1,1]))
#设置截距(偏置量)b变量
b=tf.Variable(tf.zeros([1]))
然后设置Tensorflow中的简单线性回归模型y=Wx+b #设置线性模型y=Wx+b
y=tf.matmul(x,W)+b
与设置自变量x的占位符一样,设置一个占位符作为实际y值的入口点。同时用于后续成本函数(最小方差)的计算。 #设置占位符用于输入实际的y值
y_=tf.placeholder(tf.float32,[None,1])
使用最小方差作为成本函数用于评估我们模型的效果。然后使用梯度下降算法以0.000001的学习速率尽量最小化这个成本函数。 #设置成本函数(最小方差)
cost=tf.reduce_sum(tf.pow((y_-y),2))
#使用梯度下降,以0.000001的学习速率最小化成本函数cost,以获得W和b的值
train_step=tf.train.GradientDescentOptimizer(0.000001).minimize(cost)
开始训练我们的模型,首先对所有变量进行初始化,防止带有之前执行过程中的残留值。然后创建一个会话(Sess),并在这个会话中启动我们的模型。 #开始训练前对变量进行初始化
init=tf.global_variables_initializer()
#创建一个会话(Sess)
sess=tf.Session()
#在Sess中启用模型并初始化变量
sess.run(init)
创建一个空list,用来存储模型训练过程中每一步成本函数cost的变化。 #创建一个空list用于存放成本函数的变化
cost_history=[]
开始训练模型,这里让模型循环训练100次。并输出每次训练后模型的参数和成本函数cost。以及最终的模型参数W,b和成本函数。 #循环训练模型100次
for i in range(100):
feed={x:X_train,y_:y_train}
sess.run(train_step,feed_dict=feed)
#存储每次训练的cost值
cost_history.append(sess.run(cost,feed_dict=feed))
#输出每次训练后的W,b和cost值
print(“After %d iteration:” %i)
print(“W: %f” % sess.run(W))
print(“b: %f” % sess.run(b))
print(“cost: %f” % sess.run(cost,feed_dict=feed))
#输出最终的W,b和cost值
print(“W_Value: %f” % sess.run(W),”b_Value: %f” % sess.run(b),”cost_Value: %f” % sess.run(cost,feed_dict=feed))

在训练模型的过程中,我们存储了每次迭代后成本函数cost的变化情况,下面对这个过程进行可视化。在最开始成本函数为234,随着迭代次数的增加成本函数收敛在1.04。 #绘制成本函数cost在100次训练中的变化情况
plt.plot(range(len(cost_history)),cost_history)
plt.axis([0,100,0,np.max(cost_history)])
plt.xlabel(‘training epochs’)
plt.ylabel(‘cost’)
plt.title(‘cost history’)
plt.show()

完成训练后,我们使用模型进行预测,输入x值为109。模型反馈预测值为9.84。这个x值其实就是测试集的第一个值。而真实的y值应为11。预测值与实际值之间存在着一定的误差。这个误差也是衡量模型效果的一个重要的指标。 #使用模型进行预测
sess.run(y, feed_dict={x: [[109]]})
我们使用模型对测试集进行预测,并将所有的预测值与实际值进行比较,计算均方误差MSE来衡量模型的表现。MSE的值越小,说明预测模型具有更好的精确度。这里我们训练的模型均方误差MSE为0.7130。 #使用测试集计算模型的均方误差MSE
pred_y = sess.run(y, feed_dict={x: X_test})
mse = tf.reduce_mean(tf.square(pred_y – y_test))
print(“MSE: %.4f” % sess.run(mse))
下面我们以图表的方式更加直观的显示出模型在测试集上的表现,其中图表的X轴为实际y值,Y轴为预测值。虚线为学习回归线,为拟合所有数据点的最优曲线。 #绘制测试集真实点击量与预测点击量及学习回归线
fig, ax = plt.subplots()
ax.scatter(y_test, pred_y)
ax.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], ‘k–‘, lw=1.5)
ax.set_xlabel(‘Measured’)
ax.set_ylabel(‘Predicted’)
plt.show()
到这里,我们完成了使用Tensorflow对简单回归模型进行训练,评估和预测的过程。在实际生活中,只依靠一个特征进行预测的情况非常少见,通常情况下预测要依靠多个特征才能完成。因此,我们下面从一个特征的简单线性回归模型升级到两个特征的多元线性回归模型。按照下面的方法,你也可以应用到有多个特征的线性回归模型。
多元线性回归与前面简单线性回归类似,因此相同的步骤我们在代码上进行注释。只对不同的内容进行说明。 #导入所需库文件
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
在设置数据时增加一组特征或变量。这里我们增加了广告曝光量数据。 #设置广告花费,曝光与点击数据
invest=np.array([[13],[105],[105], [24], [3], [45], [35], [24], [40], [32]]).astype(np.float32)
impressions=np.array([[202],[244],[233], [175], [10], [227], [234], [216], [220], [213]]).astype(np.float32)
click=np.array([[8], [13], [11], [7],[ 2], [12], [10], [9], [11], [10]]).astype(np.float32)
将三组数据分布划分为测试集和训练集数据。 #粗糙划分训练集和测试集数据
X_test = invest[0:5].reshape(-1,1)
X_test1 = impressions[0:5].reshape(-1,1)
y_test = click[0:5]
X_train = invest[5:].reshape(-1,1)
X_train1 =impressions[5:].reshape(-1,1)
y_train = click[5:]
对两个变量(特征)x和x2分别设置占位符。同时分别设置权重值变量W和W2。用于后续的训练。 #设置第一个自变量x的占位符
x=tf.placeholder(tf.float32,[None,1])
#设置第二个自变量x2的占位符
x2=tf.placeholder(tf.float32,[None,1])
#设置第一个斜率(权重值)W变量
W=tf.Variable(tf.zeros([1,1]))
#设置第二个斜率(权重值)W2变量
W2=tf.Variable(tf.zeros([1,1]))
#设置截距(偏置量)b变量
b=tf.Variable(tf.zeros([1]))
然后设置Tensorflow中的多元线性回归模型y=Wx+W2x2+b #设置多元线性回归模型y=Wx+W2x2+b
y=tf.matmul(x,W)+tf.matmul(x2,W2)+b
#设置占位符用于输入实际的y值
y_=tf.placeholder(tf.float32,[None,1])
#设置成本函数(最小方差)
cost=tf.reduce_mean(tf.square(y_-y))
#使用梯度下降以0.000001的学习速率最小化成本函数cost,以获得W,W2和b的值
train_step=tf.train.GradientDescentOptimizer(0.000001).minimize(cost) #开始训练前对变量进行初始化
init=tf.global_variables_initializer() #创建一个会话(Sess)
sess=tf.Session()
#在Sess中启用模型并初始化变量
sess.run(init)
#创建一个空list用于存放成本函数的变化
cost_history=[]
#循环训练模型1000次
for i in range(1000):
feed={x:X_train,x2:X_train1,y_:y_train}
sess.run(train_step,feed_dict=feed)
#存储每次训练的cost值
cost_history.append(sess.run(cost,feed_dict=feed))
#输出每次训练后的W,W2,b和cost值
print(“After %d iteration:” %i)
print(“W: %f” % sess.run(W))
print(“W2 Value: %f” % sess.run(W2))
print(“b: %f” % sess.run(b))
print(“cost: %f” % sess.run(cost,feed_dict=feed))
#输出最终的W,W2,b和cost值
print(“W_Value: %f” % sess.run(W),”W2 Value: %f” % sess.run(W2),”b_Value: %f” % sess.run(b),”cost_Value: %f” % sess.run(cost,feed_dict=feed))

在训练模型的过程中,我们同样存储了每次迭代后成本函数cost的变化情况,下面对这个过程进行可视化。在最开始成本函数为88,随着迭代次数的增加成本函数收敛在0.7。 #绘制成本函数cost在100次训练中的变化情况
plt.plot(range(len(cost_history)),cost_history)
plt.axis([0,100,0,np.max(cost_history)])
plt.xlabel(‘training epochs’)
plt.ylabel(‘cost’)
plt.title(‘cost history’)
plt.show()
计算均方误差MSE来衡量模型的表现。MSE的值越小,说明预测模型具有更好的精确度。这里我们训练的多元线性回归模型均方误差MSE为1.2479。 #使用测试集计算模型的均方误差MSE
pred_y = sess.run(y, feed_dict={x: X_test,x2:X_test1})
mse = tf.reduce_mean(tf.square(pred_y – y_test))
print(“MSE: %.4f” % sess.run(mse))
本文为专栏文章,来自:蓝鲸,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/47437.html 。
数据分析
2017-08-15 04:55:00
假如,你手头上正有一个 机器学习 的项目。你通过各种渠道手机数据,建立你自己的模型,并且得到了一些初期的结果。你发现,在你的测试集上你只有80%的正确率,这远远地低于你的预期。现在怎么办,你怎么来改进你的模型?
你需要更多的数据吗?或者建立个更复杂的模型?还是说调整正则参数?加减特征?迭代更多次?不然全来一遍吧?
最近我的一个朋友也这么问我,他觉得改进模型就是全凭运气。这促使我决定写这篇文章,来告知应该怎么做一个有信息量,有意义的举措。
1. 偏差和方差
为了构建一个准确的模型,我们首先要了解模型带来的各种误差。
偏差 :偏差误差是来源于模型的期望(平均)预测数值与真实数值之间的差值。
方差 :对于一个给定的数值,模型预测结果的变异(波动)程度。
1.1 数学定义
我们想要预测Y,我们的输入是X。我们假设他们两个直接有关系,比如,其中误差项服从正态分布。
我们可能通过线性回归或者其他建模方法得到一个估计,然后在点处的期望误差的平方是:
这个误差能够被拆分成偏差和方差两个组成部分:
必不可少的误差来源于误差项,任何模型都不能够彻底地解决。只有给定问题本身的真实模型和无穷大的数据来修正它,我们能够让偏差和方差项都变成零。然而,在一个没有完美的模型和无穷的数据的世界里,我们必须要在减小偏差和方差中权衡。
2. 什么是学习曲线
现在我们知道权衡偏差和误差这件事了,但是如何改进我们的模型仍然有待考究。我们的模型面对 严重偏离 和 高度变异 的时候应该怎么处理?我们需要绘制模型的学习曲线来解答这个问题。
2.1 严重偏离 小训练样本:很小,并且很大。 大训练样本: 和都很大,并且两者近似相等。
2.2 高度变异 小训练样本:很小,并且很大。 大训练样本:随着训练集增加而变大,并且继续减小,但是不会稳定。,而且他们之间的差距很显著。
3. 下一步做什么?
我们已经明白,问题往往出在偏差或者方差上。这时候,我们要根据不同的情况,做出不同的抉择。
3.1 严重偏离 选择更复杂的特征,高阶项或者增加节点。 减小正则参数。
3.2 高度变异 收集更多的训练数据来帮助模型得到更好的泛化。 减小特征集合的大小。 增大正则参数。
4. 机器学习流程
大多数的机器学习系统都是由一个模型链组成的。通常情况下都会有一种困境,你已经有了一个机器学习的管道,但是接下来一步应该做什么呢?上限分析在这里很有帮助。
上限分析每一次在管道中的某一部分中插入一个完美的版本,并且由此来测度我们所观察到的完整的管道能够有多大的提升。这种方法能够帮助我们明白在整个模型链中,哪一步能够带来最可观的优化。
比如说上述的文字识别的管道(模型链),你发现一个完美的字符分割模型能够给整个识别系统提升1%,但是一个完美的字符识别模型能够提升7%。所以相比于改进字符分割模型,我们应该更关注字符识别模型的改进。
5. 参考 Machine Learning The Elements of Statistical Learning Pattern Recognition and Machine Learning Understanding the Bias-Variance Tradeoff 作者:Sourabh Bajaj
本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/47168.html 。
数据分析
2017-08-11 01:00:02
朴素贝叶斯分类器基于词袋模型,通过词袋模型我们可识别出文本中出现的词属于积极还是消极,若这个词出现在积极的词语列表中,文本的总体分数 +1,若总体分数为正,该段文本被分类为积极,反之亦然。
朴素贝叶斯分类器不考虑仅仅小部分的积极或消极的词语,而关注朴素贝叶斯模型训练集中全部的词语。如果一个词语没有出现在训练集中,应用拉普拉斯平滑(用 1 代替词语的条件概率)处理。
一篇文档属于类别 C 的概率:
朴素贝叶斯文本分类
首先用”train()”函数输入 X 或 Y 的值, X 为包含了文档中所有词语的列表, Y为每个文档的分类标签的列表。


分类器通过训练集中所有文档的更新完成训练,并在所有文档中,建立每个类别的每个词语相对出现次数的的散列表(即python中的字典)。 每个类别中建立一个包含所有出现的词语列表。
用”calculate_relative_occurences“方法计算列表中每个词语出现的相对次数,应用python的counter模块,计算每个词语出现的次数并除以所有词语的数量,结果保存在字典 nb_dict 中,它包含了朴素贝叶斯分类器的训练结果。
分类新的文档也很容易,先计算每个类别的分类概率,然后选择概率最大的类别。
作者:ataspinar
本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/47158.html 。
数据分析
2017-08-10 00:29:00
传统的数据治理在 大数据时代 面临着大量数据的接入、大量数据的存储和快速灵活处理的三方面问题,这一期我们来聊聊如何正确的思考和解决这三个问题。
大量数据接入
大量数据的接入问题主要体现在两方面,第一方面是 大数据 的多样性造成原有单一通道的不适用性。大数据的多样性表明我们在接入数据的时候必然会采用多样化的接入手段。这就需要我们针对数据的类型如结构化数据、半结构化数据、非结构数据,数据源的存储形式如关系数据库、文件、分布式数据库两方面特性进行综合考虑,形成一个二维接入方式表。当然实际情况要更加复杂,在这里我们只是提出其中的一种解决问题的思路。
另一方面是大数据的高速性造就了数据通道的拥堵。针对大数据高速性的特点,流处理的技术发挥了重要作用。我们可以依赖消息队列集群加上流处理的技术进行解决,例如现在广泛采用的 kafka+spark streaming 的解决方案。数据通过消息的不同通道和订阅发布机制,建立了不同的数据传输通道,并且通过分布式机制和缓存机制解决了大量数据接入的性能问题。 新智数工 提供的采集助手就是要让不懂技术的人员也能接入各种类型的数据。
大量数据存储
关于数据存储的问题,第一个是大量数据造成了原有的存储空间不足的现象;第二个是数据的多样性造成了数据存储方式单一的现象;第三个最重要的现象是前面两个问题造成了数据存储要不断面临调整的问题。我认为要解决好如上问题需要从两个方面进行解决。一方面是数据的存储问题。数据的存储是为了更好的数据应用,应该提供给最终用户可以随时调整数据存储和定义的一组业务功能。我们现在很多用户只是知道自己大概有哪些数据,大概是什么情况。其实我们应该提供一个能让用户掌握数据资产的数据台帐,通过它能够实时了解数据的总量情况、变化情况、存储情况、加工情况,从而满足一系列的数据应用场景。另一方面是底层技术要做好保障,应按数据类型、使用类型建立好分布式存储的解决方案。包括块存储、文件存储、对象存储等。但这种技术形式应该对业务用户透明,用户只需要进行业务定义,不需要关心技术细节。新智数工的大数据池产品正是为了解决此问题而产生的。
快速灵活处理
快速灵活处理其实是体现大数据的第4个v价值的问题,因为数据食材被加工成不同的形状是为了菜品的要求,也就是数据加工处理的目的是为了数据应用。而传统的处理方式都是由专业数据加工者将数据进行预处理,当数据多样性体现后,这种方法就不能真正满足一线人员的实际需求了。这也是为什么以前的BI系统在面对一个新的数据种类时,变更会异常复杂和繁琐的原因。而我们真正的一线厨师需要随时随地能够加工数据食材,根据自已的喜好和需求对食材进行加工制作,而不是再依靠任何 IT 公司。依托大数据技术我们应该给用户提供一组简单的、可自己随时加工处理数据的功能。例如我们原来的一张列表有10个字段,我们应该可以由这10个原有字段不断定义新的字段,也就是我们可以给数据食材切成片或块等多种形式。
大数据时代,数据的价值密度很低,这就更需要数据裂变,只有数据裂变,数据的价值才能不断被放大。 本文由新智数工 汪利鹏(大数据创业者)投稿至 数据分析 网并经编辑发布,版权归原作者所有,转载请与作者联系。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2017-02-08 13:34:00
这里首先需要说明的是标题中的“用户”指的是数据的用户,或者数据的需求方,这些用户往往不是网站或企业面向的外部用户,数据的消费者通常是公司内部各个部门和领域的人员。
为什么会提出这个问题,其实我们经常会遇到这样的情况:公司的高层抱怨从报表里面看不到有用的东西,是不是可以对报表做下整理(于是下面就忙开了),但是该怎么整理或者他们到底需要的是什么数据(好吧,高层的需求一般是不会明说的,我们要试着自己去揣摩);同时各个部门也在不断地提各类数据需求,往往他们的需求就比较明确,有时可能会细得吓人,需要每个用户的每次关键操作(考验服务器的时间到了)。数据部门就是处在这样一个对数据的需求存在着如何多样化的环境里面,所以考验数据人员的时间到了,我们能满足所有的需求吗?
目标和KPI
好了,首先来解答一下我们揣摩“圣意”后的结果,老板或者高层需要什么数据?其实很简单,他们只想知道公司的总体状况如何,所以我们只需要提供汇总的目标和KPI数据,不需要太多,2-3张报表,10个左右的指标足够展现出公司的全局了,但其实首先要做的是对公司的目标和KPI有一个明确的认识和定义。 主要关注人员: 决策层
虽然目标和KPI的主要关注人群锁定在公司的决策层,但其实公司的每位员工都应该关心公司的目标实现情况及KPI指标的表现,因为目标和KPI是客观评价公司状况和效益的最有效途径。但往往各个部门关心目标的KPI的方式会有差异,于是数据需要去满足各个部门不同的关注目标的KPI的方式,就有了下面的细分。
细分与功能点
公司的决策层可能会希望看到上面这些目标和KPIs的汇总数据,但如果我们给所有用户都提供这类汇总数据,那么可能其他用户就只能远远地望着这些数据,什么都做不了。所以我们需要给不同的用户不同类别不同层面的数据,因为 我们要做的就是让每个数据消费者都能根据数据Take Actions ,而其中很重要的一块就是数据的细分。
我们可以从多个角度对网站分析的报表和指标进行细分,每个公司根据自己运营类型的差异选择适合自己的细分模块,当然这里说的最常见的几个细分模块: 内容 、 用户 和 来源 ,也就是Google Analytics的分块方式。
内容细分 主要关注人员: 产品运营
尽管互联网的形式在不断地多样化,但无论如何互联网还是主要以信息服务提供商的角色存在,归根到底还是内容,所以对于网站而言内容是它的核心竞争力所在,对于网站分析同样如此,所以首当其冲的就是内容的细分。无论以哪些指标或者以何种细分方式来评价内容,最终我们的目的都是区分优质和劣质的内容,掌控产品的运营状况,从而保持或者改进网站内容。
内容细分的分析结果无疑可以给产品运营或者网站运营提供有价值的参考依据,明确了哪些是需要把握的核心内容,哪些内容需要改进。同时借助一些特殊的指标还可以指引细节上的改进,比如一个Pageviews很高但Avg. Time on Page较短、Exit Rate很高的页面显然在内容上没有足够的吸引力,但标题或简介信息足够吸引眼球,那么改进的方向就可以确定为提高内容的描述方式;如果你的网站提供电子商务服务,那么每个或每类产品细分的销售额(目标)及转化率(KPI)将让你能够更好地有针对性地进行产品和运营方式的选择。
用户细分 主要关注人员: 用户体验、销售
我们一般通过用户的使用环境(网络、设备、系统和客户端等)、人口统计学信息(性别、年龄、地域等)、用户行为类型(使用的趋势、忠诚度、创造的价值等)这几类数据和指标对用户进行细分。在现在“用户中心论”盛行的潮流下,是不是把用户放在内容后面有点不妥?网站的一切就是为了满足用户的需求,包括所有的内容的提供,但其实在 数据分析 上用户分析并没有内容分析来得普遍,特别是还要对用户进行细分,道理很简单,内容或者产品是可以自己把握的,而用户不行,所以尤其是基于用户行为分析的数据,说得很多但真正做好的或者应用于实践的其实并不多。
但有一块必须要有用户分析数据的支持,那就是用户体验的设计和优化。对于用户体验设计而言,其目标是能够满足所有用户的使用习惯,所以比较和优化各类用户在不同的使用环境和使用习惯中的数据能够对用户体验的改善起到很大的作用;而如果你的网站产品需要进行销售,那么用户行为分析对于个性化的产品销售和推荐能够起到很好的效果,它刚好与用户体验的目标相反,这类细分分析主要是为了满足每类甚至每个用户需求上的偏好。
来源细分   主要关注人员: 市场推广
其实对于网站分析人员而言,渠道来源的数据分析肯定不会陌生,许多网站都会重点分析这块的效果,包括SEO和SEM等都已经发展成为了非常专业的领域。网站分析工具里面一般都会区分直接进入、搜索引擎、外部网站及促销途径这几项来源,其实我们可以使用一些有效的途径将这些渠道分得更细,包括社会化媒介、合作网站、广告直邮等,通过这些来源细分去观察各渠道带来的流量的质量(在目标和KPI指标上的表现),我们就可以看清楚各推广渠道的优劣,从而为有效的推广行动提供参考。
其实还有一块——线下渠道,我们往往会认为线下的电视、报纸等上面的促销或广告的效果很难用数据进行监控,但其实只要我们去寻求一些办法,这些也是可以实现的,比如离线通是监控线下电话营销渠道的很好的工具。通过对线下渠道的监控分析,是我们更了解线下推广的效果以及其对线上推广所带来的关联和影响,最终指导推广人员更有效地布置和实施整套完整的推广计划。
功能点分析 主要关注人员: 技术、用户体验
如果你的网站不单是简单的几个页面,而是一个庞大复杂的系统,其中提供了丰富的功能和应用,那么我们还需要做一类分析,就是各功能点的分析。之前在“让用户更容易地找到需要的信息”专题中分析过几类网站中常见的功能:站内搜索、导航设计和内容推荐,这些功能点我们都可以使用特殊的方法获取数据、设置特殊的指标去分析他们的实现效果。
技术和用户体验团队都需要关注这些功能的实现效果和优化空间,数据是评价这些功能最有效的途径,因为这些功能都影响着用户的体验和满意度,一个真正优秀的网站需要把握好每个功能的每个细节的实现。
分析模型
上面提到的相关人员几乎涵盖了每个公司的各个领域,但其实还缺少一块重要的组成部分,就是我们自己—— 数据分析人员 。其实对于数据分析人员来说,他们需要把握所有的数据,从全局的目标和KPI到各类细分指标,以及各类功能点的数据。但这些还远远不够, 数据分析师 必须发挥他们的所长,设计并构建起各类分析模型,这些模型不仅可以对公司的关键业务和运营状态做出客观的评价,起到总结的效果外,更可以发现一些潜在的商业需求点,为公司的发展提供可能的方向和决策依据,起到预测的作用。
分析模型主要分为两类,一类是 定量分析模型 ,这个在我的博客中已经介绍过一些,包括关键路径分析的漏斗模型、基于用户行为分析的用户评价模型,当然也包括 数据挖掘 领域的用户兴趣发现、内容模式匹配,以及基于其上的个性化推荐模型,这些都在一定程度上实现了预测的效果。
另一类是 定性分析模型 ,包括目标市场的调研、以用户为中心的研究以及竞争优势的分析。当然现在可能在用户调研和用户体验方面做得相对多些,通过网上问卷、可用性实验、实景访问调研,结合一些可视化的点击热图、鼠标移动监控等工具来评估用户在使用网站是的整体感受和满意度,这种更加接近用户的分析方法将逐步为网站和产品的优化带来许多新的思考。
自定义Dashboard
其实大部分的网站分析工具和BI报表工具中都会提供自定义Dashboard的功能,以便用户可以将自己关注的指标、报表和图表集成地显示在同一个Dashboard上面,方便日常的观察和分析。本来这是一个很Cool的功能,因为只要稍微用点心,可以把自己的“仪表盘”做得很漂亮,但现实中这个功能没有想象中实现得那么好,或者用户没有去自定义Dashboard的习惯(当然存在数据的组织和关联上的限制以及报表工具易用性方面的问题),但作为数据的提供方,我们在定制好公用的Dashboard的同时,有必要时还要帮助某些特定需求群体定制自定义的Dashboard。
优秀的自定义Dashboard不仅能够合理地组织数据,同时更加可视化地展现数据,让数据的观察的分析不需要这么累,是的,也许用户会爱上这些数据。同时自定义的Dashboard其实还可以有效的控制数据权限,在Dashboard里面将合适的指标和报表开放给用户,从而屏蔽掉一些敏感的数据,数据的保密性对数据部门而言也是一块重要的工作。
不知道读完整篇文章会不会觉得有点空,没有实质的内容或实践性的分析方法,但其实这篇文章花了我很长的时间进行总结和思考,梳理整个数据提供方案的可行的思路,希望能给出一个系统全面的数据组织和提供方案,用数据为线索贯穿企业的各个角落,真正能够建立起数据驱动(Data Driven)的企业文化,让数据不单只是单纯的展现这么简单,能够满足各类人员的不同需要,并最终依靠数据提高企业在各个领域执行的效率和效果。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2015-09-25 09:45:00
什么是 数据化运营 ?
利用 数据分析 ,得到隐藏在数据背后的业务规律,利用这些规则来给运营提供方向、方案、策略,并收集数据结果,进行不断优化,从而提升运营的效率与效果。
运营是什么?
运营工作是一个很细,方向性,目标性强的工作。例如:这个月期望新增活跃用户达到100万【明确的运营目标】,运营就是用尽量少的资源达到期望的目标。
一、定义清楚目标
运营定义目标,活跃用户的定义是什么?例如:是本月有过购买订单,用户有登录,有过评论?
二、目标分解
目标分解,活跃用户来源构成,例如:如下图所示;这个更多是从业务角度来说,根据业务经验,会怎么进行目标分解。同时非常明确各个用户的定义,规模有多大,这个规模就需要从数据上提供。
三、运营目标差距
运营人员利用经验进行了目标分解后,制定目标分解的逻辑。接下来需要 数据分析师 ,数据分析需要帮忙运营人员提取相关的数据。通过数据让业务人员精准的了解业务结构。
通过看这些数据,数据化运营人员就可以非常清楚以下几种事情:
1、如何不采取任何运营动作,那目前每月活跃用户大概50万老用户,27万的新注册会员。流失用户、休眠用户、注册未激活用户可能会有一定的比例用户会在本月活跃,比例分别为:1%、2%、1%,合计会有10万活跃用户。全月预计会至少有87万的活跃。
2、根据数据的测算,运营人员非常明确离当月设定的目标大概有13万的距离,这就是运营目标与实际的gap。因为运营人员需要根据目标差距去获取相应的运营资源来达到目标。
对很多公司来说,如何数据团队你准确、快速给运营人员这些数据,让运营人员通过数据可以非常准确的了解结构,对运营人员是很幸福的事情。通过这些数据分析,运营人员也有运营方向,可以根据目标差距,可获取资源来决定本次针对哪类型的人群来进行发力【数据分析提供了瞄准器,通过这些数据运营人员已经有明确的方向】。
接下来需要更深入的数据分析,分析各个类型的用户有什么样的特征,例如:休眠用户中有多少之前是高消费,之前主要购买了什么,从而建立了用户画像,对用户有全面的了解。运营人员根据这些数据分析的结果就知道可以制定什么样的策略,设计什么样的方案。
对于数据分析师来说,可能需要一定的数据分析、 数据挖掘 的方法,例如:建立RFM模型,通过聚类算法建立用户细分模型,通过流失模型预测每个用户的流失概率。
深入分析用户为什么流失,是因为对价格不满意,商品缺货,商品品质等,还是竞争对手搞活动。通过这些模型和深入的专题分析,让运营人员利用数据来制定非常有针对性的方案。例如,针对流失会员中的之前消费频率高,消费金额高,设计满减活动来挽回。
有二名话来形容数据化运营的话:
瞄准器,心中有数,循环迭代
提升运营效率,提高运营ROI
后续将开始写数据化运营之数据分析,会员分析等方面的文章。 作者: 数据海洋
来源:中国统计网
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-03-11 23:22:00
什么是 交叉验证 法?
它的基本思想就是将原始数据(dataset)进行分组,一部分做为 训练集 来训练模型,另一部分做为测试集来评价模型。
为什么用交叉验证法? 交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。 还可以从有限的数据中获取尽可能多的有效信息。
主要有哪些方法?
1. 留出法 (holdout cross validation)
在 机器学习 任务中,拿到数据后,我们首先会将原始数据集分为三部分: 训练集、验证集和测试集 。
训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。
这个方法操作简单,只需随机把原始数据分为三组即可。
不过如果只做一次分割,它对训练集、验证集和测试集的样本数 比例 ,还有分割后数据的分布是否和原始数据集的 分布 相同等因素比较敏感,不同的划分会得到不同的最优模型,而且分成三个集合后,用于训练的数据 更少 了。
于是有了  2. k 折交叉验证(k-fold cross validation) 加以改进:
k 折交叉验证通过对 k 个不同分组训练的结果进行平均来减少方差,因此模型的性能对数据的划分就不那么敏感。 第一步,不重复抽样将原始数据随机分为 k 份。 第二步,每一次挑选其中 1 份作为测试集,剩余 k-1 份作为训练集用于模型训练。 第三步,重复第二步 k 次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。 在每个训练集上训练后得到一个模型, 用这个模型在相应的测试集上测试,计算并保存模型的评估指标, 第四步,计算 k 组测试结果的平均值作为模型精度的估计,并作为当前 k 折交叉验证下模型的性能指标。
k 一般取 10,
数据量小的时候,k 可以设大一点,这样训练集占整体比例就比较大,不过同时训练的模型个数也增多。
数据量大的时候,k 可以设小一点。
当 k=m 即样本总数时,叫做  3. 留一法(Leave one out cross validation) ,每次的测试集都只有一个样本,要进行 m 次训练和预测。
这个方法用于训练的数据只比整体数据集少了一个样本,因此最接近原始样本的分布。
但是训练复杂度增加了,因为模型的数量与原始数据样本数量相同。
一般在数据缺乏时使用。
此外: 多次 k 折交叉验证再求均值,例如:10 次 10 折交叉验证,以求更精确一点。 划分时有多种方法,例如对非平衡数据可以用分层采样,就是在每一份子集中都保持和原始数据集相同的类别比例。 模型训练过程的所有步骤,包括模型选择,特征选择等都是在单个折叠 fold 中独立执行的。
还有一种比较特殊的交叉验证方式, Bootstrapping:  通过自助采样法,即在含有 m 个样本的数据集中,每次随机挑选一个样本,再放回到数据集中,再随机挑选一个样本,这样有放回地进行抽样 m 次,组成了新的数据集作为训练集。
这里会有重复多次的样本,也会有一次都没有出现的样本,原数据集中大概有 36.8% 的样本不会出现在新组数据集中。
优点是训练集的样本总数和原数据集一样都是 m,并且仍有约 1/3 的数据不被训练而可以作为测试集。
缺点是这样产生的训练集的数据分布和原数据集的不一样了,会引入估计偏差。
此种方法不是很常用,除非数据量真的很少。
各方法应用举例?
1. 留出法 (holdout cross validation)
下面例子,一共有 150 条数据: >>> import numpy as np >>> from sklearn.model_selection import train_test_split >>> from sklearn import datasets >>> from sklearn import svm >>> iris = datasets.load_iris() >>> iris.data.shape, iris.target.shape (( 150 , 4 ), ( 150 ,))
用 train_test_split 来随机划分数据集,其中 40% 用于测试集,有 60 条数据,60% 为训练集,有 90 条数据: >>> X_train, X_test, y_train, y_test = train_test_split( ... iris.data, iris.target, test_size= 0.4 , random_state= 0 ) >>> X_train.shape, y_train.shape (( 90 , 4 ), ( 90 ,)) >>> X_test.shape, y_test.shape (( 60 , 4 ), ( 60 ,))
用 train 来训练,用 test 来评价模型的分数。 >>> clf = svm.SVC(kernel= 'linear' , C= 1 ).fit(X_train, y_train) >>> clf.score(X_test, y_test) 0.96 ...
2. k 折交叉验证(k-fold cross validation)
最简单的方法是直接调用 cross_val_score,这里用了 5 折交叉验证: >>> from sklearn.model_selection import cross_val_score >>> clf = svm.SVC(kernel= 'linear' , C= 1 ) >>> scores = cross_val_score(clf, iris.data, iris.target, cv= 5 ) >>> scores array([ 0.96 ... , 1. ... , 0.96 ... , 0.96 ... , 1. ])
得到最后平均分为 0.98,以及它的 95% 置信区间: >>> print ( "Accuracy: %0 .2f (+/- %0 .2f)" % (scores.mean(), scores.std() * 2 )) Accuracy: 0 . 98 (+ /- 0.03)
我们可以直接看一下  K-fold  是怎样划分数据的:
X 有四个数据,把它分成 2 折,
结果中最后一个集合是测试集,前面的是训练集,
每一行为 1 折: >>> import numpy as np >>> from sklearn.model_selection import KFold >>> X = [ "a" , "b" , "c" , "d" ] >>> kf = KFold(n_splits= 2 ) >>> for train, test in kf.split(X): ... print( "%s %s" % (train, test)) [ 2 3 ] [ 0 1 ] [ 0 1 ] [ 2 3 ]
同样的数据 X,我们看  LeaveOneOut  后是什么样子,
那就是把它分成 4 折,
结果中最后一个集合是测试集,只有一个元素,前面的是训练集,
每一行为 1 折: >>> from sklearn.model_selection import LeaveOneOut >>> X = [ 1 , 2 , 3 , 4 ] >>> loo = LeaveOneOut() >>> for train, test in loo.split(X): ... print( "%s %s" % (train, test)) [ 1 2 3 ] [ 0 ] [ 0 2 3 ] [ 1 ] [ 0 1 3 ] [ 2 ] [ 0 1 2 ] [ 3 ]
资料:
机器学习
http://scikit-learn.org/stable/modules/cross_validation.html
https://ljalphabeta.gitbooks.io/python-/content/kfold.html
http://www.csuldw.com/2015/07/28/2015-07-28%20crossvalidation/ 作者:Alice熹爱学习
链接:https://blog.csdn.net/aliceyangxi1987/article/details/73532651
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-06-16 01:59:00
  作者 | Bernard Marr 译者 | Sambodhi 编辑 | Vincent 微信公众号 | “AI 前线”(ID:ai-front)
就在短短几年前,人们想用人类语言与机器进行“会话” ,体验让人感到沮丧,感觉就像一个喜剧。
今天,这一切都发生了改变。虽然自然语言处理和识别技术还远未达到完善的程度,但得益于 机器学习 算法的发展,人们越来越难以分辨究竟是在和机器还是和人类“说话”。
业务部门已经充分利用了这一点,越来越多的公司都在客服部门部署了聊天机器人,在内部流程中越来越依赖聊天机器人,并用来协助培训员工。
在温哥华举办的 ICLR 2018,Salesforce 的首席科学家 Richard Socher 提出了七项突破性的研究成果,涵盖了自然语言处理的实际进展,包括摘要、机器翻译和回答问题。
他告诉我,“自然语言处理技术对商业来说,将会非常重要:它将从根本上改变我们提供服务的方式、我们如何理解销售流程以及我们如何进行营销。尤其是在社交媒体上,你需要自然语言处理来了解你的营销信息以及人们如何看待你的品牌。”
当然,这就引发了一些问题,其中一个最明显的问题就是:人们真的想与机器交谈么?从商业角度来看,这是合乎情理的:用一台机器进行 1000 次同时进行的客服回话,要比一个巨大的人工呼叫中心来做的同样的工作来得更划算。
但是从客户的角度来看,他们得到了什么呢?除非他们得到的服务更快速、更高效、更有用,否则他们可能不会使用聊天机器人。
Socher 说:“我的观点并不能代表全世界部署的所有聊天机器人,因为有一些做得并不是太好。但在我们的案例中,我们得到了非常积极的反馈,因为当一个机器人正确地回答问题或满足你的要求时,它做得非常非常快。到最后,用户只需要一个快速的回答,原本人们想的是他们要和一个人会话,因为做出选择是通过按十分钟的菜单,或者听上十个选项,然后按下一个相应的按键。这样的方式,一点都不好玩,也不快,更没效率。”
实现高效利用自然语言处理技术的关键是聚合和增强的概念。 人工智能 和聊天机器人可以被用来监视和从每一次会话中获取见解,并从中学习如何在下一次会话中表现得更好,而不是只考虑一个人与一台机器之间的会话。
增强意味着机器不必进行整个会话。聊天机器人可以“介入”日常事务,例如回答组织知识库中的直接问题,或获取付款细节。
在其他情况下,实时分析的速度意味着机器人可以在检测到变化的时候提高警惕,例如,检测到客户变得愤怒时,就会让人类操作员接管会话——这要归功于情感分析。
摘要是自然语言处理的另一个非常有用的功能,它有望越来越多地应用到聊天机器人上。在企业内部,机器人可以在需要的时候快速消化、处理和报告业务数据,而且新成员可以快速提升自己的业务速度。而对于面向客户的功能,客户可以得到关于产品和服务项目的总结回答,或者技术支持的问题解答。
聊天机器人是“智能助理”技术的一种形式,它可以为你的手机上的 Siri 或 Google Assistant,或者你桌面上的 Cortana 赋能。一般来说,它们只专注于组织内的一个特定的任务。
Spiceworks 一项研究发现,40% 的大型企业将在 2019 年前实施智能助理或聊天机器人。(https://www.spiceworks.com/press/releases/spiceworks-study-reveals-40-percent-large-businesses-will-implement-intelligent-assistants-chatbots-2019/)
其中 46% 表示,自然语言处理将用于语音文本听写,14% 用户客服,10% 用于其他 数据分析 工作。
聊天机器人在协作型工作环境中应用也越来越普遍,比如 Slack,它们可以监控团队之间的会话,并在会话中的相关位置提供相关的事实或统计数据。
在未来,聊天机器人有望更进一步发展,并提出解决商业问题的对策和建议。
Socher 告诉我,“它们有望基于对过去成功的所有事物的理解,帮助我们制定营销信息。”
另一个例子是客服机器人,它们可以根据所拥有的会话的分类和情感分析来分配资源处理客户案例。
与所有 人工智能 一样,自然语言处理的发展还远未完成,我们今天所能拥有的会话水平,无疑在短短几年时间内会显得太过做作和不自然。
但今天,企业显然越来越适应了这个想法:将聊天机器人和智能助手集成到它们的流程,并相信这样做会带来效率和客户满意度的提高。
原文链接:
https://www.forbes.com/sites/bernardmarr/2018/05/18/how-artificial-intelligence-is-making-chatbots-better-for-businesses/2/#5e0288273cf2
本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/55876.html 。
数据分析
2018-06-15 09:10:00