数据专栏

智能大数据搬运工,你想要的我们都有

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

摘要:从 Python 菜鸟到Python Kaggler的旅程(译注: Kaggle 是一个数据建模和 数据分析 竞赛平台) 假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你需要学习的利用Python进行数据分析的所有步骤的完整概述。如果你已经有一些相关的背景知识,或者你不需要路径中的所有内容,你可以随意调整你自己的学习路径,并且让大家知道你是如何调整的。 步骤0:热身 开始学习旅程之前,先回答第一个问题:为什么使用Python或者,Python如何发挥作用 观看DataRobot创始人Jeremy在PyCon Ukraine 2014上的 30分钟演讲 ,来了解Python是多么的有用。 步骤1:设置你的机器环境 现在你已经决心要好好学习了,也是时候设置你的机器环境了。最简单的方法就是从Continuum.io上下载 分发包Anaconda 。Anaconda将你以后可能会用到的大部分的东西进行了打包。采用这个方法的主要缺点是,即使可能已经有了可用的底层库的更新,你仍然需要等待Continuum去更新Anaconda包。当然如果你是一个初学者,这应该没什么问题。 如果你在安装过程中遇到任何问题,你可以在 这里 找到不同操作系统下更详细的安装说明。 步骤2:学习Python语言的基础知识 你应该先去了解Python语言的基础知识、库和数据结构。Codecademy上的 Python课程 是你最好的选择之一。完成这个课程后,你就能轻松的利用Python写一些小脚本,同时也能理解Python中的类和对象。 具体学习内容:列表Lists,元组Tuples,字典Dictionaries,列表推导式,字典推导式。 任务:解决HackerRank上的一些 Python教程 题,这些题能让你更好的用Python脚本的方式去思考问题。 替代资源:如果你不喜欢交互编码这种学习方式,你也可以学习 谷歌的Python课程 。这个2天的课程系列不但包含前边提到的Python知识,还包含了一些后边将要讨论的东西。 步骤3:学习Python语言中的正则表达式 你会经常用到正则表达式来进行数据清理,尤其是当你处理文本数据的时候。学习正则表达式的最好方法是参加谷歌的Python课程,它会让你能更容易的使用正则表达式。 任务:做关于 小孩名字的正则表达式练习 。 如果你还需要更多的练习,你可以参与这个 文本清理的教程 。数据预处理中涉及到的各个处理步骤对你来说都会是不小的挑战。 步骤4:学习Python中的科学库—NumPy, SciPy, Matplotlib以及Pandas 从这步开始,学习旅程将要变得有趣了。下边是对各个库的简介,你可以进行一些常用的操作: 根据 NumPy教程 进行完整的练习,特别要练习数组arrays。这将会为下边的学习旅程打好基础。 接下来学习 Scipy教程 。看完Scipy介绍和基础知识后,你可以根据自己的需要学习剩余的内容。 这里并不需要学习Matplotlib教程。对于我们这里的需求来说,Matplotlib的内容过于广泛。取而代之的是你可以学习 这个笔记 中前68行的内容。 最后学习Pandas。Pandas为Python提供DataFrame功能(类似于R)。这也是你应该花更多的时间练习的地方。Pandas会成为所有中等规模数据分析的最有效的工具。作为开始,你可以先看一个关于Pandas的 10分钟简短介绍 ,然后学习一个更详细的 Pandas教程 。 您还可以学习两篇博客 Exploratory Data Analysis with Pandas 和 Data munging with Pandas 中的内容。 额外资源: 如果你需要一本关于Pandas和Numpy的书,建议Wes McKinney写的 “Python for Data Analysis” 。 在Pandas的文档中,也有很多Pandas教程,你可以在 这里 查看。 任务:尝试解决哈佛CS109课程的 这个任务 。 步骤5:有用的 数据可视化 参加CS109的这个 课程 。你可以跳过前边的2分钟,但之后的内容都是干货。你可以根据这个 任务 来完成课程的学习。 步骤6:学习Scikit-learn库和机器学习的内容 现在,我们要开始学习整个过程的实质部分了。Scikit-learn是机器学习领域最有用的Python库。这里是该库的 简要概述 。完成 哈佛CS109课程 的课程10到课程18,这些课程包含了机器学习的概述,同时介绍了像回归、决策树、整体模型等监督算法以及聚类等非监督算法。你可以根据各个 课程的任务 来完成相应的课程。 额外资源: 如果说有那么一本书是你必读的,推荐 Programming Collective Intelligence 。这本书虽然有点老,但依然是该领域最好的书之一。 此外,你还可以参加来自Yaser Abu-Mostafa的机器学习 课程 ,这是最好的机器学习课程之一。如果你需要更易懂的机器学习技术的解释,你可以选择来自Andrew Ng的 机器学习课程 ,并且利用Python做相关的课程练习。 Scikit-learn的教程 任务:尝试Kaggle上的这个 挑战 步骤7:练习,练习,再练习 恭喜你,你已经完成了整个学习旅程。 你现在已经学会了你需要的所有技能。现在就是如何练习的问题了,还有比通过在Kaggle上和数据科学家们进行竞赛来练习更好的方式吗深入一个当前 Kaggle 上正在进行的比赛,尝试使用你已经学过的所有知识来完成这个比赛。 步骤8:深度学习 现在你已经学习了大部分的机器学习技术,是时候关注一下深度学习了。很可能你已经知道什么是深度学习,但是如果你仍然需要一个简短的介绍,可以看 这里 。 我自己也是深度学习的新手,所以请有选择性的采纳下边的一些建议。 deeplearning.net 上有深度学习方面最全面的资源,在这里你会发现所有你想要的东西—讲座、数据集、挑战、教程等。你也可以尝试参加 Geoff Hinton的课程 ,来了解神经网络的基本知识。 附言:如果你需要 大数据 方面的库,可以试试Pydoop和PyMongo。大数据学习路线不是本文的范畴,是因为它自身就是一个完整的主题。 本文由 伯乐在线 – xianhu 翻译,艾凌风 校稿。英文出处: analyticsvidhya 。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2016-01-20 22:47:00
  对于暴雪来说,他们也在发力手游,继《暗黑破坏神:不朽》后,其还在秘密打造新的手游。   近日暴雪一则招聘广告被曝光,地点是在中国上海,为一个“未公布项目”招聘外部开发的“高级游戏制作人”。职位描述中提到理想的候选人必须在外部开发、手游开发或运营方面展现过自己的成功,并具备 3A 游戏丰富知识。   而在职位需求上要求至少 8 年的工作经验,能说流利的普通话和英语,曾推出过多款游戏(3A 游戏优先),具备手游线上运营方面的丰富知识和经验。   此前曾有传言称暴雪一个手游被砍,人员转到了《守望先锋2》和《暗黑4》上。不过如今看来,暴雪依旧在不遗余力地开发手游。   另外,还有消息称,暴雪要跟中国某个厂商一起(应该还是网易),为国内用户量身打造一款手游,不知道大家是否期待?
来源:博客园
发布时间:2020-08-24 13:53:00
摘要:随着 大数据 技术逐步在企业端应用,越来越多的企业在利用数据技术提升管理效率和决策的科学性。企业对 数据分析 人才的需求也越来越旺盛,对管理者的 数据分析 能力也提出了新的要求。 数据的质量直接影响着数据的价值,并且还影响着数据分析的结果以及我们依此做出的决策的质量。质量不高的数据会影响企业的经营管理决策;如果数据是错误的,那么还不如没有数据,因为没有数据时,我们会基于经验和常识做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此, 数据质量 是治理企业经营管理数据的关键所在。 数据的质量可以通过八个指标进行衡量,每一个指标都从一个侧面反映了数据的品相。这八个指标分别是:准确性、及时性、即时性、真实性、精确性、完整性、全面性和关联性。 我们在比较两个数据集的品相时往往采用如下图所示的这种图形表示。例如常规来讲,内部数据集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采集数据的技术手段; 而外部数据集(如微博数据、互联网媒体数据等)的全面性、及时性和即时性都可以通过技术手段如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,而关联性取决于数据采集和挖掘的相关技术。 数据的准确性 数据的准确性(Accuracy)是指数据的采集值或者观测值与真实值之间的接近程度,也叫误差值,误差值越大,数据的准确度越低。数据的准确性由数据的采集方法决定的。 数据的精确性 数据的精确性(Precision)是指对同一对象在重复测量时所得到的不同观测数据之间的接近程度。精确性,也叫精准性,它与数据采集的精度有关系。精度越高,要求数据采集的粒度越细,误差的容忍程度也越低。 例如在测量人的身高时,可以精确到厘米,多次测量结果之间的误差只会在厘米级别;在测量北京到上海的距离时,可以精确到千米,多次测量结果之间的误差会在千米级别;用游标卡尺测量一个零件的厚度时,可以精确到 1/50 毫米,多次测量结果之间的误差也只会在 1/50 毫米级别。因此,可以说采用的测量方法和手段直接影响着数据的精确性。 数据的真实性 数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度。数据采集过程可控程度高,可追溯情况好,数据的真实性就容易得到保证,而可控程度低或者无法追溯,则数据的真实性就难以得到保证。 为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集的数据的真实性,减少人为干预,减少数据造假,从而让数据更加准确地反映客观事物。 数据的及时性 数据的及时性(In-time)是指能否在需要的时候获到数据。例如企业在月初会对上个月的经营和管理数据进行统计和汇总,此时的数据及时性是指这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是数据分析和挖掘及时性的保障。如果企业的财务核算流程复杂,核算速度缓慢,上个月的数据在本月月中才能统计汇总完成,那么等需要调整财务策略的时候,已经到月底了,一个月已经快过完了。特别是当企业做大了之后,业务覆盖多个市场、多个国家,如果数据不能及时汇总,则会影响到高层决策的及时性。数据的及时性与企业的数据处理速度及效率有直接的关系,为了提高数据的及时性,越来越多的企业采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,在数据上传到系统中之后自动完成绝大部分报表,从而提高了数据处理的效率。使用计算机自动处理中间层数据是提高企业数据处理效率的有效手段。 企业除要保证数据采集的及时性和数据处理的效率外,还需要从制度和流程上保证数据传输的及时性。数据报表制作完成后,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间中。 数据的即时性 数据的即时性包括数据采集的时间节点和数据传输的时间节点,在数据源头采集数据后立即存储并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据的即时性就稍差。例如一个生产设备的仪表即时地反映了设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作即时数据。而 当将设备的即时运行数据存储下来,用来分析设备的运行状况与设备寿命的关系时,这些数据就成了历史数据。 数据的完整性 数据的完整性是指数据采集的程度,即应采集的数据和实际采集到的数据之间的比例。例如在采集员工信息数据时,要求员工填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间共 12 项信息,而某个员工仅仅填写了部分信息,例如只填写了其中的 6 项,则该员工所填写数据的完整性只有一半。 一家企业中的数据的完整性体现着这家企业对数据的重视程度。要求采集的数据在实际中并未完整采集,这就是不完整的数据,这往往是企业对数据采集质量要求不到位导致的。 另外,对于动态数据,可以从时间轴去衡量数据的完整性。比如,企业要求每小时采集一次数据,每天应该形成 24 个数据点,记录为 24 条数据,但是如果只记录了 20 条数据,那么这个数据也是不完整的。 数据的全面性 数据的全面性和完整性不同,完整性衡量的是应采集的数据和实际采集到的数据之间的比例。而数据全面性指的是数据采集点的遗漏情况。例如,我们要采集员工行为数据,而实际中只采集了员工上班打卡和下班打卡的数据,上班时间员工的行为数据并未采集,或者没有找到合适的方法来采集,那么这个数据集就是不全面的。 再例如,我们记录一个客户的交易数据,如果只采集了订单中的产品、订单中产品的价格和数量,而没有采集客户的收货地址、采购时间,则这个数据采集就是不全面的。 腾讯 QQ 和微信的用户数据记录了客户的交流沟通数据;阿里巴巴和京东的用户数据记录了用户的交易数据;百度地图记录了用户的出行数据;大众点评和美团记录了客户的餐饮娱乐数据。对全面描述一个人的生活来说,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性是一个相对的概念。过度追求数据的全面性是不现实的。 数据的关联性 数据的关联性是指各个数据集之间的关联关系。例如员工的工资数据和绩效考核数据是通过员工关联在一起来的,而且绩效数据直接关系到工资数据。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来的。 本书探讨的企业经营数据,每个数据集都是相互关联的,有的是直接关联的,如员工工资数据和员工绩效数据;有的是间接关联的,如物料采购订单数据与员工工资数据。这些数据是由公司的资源,包括人、财、物和信息等关联起来的。如果有任何的数据集不能关联到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业经营数据关联性不足导致的。而数据的关联性直接影响到企业经营数据集的价值。 ——本文摘自《企业经营数据分析 : 思路、方法、应用与工具》,作者:赵兴峰 著 内容提要 本书为从事企业经营数据分析工作的人员以及企业中的高层管理者提供数据分析的思路和方法。本书的内容来自笔者长期从业经验的总结,所有的内容都是从企业的实际应用出发,涵盖了多个行业,其中包括生产制造业、零售服务业、电商行业等,读者可以将其中的思路和方法轻松地应用到实践工作中。 本书主要内容包括企业中的 大数据 介绍、数据分析的目的、数据分析的思路、对比与对标、分类、聚类、逻辑关系、预测、结构、各职能部门的具体数据分析、常用的数据分析工具介绍。 本书适合企业的管理者与数据分析人员,以及对大数据感兴趣的读者。另外,本书还可以作为企业内部的数据分析培训教材。 作者简介 赵兴峰 北京大学、新加坡国立大学MBA双硕士,西安交通大学工学学士,北京信宜明悦咨询有限公司创始人。 具有20年跨国公司经营数据分析实战经验,曾就职于宝洁、惠氏、摩立特、LG电子等国际知名企业,从事市场研究、 商业智能 、战略研究等。 目前专注于 大数据时代 下政府和企业的数据治理、数据统筹、数据分析和 数据挖掘 应用推广,致力于推动企业和政府利用数据实现战略转型与升级,构建智慧企业、智慧政府、智慧城市和智慧生态。 注:本文由电子工业出版社投稿 数据分析网 发表,并经数据分析网编辑。版权归作者所有,转载此文请与作者联系。 本文由 电子工业出版社投稿 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/25637.html 。
来源:数据分析网
发布时间:2016-09-05 22:41:00
策划编辑 | Debra 作者|Joe Davison 译者|无明 编辑|Debra 微信公众号“AI前线”,(ID:ai-front) 我知道,成为热情过度、沉迷于炒作的深度学习布道师可不是件时髦的事。那些 2013年还把深度学习奉为神祗的 机器学习 专家,现在提到这个词时只是带着一丝懊恼,他们现在更倾向于对现代神经网络进行轻描淡写,以免人们仍然认为 import keras 可以解决一切问题,并认为他们在竞争中仍有拥有巨大的优势。 正如 Yann LeCun所说的那样,深度学习作为一个流行词确有被夸大之嫌,但这种态度的转变导致了人们对 人工智能 的进步、未来和作用产生了不正常的怀疑。目前,关于人工智能寒冬即将到来的言论甚嚣尘上,人们预计,人工智能研究将停滞多年,就像在过去几十年中所发生的那样。 谈论人工智能寒冬将至的文章和传言 AGI将迎来爆发的文章一样多。 然而,这篇文章的目的不是为了反驳 AI寒冬将来的观点,也不是为了比较某个学术团体比另一个对深度学习具有更深刻的见解。相反,我是想要说明真实的情况,这一领域的发展已经超出了大型计算机和更好数据集的范畴,机器学习(以及最近在深度神经网络方面取得的成功及相关成果)代表了世界技术进步的最前沿。 机器学习!= 统计学 “说到融资,人工智能。说到招聘,机器学习。说到应用,逻辑回归。” 这篇文章的主要观点是,机器学习不只是批上美丽面纱的统计学——只是用上更大型的计算机和取了个更高级的名字,换汤不换药。之所以有这种想法,是因为在机器学习中普遍存在着统计学的概念和术语,例如回归、权重、偏差、模型等。此外,许多模型与统计函数很相似:分类模型的 softmax输出由分对数组成,使图像分类器的训练过程成为一个逻辑回归。 虽然这种思路从某种意义上说是正确的,但认为机器学习是统计学的附属就有点扯远了。事实上,这种比较没有多大意义。统计学属于数学领域,涉及对数据的理解和解释,而机器学习是一类算法(因此它诞生于计算机科学)。在许多情况下,这些算法在帮助理解数据方面完全无用,并且仅在某些类型无法解释的预测建模中起作用。在某些情况下,例如在强化学习中,算法可能根本不使用预先存在的数据集。另外,处理图像时,把图像视为数据集(数据集中包含了作为特征的像素)的实例有一点牵强。 当然,关键不在于计算机科学家是不是比数据学家强,和所有其他研究领域一样,今天的成功要归功于各种学科的贡献,统计学和数学是其中贡献最大的一类。然而,为了正确评估机器学习方法的强大影响力和潜力,首先要消除错误的观念,即人工智能的发展只不过是基于老旧的统计学技术,只是用上了更大型的计算机和更好的数据集而已。 机器学习不需要高级统计学知识 当我刚接触机器学习时,我很幸运地上了一门深度学习技术专修课程,这是我本科计算机科学课程的一门课。我们指定的项目之一是在 TensorFlow中实现和训练 Wasserstein GAN。 那时,我只参加了一门必修普通选修课程,然后很快就忘记了大部分内容。不用说,我的统计学技能不是很强。然而,我读懂了一篇有关生成机器学习模型的论文,并从头开始实现它,基于 MS Celebs数据集进行训练,生成以假乱真的虚假图像。 在整个课程中,我和同学们成功地训练了用于癌组织图像分割、神经机器翻译、基于字符的文本生成和图像样式转换的模型,所有这些都采用了过去几年最先进的机器学习技术。 然而,如果你问我,或者问班上的大多数学生,如何计算人口的方差,或者如何定义边际概率,恐怕没人能答得上来。 这似乎与人工智能仅仅是对古老统计学技术的“品牌重塑”的观点有点出入。 确实,在深度学习课程中,ML专家可能比 CS本科生具有更坚实的统计学基础。一般而言,信息理论需要对数据和概率有很强的理解,我当然会建议所有有兴趣成为数据科学家或机器学习工程师的人去培养对统计学概念的深刻理解。但问题仍然存在:如果机器学习是统计学的附属,那么几乎没有统计学背景的人如何能够做到深入理解先进的机器学习概念的呢? 我们还应该承认,相比大多数神经网络技术,许多机器学习算法要求更好的统计学和概率学背景,但这些方法也通常被称为统计机器学习或统计学习,似乎是有意将它们与常规机器学习区分开来。此外,近年来大多数被大肆宣传的机器学习创新均属于神经网络领域,因此这点无关紧要。 当然,我们不能孤立地看机器学习本身。同样,现实中,所有希望从事机器学习工作的人都可能要处理各种类型的数据问题,因此也需要对统计学有很强的理解。但这并不意味着它们是一回事。机器学习 =表示 +评估 +优化为了公平起见,我和同学们在算法、计算复杂性、优化方法、微积分、线性代数甚至概率学方面都有很坚实的基础。我认为,在处理相关问题时,所有这些都比高级统计学知识更有用。 机器学习是一类算法,它不断迭代“学习”某个函数的近似。华盛顿大学计算机科学教授 Pedro Domingos提出了构成机器学习算法的三个组成部分:表示、评估和优化。 表示是将输入从一个空间转换到另一个更容易被理解的空间,可以想想卷积神经网络。原始像素对于区分狗和猫是没有用的,因此我们将它们转换为可用于解释和评估的更有用的表示(例如,softmax输出的对分数)。 评估基本上就是损失函数。你的算法如何有效地将数据转换为更有用的空间?你的 softmax输出与 one-hot编码标签(分类)有多接近?你是否正确预测了文本序列中的下一个单词(文本 RNN)?你的潜在分布与单位高斯(VAE)有何不同?这些问题会告诉你表示功能的运行情况,更重要的是,它们定义了算法将要学习的内容。 优化是这个拼图的最后一部分。有了评估组件后,你可以优化表示函数以改进评估指标。在神经网络中,这通常意味着使用一些随机梯度下降的变量,根据某些定义的损失函数更新网络的权重和偏差。就这样,你拥有了世界上最好的图像分类器。 在训练图像分类器时,除了定义合理的损失函数之外,通过学习得到的表示函数是否具有逻辑输出是无关紧要的。借用逻辑回归这样的统计术语确实让我们在讨论模型空间时有了可用的词汇,但这并没有将它们从优化问题变成数据理解问题。 旁白:人工智能这个词很愚蠢。 AI问题只是计算机还不擅长解决的问题。在 19世纪,机械计算器被认为是智能的。现在这个术语与深度学习密切相关,我们开始使用通用人工智能(AGI)来指代比高级模式匹配机制更智能的东西。然而,我们对通用智能仍然没有一个统一的定义或理解。AI所做的唯一一件事就是激发人们对所谓的“奇点”或类似终结者的杀手机器人产生恐惧。我希望我们可以停止使用这个空洞、耸人听闻的术语来指代真正的科学技术。 深度学习技术 接下来,我们来推翻所谓的深度学习统计学性质几乎就是深度神经网络的所有内在。当然,完全连接的节点由权重和偏差组成,但卷积层呢?整流器激活呢?批量标准化呢?残留层呢?丢弃呢?记忆和注意机制呢? 这些创新对于高性能深度网络的发展至关重要,但它们并没有与传统的统计技术有什么联系(可能因为它们根本不是统计技术)。如果你不相信,试着告诉统计学家你的模型过度拟合了,或问他们随机丢弃模型的 1亿个参数中的一半是不是个好主意。 更不用说模型的可解释性了。 回归超过 1亿个变量——没问题吧? 我还要指出深度网络与传统统计模型之间的差异。深度神经网络是巨大的,例如,VGG-16 ConvNet架构有大约 1.38亿个参数。你认为你的学术顾问会对一个提出想要执行超过 1亿个变量的多重回归的学生做出什么回应?这个想法很荒谬。这是因为训练 VGG-16不是多重回归,而是机器学习。 新的前沿 在过去的几年里,你可能阅读了无数的论文、帖子和文章,了解到机器学习现在可以做很多很酷的事情,所以我不必花太多时间在这上面。然而,我要提醒你,深度学习不仅产生了更多的技术,它还让我们能够解决一些全新的问题。 在 2012年之前,解决涉及非结构化和半结构化数据的问题是一个挑战。可训练的 CNN和 LSTM就是这方面的巨大飞跃。这在计算机视觉、自然语言处理、语音转录等领域取得了相当大的进步,并且使人脸识别、自动驾驶车辆和会话 AI等技术得到了巨大的改进。 确实,大多数机器学习算法最终都涉及模型和数据拟合——从这个角度来看,它是一个统计过程。航天飞机只不过是一个带翅膀的飞行器,这也是事实,但我们并没有看到有人发表情包嘲笑美国宇航局 20世纪太空探索的事迹,将其视为对飞机的过度“品牌重塑”。 与太空探索一样,深度学习的出现并没有解决世界上所有的问题。在许多领域仍有很多鸿沟需要跨越,特别是在“人工智能”领域。换句话说,它帮助我们提高了解决复杂非结构化数据问题的能力。机器学习仍然代表着世界技术进步和创新的最前沿。它不只是墙上透着亮光的裂缝,终有一天,它可能会破墙而出! 原文链接: https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/57467.html 。
来源:数据分析网
发布时间:2018-07-14 18:00:00
随着面部识别系统越发成熟,个人隐私问题也引发了越来越多的担忧。多伦多大学的研究人员利用对抗式训练的深度学习技术开发了一种新的算法,这种算法可以动态地扰乱面部识别系统,有助于保护用户隐私。研究者表示,他们的系统可以将可检测的面部比例从原先的近百分之百降低到 0.5%。 每当用户将照片或视频上传到社交媒体平台时,这些平台的面部识别系统都会对用户有一定的了解。这些算法会提取包括用户的身份、所在地以及认识的人在内的数据,而且还在不断提升。 随着对 社交网络 隐私和数据安全的担忧不断增加,Parham Arabia 教授和研究生 Avishek Bose 带领多伦多大学工程部的研究人员创建了一种可以动态扰乱面部识别系统的算法。 Aarabi 认为,「当面部识别系统做得越来越好时,个人隐私就成为了一个真正的问题。这种反面部识别的方法可以有力地保护个人隐私。」 他们的算法利用了所谓对抗式训练的深度学习技术,这种方法使两种 人工智能 算法相互对抗。Aarabi 和 Bose 设计的方法中有两个神经网络:第一个用来进行面部识别,第二个用来扰乱第一个做出的面部识别任务。这两个网络不断对抗,也不断地相互学习,从而开始了一场持续的 AI 竞赛。 这场竞赛的结果是建立了一个与 Instagram 有些相似的过滤器,这种过滤器可以应用在照片上从而达到保护隐私的目的。该算法改变了图像中的特定像素,做出了一些人眼几乎察觉不到的变化。Bose 说,「扰乱性 AI 可以『攻击』面部识别神经网络正在识别的东西。例如,如果识别性 AI 正在识别眼睛的角落,扰乱性 AI 就会对这个部位做出几乎无法察觉的调整。它在照片中创造了一些非常微妙的干扰,但是却足以欺骗系统。」Aarabi 和 Bose 在 300-W 面部数据集上测试了他们的系统,300-W 是一个包含 600 多张面部图像的产业标准库,这些面部图像来自不同的种族,照明条件及环境也有所不同。研究者表示,他们的系统可以将可检测的面部比例从原先的近百分之百降低到 0.5%。 该项目的主要作者 Bose 说:「这个项目的重点在于训练两个相互对抗的神经网络——一个用来创建越来越强大的面部识别系统,另一个用来创建更强大的、用来禁用面部检测系统的工具。」该团队的研究将于今年夏天在 2018 年 IEEE 国际多媒体信号处理研讨会(International Workshop on Multimedia Signal Processing)上发布。 多伦多大学工程部的研究人员设计了一个用于扰乱面部识别算法的「隐私过滤器」。该系统依赖于两个基于 AI 创建的算法:一个用于连续进行面部识别,另一个用于对第一个进行扰乱。 除了禁用面部识别外,这项新技术还可以扰乱基于图像的搜索、特征识别、情感和种族评估以及其他自动提取面部属性的功能。 接下来,该团队希望隐私过滤器可以以 app 或网页的形式为大众所用。 Aarabi 说:「十年前,这些算法还需要人为定义,但是现在神经网络已经可以自行学习了——除了训练数据,无需提供其他东西。最终,它们可以做出一些真正了不起的东西。在这个领域中这是一段非常有趣的时光,而且这个领域还有很大的潜力有待发掘。」 论文:Adversarial Attacks on Face Detectors using Neural Net based Constrained Optimization 论文链接:https://joeybose.github.io/assets/adversarial-attacks-face.pdf 摘要:本文所述算法通过对抗式攻击在输入中添加几乎无法察觉的扰乱,从而达到使 机器学习 模型对输入进行错误分类的目的。尽管在图像分类模型中已经提出了许多不同的对抗式攻击策略,但一直难以打破目标检测的途径。本文作者提出的新策略可以通过使用对抗式生成器网络解决约束优化问题,制作对抗的例子。该方法快速而且可拓展,只需要通过训练好的生成器网络的正向通路制作对抗性样例。与许多攻击策略不同的是,本文所述的相同的训练后的生成器可以攻击新图像但不会明显优化它们。文中用 300-W 面部数据集对训练好的 Faster R-CNN 面部识别器结果进行了评估,本文所述方法成功将面部检测数降低到原始面部检测数的 0.5%。同样是用 300-W 数据集,我们还在不同的实验中证明了我们的攻击对基于 JPEG 压缩图的防御的鲁棒性,在 75% 的压缩等级的情况下,我们的攻击算法的有效性从 0.5%(可检测的面部比例)降低到 5.0%。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-07-12 11:04:00
作者|Anthony Delgado 译者|刘志勇 编辑|Debra 微信公众号“AI 前线”,(ID:ai-front) 在接下来的五年里,我们将目睹我们所在的世界完全被 人工智能 和机器学习的进步所颠覆。如今的孩子们在家里都有 人工智能 助手(Google Assistant、Apple Siri、Amazon Alexa 等)陪伴成长,以至于你认为它们的存在只是共同抚养的延伸。随着语音和面部技术的不断发展,机器学习算法变得越来越智能化。越来越多的行业受到人工智能的影响,我们所知道的社会正在发生转变。 运输行业 运输行业似乎将是第一个被人工智能完全颠覆的行业。事实上,人工智能带来的许多影响正在发生。Uber 和 Lyft 都在研发自动驾驶技术。全球定位系统(GPS)导航软件公司 Waze(于 2013 年被 Google 收购)悄然发布了一款名为 CarPool 的新应用,将其 5000 多万用户转成了司机,允许用户通勤上下班,并需要支付一定费用。Waymo(原 Google 自动驾驶骑车项目)最近在公共道路上行驶了 500 万英里。 Tesla 的自动驾驶功能似乎已经几百了大多数其他竞争对手。Tesla 目前拥有超过 3 亿英里的自动驾驶里程,而目前路上所有的 Tesla 汽车都只是一个软件更新,距离完全自动驾驶还很远。Tesla 也希望通过其名为 Semi 的新型自动驾驶汽车来颠覆卡车运输行业。Walmart 表示,它已经预定了 15 辆由人工智能驱动的 Tesla 电动卡车。 这些都不是问题。问题在于,这些公司能不能够完善技术,能不能从政府的繁文缛节中解脱出来。 想一想,当我们停止盲目驾驶和在城市交通中通勤时,我们能节省多少小时的人类生产力呢? 网约车经济的自动化不仅能节省社会时间,而且还能大幅降低交通运输成本。很快,乘坐自动驾驶汽车的费用将和乘坐公共汽车一样便宜,而驾驶汽车将会像骑马和坐马车一样过时了。 刑事司法 人工智能颠覆的下一个行业就是刑事司法系统。由于面部识别技术的进步,使得指纹识别技术变得过时了。科技初创公司正在利用人工智能将法律工作实现自动化。与此同时,一些法院已经开始使用人工智能判决罪犯并确定假释资格。 但是,刑事司法系统是这么一个领域:如果我们不小心,过多的创新可能会对社会造成言中的后果,并将我们带到反乌托邦的未来,这是一件可怕的事情。在今年的 SXSW 大会上,Elon Musk 就说道:“人工智能可比核武器危险多了,走得太远了,为什么我们没有监管人工智能呢?” 如果政府没有制定适当的针对人工智能和机器学习的法规的话,我们的民主就有可能会遭到严重的破坏: • 政府是否需要授权才能使用人工智能检索你的在线数据? • 在没有授权的情况下,人工智能是否可以监听美国公民的电话? • 如何传唤 人工智能算法 出庭作证,以便在法庭上面对原告? • 若人工智能建议不当处理法律案件时,我们如何处理不当行为? 这些还只是在我们的刑事司法系统中引入自主决策技术时遇到的一些法律问题。 一种可能的解决方案就是让这些政府系统开源,以便可以检查系统的代码,查看是否存在内置的偏见。 在 2016 年时,美国各地用来预测有假释资格的罪犯再次犯罪的软件,被发现对非裔美国人有偏见。不幸的是,当你的数据存在偏差时,它可能会产生存有偏差的算法。让这种类型的软件保持开源,允许公众检查和改进算法,使它们公平和公正。 广告行业 最后,人工智能将把有针对性的个性化广告提升到一个全新的水平。如果你认为 Facebook 的 Cambridge Analytica 丑闻是一件很槽糕的事情,那么你就不知道接下来的是年历会发生什么事。 广告商已经能够预测哪种类型的广告会对你的购买行为产生情感上的影响。随着时间的推移,广告将会继续变得更加个性化。想象一下吧,Amazon 的 Alexa 只需通过名字就了解你的一切,将赞助信息插入到自然对话中,或个性化的增强现实(augmented reality,AR)的广告牌上(想想《少数派报告》(Minority Report)里的 Tom Cruise 吧)。 由于人工智能的加持,广告将继续变得更加智能、更深入我们的日常生活。机器学习算法正在构建每个人的性格特征。广告商收集的数据量持续增长。相关产品推荐、搜索结果和社交新闻推送都是广告商植入智能广告的例子,这些广告利用人工智能将你定位为个人消费者。 慢慢地,这些人工智能算法可以了解你的行为,并且在你意识到之前,它们比你还了解你自己。 即使在今天,人工智能对我们社会的影响也不可小觑。然而,如果你想在竞争中占据先机,并且愿意为这些变革做好准备,那么你还有足够的时间进行弯道超车。 原文链接: https://www.forbes.com/sites/forbestechcouncil/2018/06/13/three-impacts-of-artificial-intelligence-on-society/#3c25afb26ec0 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/55680.html 。
来源:数据分析网
发布时间:2018-07-10 19:01:00
随着智能手机,智能汽车,智能家居等创新技术的迅速发展,科技正在迅速将我们的世界变成一个“智能”世界。  物联网(IoT)是这里的主要贡献者之一。 IoT的核心是所有配备传感器和微芯片的连接设备基于集中式平台通过互联网传输数据,从而提高效率和性能。 据估计,到2020年,全球连接设备的数量将接近500亿。 随着连接设备的数量继续迅速增加,将会出现管理和分析由这些设备生成的大量数据的需求。  这些数据至关重要,因为它提供了宝贵的见解和模式,可以帮助企业和组织评估潜在风险,发现新的商业机会,并且最重要的是可以提高组织的整体运作和生产力。  现在,这就是 人工智能 ( AI )和机器学习(ML)的地方。AI和ML技术允许 数据科学家 深入研究海量数据并从中发现有意义的见解。 强调 人工智能 对物联网和机器的重要性,John McCarthy教授恰如其分地表示: “AI的目标是开发出像智能一样行事的机器。” 尽管处于发展阶段,AI已经开始在全球市场创造就业前景。 凯捷报告称,近83%利用人工智能技术的组织认为, 人工智能领域新的就业机会已经开始出现。 随着越来越多的组织加入 大数据 和人工智能的潮流,现在对数据科学家,数据工程师, 数据分析师 等熟练数据专业人员的需求非常庞大。 现在,开始使用人工智能的职业生涯变得更加便利,因为互联网上涌现出高度教育性和信息丰富的在线人工智能课程。 这些课程专门为有志向学生介绍人工智能的基本概念,如算法,自然语言处理等,并逐渐向更复杂的概念(如机器学习和深度学习)进展。 如果你甚至与技术场景有着遥远的关系,建议你通过这些课程并提高你的就业能力。 因为,正如现在必须清楚的那样,遍布全球的组织一直在关注着熟练的数据专家。现在没有比现在开始的更好的时间了! 计算在数据管理中的作用 今天,数据呈指数增长 – 每天产生近2.5千亿的数据! 在我们生活的数据驱动世界中,这些数据是所有信息的来源。 然而,管理如此大量的数据本身就是一个挑战。  得益于高端计算流程,我们能够存储,处理和分析这些数据,以揭示隐藏的趋势和见解,从而可以增强业务运营,提高生活质量,最重要的是促进创新。 计算机可以比人类更加快速和准确地处理和分析数据 ,因此,它极大地帮助企业利用可供处理的数据来计算重要统计数据,监控员工绩效,电力自动化,提高生产力和销售量,提高机器效率,以及更多。 正是由于这种计算能力,今天的组织才能获得广泛的统计和技术见解和可视化。 此外,诸如云计算等技术增强了AI的功能。 例如, 像Netflix和亚马逊这样的工业巨头依靠基于云的框架来处理AI任务和需要全面分析和计算的服务。 数据基础 设施和人工智能 数据基础架构是数据处理和分析的一个重要方面。  没有适当的数据基础设施,企业和组织就无法从数据中创造价值。 通过数据基础设施,我们指的是处理,存储,传输和保护数据所需的整个后端计算支持系统。 虽然许多公司使用软件定义的基础设施(SDI)来支持动态IT环境,但SDI有其积压。 SDI不仅受到静态源代码的限制,而且其功能在很大程度上还取决于为特定环境编写代码的软件开发人员的技能和专业知识。 因此, SDI不是“智能的”,现在这种趋势正在转向人工智能定义的基础设施(ADI)。 从本质上讲,ADI是SDI的智能升级,完全采用先进的AI和ML算法,可以从现有信息中“学习”,自动构建自我修复框架。  ADI可以: 不断分析现有基础设施所有组件的动态行为,并“学习”了解自己的工作。 通过主动监控基础架构组件的功能并自动采取措施解决问题(如果有),创建一个无错误的环境。 根据工作负载的需求部署资源,并在不再需要特定资源时取消分配资源。 这些数据基础设施有助于支持各种与AI相关的技术和应用,包括: 对现有框架的支持: 数据基础架构应该包含TensorFlow,Caffe,Theano和Torch等AI框架,以加强和支持当前的框架。但是,重点不应仅仅依赖人工智能框架,而应该适合软件开发人员的需求和兴趣。 GPU友好的环境: 为确保AI任务和进程的无缝处理,数据基础架构必须支持具有令人印象深刻的计算能力的GPU环境。微软的N系列GPU实例就是一个很好的例子 AI优化的管理环境和工具: 缺乏适当的管理环境和用于支持和运行AI应用程序的工具是当前数据基础架构的最大缺点之一。因此,集成正确的管理工具和环境以实现最佳性能至关重要。 机器推理: 机器推理是AI环境的组成部分。机器推理算法使AI环境能够跟上基础设施和技术的动态趋势,从而为最佳行动方案提供有意义的见解。 人工智能实施中组织技能的重要性 仅仅投资和利用AI技术是不够的。公司和企业需要一个专业人才库,他们可以采用这些AI工具来确保获得最佳结果。 随着人工智能和机器学习不断渗透全球的行业和企业,越来越需要重新思考组织的整个领导和思维过程,从产品战略和客户体验到找到提高人力资本生产力的方法。 商业世界的领导者必须通过以下方式鼓励其系统内的智能AI集成: 以人为本 仅仅投资人工智能技术就没有结果。企业必须按比例投资于员工。根据杜克大学人类与自主实验室主任米西卡明斯的说法, “人工智能的未来正在支持和增强人类的能力,因此人工智能团队比单独一人更强大。” 培养学习型工作文化 作为一个发展中的领域,人工智能需要不断的训练和学习,以跟上它今天带来的创新和变化。未来,人工智能将在技术领域带来新的变化,只有通过鼓励和创造不断学习和培训的工作环境,组织才能跟上人工智能的创新。 培养业务运营的透明度 组织应努力保持并推动业务各个方面的透明度。领导和经理应该与员工就他们的AI方法进行公开交流。这不仅有助于赢得他们的信任和信心,而且还会鼓舞士气,激励他们更努力地工作。 Adecco集团首席执行官Alain Dehaze认为: “增强智能,融合人力投入和人工智能,将成为企业成功和形成繁荣社会的关键驱动力。我们正处在技术变革的风口浪尖上,这与我们之前在人类历史上看到的任何变化都不同。技术进步需要更加关注天生的人类技能 –  批判性思维,情商和价值判断。 “ 因此,拥有合适的数据基础架构和适当的组织技能可以帮助企业和组织以正确的方式利用人工智能工具和技术。 作者:Vivek Kumar 编译:数据人网-陆勤 原文链接: https://towardsdatascience.com/the-need-for-data-infrastructure-for-best-utilization-of-artificial-intelligence-72612c1026e0 出处链接:http://shujuren.org/article/631.html 本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/57262.html 。
来源:数据分析网
发布时间:2018-07-10 09:45:00
今天,谷歌首席执行官桑达尔·皮查伊宣布了「谷歌 AI 研究七大准则」,为公司近期在军事 AI 项目上的争议作出了官方回应。与此同时,美国智库 New American Security 研究员 Gregory C.Allen 认为,谷歌 人工智能 研究员合乎道德的做法应该是参与选择国家安全项目,而不是关闭所有项目。 今年 1 月,谷歌 CEO Sundar Pichai 曾表示 人工智能 的影响会比电力「更深刻」。他遵循谷歌领导者的悠久传统,称其技术是变革性且美妙的。 问题在于变革性的技术也会变革军事力量,AI 也不例外。6 月 1 日,谷歌宣布不会续签与美国军方合作的 Project Maven 合同。该项目是美国军队首次在操作层面上部署「深度学习」AI 系统,使用处理层将数据转换成抽象表征,在此项目中,其目标是将军事无人机收集的摄像片段图像进行分类。在大约 4000 名谷歌员工签署禁止谷歌参与构建「军事技术」的请愿书后,谷歌决定撤出该项目。 这种退却带来了巨大的道德风险。将先进的 AI 技术整合到军事领域和过去将电力应用到军事领域一样,都是不可避免的,这一变迁充斥着伦理和技术风险。它将采用很多天才 AI 研究者的研究成果作为输入,来帮助军队保持伦理道德的正确方向,包括谷歌等大公司的研究者。 去年,我代表美国智能社区进行了一项研究,结果显示 AI 的变革性影响将覆盖国家安全的方方面面。军事机器人、 网络安全 、监控和宣传在面对 AI 支持的破坏行为时是很脆弱的。美国、俄罗斯和中国都期望 AI 成为未来军事力量的基础,美国及其盟友在重要军事技术方面的垄断(如隐形战机和精确制导武器)正走向结束。 我很同情面临是否支持军队难题的学界和业界研究者。一方面,保护美国及其盟友的安全、自由和强大,以阻止潜在威胁一如既往地重要。帮助军队利用新技术能够减少战区士兵和公民的危险,同时增强国家安全。 另一方面,帮助军方的研究者有时又会后悔。一些为曼哈顿项目工作的科学家(该项目开发了二战中使用的原子弹),后来认为如果没有原子弹研究,世界会变得更好。很多 AI 应用在伦理和法律上可能存在问题,比如帮助警察侦察和判刑的软件所遇到的麻烦。 幸运的是,美国 AI 研究者可以自由选择项目,并影响他们的员工和合作者。 然而,即使研究员拒绝参加一个项目,他们也不能真的选择不关心国家安全的后果。很多业余爱好无人机制造商惊恐地发现他们的产品被伊斯兰教恐怖分子组织 ISIS 用于对美国军队投掷炸弹。毫无疑问很多开发无人驾驶汽车的研究员并没有完全考虑该技术对无人坦克或无人汽车炸弹的影响。但忽略潜在的应用并不能阻止它们的发生。 此外,AI 科学家将他们的很多工作开源。在这些案例中,发表算法、代码库和训练数据集将使这些构建模块对所有军方可用,本来温和的项目也可能带来有害的应用。技术公司全面拒绝和美国国家安全组织合作将会事与愿违,即使其它公司选择了合作。国家的 AI 研究员需要倾听军方对技术安全后果的声明,而军方也需要广泛的专家建议来合乎道德和有效地应用 AI。 这并不是说 AI 研究人员应该随意支持美国军方设计的每个项目。一些提议可能是不道德以及愚蠢的,研究人员应该拒绝这些提议。 但是有些 AI 项目真的能提升国家安全,并符合法律与道德上的准则。例如美国国防部高级研究计划局在对抗由 AI 构建的伪造视频和音频上的工作。人工智能研究社区应该考虑这一类的项目,或者至少不要妖魔化这些研究项目。 还记得细菌学家 Theodor Rosebury,他在 20 世纪 40 年代为美国军队研究生化武器。在第二次世界大战后,Rosebury 将它的生化武器限制在防御性研究,并主张将防御作为美国军队的唯一策略,他的立场最终被载入 1972 年的「生化武器公约」。现在,我们再回到谷歌和 Project Maven。 多年来我都参与提倡美国军方增加高级 AI 技术的使用,并且是以谨慎和具备道德意识的方式。Project Maven 执行的是 non-safety-critical 的任务,和暴力并没有直接联系,这正是我所希望的。系统使用 AI 计算机视觉来自动化无人机视频分析的大部分枯燥工作:人群、车辆和建筑的计数。企业的参与涉及的是应有的信用,而不是批评。 全或无的立场是危险的过度简单化。企业的和学术界的 AI 专家拥有独特的和必不可少的机会来帮助军方整合 AI 技术,并以合乎道德的方式支持国家和国际安全。 谷歌 AI 研究的七条准则 在上周五决定退出军事 AI 项目 Project Maven 之后不久,谷歌首席执行官桑达尔·皮查伊于今天发布了公司在 AI 研究,特别是 AI 军事研究上的道德准则。长达两个月的争议和抵制之下,谷歌改变了其在军事领域上的指导方向。值得注意的是,在新的准则之下,谷歌表示其将继续和军队保持合作。 谷歌认为人工智能应用应该实现的目标如下: 1. 有益于社会 新技术的扩展对社会的影响越来越大。AI 领域的进展将对医疗、安全、能源、交通、制造业等大量行业带来革命性影响。谷歌考虑 AI 技术的潜在开发和使用,以及大量社会和经济因素,决定将继续进行其认为整体益处远远大于可预见风险和弊端的领域。 AI 还增强了理解大规模内容的能力。谷歌将继续努力,利用 AI 提供高质量、可获取的准确信息,同时继续尊重各个国家的文化、社会和法律规范。谷歌将继续审慎评估何时能够在非商业的基础上推广技术。 2. 避免创造或增强偏见 AI 算法和数据集能够反映、强化或减少偏见。谷歌意识到区分公平和不公平偏见不总是那么简单,且在不同文化和社会背景下有所不同。谷歌将寻求避免对人类的不公平影响,尤其是在敏感话题方面,如种族、民族、性别、国家、收入、性取向、能力和政治或宗教信仰。 3. 为保障安全而建立和测试 我们将继续开发和应用强大的安全保障和安全的实践以避免不希望发生的导致风险的结果。我们将把 AI 系统设计得适当的谨慎,并探索按照 AI 安全研究的最佳实践来开发的方式。在合适的案例中,我们将在受限的环境中测试 AI 技术,并在部署之后监控它们的运行。 4. 对人们有说明义务 我们将设计能为反馈、相关解释和上诉提供合适机会的 AI 系统。我们的 AI 技术将服从合适的人类指导和控制。 5. 整合隐私设计原则 我们将把我们的隐私原则整合进 AI 技术的开发和使用中。我们将为通知和准许提供机会,鼓励架构中结合隐私保护,并对数据的使用提供合适的透明度和控制。 6. 坚持高标准的科学探索 技术创新根植于科学方法和开放式的调查、严谨的思考、诚信和合作。人工智能工具可能在生物、化学、医药、和环境科学等关键领域具有开拓新科学研究和知识的潜力。我们致力于促进人工智能的发展,追求高标准的科学探索。 我们将与一系列志同道合的人合作,以科学性的严谨和多学科的方式促进这一领域领导力的发展。我们将通过发布教育资源、最佳时间和研究项目来负责任地分享 AI 知识,并令更多的人开发强大的 AI 应用。 7. 根据原则确定合适的应用 许多技术有多种用途。我们将努力限制可能有害或滥用的技术应用。在我们开发和部署 AI 技术时,我们将根据以下因素评估可能的用途: 主要目的和用途:技术和应用的主要目的和用途,包括解决方案与危险使用的关联或它是否能适应于危险使用。 自然和独特性:我们提供的是独特的技术还是普遍的应用。 规模:这种技术的使用是否会产生重大的影响。 谷歌在项目中的性质:我们是提供通用目的的工具、为客户集成的工具还是开发定制版的解决方案。 谷歌不会推动的 AI 应用 除了上面的目标,谷歌不会设计或者将 AI 应用到以下领域: 只带来或者可能只会带来伤害的技术;虽然有些技术有实质性的危害风险,我们将只会进行大体上收益大于危害的技术,同时也会做出合适的安全保证。 武器、其目标或者实现是为了直接/间接伤害人类的技术。 违背国际可接受的标准,收集或者使用监督信息的技术。 违背国际可接受的律法、人权等普世原则的技术。 谷歌希望澄清,虽然该公司决定不开发用于武器的 AI,但其将继续与政府、军队在其他许多领域合作,包括网络安全、训练、军人招募、军人健康、搜索与营救。这些合作非常重要,谷歌称自己将积极寻求更多方法来增强这些组织的重要工作,保证服务人员与平民的安全。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-07-06 23:06:07
作者 Rajat Harlalka 编译  Geek AI、张倩 本文转自机器之心 机器学习 算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢?福利来啦~本文将教你慧眼识精,快速挑选出满意的算法! 机器学习既是一门科学,也是一种艺术。纵观各类机器学习算法,并没有一种普适的解决方案或方法。事实上,有几个因素会影响你对机器学习算法的选择。 有些问题是非常特别的,需要用一种特定的解决方法。例如,如果你对推荐系统有所了解,你会发现它是一类很常用的机器学习算法,用来解决一类非常特殊的问题。而其它的一些问题则非常开放,可能需要一种试错方法(例如:强化学习)。监督学习、分类、回归等问题都是非常开放的,可以被用于异常检测或建立更加广泛的预测模型。 此外,我们在选择机器学习算法时所做出的一些决定与算法的优化或技术层面关系并不大,而更多地与业务决策相关。下面,让我们一起来看看有哪些因素能帮你缩小机器学习算法的选择范围。 数据科学过程 在你开始研究不同的机器学习算法前,你需要对自己拥有的数据、面对的问题及相关约束有清晰的了解。 理解你的数据 当我们决定使用哪种算法时,我们所拥有的数据的类型和形态起着关键性的作用。有些算法可以利用较小的样本集合工作,而另一些算法则需要海量的样本。特定的算法对特定类型的数据起作用。例如,朴素贝叶斯算法对处理待分类的输入特别有效,但是对于缺失值则一点都不敏感。 因此,你需要做到: 了解你的数据 1. 查看总结统计和 数据可视化 的结果 百分比可以帮助你识别大多数数据的范围 平均数和中位数可以描述集中趋势 相关系数可以指出强的关联性 2. 数据可视化 箱形图可以识别出异常值 密度图和直方图可以显示出数据的散布情况 散点图可以描述二元关系 数据清洗 1. 处理缺失值。缺失的数据对于某些模型的影响比对其它模型更大。即使是对于那些被用于处理缺失数据的模型来说,它们也可能对缺失数据很敏感(某些变量的缺失数据可能导致预测性能变差) 2. 选择处理异常值的方法 异常值在多维数据中十分常见。 有些模型对异常值的敏感性比其它模型要低。通常而言,树模型对于异常值的存在不太敏感。然而回归模型、或者任何试图使用方程的模型都会受到异常值的严重影响。 异常值可能是糟糕的数据收集造成的,也可能是合理的极值。 3. 数据需要被聚合吗? 数据增强 1. 特征工程是从原始数据中产生能够被用于建模的数据的过程,可以起到以下几种作用: 使模型更容易被解释(如数据分箱(binning)) 捕获更复杂的关系(如神经网络) 减少数据冗余并降低数据维度(如主成分分析(PCA)) 重新缩放变量(如标准化或归一化) 2. 不同的模型可能有不同的特征工程的要求。有的模型有内置的特征工程。 对问题进行分类 下一步是对问题进行分类。这是一个需要分两步实现的过程。 1. 根据输入分类: 如果你拥有的是带标签的数据,那么这就是一个监督学习问题。 如果你拥有的是未标注过的数据,并且希望从中找到有用的结构,那么这就是一个无监督学习问题。 如果你想要通过与环境的交互来优化一个目标函数,那么这就是一个强化学习问题。 2. 根据输出分类: 如果模型的输出是一个(连续的)数字,那么这就是一个回归问题。 如果模型的输出是一个类别,那么这就是一个分类问题。 如果模型的输出是一组用输入数据划分出的簇,那么这就是一个聚类问题。 你想发现一个异常点吗?此时你面对的就是一个异常检测问题。 理解你要满足的约束条件 你需要考虑你能够存储数据的容量有多大?这取决于系统的存储容量,你可能无法存储若干 GB 大小的分类、回归模型或者若干 GB 的用于聚类分析的数据。例如,在嵌入式系统中,你就会面临这种情况。 对预测过程的速度是否有要求?在实时应用中,很显然,尽快得出预测结果是十分重要的。例如,在自动驾驶问题中,应用必须尽可能快地对道路标志进行分类,以免发生交通事故。 对学习过程的速度是否有要求?在某些情况下,快速训练模型是十分必要的:有时,你需要使用不同的数据集快速地实时更新你的模型。 寻找可用的算法 当对自己的任务环境有了一个清晰的认识后,你就可以使用你所掌握的工具确定适用于待解决的问题并切实可行的算法。一些影响你选择模型的因素如下: 模型是否满足业务目标 模型需要多少数据预处理工作 模型有多准确 模型的可解释性如何 模型运行的速度有多快:构造模型需要多久?模型做出预测需要多长时间? 模型的可伸缩性如何 模型的复杂度是一个影响算法选择的重要标准。一般来说,一个更复杂的模型具备下列特征: 它依赖于更多的特征进行学习和预测(例如,使用十个而不是两个特征来预测目标) 它依赖于更复杂的特征工程(例如,使用多项式特征、交互特征或主成分) 它有更大的计算开销(例如,需要一个由 100 棵决策树组成的随机森林,而不是一棵单独的决策树) 除此之外,同样的机器学习算法可以基于参数的个数和某些超参数的选择而变得更加复杂。例如: 回归模型可以拥有更多的特征,或者多项式项和交互项。 决策树可以拥有更大或更小的深度。 将相同的算法变得更加复杂增加了发生过拟合的几率。 常用的机器学习算法 线性回归 这可能是机器学习中最简单的算法。例如,当你想要计算一些连续值,而不是将输出分类时,可以使用回归算法。因此,当你需要预测一个正在运行的过程未来的值时,你可以使用回归算法。然而,当特征冗余,即如果存在多重共线性(multicollinearity)时,线性回归就不太稳定。 在下列情况下可以考虑使用线性回归: 从一个地方移动到另一个地方所需的时间 预测下个月某种产品的销售情况 血液中的酒精含量对协调能力的影响 预测每个月礼品卡的销售情况,并改善年收入的估算 Logistic 回归 Logistic 回归执行二进制分类,因此输出二值标签。它将特征的线性组合作为输入,并且对其应用非线性函数(sigmoid),因此它是一个非常小的神经网络的实例。 logistic 回归提供了许多方法对你的模型进行正则化处理,因此正如在朴素贝叶斯算法中那样,你不必担心你的特征是否相关。该模型还有一个很好的概率化的解释。不像在决策树或者支持向量机中那样,你可以很容易地更新你的模型以获取新的数据。如果你想要使用一个概率化的框架,或者你希望在未来能够快速地将更多的训练数据融合到你的模型中,你可以使用 logistic 回归算法。logistic 回归还可以帮助你理解预测结果背后起作用的因素,它不完全是一个黑盒方法。 在下列情况下可以考虑使用 logistic 回归算法: 预测客户流失 信用评分和欺诈检测 评价市场营销活动的效果 决策树 决策树很少被单独使用,但是不同的决策树可以组合成非常高效的算法,例如随机森林或梯度提升树算法。 决策树很容易处理特征交互,并且决策树是一种非参数模型,所以你不必担心异常值或者数据是否是线性可分的。决策树算法的一个缺点是,它们不支持在线学习,因此当你要使用新的样本时,你不得不重新构建决策树。决策树的另一个缺点是,它很容易发生过拟合,而这就是像随机森林(或提升树)这样的集成学习方法能够派上用场的地方。决策树也需要大量的内存空间(拥有的特征越多,你的决策树可能会越深、越大) 决策树能够很好地帮助你在诸多行动路径中做出选择: 做出投资决策 预测客户流失 找出可能拖欠银行贷款的人 在「建造」和「购买」两种选择间进行抉择 销售主管的资质审核 K-均值 有时,你完全没有数据的标签信息,并且你的目的是根据对象的特征来为其打上标签。这种问题被称为聚类任务。聚类算法可以在这种情况下被使用:例如,当你有一大群用户,你希望根据他们共有的一些属性将其划分到一些特定的组中。 如果在你的问题声明中有这样的问题:例如,找出一群个体的组织形式,或将某些东西分组,或找出特定的组。这时,你就应该使用聚类算法。 该方法最大的缺点是,K-均值算法需要提前知道你的数据会有多少簇,因此这可能需要进行大量的试验去「猜测」我们最终定义的簇的最佳个数——K。 主成分分析(PCA) 主成分分析能够对数据进行降维。有时,你拥有各种各样的特征,这些特征之间的相关性可能很高,而模型如果使用如此大量的数据可能会产生过拟合现象。这时,你可以使用主成分分析(PCA)技术。 主成分分析(PCA)能够起作用的关键因素是:除了低维的样本表征,它还提供了各种变量的一种同步的低维表征。同步的样本和变量的表征提供了一种能够可视化地找到能够表示一组样本的特征的变量的方法。 支持向量机 支持向量机(SVM)是一种在模式识别和分类问题中被广泛应用的监督机器学习技术——当你的数据恰好有两类时。 支持向量机准确率高,对于防止过拟合很好的理论保障。当你使用一个合适的核函数时,即使你的数据在基(低维)特征空间中是线性不可分的,他们也可以很好地工作。支持向量机在文本分类问题中非常流行,在该问题中,输入是一个维度非常高的空间是很正常的。然而,SVM 是一种内存密集型算法,它很难被解释,并且对其进行调优十分困难。 在下列现实世界的应用中,你可以使用支持向量机: 发现患有糖尿病等常见疾病的人 手写字符识别 文本分类——将文章按照话题分类 股票市场价格预测 朴素贝叶斯 这是一种基于贝叶斯定理的分类技术,它很容易构建,非常适用于大规模数据集。除了结构简单,据说朴素贝叶斯的表现甚至比一些复杂得多的分类方法更好。当 CPU 和内存资源有限时,朴素贝叶斯算法也是一个很好的选项。 朴素贝叶斯非常简单,你仅仅是在做大量的计数工作。如果朴素贝叶斯的条件独立假设确实成立,朴素贝叶斯分类器的收敛速度会比 logistic 回归这样的判别模型更快,因此需要的训练数据更少。即使朴素贝叶斯的假设不成立,朴素贝叶斯分类器往往也能很好地完成任务。如果你想使用一种快速的、简单的、性能也不错的模型,朴素贝叶斯是一个很好的选择。这种算法最大的缺点就是它不能学习到特征之间的相互作用。 在下列真实世界的应用中,你可以使用朴素贝叶斯: 情感分析和文本分类 类似于 Netflix、Amazon 这样的推荐系统 识别垃圾邮件 人脸识别 随机森林 随机森林是一种决策树的集成方法。它能够同时解决具有大规模数据集的回归问题和分类问题,还有助于从数以千计的输入变量中找出最重要的变量。随机森林具有很强的可伸缩性,它适用于任何维数的数据,并且通常具有相当不错的性能。此外,还有一些遗传算法,它们可以在具有最少的关于数据本身的知识的情况下,很好地扩展到任何维度和任何数据上,其中最简单的实现就是微生物遗传算法。然而,随机森林学习的速度可能会很慢(取决于参数设置),并且这种方法不能迭代地改进生成模型。 在下列现实世界的应用中,你可以使用随机森林: 预测高危患者 预测零件在生产中的故障 预测拖欠贷款的人 神经网络 神经网络中包含着神经元之间连接的权重。这些权重是平衡的,逐次对数据点进行学习。当所有的权重都被训练好后,如果需要对新给定的数据点进行回归,神经网络可以被用于预测分类结果或一个具体数值。利用神经网络,可以对特别复杂的模型进行训练,并且将其作为一种黑盒方法加以利用,而在训练模型之前,我们无需进行不可预测的复杂特征工程。通过与「深度方法」相结合,甚至可以采用更加不可预测的模型去实现新任务。例如,最近人们已经通过深度神经网络大大提升了物体识别任务的结果。深度学习还被应用于特征提取这样的非监督学习任务,也可以在人为干预更少的情况下,从原始图像或语音中提取特征。 另一方面,神经网络很难被解释清楚,其参数设置也复杂地让人难以置信。此外,神经网络算法也都是资源密集型和内存密集型的。 SCIKIT 参考手册 Scikit learning 为大家提供了一个非常深入的、解释地很清楚的流程图,它能够帮助你选择正确的算法。我认为此图十分方便。 结论 一般来说,你可以根据上面介绍的要点来筛选出一些算法,但是要想在一开始就知道哪种方法最好是很难的。你最好多迭代几次选择算法的过程。将你的数据输入给那些你确定的潜在优秀机器学习算法,通过并行或串行的方式运行这些算法,最终评估算法性能,从而选择出最佳的算法。 在最后,我想告诉你:为现实生活中的问题找到正确的解决方案,通常不仅仅是一个应用数学方法的问题。这要求我们对业务需求、规则和制度、相关利益者的关注点有所了解,并且具备大量的专业知识。在解决一个机器学习问题的同时,能够结合并平衡这些问题是至关重要的,那些能做到这一点的人可以创造最大的价值。 原文链接: https://hackernoon.com/choosing-the-right-machine-learning-algorithm-68126944ce1f 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-07-05 09:09:00
编译 | Debra 编辑 | Natalie 微信公众号“AI 前线”(ID:ai-front) Github 收藏平均数量:764⭐️ 机器学习 Github Top10 开放源代码,https://github.com/Mybridge/machine-learning-open-source。 主题:NLP 架构、视频分类、Mlflow、经典游戏、Dragonfire、Opencv、计算机视觉、Star GAN、Glow、生成压缩 这些开源项目对程序员很有用,希望你能找到一个能引起你兴趣的有趣项目。 Top1 Nlp-architect 英特尔 人工智能 实验室的 NLP 架构 :探索最先进的 NLP 深度学习拓扑和技术的 Python 库[Github 1194 颗星] 当前版本的 NLP Architect 包含了从研究角度和实际应用都非常有趣的特性: NLP 核心模型可以为 NLP 工作流程提供强大的语言特征提取功能:例如分析器(BIST)和 NP chunker 提供一流性能的 NLU 模块:例如意图提取(IE),名称实体识别(NER) 解决语义理解的模块:例如,内涵提取,最常见词义,NP 嵌入表示(如 NP2V) 会话式 AI 组件:例如 ChatBot 应用程序,包括对话系统,序列分块和 IE 使用新拓扑的端到端 DL 应用程序:例如 Q&A,机器阅读理解 感谢 Intel Nervana[英特尔人工智能实验室对 NLP 架构的介绍: Introducing NLP Architect by Intel AI Lab github 链接: https://github.com/NervanaSystems/nlp-architect Top2 视频非局域网 Video-nonlocal-net :用于视频分类的非局部神经网络,用 Caffe2 开发[Github 592 颗星] Facebook Research 介绍:https://medium.com/@FBResearch 论文地址:https://arxiv.org/pdf/1711.07971.pdf GitHub 链接: https://github.com/facebookresearch/video-nonlocal-net Top3 Mlflow 整个机器学习生命周期的开源平台 [Github 1282 颗星] 目前的 MLflow 是 alpha 版本,意味着 API 和数据格式有可能发生变化,且不支持 Windows 运行。 GitHub 链接: https://github.com/databricks/mlflow Top4 Gym Retro 经典游戏强化学习平台 [Github 905 颗星] OpenAI 使用 Gym Retro 来研究强化学习(RL)算法并研究泛化。 RL 之前的研究主要集中在优化代理解决单个任务上。 通过 Gym Retro,我们可以研究在概念相似但外观不同的游戏之间进行概括的能力。此外,OpenAI 还为新游戏添加了新的整合工具。 视频地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/retro-heavy/output2.mp4 此版本包括世嘉创世纪和世嘉主系统的游戏,以及任天堂的 NES,SNES 和 Game Boy 游戏机。它还包括对世嘉 Game Gear,任天堂 Game Boy Color,任天堂 Game Boy Advance 和 NEC TurboGrafx 的初步支持。 一些已发布的游戏集成(包括 Gym Retro 的数据 / 实验文件夹中的那些游戏)处于测试状态。由于涉及的变化规模很大,代码暂时只能在一部分游戏上使用。 OpenAI 介绍:https://blog.openai.com/gym-retro/ GitHub 链接: https://github.com/openai/retro/tree/develop Top5 Dragonfire v1.0 基于 Ubuntu 的 Linux 发行版的开源 AI 助手 [Github 688 颗星] 支持环境: Dragonfire 执行命令步骤: 搜索内置命令并评估代数表达式 尝试学习使用高级 NLP 和数据库管理技术 询问无所不知的 Q&A 引擎(感谢所有为维基百科做贡献的人) 使用 Deep Conversation 系统进行响应,这是一个使用 Cornell Movie-Dialogs Corpus 训练的 seq2seq 神经网络 Dragonfire 使用 Mozilla DeepSpeech 来理解你的语音命令,并使用 Festival Speech Synthesis System 来处理文本到语音的任务。 你可以到 Gitter 聊天室(https://gitter.im/DragonComputer/Lobby),或者 Twitter 帐户与 Dragonfire 体验亲自与她交谈的乐趣。 DRAGON.COMPUTER 介绍: https://github.com/DragonComputer/Dragonfire GitHub 链接: https://github.com/DragonComputer/Dragonfire Top6 FaceAI 人脸、视频、文字检测和识别项目(使用自动翻译器:中文 – >英文) [Github 1482 颗星]。 功能 人脸检测、识别(图片、视频) 轮廓标识 头像合成(给人戴帽子) 数字化妆(画口红、眉毛、眼睛等) 性别识别 表情识别(生气、厌恶、恐惧、开心、难过、惊喜、平静等七种情绪) 视频对象提取 图片修复(可用于水印去除) 图片自动上色 眼动追踪(待完善) 换脸(待完善) 开发环境 Windows 10(x64) Python 3.6.4 OpenCV 3.4.1 Dlib 19.8.1 face_recognition 1.2.2 keras 2.1.6 tensorflow 1.8.0 Tesseract OCR 4.0.0-beta.1 GitHub 链接: https://github.com/vipstone/faceai Top7 Sod 嵌入式计算机视觉和机器学习库(CPU 优化和 IoT 功能)[Github 557 颗星] SOD 是嵌入式的现代跨平台计算机视觉和机器学习软件库,公开了一套用于深入学习的高级媒体分析和处理 API,包括实时、多类别对象检测和嵌入式系统上的模型训练计算资源和物联网设备,旨在为计算机视觉应用提供通用基础设施,并加速在开源和商业产品中使用机器感知。 SOD 目前的计算机视觉算法支持但不限于移动机器人、AR/VR、基因学、人机交互、机器自动化等。 值得注意的 SOD 功能: 专为真实世界和实时应用程序而打造。 最先进的 CPU 优化深度神经网络,包括全新的独家 RealNets 架构。 无需专利,先进的计算机视觉算法。 支持主要的图像格式。 简单,干净且易于使用的 API。 深入了解有限的计算资源,嵌入式系统和物联网设备。 易于使用 OpenCV 或任何其他专有 API 进行插补。 预训练模型可用于大多数体系结构。 支持 CPU 的 RealNets 模型训练。 已完备、跨平台、高质量的源代码。 SOD 是免费的,用 C 语言编写,几乎可以在所有平台和体系结构上编译和运行。合并 – 将所有 SOD 源文件合并为一个 C 文件(sod.c)以便于部署。 开源,积极开发和维护产品。 开发者友好的支持渠道(https://sod.pixlab.io/support.html) SOD 编程指南:https://sod.pixlab.io/intro.html Symisc Systems 主页介绍:https://sod.pixlab.io/ GitHub 链接:https://github.com/symisc/sod Top8 StarGAN-Tensorflow StarGAN 的简单 Tensorflow 实现(CVPR 2018 Oral)[Github 382 颗星],感谢 Junho Kim。 StarGAN 是一个使用单个数据集解决多域图像到图像转换问题的框架,可以合并包含不同标签集的多个数据集,并灵活地使用这些标签进行图像翻译。 论文链接:https://arxiv.org/pdf/1711.09020.pdf GitHub 链接: https://github.com/taki0112/StarGAN-Tensorflow Top9 Glow 神经网络硬件加速器编译器 [Github 603 颗星],致谢 PyTorch。 Glow 是针对各种硬件目标而设计的机器学习编译器和执行引擎,被用作高级机器学习框架的后端。该编译器可以进行最先进的编译器优化和神经网络图的代码生成。这个库还在实验和发展阶段。 工作原理 Glow 将传统的神经网络数据流图降低到两阶段强类型中间表示(IR)。高级 IR 允许优化器执行特定域的优化。较低级别的仅基于指令的 IR 允许编译器执行与内存相关的优化,例如指令调度,静态内存分配和复制消除。在最底层,优化器执行特定机器代码生成,以利用其硬件特性。Glow 的降低阶段特点在于使编译器无需在所有目标上实现所有运算符,从而支持大量的输入运算符以及大量的硬件目标。降低阶段的设计旨在减少输入空间,让新的硬件后端专注于少数线性代数基元。其设计理念在 arXiv 论文中有所描述。 论文链接:https://arxiv.org/abs/1805.00907 GitHub 链接: https://github.com/pytorch/glow Top10 生成压缩 Generative-compression :GAN 极端学习图像压缩的 TensorFlow 实现。[Github 225 颗星],致谢 Justin-Tan。 Generative-compression 的方法由 Agustsson 等人在 Generative Adversarial Networks for Extreme Learned Image Compression 一文中提出。 论文链接:https://arxiv.org/pdf/1804.02958.pdf GitHub 地址: https://github.com/Justin-Tan/generative-compression 原文链接: https://medium.mybridge.co/machine-learning-open-source-projects-of-the-month-v-june-2018-d87e2ca3e13f 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56938.html 。
来源:数据分析网
发布时间:2018-07-03 18:55:00
基础 我在series hub中介绍过最基本的强化学习的内容。在强化学习里有四个基本的概念会经常出现在相关的文章中,策略、奖励、价值函数以及环境模型。我会跳过模型这个部分,因为我们现在讨论的是不基于模型的学习理论。 策略 :是 强化学习机 的核心,代表着决策进行的方式。它可能是一个表格,一个函数或者一个复杂的深度神经网络。 奖励信号 :一个数值,代表着强化学习机采取行动后的即时奖励。最大化所得奖励是强化学习机的最终目标,为了完成这个目标,我们不断地调整策略。这就像是训练狗狗一样。 价值函数 :一个函数,用于描述给定状态下的可能获得的远期奖励。这样看来,一个较小的但恒定的常数有可能会优于浮动范围很大的结果。当然,也可能是相反的情况。 探索与利用 Exploration(探索)会放弃一些已知的奖励信息,而去尝试一些新的选择——即在某种状态下,算法也许已经学习到选择什么行动让奖励比较大,但是并不能每次都做出同样的选择,也许另外一个没有尝试过的选择会让奖励更大,即Exploration希望能够探索更多潜在的信息。 Exploitation(利用)指根据已知的信息最大化奖励。 其区别也可以简单地理解成,Exploration 算法在搜索全局最优解,是不基于已有经验的;Exploitation 在搜索局部最优解,且最大程度地利用已有经验信息。 强化学习机就像是个小宠物。它们能够发现第二个碗中包含的东西比第一个碗里的更好,但是当它们开始进食后,就难以发现藏在角落里的大牛排。贪婪的学习机行为也差不多。它会死抓住第一桶金,为自己“谋利”。它总是采取最大化奖励的行动,但是从不会考虑采取其他行为能否在几步之后获得更大的奖励。这就是为什么我们需要探索,因为很有可能一些偶然因素导致我们的学习系统采取了一些随机的行为。 然而,这里有个问题。我们不能只是盲目地探索最大奖励,因为一个学习机会浪费太多的时间来寻找答案,却没有利用它所学习的经验。一个解决办法就是以高探索率开始,然后在系统积累一定经验后逐渐降低探索率。这种权衡也是很著名的数学问题,没有最合理的答案。 多臂老虎机 你肯定知道著名的单臂老虎机,如果你没有达到目标,你不会得到任何奖励。不管怎样,你都是要拉一下杠杆,然后我们假设能随机地获得金钱奖励。由于结果是完全随机的,所以我们训练强化学习机只拉这一个杠杆也无济于事。但是假设一台老虎机有K个杠杆,并且每个杠杆都有随机的奖励,只不过有细微的金额差距。这样的话,一些杠杆和其他杠杆会有些许不同。我们就可以训练一个学习机来帮助我们,而且此处我们还想测试 贪婪算法 和探索算法的好坏。 数据 假设我们考虑的老虎机有十个杠杆,我假定了两个效用函数来生成数据。数据基本都是基于正态分布来获得的,这样以来一些策略行为可能会比其他行为更好,更有区分度。 def generate_problem (k): return np.random.normal(loc=0.0, scale=1, size=10) def generate_reward (problem, action): return np.random.normal(loc=problem[action], scale=1) 算法 再次强调一下,问题与想法都来自一本书:强化学习简介 (Reinforcement Learning: An Introduction) 。 在介绍代码之前还是要提一些东西。价值函数我们记作 q*(a) 是一个实值函数。它是给定行动下获得的平均奖励。但是如果学习机知道了价值函数,就没有训练的必要了。这个算法中,我们将要 估计 价值函数并且利用它来进行决策指导。估计的函数我们记作 Q(A) (注意:我试着让数学公式尽量少而简单,所以更多地使用代码来)。 def k_bandit (problem, k, steps, exploration_rate): Q = {i: 0 for i in range(k)} # 1. Value function N = {i: 0 for i in range(k)} # 2. Number of actions, for update rule for i in range(steps): # 3. Main loop explore = random.uniform(0, 1) < exploration_rate if explore: action = random.randint(0, k - 1) # 5. Exploration: Choosing random action else : action = max(Q, key=Q.get) # 6. Choose action with maximum mean reward reward = generate_reward(problem, action) # 7. Get reward for current action N[action] += 1 # 8. Update action number Q[action] += (1 / N[action]) * (reward - Q[action]) # 9. Update value dict 这个算法适用于每个多臂老虎机问题。 创建价值字典。我们把行动编号当做关键词,平均奖励作为数值,这是最简单的方式。把所有关键词的数值初始化为0。 创建行动记录字典。我们需要它来更新价值字典的规则。同样都初始化为0. for 循环,给定循环次数;或者利用 while 循环,直到停止规则。 探索步骤。我们考虑算法是否需要进一步探索。为了达到目的,我生成一个0到1之间的随机数,并且用它来和探索率进行比较。 如果代码需要进一步探索,就随机选择一个行动。 另一种方法,我们选择用 Q 字典中具有最大数值的关键词所代表的行动。 得到相应的回报奖励。 增加行动记录词典中对应的行动次数。 更新规则。书的作者强调了这很重要,在后续的强化学习任务中都会用到。 这样就完成了我们的第一个简单的强化学习机。我知道学会强化学习是个很困难的过程,但是这个入门级的例子非常简单且有启发性。 结果 我使用不同的探索率运行了这个算法:0.0(贪婪算法),0.01,0.02,0.1,0.2. 而且结果给出了非常有趣的现象,让我们来看几个单独的运行结果: 但是我们没法从这些孤立的运行结果得到合理的结论。探索算法似乎表现的更好,但也不是一直都好。如果贪婪算法在第一次尝试中就成为最优的方法,就很难说明探索算法的优势。接下来应该参考2000次运行的平均结果: 现在结论很明显了。在训练的前期,所有算法都几乎一致;接下来,学习速率最快的方法更占优;在训练的后期,那些基于已有经验的方法达到最优。贪婪算法是效果最差的。 完整的代码见 Vsnipp 。 总结 如果你已经跟着我完成了全部内容,恭喜你,我们一起完成了第一个强化学习任务。虽然问题很简单(甚至没有意义),但是它解释了探索与利用之间的矛盾,从第一天就开始了解这个问题是很重要的。如果继续学习相关内容,会遇到更多类似的矛盾。 作者:Jeremi 本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56839.html 。
来源:数据分析网
发布时间:2018-07-01 11:38:00
  集微网消息,在深圳华为店线下交流活动中,华为中央研究院公布了“机器狗”产品,该产品基于华为和宇树科技合作的 AI 机器狗智能技术,用于全场景 AI 技术方案。   根据@鹏鹏君驾到在微博的爆料,该机器狗采用了华为 AI 技术,不算是消费终端,但是一个企业可用的机械设备,用于智能识别,目标定位等场景。可以做到动态多目标追踪,以及密集场景下的目标主动追随等。   华为的这款机器狗与波士顿机器狗有几分神似,在相关视频中可以看到,该机器狗还可以进行空翻等高难度动作。
来源:博客园
发布时间:2020-08-24 13:06:00
大数据 文摘编辑组出品 DeepMind又来搞事情了!而且这次的事情还搞上了Science杂志。 今天,Science杂志公开发表了一篇DeepMind的论文《神经场景表示和渲染(Neural scene representation and rendering)》。包括DeepMind老板Demis Hassabis在内,这篇论文共有22名作者。这也是DeepMind的新研究首次在Science杂志发布。 如此庞大的作者军团,po出的论文成果也非常有趣其重磅,具体来说就是, 通过少量二维的局部图片,想象整个三维空间的立体结构。 通常来说,算法需要几百万张人类标注过的图片才能识别视觉传感器的数据。而GQN的工作原理类似人眼,是一种 无监督学习方法 ,不依赖带标记的数据,而且能够推广到各种不同的场景中。 DeepMind自己的总结是:生成查询网络(Generative Query Network)在没有人为监督的情况下学习:(1)抽象地描述场景元素;(2)通过从任何摄像机角度渲染来“想象”场景中的未观察部分。 有点抽象?拿一个最常见的场景——走迷宫来举例。GQN能观察迷宫的片段截图,从多个视角推想出迷宫的整体构造。 尽管目前这一成果还仅限于受过合成场景的训练,但是,已经有不少业内人士开始想象其使用场景了。比如说,想象一下把这一网络应用在视频游戏甚至VR游戏中,你可以因此实时获取精准提炼各种视角的游戏场景,就像置身真实世界一样。 想想是不是有点激动,DeepMind创始人哈比萨斯也一样,今天他也难得发推特,介绍了这一成果:我一直着迷于大脑如何在大脑的眼睛中构建图像。我们新推出的Science论文介绍了GQN:一种新模型,能够从一些2D快照中重新创建各角度3D场景。 先来看看DeepMind这篇新论文到底在讲什么吧! 公众号后台回复 “GQN” 下载论文~ 一个可以“想象”场景的计算机程序 为了训练计算机“识别”由视觉传感器提供的场景的元素,计算机科学家通常使用数百万张人类煞费苦心地标记的图像。DeepMind开发了一种人工视觉系统,称为生成查询网络(GQN)。在这一网络下,不需要繁杂的标记数据即可创建场景。 GQN首先使用从不同视点获取的图像,并创建一个场景的抽象描述,学习它的本质。接下来,基于这种表示,网络从一个新的、任意的视角来预测场景的样子。 一个计算机视觉系统可以从其他任意视点的几个2D视图中,预测一个3D场景。 当涉及到我们如何理解一个视觉场景时,我们的眼睛所能看到的不仅仅是直观的视觉,因为我们的大脑会运用头脑中的储备知识,将感性认识转化成理性认识。 例如,当你第一次进入一个房间时,你会立刻认出里面的物品以及它们的位置。如果你看到一张桌子的三条腿,你会推断桌子的第四条腿被藏了起来。即使你不能看到房间里的所有东西,你也很可能可以勾画出它的布局,或者想象从另一个角度看它会是什么样子。 这些视觉和认知任务对人类来说似乎毫不费力,但它们对我们的人工系统构成了重大挑战。 当前,最先进的视觉识别系统都是用人类产生的带注释图像的 大数据 集来训练的。 获取这些数据是一个代价高昂且耗时的过程,需要每个人对数据集中每个场景中的每个对象进行标记。因此,通常只有一小部分场景的总体内容被捕获,这限制了在这些数据上进行训练的人工视觉系统。当我们开发出在现实世界中运行的更复杂的机器时,我们希望它们充分了解它们的环境:最近的座位在哪里这沙发是什么料子的哪个光源产生了所有的阴影电灯开关可能在哪里 让机器学会脑补 论文作者之一Ali Eslami自述研究过程 在这项发表在Science上的成果中,DeepMind介绍了生成查询网络(GQN)。在这个框架内, 机器学习 只通过对他们在场景中移动时获得的数据进行训练来感知周围环境。 就像婴儿和动物一样,GQN尝试理解其观察到的周围世界,通过这种方式来学习。 通过这些,GQN学习了可能合理的场景及其几何属性,而不需要任何对场景内容的人为标注。 GQN模型由两部分组成:表示网络和生成网络。 表示网络将代理人的观察结果作为其输入并产生描述基础场景的表示(矢量)。 然后生成网络从以前未观察到的角度预测(“想像”)场景。 到底什么是GQN? 表征网络无法获知,生成网络将被要求预测哪些视角,因此,它必须尽可能准确地找到描述场景真实布局的有效方式。 通过简洁的分布式表征,其可以捕获最重要的特征(如对象位置、颜色和房间布局)来实现此目的。 在训练期间,生成器学习环境中的典型对象、特征、关系和规律。 这一共享的“概念集”使表征网络能够以高度压缩和抽象的方式描述场景,并将其留给生成网络,以在必要时填写详细信息。 例如,表示网络将简洁地将“蓝色立方体”表示为一小组数字,而生成网络将知道如何将其自身表现为来自特定视点的像素。 我们在模拟3D世界的一系列程序性生成环境中,对GQN进行了受控实验,其中包含随机位置、颜色、形状和纹理中的多个对象,并使用随机光源和重度遮挡。在对这些环境进行设置后,我们使用GQN的表示网络来形成新的、以前未观察到的场景的表示。 在实验中我们展示了GQN的几个重要特性: GQN的生成网络可以以非常精确的方式,从新视角去“想象”以前未观测到的场景。 当给出场景表征和新的摄像机视角时,它就可以生成非常清晰的图像,而不需要事先规定透视法、遮挡法或照明法。 因此我们可以说,这种生成网络是一个从数据中学习的渲染器: GQN的表示网络可以学会对对象进行计数、本地化和分类,而无需任何对象级标签。 即使它的表示可能非常小,但GQN在查询视点处的预测具有高度的准确性,几乎无法与基本事实区分。 这意味着表示网络的准确感知,例如识别组成下面这个场景的方块的精确配置: GQN能够表示、衡量和减少不确定性。 即使场景内容不完全可见,GQN也能够解释其信息的不确定性,并且可以将场景的多个局部视图组合起来,形成一个整体。 下图显示了它的第一人称和自上而下进行的场景预测。 该模型通过预测的多样性来表达其不确定性,这种不确定性随着它在迷宫中的移动而逐渐减小(灰色锥体指示观察位置,黄色锥体指示查询位置): 正如全文开头所说, GQN的这一特性,在游戏场景中可以完美应用。 此外,GQN的表征允许鲁棒式的数据高效强化学习。 当给定GQN的紧凑表示时,与无模型基线智能体相比,最先进的深度强化学习智能体会以更高效的数据方式完成任务,如下图所示。 对于这些智能体,编码在生成网络中的信息可以被看作是对环境的“先天”知识: 使用GQN,我们可以观察到,与使用原始像素的标准方法相比,策略学习的迭代次数少了 4 倍,但收敛表现一致且有更加数据高效。 DeepMind表示,GQN的诞生基于近期在多视图几何、生成建模、无监督学习和预测学习方面的有关工作的大量成果。它演示了一种学习紧凑、基础的物理场景表示的新方法。更重要的是,这一方法不需要特定领域的工程或耗时的场景内容标记,它允许将相同的模型应用于各种不同的环境。它还可以使用一个强大的神经渲染器,能够从新的视角生成精确的场景图像。 与更传统的计算机视觉技术相比, DeepMind承认,这一新方法仍然有许多限制,且目前只接受过合成场景的训练。 然而,随着新的数据源可用以及我们的硬件功能取得进展,DeepMind期望能够获取GQN框架在更高分辨率下,真实场景图像中的应用。 在未来的工作中,探索GQN在场景理解的更广泛方面的应用也很重要,例如通过跨空间和时间的查询来学习物理和运动的常识概念,以及在虚拟和增强现实中的应用。 尽管在方法准备付诸实践之前我们还有很多研究需要完成,但DeepMind相信,这项工作是迈向完全自主场景理解的一大步。 相关报道: https://deepmind.com/blog/neural-scene-representation-and-rendering/ http://science.sciencemag.org/content/360/6394/1204 本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/55930.html 。
来源:数据分析网
发布时间:2018-06-27 23:10:00
  在因应用商店政策而受到反垄断指控后,苹果正试图迫使其主要竞争对手三星交出有关运营其应用商店的文件以为自己辩护,极力避免受到滥用垄断的指控。   针对苹果的指控由一系列可以追溯到 2007 年的诉讼组成,目前正在美国一家联邦法院审理。此前,美国最高法院去年表示,iPhone 用户可以起诉苹果,因为他们有资格在苹果应用商店之外的地方购买应用程序。   在这起案件中,一群 iPhone 用户声称,苹果向开发者收取的应用程序内购买 30% 抽成提高了价格。而另一群开发者则声称,这让应用程序开发者的境况变得更糟。在这两种情况下,他们都声称苹果通过收取费用的方式来不公平地阻止竞争对手访问其应用商店。   为了挑战这些说法,苹果向三星寻求可以追溯到 2014 年的文件,这些文件显示了这家韩国公司是如何运营自家应用商店 Galaxy Store 的,安卓手机用户可以在 Galaxy Store 下载和购买应用程序。   苹果辩称,由于安卓有包括三星 Galaxy Store 在内的多个应用商店,而三星仍然从应用内购买中抽取 30% 的提成,为此这笔费用不可能是不受约束的垄断导致的结果。苹果的律师在一份法律文件中表示:“苹果打算反驳原告关于竞争损害的核心理论提出异议,即苹果的佣金被人为地提高了,因为据称开发者必须通过应用商店销售产品。”   苹果正式要求三星美国子公司交出文件,包括“有关移动平台之间竞争的高度机密内部文件”,以及“关于 Galaxy Store 的安装率、使用率、收入等的汇总数据”。   然而,三星迄今拒绝提供有意义的回应,部分原因是三星认为其“竞争对手的身份使其可免于承担义务”。苹果的律师说:“三星没有与苹果进行卓有成效的合作,而是选择了一条令人感到困惑而固执的道路。”   苹果目前正在寻求法院命令,强迫三星交出文件。三星的律师说,这些要求过于宽泛,“苹果进行了不合逻辑的跳跃,即为了显示其与三星美国子公司的竞争,苹果必须能够接触到后者的机密研究、商业机密和其他敏感信息。”   本月早些时候,《堡垒之夜》游戏被从苹果和谷歌应用商店下架,Epic Games 也对苹果和谷歌提起反垄断诉讼。但苹果一直坚称,其在全球智能手机市场的少数份额意味着它不具备垄断资格。
来源:博客园
发布时间:2020-08-24 13:05:00
计算机可以学习并建立从输入图像到输出图像的映射,对图片进行多种类型的风格转换。近日,康奈尔大学和 英伟达 的研究人员提出了多模态、无监督的风格转换新方法,其抛弃了以往方法的确定性假设条件,可让模型生成多样性的输出结果。据称,该方法已经达到了和当前最佳监督方法相当的表现。 Demo: 论文:Multimodal Unsupervised Image-to-Image Translation 论文地址:https://arxiv.org/pdf/1804.04732.pdf 摘要: 无监督 Image-to-Image 变换是 计算机视觉 领域一个重要而富有挑战的问题:给定源域(source domain)中的一张图像,需要在没有任何配对图像数据的情况下,学习出目标域(target domain)中其对应图像的条件分布。虽然条件分布是多模态的,但现有方法都引入了过于简化的假设,而将其作为一个确定性的一对一映射。因此,这些模型都无法在特定的源域图像中生成富有多样性的输出结果。为突破这一限制,我们提出了多模态无监督 Image-to-Image 变换(Multimodal Unsupervised Image-to-image Translation,MUNT)框架。我们假设,图像表征可以分解为一个具有域不变性(domain-invariant)的内容码(content code)和一个能刻画域特有性质的风格码(style code)。为了将图像转化到另一个域中,我们将:1. 原图像的内容码,2. 从目标域中随机抽取的某个风格码 进行重组。(在下文中)我们分析了 MUNT 框架,并建立了相应的理论结果。我们进行了大量实验,将 MUNT 与其他目前最先进方的法进行了比较,结果进一步展现出了 MUNT 的优越性。最后,通过引入一个风格图像(style image)样例,使用者可以利用 MUNT 来控制转化的输出风格。 预训练模型及相关代码可在这里查看:https://github.com/nvlabs/MUNIT 图 1. 方法演示。(a)各个域 Xi 中图像的编码形式为:共享目标空间 C 和域特有的风格空间 Si。每个编码器都有对应的反编码器(未在图中展示)。(b)为了将某个 X1 中的图像(如猎豹)变换到 X2 中(如家猫),我们将输入图像的内容码和目标风格空间中的某个随机风格码进行重组。不同的风格码会得到不同的输出。 图 2. 模型概述。我们的 Image-to-Image 转化模型(MUNT)由分别各属于一个域的两个自编码器组成(在图中分别用红色和蓝色箭头表示),每个自编码器的隐编码由一个内容码 c 和一个风格码 s 构成。我们利用对抗目标(adversarial objectives)(图中点线)和双向重建目标(bidirectional reconstruction objectives)(图中短线)训练模型,其中对抗目标能保证转化的图像和目标域中真实图像难以区分,双向重建目标则用于同时重建图像和隐编码。 实验 实现细节 图 3. 自编码器架构展示:由一个内容编码器、一个风格编码器和一个联合解码器组成。更详细的信息和相关超参数在附录中。我们提供了 PyTorch 下的开源实现 内容编码器:由多个用于对输入降低采样的 Strided Convulsion 层和多个进一步处理输入的 Residual Block 组成,其中所有的 Convulsion 层都进行了 Instance Normalization 处理。 风格编码器:由多个 Strided Convulsion 层、一个全局的 Average Pooling 层和一个全连接(Fully Connected)层组成。在这里我们没有使用 IN 层,因为 IN 会去除原始特征的均值和方差,而很多重要的风格信息都包含在其中。 解码器:我们的解码器根据输入图像的内容码和风格码对其实现了重建。解码器通过一组 Residual Blocks 处理内容码,并最终利用多个上采样和 Convulsion 层来生成重建图像。另外,最近有研究通过在 normalization 层中使用仿射变换(Affine Transformation)来表征风格。受其启发,我们在 Residual Block 中引入了自适应实例标准化(Adaptive Instance Normalization,AdaIN)层,AdaIN 层中的参数可以利用多层感知器(MLP)在风格码上动态生成: 其中 z 是前一个卷积层产生的激活(Activation),µ 和 σ分别表示各个通道的均值和标准差,γ 和 β是 MLP 从风格码中生成的参数。注意:这里的仿射参数是通过训练出的神经网络生成的,而不是像 Huang et al. [53] 研究中一样,根据预训练的神经网络的统计量计算得到的。 判别器:我们使用了 Mao et al. [38] 所提出的 LSGAN 目标,并利用 Wang et al. [20] 提出的多尺度判别器,来确保生成器同时生成了真实细节和正确的全局结构。 具有域不变性的感知损失(perceptual loss):通常,以输出图像和参考图像在 VGG [74] 特征空间中的距离作为感知损失,在有配对图像的监督数据中,这种方法已被证明可以有效地帮助 Image-to-Image 变换;但在无监督场景下,我们并没有目标域中的参考图像。为此,我们提出了一个具有更强的域不变性的修正感知损失,进而可以将输入图像作为参考图像。具体而言,在计算距离前,我们利用 Instance Normalization 处理了 VGG 特征 [70](没有使用仿射变换),去除了原始特征中包含大量域特定信息的均值和方差 [53,57]。我们发现,修正后的感知损失能够加速高分辨率(≥ 512 × 512)数据集上的训练过程,因此在这些数据集上,我们使用的是这一修正感知损失。 图 4. 线图→鞋子变换的定性比较。第一列展示了输入和对应输出的真实图像。第二列开始每一列展示从某种方法中得到的 3 个随机的输出结果。 表 1. 线图→鞋子/手提包变换的定量分析。多样性得分使用的是 LPIPS 距离均值,质量评分使用的是「人类偏好得分」:人们相较于 MUNIT 更偏好该方法的百分比。两个指标中,都是数值越高表现越好。 图 5. 例:(a)线图↔鞋子(b)线图↔手提包 图 6. 例:动物图像变换结果 表 2. 动物图像变换的定量分析。这个数据集中共包含 3 个域,我们在任意两个域对之间完成双向变换,共 6 个变换目标。在每个目标上使用 CIS 和 IS 来度量表现效果。 图 7. 示例:街景变换结果 图 8. 示例:约塞米蒂国家公园的夏天↔冬天(HD 分辨率) 图 9. 示例:有引导图像变换。其中每一行内容相同,每一列风格相同 图 10. 现有风格变换方法的比较 结论 我们展示了一个多模态无监督 Image-to-Image 变换框架,我们的模型在(输出图像的)质量和多样性上都超过了现有的无监督方法,达到了和如今最先进的监督方法相当的结果。我们下一阶段的研究方向会是将这一框架推广到其他域,如影像、文本中。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-06-27 23:03:00
大数据 文摘出品 编译:Apricock、睡不着的iris、JonyKai、钱天培 “ 损失函数 ”是 机器学习 优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦! 机器学习中所有的算法都需要最大化或最小化一个函数,这个函数被称为“目标函数”。其中,我们一般把最小化的一类函数,称为“损失函数”。它能根据预测结果,衡量出模型预测能力的好坏。 在实际应用中,选取损失函数会受到诸多因素的制约,比如是否有异常值、机器学习算法的选择、梯度下降的时间复杂度、求导的难易程度以及预测值的置信度等等。因此,不存在一种损失函数适用于处理所有类型的数据。这篇文章就讲介绍不同种类的损失函数以及它们的作用。 损失函数大致可分为两类:分类问题的损失函数和回归问题的损失函数。在这篇文章中,我将着重介绍回归损失。 本文出现的代码和图表我们都妥妥保存在这儿了: https://nbviewer.jupyter.org/github/groverpr/Machine-Learning/blob/master/notebooks/05_Loss_Functions.ipynb 分类、回归问题损失函数对比 均方误差 均方误差(MSE)是最常用的回归损失函数,计算方法是求预测值与真实值之间距离的平方和,公式如图。 下图是MSE函数的图像,其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。 MSE损失(Y轴)-预测值(X轴) 平均绝对值误差(也称L1损失) 平均绝对误差(MAE)是另一种用于回归模型的损失函数。MAE是目标值和预测值之差的绝对值之和。其只衡量了预测值误差的平均模长,而不考虑方向,取值范围也是从0到正无穷(如果考虑方向,则是残差/误差的总和——平均偏差(MBE))。 MAE损失(Y轴)-预测值(X轴) MSE(L2损失)与MAE(L1损失)的比较 简单来说,MSE计算简便,但MAE对异常点有更好的鲁棒性。下面就来介绍导致二者差异的原因。 训练一个机器学习模型时,我们的目标就是找到损失函数达到极小值的点。当预测值等于真实值时,这两种函数都能达到最小。 下面是这两种损失函数的python代码。你可以自己编写函数,也可以使用sklearn内置的函数。 # true: Array of true target variable # pred: Array of predictions def mse(true, pred): return np.sum((true – pred)**2) def mae(true, pred): return np.sum(np.abs(true – pred)) # also available in sklearn from sklearn.metrics import mean_squared_error from sklearn.metrics import mean_absolute_error 下面让我们观察MAE和RMSE(即MSE的平方根,同MAE在同一量级中)在两个例子中的计算结果。第一个例子中,预测值和真实值很接近,而且误差的方差也较小。第二个例子中,因为存在一个异常点,而导致误差非常大。 左图:误差比较接近 右图:有一个误差远大于其他误差 从图中可以知道什么?应当如何选择损失函数? MSE对误差取了平方(令e=真实值-预测值),因此若e>1,则MSE会进一步增大误差。如果数据中存在异常点,那么e值就会很大,而e²则会远大于|e|。 因此,相对于使用MAE计算损失,使用MSE的模型会赋予异常点更大的权重。在第二个例子中,用RMSE计算损失的模型会以牺牲了其他样本的误差为代价,朝着减小异常点误差的方向更新。然而这就会降低模型的整体性能。 如果训练数据被异常点所污染,那么MAE损失就更好用(比如,在训练数据中存在大量错误的反例和正例标记,但是在测试集中没有这个问题)。 直观上可以这样理解:如果我们最小化MSE来对所有的样本点只给出一个预测值,那么这个值一定是所有目标值的平均值。但如果是最小化MAE,那么这个值,则会是所有样本点目标值的中位数。众所周知,对异常值而言,中位数比均值更加鲁棒,因此MAE对于异常值也比MSE更稳定。 然而MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。这样不利于模型的学习。为了解决这个缺陷,我们可以使用变化的学习率,在损失接近最小值时降低学习率。 而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练结束时,使用MSE模型的结果会更精确。 根据不同情况选择损失函数 如果异常点代表在商业中很重要的异常情况,并且需要被检测出来,则应选用MSE损失函数。相反,如果只把异常值当作受损数据,则应选用MAE损失函数。 推荐大家读一下这篇文章,文中比较了分别使用L1、L2损失的回归模型在有无异常值时的表现。 文章网址: http://rishy.github.io/ml/2015/07/28/l1-vs-l2-loss/ 这里L1损失和L2损失只是MAE和MSE的别称。 总而言之,处理异常点时,L1损失函数更稳定,但它的导数不连续,因此求解效率较低。L2损失函数对异常点更敏感,但通过令其导数为0,可以得到更稳定的封闭解。 二者兼有的问题是:在某些情况下,上述两种损失函数都不能满足需求。例如,若数据中90%的样本对应的目标值为150,剩下10%在0到30之间。那么使用MAE作为损失函数的模型可能会忽视10%的异常点,而对所有样本的预测值都为150。 这是因为模型会按中位数来预测。而使用MSE的模型则会给出很多介于0到30的预测值,因为模型会向异常点偏移。上述两种结果在许多商业场景中都是不可取的。 这些情况下应该怎么办呢?最简单的办法是对目标变量进行变换。而另一种办法则是换一个损失函数,这就引出了下面要讲的第三种损失函数,即Huber损失函数。 Huber损失,平滑的平均绝对误差 Huber损失对数据中的异常点没有平方误差损失那么敏感。它在0也可微分。本质上,Huber损失是绝对误差,只是在误差很小时,就变为平方误差。误差降到多小时变为二次误差由超参数δ(delta)来控制。当Huber损失在[0-δ,0+δ]之间时,等价为MSE,而在[-∞,δ]和[δ,+∞]时为MAE。 Huber损失(Y轴)与预测值(X轴)图示。真值取0 这里超参数delta的选择非常重要,因为这决定了你对与异常点的定义。当残差大于delta,应当采用L1(对较大的异常值不那么敏感)来最小化,而残差小于超参数,则用L2来最小化。 为何要使用Huber损失? 使用MAE训练神经网络最大的一个问题就是不变的大梯度,这可能导致在使用梯度下降快要结束时,错过了最小点。而对于MSE,梯度会随着损失的减小而减小,使结果更加精确。 在这种情况下,Huber损失就非常有用。它会由于梯度的减小而落在最小值附近。比起MSE,它对异常点更加鲁棒。因此,Huber损失结合了MSE和MAE的优点。但是,Huber损失的问题是我们可能需要不断调整超参数delta。 Log-Cosh损失 Log-cosh是另一种应用于回归问题中的,且比L2更平滑的的损失函数。它的计算方式是预测误差的双曲余弦的对数。 Log-cosh损失(Y轴)与预测值(X轴)图示。真值取0 优点:对于较小的x,log(cosh(x))近似等于(x^2)/2,对于较大的x,近似等于abs(x)-log(2)。这意味着‘logcosh’基本类似于均方误差,但不易受到异常点的影响。它具有Huber损失所有的优点,但不同于Huber损失的是,Log-cosh二阶处处可微。 为什么需要二阶导数?许多机器学习模型如XGBoost,就是采用牛顿法来寻找最优点。而牛顿法就需要求解二阶导数(Hessian)。因此对于诸如XGBoost这类机器学习框架,损失函数的二阶可微是很有必要的。 XgBoost中使用的目标函数。注意对一阶和二阶导数的依赖性 但Log-cosh损失也并非完美,其仍存在某些问题。比如误差很大的话,一阶梯度和Hessian会变成定值,这就导致XGBoost出现缺少分裂点的情况。 Huber和Log-cosh损失函数的Python代码: # huber loss def huber(true, pred, delta): loss = np.where(np.abs(true-pred) < delta , 0.5*((true-pred)**2), delta*np.abs(true – pred) – 0.5*(delta**2)) return np.sum(loss) # log cosh loss def logcosh(true, pred): loss = np.log(np.cosh(pred – true)) return np.sum(loss) 分位数损失 在大多数现实世界预测问题中,我们通常希望了解预测中的不确定性。清楚预测的范围而非仅是估计点,对许多商业问题的决策很有帮助。 当我们更关注区间预测而不仅是点预测时,分位数损失函数就很有用。使用最小二乘回归进行区间预测,基于的假设是残差(y-y_hat)是独立变量,且方差保持不变。 一旦违背了这条假设,那么线性回归模型就不成立。但是我们也不能因此就认为使用非线性函数或基于树的模型更好,而放弃将线性回归模型作为基线方法。这时,分位数损失和分位数回归就派上用场了,因为即便对于具有变化方差或非正态分布的残差,基于分位数损失的回归也能给出合理的预测区间。 下面让我们看一个实际的例子,以便更好地理解基于分位数损失的回归是如何对异方差数据起作用的。 分位数回归与最小二乘回归 左:b/wX1和Y为线性关系。具有恒定的残差方差。右:b/wX2和Y为线性关系,但Y的方差随着X2增加。(异方差) 橙线表示两种情况下OLS的估值 分位数回归。虚线表示基于0.05和0.95分位数损失函数的回归 附上图中所示分位数回归的代码: https://github.com/groverpr/Machine-Learning/blob/master/notebooks/09_Quantile_Regression.ipynb 理解分位数损失函数 如何选取合适的分位值取决于我们对正误差和反误差的重视程度。损失函数通过分位值(γ)对高估和低估给予不同的惩罚。例如,当分位数损失函数γ=0.25时,对高估的惩罚更大,使得预测值略低于中值。 γ是所需的分位数,其值介于0和1之间。 分位数损失(Y轴)与预测值(X轴)图示。Y的真值为0 这个损失函数也可以在神经网络或基于树的模型中计算预测区间。以下是用Sklearn实现梯度提升树回归模型的示例。 使用分位数损失(梯度提升回归器)预测区间 上图表明:在sklearn库的梯度提升回归中使用分位数损失可以得到90%的预测区间。其中上限为γ=0.95,下限为γ=0.05。 对比研究 为了证明上述所有损失函数的特点,让我们来一起看一个对比研究。首先,我们建立了一个从sinc(x)函数中采样得到的数据集,并引入了两项人为噪声:高斯噪声分量ε〜N(0,σ2)和脉冲噪声分量ξ〜Bern(p)。 加入脉冲噪声是为了说明模型的鲁棒效果。以下是使用不同损失函数拟合GBM回归器的结果。 连续损失函数:(A)MSE损失函数;(B)MAE损失函数;(C)Huber损失函数;(D)分位数损失函数。将一个平滑的GBM拟合成有噪声的sinc(x)数据的示例:(E)原始sinc(x)函数;(F)具有MSE和MAE损失的平滑GBM;(G)具有Huber损失的平滑GBM,且δ={4,2,1};(H)具有分位数损失的平滑的GBM,且α={0.5,0.1,0.9}。 仿真对比的一些观察结果: MAE损失模型的预测结果受脉冲噪声的影响较小,而MSE损失函数的预测结果受此影响略有偏移。 Huber损失模型预测结果对所选超参数不敏感。 分位数损失模型在合适的置信水平下能给出很好的估计。 最后,让我们将所有损失函数都放进一张图,我们就得到了下面这张漂亮的图片!它们的区别是不是一目了然了呢~ 相关报道: https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0 本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56326.html 。
来源:数据分析网
发布时间:2018-06-22 14:56:00
  这几年不少科技公司和汽车厂商都投入到自动驾驶中,在美国凤凰城已经能打到 Waymo 的无人出租车,但自动驾驶汽车距离大规模上路还有一段不小的距离。   虽然自动驾驶汽车还没普及,但全自动驾驶的客机已经上天了。空客公司近日宣布,已经在一架 A350-1000 商用客机上成功实现自主滑行、起飞和降落。    这意味着客机已经能实现无需人工干预的全自动驾驶 ,过去飞机上尽管配备了自动驾驶仪,但一般在空中巡航时才能够接管。   无人驾驶客机要来了,接下的问题是,你敢坐吗?    飞行员放手,客机靠自己起飞和降落   在 空客展示的一段视频中 ,一辆 A350-1000 客机在跑道开始滑行后,驾驶舱内的两位飞行员没有再进行任何操作,机长将双手放在大腿上,随后飞机顺利起飞。   这是去年 12 月空客在法国卢兹-布拉尼亚克机场进行的一次测试,也是 航空史上首次实现客机基于图像识别的全自动起飞。   当时空客在四个半小时完成了 8 次起飞,试飞的 机长 Yann Beaufils 表示 ,这次测试的表现超出预期。 我们将油门杆移至起飞位置,并监控飞机,它开始推出并自动加速,并保持跑道中心线为系统输入的精确转速。然后,飞机的机头开始自动抬起,以达到预期的起飞俯仰值,几秒钟后又开始降落。   而完成全自动起飞之后,空客又在过去半年内完成了基于图像识别的自主降落和滑行,成为 全球第一家完成客机自主滑行、起飞和降落的航空公司。   这几次测试其实都是空客 ATTOL 项目的一部分,全称是「Autonomous Taxi, Take-Off and Landing」,也就是自主滑行及起降,目标是通过开发一套视觉学习算法,通过机载摄像头、激光雷达(LiDAR)等传感器实现自主完成起降。   简单来说,ATTOL 就是要给飞机装上一双眼睛,让它可以自己看懂跑道上各种标线,从而判断出跑道中心线的位置。   在过去 2 年中,空客已经进行了约 500 次测试飞行测试,其中有 450 次就是用来收集视频数据来完善算法,并在 6 组飞行中完成了 30 次自主起降和滑行。   除了民用客机,空客还将自动驾驶技术用到了军事领域。今年 4 月,空客的 A330 MRTT 成功为葡萄牙战斗机进行自动化的空中加油 ,同样是基于视觉识别技术 。   ATTOL 项目负责人 Sebastien Giuliano 强调,其实很多飞机都能实现自动降落,但需要依靠仪表着陆系统(ILS)和 GPS 等外部设施,而 ATTOL 的突破在于仅依靠机载的图像识别传感器就能实现,不仅能提高效率也能降低成本。   Sebastien Giuliano 提到的 仪表着陆系统(ILS) ,又被称为「盲降系统」,通过无线电信号和高强度灯光阵列为飞机提供精密引导,确保飞机在能见度低的天气条件下也可以精确着陆,不过价格较为昂贵。   一直以来,空客都主张减少机上飞行员的数量,通过自动化水平更高的技术来降低人为因素造成的事故,空客首席技术官 Paul Eremenko 在接受彭博社采访时曾表示: (降低航司成本)更具颠覆性的方式是减少机组人员,我们正在将只保留一名飞行员作为目标,如果未来技术成熟不排除完全无人驾驶。   民航历史上其实经历了从三人式驾驶舱到双人式驾驶舱的变迁,目前在一些高海拔航线采用的仍然是三人制机组,除了正副机长,还会有一名后备机长,而空客的 A300 正是首款只需两位飞行员驾驶的宽体飞机。   尽管空客一直在朝着更少的飞行员努力,也证明了全自动飞行的可行性,但这一技术还不能立刻商用。这种依赖于视觉识别的技术,还不能应对能见度低的环境下的意外情况,对于不同机场跑道的识别也需要更多数据来喂养。   空客也强调,对于加载这种自动驾驶技术的飞机,飞行员依然是核心,但这种技术能减少飞行员操作的工作量,把更多精力放在决策和任务管理,以提升飞机的安全性。    飞机自动驾驶仪在 100 多年前就已经出现,为何今天还不能无人驾驶   在很多影视作品的机舱中,你可能都看过这样的情景,机长开启自动驾驶模式,悠闲地喝起了咖啡。自动驾驶仪这种看起来高大上的技术,其实在 100 多年前就出现了。   1912 年 Lawrence Sperry 就发明了飞机自动驾驶仪 ,并亲自在巴黎用一架双翼飞机进行了展示,在不触控操作装置的情况下,让飞机自动保持三轴(俯仰、翻滚、偏航)稳定,正常飞行。   ▲ 图片来自: historynet   现在广泛应用于飞机的自动驾驶仪,也是在此基础上改进而来, 飞机可以按照设定的航线、速度和高度自动飞行,如果飞机偏离原有姿态,系统也能自动修正,甚至还能自主规划最佳飞行路线 。   那么问题来了,既然飞机自动驾驶技术以及发展了一百多年,那为什么别说飞机还不能无人驾驶,连汽车的无人驾驶技术还没普及呢?   因为飞机和汽车的自动驾驶并不完全是一回事,也不能直接相提并论。   先来看看目前飞机的自动驾驶仪能做到什么程度。主要就是在高空中的自动巡航,保持稳定飞行。但一些比较精确的操作,比如起飞降落、地面滑行、避免碰撞等都需要飞行员介入。   ▲ 图片来自:The Australian   而且由于不同航线上飞机之间的距离比较远,加上地面有空管监控,即便出现意外情况也能飞行员有足够时间接管,因此自动驾驶仪不需要完成太复杂的操作,其智能化程度其实也不高。   但如果在地面就不同了,汽车要面对的路况要复杂得多。 要想让一辆无人驾驶汽车准确识别路况和避开障碍物,除了定位系统外,需要测距传感器、超声传感器和雷达传感器等多个传感器一起工作 。   ▲图片来自:LiDAR-MoneyDJ   即便如此,现在的自动驾驶汽车还是不能完全像人一样应对各种突发情况,对于飞机也是一样。   要让飞机完全实现无人驾驶,需要保证飞机能自主在各种情况下起降,包括在没有跑道的环境迫降,同时还能应对发动机故障、躲避障碍物、不稳定气流等突发情况。   即便是空客已经实现客机的自动起降和滑行,但距离上述这个标准还有一段距离。    我们未来会坐上无人驾驶的飞机吗?    瑞银集团(UBS)前两年曾发布过一份报告 ,称无人驾驶客机最早可能于 2025 年出现在机场跑道上,一旦普及航空业每年可节省 350 亿美元。   如果未来飞机的自动驾驶技术足够成熟,我们就会坐上无人驾驶的飞机吗?   未必。   仅靠算法和软件的自动驾驶,飞机的风险便会增加。比如遭遇黑客入侵,去年就有人成功地 利用无线电波远程入侵了一架波音 757 。   而且全球目前还没有经过认证的单一飞行员或无人驾驶运输类飞机,这会让飞机投保的难度大大增加,又有多少航空公司愿意承担这个风险呢?   ▲ 图片来自: cntraveler   先不说无人驾驶,即便是已经使用了一百多年的飞机自动驾驶仪,也造成了不少事故。   去年埃塞俄比亚航空的 ET302 航班坠毁,问题就出在波音 737MAX 的自动驾驶系统。原本为了防止飞行员将机头抬得过高的自动失速防护系统,结果却在飞机正常飞行时强行将机头下压,最终造成空难。   ▲ 图片来自:TesfaNews   无独有偶,1994 年在名古屋机场坠毁的中华航空 140 号航班,也是因为副机长在降落时误操作自动驾驶仪,最终机上 271 人中有 264 人不幸身亡,成为日本历史上伤亡人数第二多的严重空难。   这样的背景下,就算技术上能实现客机无人驾驶,有多少乘客愿意尝试乘坐?   在瑞银的那份报告里,曾抽取了全球 8000 名受访者,问他们愿不愿意乘坐无人驾驶飞机。只有 17% 的人愿意乘坐无人驾驶的飞机,超过一半受访者表示即使机票便宜一半也不会乘坐。   尽管这两年已经有一些机构测试过无人驾驶的两座小型飞机,但真要坐上这些飞机去旅行,恐怕也会让人心惊胆战吧。   不过随着自动驾驶技术的发展,在我们有生之年坐上无人驾驶客机并非不可期待的,希望届时的科技水平已经足以打消我们的种种疑虑。   题图及部分配图来自:空客
来源:博客园
发布时间:2020-08-24 12:58:00
  张家伟   在字节跳动即将正式起诉特朗普政府之际,媒体挖掘出来的信息显示,令 TikTok 面临如今这种存亡危机的,正是它最大竞争对手 Facebook 的创始人扎克伯格。   扎克伯格的公开行动最早可能开始于去年秋季,2019 年 10 月 19 日,扎克伯格在位于华盛顿的乔治城大学发表了一场演讲。媒体援引知情人士称,在这场演讲的主旨“言论自由”之外,扎克伯格还有另外一个目的:警醒美国社会提防中国科技公司的威胁,尤其是 TikTok。   事实也是如此,扎克伯格在当时演讲中数次点名攻击 TikTok,称 TikTok 并不像 Facebook 一样致力于维护言论自由,对美国的价值观与科技霸权构成风险。   据美国媒体报道,在这场演讲的前后,扎克伯格一直在幕后推动让美国决策者接受这一论调。这包括在去年 10 月访问华盛顿时与美国官员以及议员的会议,以及数周之前另外一次华盛顿之行,扎克伯格都是在努力达到这一目的。   报道援引知情人士称,在 10 月底白宫的晚宴中,扎克伯格向特朗普表示,中国科技公司的崛起对美国企业构成威胁,与监管 Facebook 相比,这应该成为更重要的关注点。   在与多名议员的会面中,扎克伯格专门与他们就 TikTok 进行了讨论。在去年 10 月底,参议员 Tom Cotton 以及参议院少数党领袖舒默(Chuck Schumer)致信美国情报官员,要求对 TikTok 发起调查。随后美国政府就对 TikTok 发起了关于国家安全的审查,到了今年春季特朗普直接威胁要封禁 TikTok。   这些正是 Facebook 和扎克伯格乐见的。在今年 7 月 29 日的国会听证会上,扎克伯格极力围绕 TikTok 来大做文章。当时扎克伯格、Amazon 的贝索斯、Google 的皮查伊以及苹果的库克首次一同出席国会反垄断听证会,他们都被议员问及“是否认为中国企业窃取了美国技术”,只有扎克伯格言之凿凿的说:“这是毫无疑问的”。   除了扎克伯格亲自推动之外,Facebook 还成立了一家名为 American Edge 的游说组织,用于宣传美国科技公司对美国经济、国家安全以及文化影响力的贡献。   Facebook 在游说开支上也毫不含糊,有数据显示,今年上半年 Facebook 在游说上的开支超过了所有其他美国公司。相比之下,在 2018 年,Facebook 的游说支出只排在第八位。
来源:博客园
发布时间:2020-08-24 12:44:00
作者 | PRANAV DAR 译者 | SAMBODHI 编辑 | Debra 微信公众号“AI 前线”,(ID:ai-front) 对我而言,GitHub 和 Reddit 都提供了有趣的发现平台。在这两个平台中,我不仅学习到了 数据科学 的一些最佳应用,而且还了解了它们是如何编写的,并希望将来有朝一日能为这些开源库做出贡献。 微软最近斥资数十亿美元收购了 GitHub。一直以来,GitHub 是开发人员之间协作的终极平台,我们看到,数据科学和 机器学习 的社区对 GitHub 也是青睐有加。我们也希望,这一状况,在微软收购 GitHub 之后还能持续下去。 至于 Reddit,它依然是数据科学家们的一个极好的知识和观点的来源。人们在 Reddit 上分享他们的代码、其他人的代码、一般的数据科学新闻、寻求帮助和意见、发表研究论文等链接。这是一个真正强大的社区,为与其他数据科学爱好者互动提供了可靠的平台。 今年 5 月,我们在 Reddit 上看到了一些精彩的讨论,其中包括未来 3 年数据科学家的作用,以及一组有史以来最好的机器学习论文集。在 GitHub 社区中,Intel 开放了它的 NLP 架构库,微软发布了 ML.NET 来支持 Dot Net 开发者的机器学习等等。 让我们深入这个列表,看看 GitHub 上的最热门的库以及上个月发生在 Reddit 上有趣的讨论。 你可以查看以下过去四个月的 GitHub 最热门的库和 Reddit 上最热门的讨论(截止到四月): 一月:https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/ 二月:https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018 三月:https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018 四月:https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/ GitHub 库 ML.NET (https://github.com/dotnet/machinelearning) ML.NET 是一个开源的机器学习框架,旨在让 ML 面向.NET 开发人员。有了 ML,开发人员得以能够在.NET 开发自己的模型,而所有这些都不需要构建机器学习模型的经验。目前是个预览版,包含基本的分类和回归算法。 ML.NET 最初由 Microsoft 开发,现已广泛应用于 Windows、Excel、Access、Bing 等产品中。这个版本还捆绑了.NET API,用于各种模型训练模型的任务。 NLP Architect (https://github.com/NervanaSystems/nlp-architect) NLP Architect 是一个开源的 Python 库,旨在让数据科学家能够得以探索自然语言处理(Natural Language Processing,NLP)和自然语言理解(Natural Language Understandings,NLU)领域中最先进的深度学习技术。该库由 Intel Lab 的研究人员开发并开源。 这个库中,我最喜欢的组件之一是可视化组件,它以整洁的方式显示模型的注释。访问这个网址来查看我们对 NLP Architect 的报道: https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/ Amazon Scraper (https://github.com/tducret/amazon-scraper-python) 这个 Python 包使你能够从 Amazon 搜索和提取产品信息。与其编写几行代码来确定需要分析哪些产品,不如使用这个包就可以了。你需要做的就是输入想要搜索的关键词和最大产品数量(这是可选的)。你可以使用 CSV 格式获得输出,然后将其插入你最喜欢的工具中并开始分析。 PIGO – Face Detection in Go (https://github.com/esimov/pigo) PIGO 是一个用 Go 编程语言开发的人脸检测库。它是基于这篇研究论文 Pixel Intensity Comparison -based Object detection(https://arxiv.org/pdf/1305.4537.pdf)开发的。根据该库的说明,这个库的一些主要特点是: 处理速度快;在检测之前无需对图像进行预处理;无需计算积分图像、图像金字塔、HOG 金字塔或任何其他类似的数据结构;人脸检测是基于二进制文件数据树结构编码的像素强度比较。 RL-Adventure-2: Policy Gradients (https://github.com/higgsfield/RL-Adventure-2) 这个库是为所有的强化学习爱好者开发的。深度学习已经推动了强化学习编程 人工智能 以人类专家水平技能进行 Atari 游戏。这个库涵盖了策略梯度算法的有趣的新扩展,这是解决强化学习问题的最受欢迎的默认选择之一。这些扩展带来了训练时间的改善,提升了强化学习的整体表现。 Reddit 讨论 实时多手姿态判断演示(https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/) 作者将上述概念以视频的形式发布后,讨论就开始了。这是一个令人着迷的概念,使用深度学习来看到它变得生动起来,这真是一件美妙的事情。它引起了数据科学家和机器学习爱好者的关注,正如你可以通过讨论中的问题数量看得出。我鼓励大家去浏览一下这些讨论,你们会对这项技术是如何实现的有一个很好的认识。 为了证明机器学习之美,你们会选择哪篇研究论文来证明这一点?(https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/) 如果你是机器学习的菜鸟,或者正在寻找需要阅读或者参考的论文,那么这就是一条很棒的线索。在这场讨论中提到的一些优秀的机器学习研究论文,每一个有远大抱负或有所建树的数据科学家都会从中受益。这场讨论包含了从基本的机器学习概念(如高斯模型)到高级概念(如神经艺术风格转换)、使用简单功能的提升级联来实现快速目标检测等论文。 我们目前对泛化了解多少?接下来该问些什么呢?(https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/) 深度学习中的泛化问题一直是人们争论不休的话题。正如这篇文章的作者所提到的,我们仍然有不少场景需要努力去实现任何泛化。这就引起了对目前的泛化现状的深入讨论,以及为什么泛化在深度学习和强化学习中很难理解。这些讨论中,包括冗长的帖子,如果你是这个领域的菜鸟,这些帖子对你来说可能有点复杂。尽管如此,我还是建议你,无论如何都要通读这些帖子,因为这些帖子都是由一些经验丰富、知识渊博的数据科学家提出的看法。 医疗行业中的机器学习状况(https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/) 这个话题深入研究了医疗行业(不是研究领域)当前的机器学习现状。这个行业的数据科学家分享了他们在工作中得到的经验和观点。当谁找你询问生命科学领域中有关机器学习和深度学习的任何问题时,你就可以参考这个话题。 未来三年数据科学家的职业发展前景(https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/) 这个话题,也是大多数人在进入该领域之前都会问的一个非常相关的问题。随着自动化机器学习工具的迅速普及,企业在几年内还会需要数据科学家吗?这个话题收集了数据科学领域中不同人士的观点,他们认为数据科学家在未来几年内将会扩展或者多样化。这里有一些很好的职业建议,所以一定要来看一下。 原文链接: Don’t miss out on these awesome GitHub Repositories & Reddit Threads for Data Science & Machine Learning (May 2018) 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56264.html 。
来源:数据分析网
发布时间:2018-06-21 08:50:00
近日公布的美国专利申请记录显示,Uber(优步,类似滴滴打车)申请了一个非常有意思的专利,即 用 人工智能 来识别醉酒乘客 。Uber 申请的这项专利名为“Predicting User State Using Machine Learning”,即“以 机器学习 预测用户状态”,由 Uber 的信任和安全团队提交。在专利描述中,Uber称他们将研发一个协调系统,该系统使用关于过去在Uber上的行程和行为数据来训练计算机预测提交行程请求的用户的状态(原文提到:The system uses the data about past trips to train a computer model to predict a user state of a user submitting a trip request)。简单来说, Uber 会根据用户使用 Uber App 的方式来识别异常行为,预测用户是否处于醉酒(不清醒)状态 。比如,假设周末的凌晨 1 点,你站在酒吧街区域打车,输入目的地时缓慢且多次出错,跟平常工作日的雷厉风行完全不一样,那么系统将可以判定你处于不清醒状态。 当Uber 的这套系统识别出“不清醒状态”,这个系统将因此调整 Uber 所提供的服务。 比如为这些用户安排经过培训、有相关经验的司机,并提前告知司机乘客的状态。另外,还可以将上下车地点改在光线较足的地方,并关闭拼车功能保证安全等。而 Uber 在专利描述中称,希望通过这个系统,可以减少人身安全或嘴角、冲突等让人不快的乘车体验。 但这个模型如果使用不当,也会产生负面的影响,其中一个担心是 人工智能 可能会被部分居心叵测的司机所利用。数据显示,过去 4 年里在美国至少有 103 名 Uber 司机被指控对乘客进行性侵犯,其中不少受害者就是在醉酒情况下乘车的。目前,这项专利还未投入使用。 本文不打算从伦理道德来分析这个专利的影响,毕竟这个专利还没有正式投入使用,本文只是从学术角度来研究模型实现的原理。下图是整个模型的架构,包括所需求的数据、算法和结果。模型整体的架构如下:当用户输入信息将乘坐请求(Request data,图中1)生成到用户设备(即手机)中时,系统同时收集关于用户设备上的用户活动的信息(Current User Activity Data,图中2),系统同时同步已经自动生成好的用户画像数据(User Profile,图中3)。 基础数据准好了以后,并进入特征工程模块 ,即系统会基于数据用户画像数据(图中3)和当前用户活动数据(图中2)构建用户特征数据(图中4),同时实时收集行程特征数据(Trip Features,图中5)。 用户特征数据和行程特征数据是特征工程中重要的两类模型输入( Input )。 我们重点分析重要的数据源: (1 )“用户请求数据”和“用户当前活动数据”。 “用户请求数据”是指用户在uber的个中使用请求数据,这些数据生成“用户当前活动数据”。 “用户当前活动数据”指用户对手机用户设备的输入,以及用户设备本身的移动行为。用户当前活动数据可以包括设备处理特性、接口交互特性和文本输入特性数据。 这些数据可能会通过手机中的运动传感器、设备角度传感器、GPS和内置在屏幕中的触摸传感器等方式来收集。如 设备处理特性数据, 包括用户在请求提交时或接近该请求时的速度、用户在请求时保持用户设备的角度、设备移动速度。 文本输入特性数据 如用户输入文本的准确性、选择搜索结果之前被删除的字符数等行为数据。 接口交互特性数据 如在生成uber行程单请求时,用户可以与多个用户界面交互,例如设置行程的起始点位置、选择行程的设置、输入搜索字符串以确定行程的目的地等等;系统会采集用户与这些接口交互的速度(例如,在特定输入屏幕上的平均时间、交互之间的时间),以及用户与搜索查询接口的交互速度。 (2 )“用户特征数据” ,通过统计和分析“用户画像数据”和“当前用户活动数据”而得来。“用户特征数据”是特征工程的一个重要部分,目标是构建更有预测能力的变量。比如文本输入速度以及文本输入速度的变化率、用户平均步行速度以及用户平均步行速度的变化率、点击行为速度和点击行为速度的变化率等等。例如,用户平均步行速度是指在过去的一段时间内步行速度的平均值;而用户平均步行速度的变化率,是指用户在当前一段时间内的速度与用户在过去一段时间内的平均步行速度的比值。 (3 )“行程特征数据”。“行程特征数据”是从用户请求数据提取出行特征的数据,例如与请求的位置、地理和时间特征。 行程特征可以包括用户位置、天气状况、一天的时间和请求提交是在星期几。某些行程特征由系统确定,而不是由请求数据确定,例如时间和星期几、天气条件等。 “用户特征数据”和“行程特征数据”都是特征工程的两类重要数据。 特征工程中,构建这两类数据目标是构建更有预测能力的变量。我们利用这两类数据的历史数据,通过监督机器学习模型来对数据训练建模。所谓监管学习就是给定一组学习样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类,这样的机器学习就被称之为监督学习。 Uber 的专利中提到核心算法主要是分类算法如决策树、支持向量机或神经网络。用户状态预测模型一旦建立了并通过相关的模型检验后,即可以对实时的用户数据进行分析,并利用模型预测用户的状态是否为“清醒”状态。 由于篇幅关系,本文对Uber 专利提到的三个算法进行原理性的介绍:(1 )决策树(decision tree ) 是一类常见的机器学习方法,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。决策树学习是采用自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树; ( 2 )支持向量机。 支持向量机(Support Vector Machine,SVM)是一个常见的分类器,核心思路是通过构造分割面将数据进行分离,一个支持向量机构造一个超平面,或在高或无限维空间,其可以用于分类。 ( 3 )神经网络。 神经网络的作用本质上也是一个分类器,人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。人工神经网络由大量的节点(或称神经元)之间相互联接构成,每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。目前神经网络算法已经有几十种,最近流行的深度学习也属于神经网络的发展方向。 我们用一个简单的示例来更直观的阐述上述过程。在uber的专利文献中提到一个例子, 见以下表“用户状态预测模型数据示例”。 表格中,每一行代表一条用户记录数据。第一列是加密后的用户ID,用来唯一区分每个用户。第二列至第六列是用户特征数据(User Features),包括用户文本的输入精度、用户数据输入速度、按钮点击行为、设备的角度、步行速度。第七至第八列是“行程特征数据(Trip Features)”,包括位置、时间和星期。值得大家注意的是,用户特征数据和行程特征数据只是列了部分变量,并没有列全,只是为了举例方便。最后一列“异常状态识别”是通过模型预测的用户异常状态,1代表异常,0代表正常。正如上文提到,用户的“异常状态预识别”是通过基于用户特征数据(User Features)和行程特征数据(Trip Features)进行训练,通过有监督学习的机器学习算法(上文提到的三种算法),建立“用户状态识别预测模型”计算得出。 从预测结果我们可以看到,第一列用户(用户ID为28HQ5)为预测为异常用户,即醉酒的可能性很大。第二列用户(用户ID为B24L9)为预测正常用户。这两位用户的差异在于数据输入精准度(异常用户精准度更低)、按钮点击次数(异常用户点击次数更多)、设备角度(异常用户角度更倾斜)、位置的差异、时间(异常用户在凌晨两点多打车)、星期的差异(异常用户在周末)。从典型的用户分析也能看到正常和异常用户的用户特征数据和行程特征数据有显著的差异。 Uber通过其APP收集到的数据,利用机器学习算法实现的是否处于醉酒状态的预测,在其他领域也有非常多的应用场景,包括保险、交通安全、金融、安防等领域。在保险领域,如果我们了解到某个用户经常酗酒,那么该用户很可能出险的概率就高,对于保险公司来说,并不是最优质的客户;在交通安全领域,畅想一下,相关的交通管理机构联合大型互联网企业做用户不清醒状态的预测,如果某用户醉酒的可能性很大,那么可以通过互联网应用来提醒该用户酒后不要驾驶;在金融领域,以小额贷款为例,如果发现某个用户老是醉酒,其征信得分应该有所降低,贷款审核也应该更加慎重。 参考专利文献: Predicting User State Using MachineLearning,Poeppel; Scott; (Pittsburgh, PA) ; Letwin; Nicholas G.; (Pittsburgh,PA) ; Kelly; Sean J.; (Pittsburgh, PA), Uber Technologies, Inc 专利文献链接: http://appft.uspto.gov/netacgi/nph-ParserSect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=3&p=1&f=G&l=50&d=PG01&S1=uber.AANM.&OS=aanm/uber&RS=AANM/uber 本文为专栏文章,来自:傅志华,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/56167.html 。
来源:数据分析网
发布时间:2018-06-19 15:05:00
传统的征信系统,其数据来源比较单一,但是这些系统当中记录的都是关于个人和企业比较核心的金融数据,如信贷、保险、税收等,都是“真金白银”,与个人信用关联度比较强。互联网公司积累的数据虽然多,但是这些数据和个人信用关联度比较弱,如何用这些关联度弱的数据,分析出与个人信用的关系,是个难题。 此外,数据来源单一、数据的第三方问题、隐私保护问题等,也是公众和监管层对芝麻信用的担忧和顾虑。芝麻信用该如何破解这些顾虑 数据来源是哪 打开手机支付宝APP,点击首页淡绿色空心的水滴“芝麻信用分”,授权开通后,每个用户都可以看到自己的芝麻信用分。从350分到950分,分数越高代表信用程度越好,违约可能性越低。 “芝麻信用分,是芝麻信用‘皇冠上的明珠’,它是每个人信用程度的浓缩。但是,这个分数只是冰山一角,它的下面还有一座巨大的冰山。”胡滔介绍。 数据来源,是这座冰山的重要构成部分。芝麻信用分正是依据芝麻信用能够用到的数据打出来的,这些数据包括芝麻信用所在的蚂蚁金服集团多年积累的数据和与外部合作机构的数据。 芝麻信用管理有限公司,是蚂蚁金服集团旗下的子品牌。阿里巴巴和蚂蚁金服本身积累的数据,是芝麻信用的一大优势。这些数据包括淘宝、天猫等电商平台网络购物的相关行为数据,支付宝平台水电煤电信缴费数据、各种生活服务场景相关数据,还有千万级以上的贷款数据。其中,贷款数据包括阿里巴巴平台上接近两百多万的小企业贷款数据,千万级的天猫分期购的数据,以及消费者无忧支付产品蚂蚁花呗的数据。 “集团自有的数据,只占我们所有数据的一小部分,我们还有一大部分数据是和外部合作的。”胡滔介绍。 外部的数据源大致可以分为政府公共部门的数据、合作企业的数据、金融机构的数据、用户自主上传的数据等几个方面。 政府数据目前完全开放的还不多。胡滔介绍,目前政府已经开放的工商、学历、学籍、公安四个方面的数据,芝麻信用已经全部接入。今年7月1日,芝麻信用和最高人民法院实现专线连接,实时更新“老赖”(失信被执行人)数据。芝麻信用是最高法首个接入的市场化征信机构。接受媒体采访的当天早上,芝麻信用和最高人民法院执行局签署《合作备忘录》,双方将在此前失信被执行人(老赖)专线同步的基础上,进一步加大对老赖的信用惩戒力度,包括扩大信用惩戒范围、加大消费限制内容等。 “政府的数据公开这一块,我们也在思考政府为什么要开放数据给你。在现阶段唯一的解就是为他创造价值。”胡滔举例说,比如和最高法执行局的合作,就是芝麻信用接入之后,老赖们在网络上的消费会受到限制,这对案件执行来讲是有价值的。芝麻信用分是每月6日更新的,胡滔透露,很多老赖都开通了芝麻信用分,接入最高法执行局后,有人看到自己分数下降的很厉害,就打电话来问,感受到了失信者受限的麻烦。 目前,芝麻信用的合作企业有30多家,神州租车是首家与芝麻信用合作的企业。此外还有婚恋网站、酒店等各种生活场景中的商家。当用户的芝麻分达到一定数值,租车、住酒店时可以不用再交押金,网购时可以先试后买,办理签证时不用再办存款证明,贷款时可以更快得到批复、拿到比别人低的利率,甚至相亲时也可以最大程度避免婚骗。 互联网公司与银行的合作并非易事。之前媒体报道,银行目前都有自己的违约概率模型,数据来源是央行征信中心或银行自身,数据类型都是和信贷违约息息相关的“硬数据”。目前中国银行业风控效果良好,低于世界平均水平,因此银行未必有动力与芝麻信用合作。同时,有银行业人士接受媒体采访时表示,蚂蚁金服旗下有蚂蚁小贷做小贷业务,还有网商银行,这对银行而言都属于竞争者,因此不可能将核心数据提供给竞争者。 但是,6月25日,北京银行成为芝麻信用的首家合作银行,双方将开展信用信息查询和应用、产品研发、商业活动等多个方面的合作。胡滔透露,还有几家银行的合作也正在谈,但是合作并不是数据共享,而是全流程的信用风险管理。 其他的金融机构,芝麻信用也在谨慎地尝试接入个别的P2P平台,但是目前接入的P2P数量并不太多,大概不到10家。 目前,芝麻信用与合作伙伴之间的合作都是免费的。其他更多的合作方式,胡滔表示,芝麻信用给每个行业都有定制的解决方案,将择时公布。 除了合作伙伴的数据之外,在支付宝9.0版本中,芝麻信用在“芝麻信用分”的下面,添加了一个“+”按钮,用户可以点击添加自己的相关信息,以获得更准确的信用评分。 怎么做 数据分析 通过多种渠道汇集的数据,在芝麻信用分的评分当中,被分为五个维度:身份特质、履约能力、信用历史、人脉关系、行为偏好。芝麻信用首席信用数据科学家俞吴杰向媒体详细解释了每一项的具体含义。 身份特质是指在使用相关服务过程中留下的个人基本信息,包括从公安、学历学籍、工商、法院等公共部门获得的个人资料,未来还可能包括网络使用习惯等可以用于推测个人性格的数据。 履约能力包括享用各类信用服务并确保及时履约,例如租车是否按时归还,水电煤气是否按时交费等,还包括通过消费情况、消费稳定性、消费层次等等来判断用户未来履约有什么样的能力。 信用历史是指过往信用账户还款记录及信用账户历史。俞吴杰介绍,这些历史包括用户的在蚂蚁微贷、蚂蚁花呗等蚂蚁金服旗下服务的信用历史、用支付宝还款的历史,还包括用户在合作伙伴处产生的信用历史,“我们把信用历史看得非常重要。因为大量的研究已经表明,如果一个人有持续的好的借贷还款行为的话,他在其他各个场景当中都会有类似的延续、惯性。” 人脉关系是指好友的身份特征以及跟好友互动的程度。根据“物以类聚人以群分”的理论,通过转账关系、校友关系等作为评判个人信用的依据之一。俞吴杰解释,当我们在判断关系的时候,要看两个人之间联系的紧密程度如何,以及历史的一贯的行为表现是怎样的,这些都是通过一个一个的模型判断出来的,而每个模型在判断一个指标的时候,都会用到几十上百个变量。 行为偏好是指在购物、缴费、转账、理财等活动中的偏好及稳定性。“比如讲一个用户你是否经常做一些与家庭责任相关的、跟社会责任相关的事情,在你购物的行为当中能不能体现出这种特征,如果是的话可能对你的个人信用会有正向的作用。”俞吴杰解释。 这些维度的评价,如何与个人信用建立联系 美国个人消费信用评估公司FICO的信用评分在美国的应用是最为广泛的,美国三大信用局都使用FICO的信用分。FICO信用分计算的基本原理是,把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。 俞吴杰告诉环球照明网,芝麻信用的 大数据 评分的原理是类似的。“传统的方法当中,每个变量与信用的关联比较强,可能有某个特征就是好的,没有某个特征就是坏的。大数据的场景下的很多关联不像传统的方法当中强,可能很多的特征都是弱关联,有关联但是彼此之间并不是很直接。但是当我们把很多个弱关联的特征联合在一起的时候就变成了一个非常强的预测变量,可以来判断这个人未来可能会守约还是违约。” 他举了个例子:“比如说要判断一个人的家庭责任感,购物中的哪些类目会体现出家庭责任感呢没有一个类目能说完。但是如果研究很多不同的类目,比如说你是不是在购买跟生活相关的纸巾类的物品、或者购买婴儿类相关的物品、学习类书籍,当把这些不同的类目联合在一起去看的时候,当一个人有众多的弱变量都指向是一个行为特征,他就变成了一个组合起来的强特征。” 这需要对大量的数据进行处理。俞吴杰进一步说:“当我们要去处理那么多变量那么多弱特征的时候,技术以及需要投入的处理能力就需要非常强。” 他接着解释:“一方面,我们人平时思考到的那些东西,比如地址稳定性、手机号码稳定性和个人信用到底有没有关系,数据和算法可以帮我们去检验;另一方面,我们人想不到的维度,只要把足够的数据放进去,机器能够帮我们两两比对,不同的关联组合起来以后,就可以知道违约和守约的区分。” 这是一个不断调整、优化的过程,随着数据源的扩大、应用场景的不断丰富,实际检验效果会越来越清晰。同时,俞吴杰也指出:“实际上,很多时候也不需要掌握所有的信息才能对一个人做出最完整的、客观的评价,因为很多信息是具有代表性的,只要我们在足够有说服力的方面拿到核心的信息,就可以对一个人做出相对比较准确的判断。” 他介绍,目前比较前沿的一些算法,如决策树、随机森林、支持向量机、神经网络等,芝麻信用都在研究尝试。 目前,芝麻信用分在实践中检验的结果,其产生的坏账率在合作伙伴可以接受的范围内,这也是让芝麻信用充满信心的原因。 芝麻信用整个团队有130人,其中2/3是数据和技术团队。胡滔介绍, 数据分析 团队是芝麻信用的核心。芝麻信用从国外引入了做征信模型做得最好的FICO的首席科学家,还有美国三大征信局之一艾可菲( Equifax) 专门做产品和业务的优秀华人。 胡滔对自己的团队充满信心:“他们在国外积累的经验,结合我们今天大数据和技术的优势,包括整个中国的市场,一定可以做出成绩。我经常也跟团队说,今天芝麻一小步就是中国一大步,因为我们做的每件事情在中国都是没有先例的。今天我们的征信才刚刚起步,美国是170年前起步的,我们的今天是他们的昨天,但是我们的明天可能是他们的后天。” 如何保护隐私 此前,有业内人士告诉环球照明网,利用大数据进行信用评估,目前只对特定人群、特定服务有效,比如对年轻人进行小额消费贷款。 芝麻信用分目前的适用范围是不是仅限于年轻人的小额消费贷款胡滔对此予以否认。她告诉环球照明网,芝麻信用希望对所有人的信用进行评估,而不仅仅是年轻人。 芝麻信用分开始公测之后,网上有人声称可以“刷分”,即帮助提高芝麻信用分。俞吴杰强调,现在声称可以“刷分”的都是骗子。 他解释,芝麻信用分的整个模型有极其复杂的机器算法,算法下面有很多的变量,如果追溯到源头的数据可能就有成千上万个,每个变量都很重要但是又是有限的。他说:“而且我们会加很多很稳定的机制,比如说转帐也好还款也好,我们不会看你昨天一天前天一天,我们会看你很长一个历史是不是持续在做这样一件事情。所以这个就会导致,第一你找不出任何一个点能够给你的信用带来巨大提升,第二机器算法本身是一个相对黑匣子的东西,你不知道你的这个行为最后到底是否有直接关系,尤其是当我们应用了更加复杂的算法以后都不是一个线性的关系,不是做了一件事就一定对结果有正向的影响。它是一个非常复杂的网络系统,网上看到的各种涨分秘籍在我个人看来非常可笑。” 此前,据财新报道,央行给予八家征信机构六个月准备期可能出于两条顾虑:其一是数据的第三方问题,其二便是如何保护隐私。 当时,俞吴杰在关于隐私保护方面介绍,芝麻信用从信息的调用、运算、应用等层面保护用户个人信息: 第一,很多数据,不是存在芝麻信用,而是在各数据源,如政府机构、合作伙伴、电商平台等。 第二,得到芝麻用户的授权,我们的系统才会调用各数据源和用户相关的数据,这个调用过程是没有人工参与的,都是系统运营的。 第三,系统运营的过程,会通过运算规则的设置,按照法规要求,不碰种族、血型、宗教、信仰等等信息。 第四,整个数据开发团队有很好的防护墙,只有核心成员知道系统运营的内核是什么。但即使他们知道运营规则,也不能接触到用户的信息,整个计算是在黑匣子里。 第五,只有在用户授权的情况下,第三方才可以调用用户的芝麻分等信用数据。 其表示,从用户数据的调用、运算,到第三方对信用分等的使用都是在用户授权的前提下进行,芝麻评分全过程工作人员不接触用户的信息,一切均由系统运营,确保用户隐私全程保密。 关于独立第三方的问题,当时芝麻信用商务拓展负责人邓一鸣的解释是,一方面芝麻信用仅有少部分数据来自“阿里系”,另一方面蚂蚁金服和阿里巴巴都是平台,本身不买卖货物,基本没有自营,因此产生的数据本就属于第三方数据。“对于这个解释,监管层是认同的。”邓一鸣说。 现在,芝麻信用对这个问题给出了更好的答案。胡滔介绍,芝麻信用是独立的一家注册在杭州的征信公司,这个是物理上、组织架构上的独立。另外在董事会层面,芝麻信用邀请了金融界一位非常有影响力的华人董事,他将在芝麻信用董事会中拥有相当的权限,每一次会议和董事会的决议都可追溯、可查询。“希望他能够参与到我们整个公司的监督里面。其实最核心的是保护消费者的利益,特别是个人隐私权保护能不能很好的落到实处。第二个非常重要的,就是我们独立性这块,和集团内其他的业务单元和子公司的关联交易的独立性保障。” 文章来源:《环球照明网》(原文题为“芝麻信用的数据来源以及评分的五个维度”) 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2016-06-30 01:12:00
了解事物之间的相互关系可以丰富你的信息,让你了解真相,使你立于不败之地。 发现事物之间的相互关系:相关与回归。 数据类型探讨 单变量数据考虑的是一个单一变量的频数或者概率。 二变量数据给出两个变量的数值,如果其中一个变量以某种方式受到控制,或者被用来解释另一个变量,则这个变量被称为自变量或者解释变量,另一个变量则称为因变量或者反应变量。 二变量 数据可视化 散点图或者散布图,描述二变量数据。 散点图显示出数据对之间的相关性。 相关关系与因果关系 两个变量存在相关关系并不一定意味着一个变量会影响另一个变量,也不意味着二者存在实际关系。 用最佳拟合线预测数值 能最好地接近所有数据点的线被称为最佳拟合线。 误差最小化 误差平方和 最小二乘回归总结 用相关系数衡量直线与数据的拟合度 相关系数计算公式 要点 总结 1回归和相关的概念 2线性回归的确立 3最小二乘法的应用 练习 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2015-07-18 00:01:00
摘要:近两年,精益创业、Growth Hacking这些概念和方法论在国内越来越普及,而大多数人却只停留在从流量的角度去理解Growth Hacking,比如利用一些传播手段来获取大量的新增用户,这确实很好,但Growth Hacking远远不止这些。就像我们只看到了Facebook的病毒式传播,却没有看到他们为用户的激活和长期留存所做的大量努力,而后者也是Growth Hacking的一部分,而且是更为重要的一部分。 所以,我们应该站在用户整个生命周期的角度去理解Growth Hacking,只有大量的新增,却没有有效的核心行为转化和良好的留存,就无法实现真正的增长。 如果有机会深入观察用户的行为,你会发现只有少量的访客了最终成为了产品的忠实用户, 更多的只是过客。 – 《精益 数据分析 》 要实践真正的Growth Hacking,必须以有效的数据作为支撑,以 数据驱动 的方式去对产品的各个部分进行实验、调优,以达到真正的用户增长。所幸,McClure早在2007年就提出一个有效的数据模型,它在这些年彻底改变了众多企业看待数据的方式,并帮助大量的产品实现了用户增长。 它就是AARRR 模型(也称海盗指标): AARRR 模型引领人们从虚荣指标(有多少人看过我的页面、我的累计用户达到了多少)到思考整个用户的生命周期,提供了一个最有效的分解用户生命周期的方式,并告诉我们各个部分如何改善。 一旦你深入到了用户生命周期各个部分的细节中去,你就能像一个黑客一样去设定你的增长策略,以达到真正的Growth。 说到AARRR 模型,其实也存在大量错误的理解 ,在模型的每一部分,都有一些被经常使用的「虚荣指标」,这些虚荣指标掩饰了你产品中紧迫的问题,提供了一些夸张的、没有意义的数据,这通常会将你带入歧途,而很多人却天真的以为这就是所谓的数据驱动。好在,在这些「虚荣指标」之外,同时也存在一些「可行动指标」,而这些指标可以向你展示现在有什么问题以及为什么,并告诉你可以做些什么以改进你的产品。 使用「可行动指标」的时候,需要外科手术般的精度,而「虚荣指标」用起来就简单了,它们是为懒汉准备的。你选择使用哪一种,决定了你将成为一个高手还是一个弱鸡。 OK,就让我们逐个部分的来搞清楚究竟是什么是虚荣指标,什么是可行动指标,以及如何通过可行动指标来帮助你践行Growth Hacking吧。 获取对比不同渠道的价值 比如你已经推出了你的app并准备作一些推广,然后你花钱在两个不同的渠道上做了推广活动,你还去研究如何提高在AppStore的排名,还找人撰写软文发到媒体上为你的应用引流,你所做的这一切是为了什么 下载量。当然,越多的人下载你的应用,下载量就会变得越好。可问题是,「下载量」是最靠不住的虚荣指标指标之一,下载应用是一个超级低成本的事情。一味的推广并不能支撑你的成功,不像删除一个应用那么简单。 当你看获取指标的时候,你需要关注哪个渠道给你提供了最好的投资回报 。如果你只关注下载量,你可能看到类似于下面的一张图,它貌似说明了你推广的成功: 但在这张图中,无论如何你都无法得知:下载你应用的那些用户到底有没有去使用你产品。 有一些人会去对比不同渠道的下载量,觉得这就是可执行指标。但这同样没有用,即使你发现一个渠道得到了2倍于另一个渠道的下载量,你还是无法知道那些额外的用户实际是怎么使用你的产品的。 若要改进你的获取指标,除了对比渠道,你还要关注那些真正使用了你产品的用户。 可执行指标:不同渠道从下载到注册的转化率 如果你从用户打开你的产品到完成注册都进行了跟踪,那么可以把这些跟踪结果按渠道拆分,你就会精确的知道你的推广怎么样。任何人都可以下载一个应用,但只有一部分用户是真正感兴趣,并进行了注册,这些用户才你是想密切关注的。 要这样做,只需设置一个从启动应用到注册的两步漏斗,然后对比不同渠道的转化率: 你可以看出一个问题,从A 渠道来的75%的用户和从 B 渠道来的63%的用户只是下载了你的应用,但并没有注册。 这包含一个坏消息,也包含一个好消息。 如果你只是跟踪了下载或者打开应用,你可能会看到仅一个月的A 渠道推广,就得到了超过90,000的用户。这是一个非常大的数字,但事实上它会引起人的误解。所以坏消息是:绝大多数用户连试都没试你的应用,75%的投入打水漂了。 而好消息是:在B 渠道,有一个值得关注的更好的结果:这个渠道有更多的用户完成了从下载到注册的转化。 现在你有工作要做了(所谓可执行指标,就是能告诉你可以做点什么): 快速频繁迭代你的启动页与注册流程以提升整体注册转化率。这没有固定的成功公式,就像一句话说的:「做大量的测试和 A/B 测试,做大量的猜测并快速的迭代」。 持续不断的检查你的转化率,当你发现迭代优化的收益变小的时候,就先暂停一下。 加倍投入那些低成本、高转化率的渠道。 这并不意味着你要完全放弃那些低质量的渠道,因为广告也有收益递减:你花费20,000也可能得不到与之前花费5,000相同的结果。但只要保持对转化率的关注,你就可以把产品推进到正确的方向上,不用过多的担心。 把尽可能多的用户带到你真正的产品里面,这就是在AARRR 模块中的获取部分你要做的所有努力。没错,登录和注册的提升并不能完全表示你的产品会变得更好,但是它们仍然是一个非常重要的市场指标。正确的使用,它们可以让你引领尽可能多的用户进入激活阶段。 激活为了更快的Aha!Moment而改进你的漏斗 下面的话你可能经常听到: 「我们服务过数百万的客户」 「我们的用户之间发送了数亿条消息」 「我们处理了1亿张照片」 这样的指标,都是累计的价值,它确实能在某种程度上反映产品现在的规模,也可能会让人们相信你产品的能力。但对你自己来说,这些数字稍微看看就是了,它对你理解真正的问题毫无用处。 那些在你的产品上花的时间比平均用户多的多的小部分用户,会把你的累计或整体数据拉得相当高,「处理了1亿张照片」,是的,但那些大量的、压根就没有上传过照片的用户呢换言之,那些大量的、根本就没有激活的用户呢 我们来明确一下,打开应用不是激活,注册也不是激活,这些都只能代表用户在尝试你的产品,而只有当用户在发现并认可了产品的价值,并决定继续使用的时候,才代表这个用户激活了(Aha! 这玩意儿不错,正是我想要的)。 所以真正重要的是,那些大量未激活用户的问题是什么换言之他们的问题才是你的机会,如果你自己也只是关注那些巨大的虚荣数字的时候,你不会接近这些问题和机会。 你需要明白是: 有多少用户没有正确的激活 用户在哪些地方迷路了 哪些流程是你需要去改善的 可执行指标:转化漏斗和拆分测试 从注册到激活的过程像是一次冒险,用户会在其中流失掉,而且他们可能永远不会再回来了。解决激活问题的最好的方式是创建一个包含这个过程中每一个步骤的漏斗,跟踪每一步转化率,然后当你看到用户在哪个地方流失的时候进一步的深入进去。 我们假设你创建了一个社区应用,里面有不同的兴趣小组,在小组中可以对相关的主题进行交流。你发现,一旦用户开始参与交流,他们就基本认可了产品的价值,趋向于留下来。但是,你也发现有一些人明显没有触达这个点(参与交流),而且他们流失掉了。 要理解为什么用户没有激活以及如何修复这个问题,只需创建一个漏斗,把漏斗的转化时间调至一天(特别是移动应用,你最好能让你的用户尽可能快的激活,是以小时以天计,而不是几周几月)。 在这个漏斗中,你将跟踪用户从注册之后,是如何一步步到达「评论话题」(参与交流)的: 在漏斗中,两个现象已经很明显了: 80%的用户没有加入任何一个小组 绝大多数加入小组的用户,都会评论话题,他们激活了 一旦用户加入了一个小组,大多数情况下就会发表至少一个评论并有一个不错的长期留存,问题是有相当多的用户根本就没有加入小组。在你看到这个漏斗之前你很难发现这个问题,当你开心看着评论话题的总量时,你没有看到那80%的用户根本都没有到达这个点。 好的一面是,这也向你提供了一个巨大的机会,80%的用户在从注册到加入一个小组的过程中流失掉了,你有一个巨大的空间去提高这个数字 。而且从你知道加入一个小组关系到用户的留存和满意度后,你就有了一个基本清晰的、数据驱动的途径去把你的产品真正的做的更好。显然这种方式比虚荣指标更有价值,而且可能会让你感觉更好。 要解决这个问题,为你从注册到加入小组的流程和体验多构建几个新的版本,然后分离测试它们以观察它们是如何工作的。不要担心把事件变得更复杂,如果它可以帮助新用户触达你的产品核心价值。Twitter这样做过,他们发现促使用户完成他们的Profile并且根据账号提供个性化的内容,能引导用户触达Aha!moment。 拆分测试你不同的想法,不断的做,直到你拥有一个坚如磐石的引导流程,能让用户以闪电般的速度触达Aha!moment。 不久,你的情况就会变得越来越好,你会开始感到兴奋,一切都是让人惊喜的,直到你想起来一个词:流失。 留存使用 用户分群 来识别留住用户的Feature 用户流失是产品的头号公敌,如果没有强大的激活和留存,用户流失会削减你的用户规模,而且从长远来看,它会逐渐毁掉你的产品。 最流行的衡量留存的方法是 DAU和MAU——日活跃用户数和月活跃用户数,衡量每天或每月有多少用户在你的应用上活跃。这听起来是 OK 的。但是,它存在一些问题: 这太容易夸大这些数字的意义,定义「活跃」是一件很难的事情,而企业通常会选择让他们 DAU 最大化的定义。 如果你的业务正在增长,新用户注册量会扭曲这些数字,从而妨碍你看到这些用户实际上有多少回来了。 即使前两个问题不存在,「活跃用户」的最简单的定义也不能让你找到识别提高留存方法的点在哪里。 比如你做了一个视频分享平台,近期通过各种手段做了大肆宣传,你的DAU会突然爆炸式的增长: 看起来非常棒不是吗但接下来我们看一下,把实际拍过视频的人数加进来会发生什么: 当暴涨的下载量似乎证明你已经成功了,但你的播放视频人数会告诉你一个不同的故事。当你的下载量仍然在逐步增加,你的实际播放视频的人数反而在增少。一方面你成功了:用户在下载你的应用,另一方面你也有明确的证据表明有些事情正在变得非常糟糕。如果没有干预,你将会在这里结束: 可执行指标:用户分群分析 要真正在你的应用中构建良好的用户留存,你需要分析你的用户行为。 一些用户被你的应用吸引而且频繁的使用你的应用;而另一些用户下载之后根本看不到价值,然后把它删掉。为了获得更多的前者,而非后者,你需要从你的超级用户(比其它用户更多更频繁的使用你的产品)中学习。 问题来了,是什么东西粘住了用户这不能用直觉来回答。Facebook和Linkedin不用直觉去创造用户粘性,而是用严谨的分析和实验。 这里可能是你开始看留存图的样子–在某一天注册了一批用户,然后有多少在后续一个月的每一天中回访了: 这是7日的留存: 然后这是只看1日后的留存(次日留存) 你会发现这个例子中的次日留存把问题反映的最明显:有大概一半多一点的用户在初次使用你的应用后就不再回来了。在你开始担心30天或90天留存这些东西之前,你需要先弄清楚怎么能让用户在第二天回来。 这同样没有固定的成功公式,你必须通过「用户分群」来针对不同的可能性做实验。在我们这个例子中,你将会看到,当你对比「所有新增用户」与「关注过一个人的用户」的次日留存时会发现什么: 次日留存有了30%多的跳跃,非常棒是吗但是如果这些用户都是在第2天、第3天才开始流失呢 有一件关于移动应用的事实:用户会非常快的流失,实际上平均下来,移动应用70%的用户会在一天后流失,但那些非常优秀的应用的这个值只有30%。但是,在安装应用后的第3天开始,再往后,流失速率会趋于稳定:所有应用会以同样的流失速率失去他们的用户。 所以问题的关键就在你如何在用户安装之后立刻留住用户,如果你能在一开始粘住他们,你基本就能保留他们一段时间。 这是我们例子中「所有用户」与「关注过一个人的用户」在7天里的留存情况对比: 在30天后,「关注过一个人的用户」的留存率是17.5%,「所有用户」的是10.9%。这可能看起来不是那么显著,但在长期留存上,即便是一个小凸起,对你来说也是意义重大。 更为重要的是,你已经识别出了一个提高留存的因素,现在你可以寻找更多。一个可行的方法是,你现在可以把「关注一个人」不是「注册」设为起点。也就是说,你之前分析的是「注册」之后的留存情况,而下一步,你可以分析「关注一个人」之后的留存情况。这就是在你重新设计了引导流程以促进用户关注他人之后,接下来你应该努力提升什么。 然后,你可以看到其它因素是怎样促进留存的,比如,你可以比较「播放了三个视频的用户」与「全部用户」,比较两个用户群在「关注了一个人」后的留存情况。 当你搞清楚了哪些行为导致你的用户继续回来使用你的产品之后,你就需要把这些行为的用户体验放在首位。在早期粘住你的用户,他们就会很难离开你的产品。 正确的使用 AARRR 模型,并不是换了一组更好的数字,而是完全不同的数字。这些数字向你展示着人们如何使用你的产品,是什么让他们离开,是什么让他们离下来,是什么让他们大呼过瘾。 换句话说,有什么不是数字呢。 本文为专栏文章,来自:诸葛IO,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/11418.html 。
来源:数据分析网
发布时间:2016-03-23 05:00:00
最近有很多用户说到了年终需要回顾这一年的工作,根据这一年的数据看看有没有异常的情况,那么哪种图能够清晰直观地展现出这一信息呢? 答案只有一个,那就是… 箱形图 箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。 箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。 想要搞懂箱形图,那么一定要了解… 五大因“数” 我们一组序列数为例:12,15,17,19,20,23,25,28,30,33,34,35,36,37讲解这五大因“数” 1、下四分位数Q1 (1)确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。 (2)根据位置,计算相应的四分位数。 例中: Q1所在的位置=(14+1)/4=3.75, Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5; 2、中位数(第二个四分位数)Q2 中位数,即一组数由小到大排列处于中间位置的数。若序列数为偶数个,该组的中位数为中间两个数的平均数。 例中: Q2所在的位置=2(14+1)/4=7.5, Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5 3、上四分位数Q3 计算方法同下四分位数。 例中: Q3所在的位置=3(14+1)/4=11.25, Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25。 4、上限 上限是非异常范围内的最大值。 首先要知道什么是四分位距如何计算的? 四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR 5、下限 下限是非异常范围内的最小值。 下限=Q1-1.5IQR 讲了这么多的“数学知识”,那么箱形图到底如何通过BDP应用到实际的工作呢?我们还是用一个实例来帮助大家理解。 现在有“2017年各季度各地区分公司销售业绩”工作表,我们想要找出各季度哪些分公司业绩属于不正常范围内。 数据示例如下图: BDP箱形图结果: 从上图可以清晰的找出异常点,例如第二季度北京分公司的销售额为22147元,该值比上限10759元还要大,所以定义为异常值。 具体操作在这里就不讲解了,可以参考“ 各位久等了,全新的炫酷图表终于上线啦! ” 箱形图的价值 1.直观明了地识别数据批中的异常值 上文讲了很久的识别异常值,其实箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。 2.利用箱线图判断数据批的偏态和尾重 对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数); 而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。 3.利用箱线图比较几批数据的形状 同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。如上图,可直观得看出第三季度各分公司的销售额大体都在下降。 但箱形图也有他的局限性,比如:不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性。 本文为专栏文章,来自:海致BDP,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/50088.html 。
来源:数据分析网
发布时间:2018-02-04 16:55:00
当我们用 搜索引擎 搜索资料时,选择关键词的关键性是毋庸置疑的。正确分析和处理关键词,是提高搜索结果满意度的必然前提。 关键词的选择最好是:搜索次数多,竞争程度小,这也是核心要求。 我们究竟该怎么来判断自己选择的关键词是否符合这个核心要求呢 关键词确认后,我们需要研究关键词的竞争程度。因为如果是一个新网站,直接用了那些竞争程度很大的关键词,推广效果则需要花很长的时间才能见效。所以为了能在短期内获得一个好的推广效果,建议采用一些竞争适中的关键词,先易后难。99click为大家整理了四种分析方法,分享给大家。 一、分析SEO竞争对手的数量 方法的核心是,分析有多少网站在重点优化这个词,以此来判断竞争程度。 操作具体方法是,在百度中搜索输入优化的关键词,比如“北京旅行社”,观察前五页的搜索结果,如果前五页的搜索结果都是网站首页,那么通常属于竞争比较激烈的关键词。 如下图所示:从搜索结果看,排名靠前的有很多,都是一些网站。 一般而言,前面用的词语通常是属于竞争比较激烈的词,关键词竞争是否激烈?有时还要再分析一下这些网站是否做了SEO。如果都做了,则证明竞争激烈;如果没有做,是自然排上去的,则是属于不激烈。 如何判定网站是否有做SEO?简单的办法就是看搜索到的网站标题,如果网站标题中堆积了大量的关键词,比如“北京旅行社/旅行社/排名第一/5A级”等,基本可以判定是做了SEO的。 二、看搜索结果页的相关搜索数 在百度搜索结果中,看看你想优化的这个关键词有多少个页面,页面越多,竞争就有可能激烈。比如“北京旅行社”,找到相关结果数约758000个,也就是说有758000个网站包含了这个关键词,如果要优化这个关键词,就要排到7580000个网页的前面。 但这也是有分水岭的: 结果数值在十万以下,说明竞争很小,几乎没有竞争; 结果数值在几十万,关键词有一定难度结果数值在百万以上,说明关键词比较热门; 结果数值在千万以上,说明竞争异常激烈,通常是行业通用词。 三、分析intitle结果数 其实,上面收索出来的结果很大时也不用立即放弃,试试在您搜索的关键词前面加上“intitle:”这样搜出来的结果才是您真正的竞争对手。 如果在这个结果页收索出的结果也在千万级别的话,您就不用在犹豫了,在选择一个吧! 四、看关键词搜索量 分析关键词的搜索量,每天有多少人搜索。一个关键词的搜索量越大,竞争程度也越大。 如何查询一个词的搜索量有多大?很简单,百度指数就能轻松搞定。 百度指数为我们提供每一天的搜索指数,包括PC端和移动端。百度指数越高,说明用户搜索量越大,竞争的程度也会大。 通过上面几步,我们可以把核心关键词和竞争程度分析完毕,如果这些词能够代表用户的直接购买需求,竞争对手不超过50个,那么就可以优化。如果超过了,则建议从容易的关键词着手优化。 四种方法,主要是针对新手。判断一个关键词的激烈程度,还有其它的方法和指标,相对而言,这四种比较容易掌握,简单易懂。但凡事不是绝对的,不能确保百分百的准确率,但对于初学者,掌握这四种方法足矣。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-30 16:00:00
留存用户和 留存率 通常能够反映不同时期 App 获得的用户流失情况,分析这个结果不仅能帮助 App 找到用户流失的具体原因,还能够通过这些数据来更深入的了解你的App,从而进行运营策略调整。但是很多用户对留存的计算有疑问,下面较详细的解释了日/周/月留存数据的使用价值和算法。 什么是留存用户? 一段时间内的新增用户,经过一段时间后,仍继续使用应用的被认作是留存用户,这部分用户占当时新增用户的比例即是留存率。 统计留存用户的时间粒度有哪些? ·自然日:包括1天后、2天后、3天后、4天后、5天后、6天后、7天后、14天后和30天后 ·自然周:包括1周后、2周后、3周后、4周后、5周后、6周后、7周后、8周后、9周后 ·自然月:包括1月后、2月后、3月后、4月后、5月后、6月后、7月后、8月后、9月后 日留存率:快速判断App粘性 日留存率:可以很快的帮助我们判断 App 的粘性到底强不强。我们可以通过日留存率的数值来判断一个 App 的质量,通常这个数字如果达到了 40% 就表示产品非常优秀了。我们可以结合产品的新手引导设计和新用户转化路径来分析用户的流失原因,通过不断的修改和调整来降低用户流失,提升次日留存率。 留存用户表- 日留存率 日留存率计算方式: 举例说明:假设某App在1月3日的新增用户有100个,这100个用户在1月4日中启动应用的有55个,在1月5日中启动应用的有45个,在1月6 日启动应用的有30个,则1月3日的新增用户在1天后留存是55/100=55%,2天后留存是45/100=45%,3天后留存是30 /100=30%,4-7天后,14天后和30天后同理,依次类推。 周留存率:判断App用户忠诚度 周留存率:我们可以通过周留存率来判断一个用户的忠诚度,在一周的时间段里,用户通常会经历一个完整的使用和体验周期,如果在这个阶段用户能够留下来,就有可能成为忠诚度较高的用户。 留存用户表 -周留存率 周留存率计算方式: 举例说明:假设3月的第1周某 APP 的新增用户有200个,这200个用户在3月的第2周中有100个再次启动了应用(无启动次数限制),3月的第3周中 有80个再次启动应用,3月的第4周中有50个再次启动应用,则3月第1周的新增用户在1周后(即第2周)的留存率是100/200=50%,在2周后的留存率是80/200=40%,在3周后的留存率是50/200=25%。4周后到9周后的留存同理,依次类推。 月留存率:了解App版本迭代效果 月留存率:通常移动 App 的迭代周期为 2 – 4 周一个版本,所以月留存率是能够反映出一个版本的用户留存情况,一个版本的更新,总是会或多或少的影响用户的体验,所以通过比较月留存率能够判断出每个版本更新是否对用户有影响。 留存用户表-月留存率 月留存率计算方式: 举例说明:假设某App 5月份新增用户有1000个,这1000人在6月份启动过应用的有600人,7月份启动过应用的有450人,8月份启动过应用的有300人,则5月的新增 用户在一个月后的留存率是600/1000=60%,二个月后的留存率是450/1000=45%,三个月后的留存率是300/1000=30%。4月后 到9月后的留存同理,依次类推。 特别强调一下,App 的留存率并不一定会按照日期呈递减状态。 比如: 结合日留存的例子,假如1月3日的新增用户在1月7日有40个再次启动了应用,则1月3日的新增用户在4天后的留存是40/100=40%,4天后留存 (40%)>3天后留存(30%),这是正常的,各天/周/月的留存率数据都是独立的,取决于用户的启动行为。 99click商助深耕 大数据 收集和解析,帮助企业找到更多更精准的用户,跨屏全渠道追踪广告投放效果,提升用户转化和留存率。关注cn99click,免费领取产品,体验大数据下的精准营销。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-29 16:29:00
参数是一个可灵活调整的变量,这个变量目前支持在BDP个人版的计算字段中使用(未来可能会支持更多应用),实现单个计算字段甚至整个图表的动态逻辑方案。 那么图表传参是什么意思呢?简单来说就是通过传递参数来切换图表和数据~ 大家还是晕乎乎吗?下面就举个几个典型的应用场景来帮助大家理解吧: 场景一:灵活的对比维度切换 通过切换参数可以展示不同的维度下的可视化图表,此例可解释为:将原本“各地区每年季度消费额”、“各类产品每年季度消费额”、“不同客户每年季度消费额”这三张表,通过切换参数而实现了在一张表中展示。 场景二:快速搜索图中的某个点 通过切换参数可以快速查找到对应数据,并且本例中可通过颜色的区分明显看出该地区利润在全国范围内的情况,方便用户分析。 场景三:根据即时输入进行动态分类对比 通过输入不同的参数值可立刻展示当下的对比情况,本例中参数为“按销售额划分”,当参数值为200时,就会显示各地销售额大于200的订单数量占总订单量的份额,方便我们查看不同参照值下的数值情况。 看了上面的三个应用场景是不是觉得“图表传参”真的很方便,那么下面为你具体介绍参数功能及如何使用。 1、参数列表 若你已经有添加好的参数了,可以在参数列表中查看已有的参数,并可以对每个参数进行编辑或删除操作。 2、创建参数 若你还没有添加任何参数,并且想要体验下这一神奇的功能,就跟着小草莓往下看吧!看完包你学会哟~(以场景一为例) step1、添加参数 step2、命名备注并选择参数类型 目前提供3种参数类型供选择:文本类型、数值类型和日期类型。 例如当你希望实现上述的维度切换,则需要选择文本类型,因为让用户灵活输入的“维度名称”是文本;当你希望实现上述的动态分类对比,则需要选择数值类型。 step3、添加参数字段 eg1、对比维度:对比维度的参数类型为文本,可设置多个字段作为可选项,这些可选项可以通过手动单个添加(即添加自文本),也可以通过字段或批量文本添加(即添加自字段)。 示例中可在“添加自字段”中选择“类别”、“地区”、“细分”;也通过可以“添加自文本”在下方输入“类别”、“地区”、“细分”。 实际参与计算字段的运算逻辑,只是可选项中的一项。你可以设置可选项中的任意一项为默认值,即默认使用此项参与计算字段的运算。 eg2、按销售额划分:这里用到的就是数值类型参数,它支持2种格式:普通数值和百分比。你可以为参数设置可选数值范围,也可以不对范围进行限制。 示例中直接“添加自字段”选择“销售额”,最大值和最小值就会自动填充,无需手动设置。 与文本类型相同,你需要提供一个默认值以保证正常计算。 3、使用参数 目前参数只支持在计算字段中使用,使用方法非常简单,你只需要在计算字段中正常输入表达式,当需要添加某个参数的时候,在参数列表中单击即可。 4、图内参数 当包含参数的计算字段在图表中使用时,右侧边栏将显示被使用的参数。(不使用是不会出现的哟)你可以随时调整参数的值并实时查看调整后计算字段的结果。 默认状态下,所有图表使用的参数都允许其他用户在仪表盘界面自由调整。 以上就是关于参数的添加及使用全过程了,操作其实很简单但是给用户们带来的价值可是大大滴! 以上作图工具为:BDP个人版 本文为专栏文章,来自:海致BDP,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49993.html 。
来源:数据分析网
发布时间:2018-01-22 16:12:00
[摘要]: 在上篇SaaS指标革命(一)指标驱动中,我们探讨了SaaS指标的重要性,以及SaaS利润的构成公式。本篇文章,我们将与您一起携手深入指标丛林的腹地,将至关重要的“客户成功指标”纳入囊中。 该系列包括四篇文章: (一)开篇:指标驱动型SaaS业务模式 (二)关键:客户成功指标 (三)如何获客 (四)SaaS指标成熟模型 [作者简介]: Joel York,敏捷营销管理软件初创公司Markodojo的CEO与创始人,具有20余年B2B高管经验,拥有关于SaaS管理的Blog——Chaotic Flow。“Chaotic”既指的是企业混乱与迅速变化的本质,也指的是Joel York本人对于企业时而混乱并迅速变化的思考。 [主文]: 在过去几年中,SaaS从业者们已经对SaaS财务指标有了深入的理解,并且明确了实现这些财务指标所需的运营原则。然而,发现客户流失率降低50%将导致经常性收入增加2倍是一回事,实现这一目标又是另一回事。通常减少50%流失率都是一件单调乏味、毫无保障的反复试错的过程。 这种情况即将改变。随着SaaS行业的成熟,我们见证了SaaS指标从简单、历史性的财务度量向复杂、运营性质的指标变革,而所谓“复杂、运营性的指标”,指的就是新的SaaS客户成功指标,以及预测分析。 “客户成功”数据的海洋 客户成功指标如若把握得当,前景非常可观。不幸的是,它所面临的挑战也一样可观。指标驱动型SaaS业务将收集并分析客户数据,而这些数据是非常庞杂的。 在SaaS客户生命周期的最初阶段,当网络访问转化为试用账户时,Cookie将被丢弃,正式进入使用期。初始邮件由注册表单捕获,并被添加到第三方数据库中。销售及市场切入跟进,各种活动行为将被记录在CRM系统以及营销自动化系统当中。最终,电商引擎捕捉到购买行为(终于买了!),并推送至财务系统用于未来的费用计算。 然后,真正的行动才开始。客户们一次又一次登录产品。每一个重要的点击都被记录下来,每一个客户成功行为都被载入史册。 产品使用、客户调查、客户统计资料、购买数据、互动数据共同汇聚成为客户成功指标与预测分析的“数据池”,然后,再变成我们能看懂的KPI、根因分析、早期预警系统、自动化的客户沟通等等。 SaaS客户成功指标的挑战,本质上是一个数据问题,需要强大的数据收集引擎与复杂的统计模型。收集数据只是一个开始。 指标驱动型SaaS业务还必须利用好数据,将数据转化成信息,再将信息转化成行动。 通过指标驱动SaaS客户的成功 还记得我们在上篇文章中提到过的SaaS利润公式吗? SaaS利润=当前客户x(平均经常性收入 – 平均经常性成本) – 新客户x平均购置成本 作为SaaS的管理人员,我们的财务目标非常简单:做出商业决策,将财务杠杆推向正确的方向,以增加收入并降低成本。 公式中的减号将SaaS利润最大化的挑战分为两个部分——“当前客户”与“新客户”。SaaS商业组织与运营计划同样也经常分为“服务当前客户”与“获取新客户”两部分。本篇文章主要关注点在“当前客户”,而在下一篇文章中,我们将讨论有关“新客户”的那一部分。如前所述,推动这些财政杠杆说起来容易做起来难。 以下内容我们将介绍公式中的前三个杠杆:当前客户(客户流失),平均服务成本(客户成功效率)和每位客户的平均经常性收入(增值销售),以及SaaS客户成功指标在创建、执行操作计划中的主要作用。 利用根因分析 减少SaaS流失 对于一个合理规模的SaaS业务来说, 客户流失率 通常是SaaS增长与利润方面最大的资金流失。如果我们要开始探索SaaS客户成功指标,从流失率开始,是个不错的开端。 流失率本质上是一个统计学概念,所以对其进行建模从根本上说是一个统计问题。 SaaS流失率代表着一个客户在特定周期内退出的概率。 这个概率取决于很多因素: 客户在您的产品中看到的价值,客户对产品的依赖度,竞争对手产品的潜在价值,以及客户组织内部的优先级和政治因素。 指标驱动型SaaS需要收集和分析所有这些预测变量的信息。 我们可以运用统计学方法来识别客户流失的根源(NPS为“净推荐值”,其公式为:=[推荐者数/总样本数]×100%-[贬损者数/总样本数]×100%) 一旦我们收集到相关信息,我们就可以运用统计学方法来确定流失的根源了。 从简单的流失列队交叉表,到更高级的逻辑回归与生存分析,有许多描述性统计方法都可以适用。撇开这些统计学方法不谈,我们期待能够发现一些诸如此类的见解:医疗行业的客户比金融服务业客户更容易流失;如果一个客户在过去的30天没有登录,则极有可能流失;经常使用报告模块(而非其它模块)的客户是我们产品最好的倡导者,等等。 借助正确的数据与恰当的分析,我们可以不断识别客户流失的根本原因,比起我们当初宣称要将客户流失率从15%降至10%,却说不出如何实现,是个巨大的突破。 预测分析以及如何创建客户成功指标的KPI 一旦我们更好地了解客户流失的原因,我们就可以创建模型,来预测当前客户流失的风险。基于这些良好的预测,客户成功部门就可以采取行动,预防流失。也因此, 我们模型中的预测变量以及模型本身就可以用于创建客户成功指标中的KPIs, 用来追踪客户日常行为。举个简单的例子,我们发现两周没有使用产品的客户流失风险较高,并且,随着时间的增加,流失的风险也不断上升。这个指标和产生它的回归都可以用来创建KPI。 SaaS客户成功指标和产品使用 基于产品使用数据 制定的客户成功指标是指标驱动型SaaS成功的秘诀。从某种意义上说来,流失就是使用的反面。客户使用产品越多,就越不容易流失。使用产品的程度越深,转换成本就越高。 追踪不当使用,我们就有了可以用来预测流失的指标;追踪深度与频繁的使用,我们就有了找到产品死忠粉的线索。 既然是基于产品使用来制定的客户成功指标,那么最明智的做法当然还包括推动产品使用本身。我们识别出正在与产品作斗争的用户之日,就是我们找到改善用户体验的机会之时。我们可以优化相关的产品细节,为客户提供精准的帮助与课程,当然也可以减少客户流失。 产品使用数据是指标驱动型SaaS的成功秘诀。从某种意义上说,客户流失就是使用的反面。 通过指标 为SaaS客户成功提效 相同的KPI,不但可以用来减少流失率,也可以用来提高客户成功部门的工作效率,降低服务成本。 关键就在于不仅仅用指标来监控与建模,而是将其嵌入到客户成功经理的日常工作流程当中。 比如,我们已经知道停用产品两周的客户需要立即关注,那么我们就可以利用这个指标,为客户成功经理创建仪表盘和预警。 主要目标就是将客户成功经理的注意力转向最容易产生财务变化的那部分客户身上。 然后,不要把时间浪费在不会对客户的成功产生任何影响的活动上。 比起SaaS财务指标, 客户成功指标的魅力就在于它们可以精细到单个客户级别。 此外,还可以根据时间、客户类型、产品模块、客户成功经理等各种维度进行过滤,呈现一副客户成功运营的立体全景。我们可以为单个客户打分,还可以将正确的客户成功经理安排给最适合的客户。 客户成功经理通常习惯按照小型、中型、大型账户的方式来规划自己的工作。然而,这可能之时因为您的大客户流失风险最小、增值销售的空间也最小。SaaS客户成功指标可以在这方面为经理们提供更多的思考维度以及更强大的指导。 用SaaS客户成功指标 驱动增值销售 SaaS客户成功指标还可以促进增值销售,以提高每位客户的平均经常性收入。这是我们SaaS利润公式中的另一个财务杠杆。就像我们在流失率分析中所做的那样,通过分析过去发生增值购买的客户的人口统计学信息、产品使用数据等,我们可以开发出关于增值销售的预测模型与计分方式。而且,我们还是可以将这些模型与KPI嵌入客户成功经理的日常工作流程中,让他们随时可以向最可能产生购买的客户发力。最后,我们还可以将预测模型嵌入到产品内部,当发现潜在客户时,自动触发沟通,促进购买。 在下一篇文章中,我们将一起走入兴奋的获客世界。敬请期待! 本文为专栏文章,来自:数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49976.html 。
来源:数据分析网
发布时间:2018-01-20 15:01:00
当下,逢运营必谈 数据分析 , APP 运营更是如此。 数据分析 的用意本不在于数据本身,而是要打造一个数据反馈闭环。收集数据,设计基础数据指标,多维度交叉分析不同指标,以数据甄别问题,再反向作用产品,最终形成数据驱动产品设计的闭环。从运营小白到产品经理,提到APP数据分析,必谈DAU、MAU、留存率、频率、时长…..那么,究竟如何将这些数据分析和日常运营结合起来呢? 针对同一款产品的数据分析,一定要根据产品的生命周期(PLC, Product Lifetime Cycle)来做分析工作,不同时期数据分析的重心也有所区别,下面就从产品的几个重要时期——初创期、成长期、成熟期、衰退期,结合案例来聊聊。 一、初创期 这一阶段是检验产品定位和运营对用户与市场判断是否正确的时期,即验证产品或服务是否解决了某个群体的问题,也即常说的痛点;对运营来说,则是能否找到用户与产品的契合点,并根据用户的反馈快速迭代调整产品,以此获取第一批种子用户并扩大他们的影响力。 产品和运营阶段要有MVP思想,要用比较小的成本来验证产品和运营手段等。在产品同质化的互联网环境下,获取长尾用户的成本比抢占巨头的用户成本要小的多,因此,初创时期的产品一定要找准自己的定位,否则很容易陷入运营的困境。 举个例子: 网易云音乐在音乐市场已经拥有几大巨头的时候,刚上线时将目光聚焦在“民谣”,独立音乐人等相对比较小众的类型上。在上线之初,网易云音乐用一个月时间跑遍成都丽江等地的知名live house,签下许多独立自由的民谣创作人,吸引了一批小众的群体用户,结果这个小众组织内部越积越大,用户越来越多,为网易云音乐用4年时间突破4亿用户打下坚实的基础。 关键数据——目标人群画像 任何产品在上线之前,都会有自己的目标人群画像设定,惟有这样,才能具有强针对性,强吸引力。 初期需要分析的用户数据一般包括:性别,地域,年龄,客户端。有了一定数据后,再根据用户浏览界面等分析用户的喜好等,并以此来制作内容,在产品——用户——运营之间形成良性循环。同时通过这些数据对app的界面、流程、推送内容做优化,最终实现精准的用户个性推荐等。 关键数据——留存率 当前用户符合目标受众特征时,核心关注这些用户的留存率、使用时长/频率、用户的黏性等指标,这里就产品和运营比较关注的留存率展开来讲。 留存率的分析,对运营和产品人员来说非常重要。在前期没有参考指标的情况下,可以通过了解行业数据,知道自己的APP在整个行业的水平,然后从新增用户、活跃用户、启动次数、使用时长等多个维度去对比自己产品与行业平均水平的差异以及自己产品的对应的指标在整个行业的排名,再考虑优化调整产品。 二、快速成长期 经过了产品打磨的初始阶段,产品有了一定累积用户,加以运营手段让产品进入快速成长期。这一时期,需要关注用户留存、用户时长、用户画像的变化等数据,但可以将侧重点关注在用户的整个生命周期的管理,其中以新用户的增长、激活、转化到产品稳定活跃用户的整个漏斗分析为主。 新用户的增长和激活 这个阶段对运营来说,就是小步快跑、快速试错的营销突击战,最大程度和范围内实现病毒式营销,实现用户的自增长。所谓的“小步快跑”,就是快速地、不停歇地执行一个个的营销项目,不要花费太多时间在项目前的讨论中,而是要用实际效果去检验项目质量。看看网易云音乐在这一步怎么做的,在2015年春节前的几个月,几乎每周都有创意并且传播,大约4-5个H5,投放十几篇的软文在各种公众号、论坛等,发布几十篇的PR稿件,邀请几十位KOL发表关于云音乐的评测等,同时,还以几乎每周一次的频率举办“校园音乐开放日”的线下活动。他们还抓住刚刚兴起的Uber,进行跨界营销。 而且,据网易内部人员透露,像这种投放的创意,每个大概花费在4万元左右,其实很多公司对这个成本还是可以承受的,而效果如何,则是对运营人员素质的一次检验了。 三、成熟期 当产品进入成熟期,意味着:技术稳定,成本降低,实现规模化生产,潜在的购买者逐渐转向为现实的购买者,有很多的忠实用户;竞争对手也比较多和强大。运营人员需要采取比较主动的策略,延长成熟期。这时候需要关注的数据主要在:总用户数、新增用户、流失用户、回流用户;各渠道的日活跃(DAU)、周活跃(WAU)、月活跃(MAU); 流失与回流 用户流失无法避免,但产品和运营人员必须了解用户流失的原因,同时加入运营手段进行流失用户的召回和沉睡用户的唤醒。 营销广告投放渠道转化率 对于一些稳定的投放渠道,要多关注转化率,并进行渠道的优化,此时可以采用一些第三方数据分析服务的产品,监控广告的播放与转化,采取一些运营手段,提升转化率; 例如,先关注各渠道的投放和转化率,并分析各落地页面以及跳出页面的比率,随之调整优化产品页面。 99click商助科技的广告监播页面,可以看到用户来源、浏览轨迹和跳出率等,分析出跳出率高的原因,辅助用户调查,得出比较准确的结论,最后进行产品的优化和改进。 四、衰退期 任何产品都可能随着科技的发展和市场消费的升级等,进入衰退期。而产品想要不断有新的用户进来,就需要用优良的内容和卓越的产品功能吸引用户。作为一款APP,不论是用户调查还是算法分析都要分析出用户的关注点,只有这样才能紧跟用户需求,抓住他们的吸引力。 例如,一款音乐APP,他的主要用户群体是大学生,用户最关注的是“音乐资源丰富”这一点,那么后续就要在这块下一些成本。如果反其道而行,只是在营销上下功夫,而不扩充资源库,那么将互失去很多用户。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-19 16:00:00
摘要:SaaS利润构成与传统软件利润的构成有何区别?SaaS业务模式具有什么独特的优势?连接SaaS客户成功与业务成功的关键是什么?如果您也是日益增长的SaaS大军中的一员,本次数据观推出的系列文章或许会对您有所启发。 该系列将包括四篇文章: (一)开篇:指标驱动型SaaS业务模式 (二)关键:客户成功指标 (三)如何获客 (四)SaaS指标成熟模型 [作者简介]: Joel York,敏捷营销管理软件初创公司Markodojo的CEO与创始人,具有20余年B2B高管经验,拥有关于SaaS管理的Blog——Chaotic Flow。“Chaotic”既指的是企业混乱与迅速变化的本质,也指的是Joel York本人对于企业时而混乱并迅速变化的思考。 关于SaaS指标的重要性,我学到的第一课是在大约六年前的一次董事会会议上。当时我刚刚提交了本年度的预定计划,一位董事说这个计划很好,但我们确实需要提高我们的预订率。 当时我的第一反应是:“我们目前的预订率已经很高了,而且我们是SaaS公司,即使没有立即改善预定状况,我们还是会逐季增加收入,对吗? 错!我完全忽略了“流失”带来的影响。那时,SaaS投资人与管理人员还在钻研经常性收入业务模型,没有什么资源可以寻求支持。然而作为需要对业务增长负责的那个人,我必须得到答案。 时间快进到今天。我们不仅对驱动SaaS业务成功的金融杠杆有了更好的了解,而且亲临了SaaS业务管理方式的一场指标革命。 与企业许可软件不同,SaaS经常性收入业务模式具有更高的稳定性、可测量性与可预测性。这三个因素成为了SaaS管理者利用更多分析方法来推动SaaS成功的基础。SaaS管理者正在探索连接SaaS客户成功与SaaS财务成功的新的运营指标。今天我们见证的是“指标驱动型SaaS业务”的崛起。 指标在SaaS业务中的独特性 为什么指标在SaaS业务中具有独一无二的重要性?每个企业都在追踪相关的财务与运营指标。是什么使SaaS业务与众不同?答案就是——经常性收入订阅模式(recurring revenue subscription model)。“基于订阅”的业务与“基于交易”的业务在其经济学方面截然不同。这种差异来自于一个简单的概率问题。在SaaS模式中,只要我们保持客户的满意度,今天的客户很可能就是明天的客户。在交易型业务中,则不存在这种可能性。 SaaS业务的稳定性 经常性收入订阅模式创造了业务的稳定性。由于经常性收入的不断累积,短期预定对短期收入的影响越来越小。短期收入与支出等成为长期历史预定的一个变量。时富时贫、以订单为中心的企业许可软件,让位于稳定的经常性收入流以及以过程为中心的业务运营。当你知道明天你会有客户的时候,你可以更自信地对已有客户进行支持,并为获取新客户而投资。 SaaS业务的可衡量性 SaaS业务在可衡量性方面也是独一无二的。 SaaS产品在公司和客户之间建立了一个永不中断的沟通渠道,可以直接衡量您与客户的互动。比起单纯的财务指标,企业可以从这种独特的运营指标中得到更细节的客户视图。每个企业都能计算现金,但只有SaaS企业才能计算产品内的客户点击次数。经过适当的收集与分析,产品使用数据将是一座运营金矿,帮助SaaS业务推进客户成功、减少流失并增加销售。此外,SaaS业务可以将其业务流程与沟通直接集成到SaaS产品中,让“产品指标”不仅限于客户登陆次数。业务与产品之间结合的越深,业务就越容易被衡量。 SaaS客户成功指标提供了将SaaS客户成功与SaaS财务成功相结合的粘合剂。 SaaS业务的可预测性 可预测性的提高,来源于稳定性和可衡量性的共同提升。SaaS业务可获得大量的历史财务数据、运营数据与用户行为数据,能够实现那些B2B公司闻所未闻的预测分析。在成熟的指标驱动的SaaS业务中,财务预测是以客户成功指标和预测分析为基础的科学。 SaaS指标体系 在SaaS业务模式中,不间断的客户关系是收入、成本、业务活动与风险的持续来源。这与传统软件始终以交易为中心的状况形成了鲜明的对比。传统软件供应商制作、销售软件副本,而SaaS供应商则制作、出租不间断的服务订阅。每一位新的SaaS客户都带来新的收入与成本,汇入到更大的客户池中,构成完整的SaaS经常性收入流以及相关的SaaS服务总成本。从副本到客户的转移,颠覆了许可软件的经济优势。 客户构成SaaS体系的中心 在传统授权软件中,价值等于代码的知识产权,并以类似书籍、音乐和电影版权的方式进行变现。它是一个产品。产品数量以销售数量为准,产品价值以每个副本的价格来衡量。 在SaaS模式中,服务数量以客户订阅数量为准,服务价值以每个订阅的经常性收入来衡量。 一家软件供应商投资开发代码,然后进行销售与市场运作,以扩大销售量。 一家SaaS企业则投资获客,然后进行服务交付能力的运作,以提升客户订阅。 如果用数学公式来表达,即: 软件利润=(每份价格 – 每笔交易成本)× 销售份数 – 研发成本 SaaS利润=(平均经常性收入 – 平均经常性成本)× 当前客户 – 平均购置成本x新客户 客户,而非交易,是SaaS业务模式的基本衡量单位。有利可图的交易推动了许可软件的财务成功,而有利可图的客户推动了SaaS的财务成功。SaaS客户的成功就是SaaS业务的成功。 在SaaS客户成功与SaaS业务成功之间搭一座桥 衡量和监控SaaS财务指标对于管理SaaS业务来说至关重要。如果SaaS管理人员不了解经常性收入、购置成本、客户流失与增值销售,那么他们就无法发展业务。然而,尽管财务指标非常重要,它们只能衡量结果,而不能衡量手段。它们无法解释这些结果是如何达成的,也无法告知我们未来如何对它们进行改进。一个聪明的SaaS 企业CFO可以根据历史的财务指标构建SaaS业务预测,将流失率从20%降到15%,提高20%的增值销售,降低10%的获得成本,让来年的前景看起来一片光明。不幸的是,这样一个高层次的模型,却没有提供如何把预测变成现实的见解。 [结语]: 新兴的指标驱动型SaaS业务将深入挖掘SaaS的财务指标,揭开驱动SaaS业务成功的运营杠杆。比如,使用SaaS产品的客户比从来不用产品的客户流失的可能性要小。因此,如果你想要减少流失,就必须认真衡量产品的使用状况。这样做,最不济您也会对客户流失的原因产生更好的理解;而最好的状况,则是你从中发现了某种模式,实现了预测分析,可以在客户真正流失之前就采取预防措施。以客户为中心的SaaS运营指标,或仅仅是SaaS客户成功指标,将SaaS客户成功与SaaS财务成功紧紧关联起来。 总而言之,SaaS财务指标与SaaS客户成功指标,将构成指标驱动型SaaS业务的基础。 在下一篇文章中,我们将深入介绍什么是SaaS客户成功指标。敬请期待! 本文为专栏文章,来自:数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49975.html 。
来源:数据分析网
发布时间:2018-01-18 14:00:00
在2017年的多次营销文案刷屏事件中,产品和运营人越来越清楚地看到,流量≠转化。而 转化率 ,才是衡量一个产品和一次活动最为核心和关键的数据。因此,转化率是网站最终能否盈利的核心,提升网站转化率,提升销量才是王道。今天,我们就聊聊从产品和运营的角度,如何通过 大数据 做转化分析? 首先要清楚, 转化率究竟是什么?受哪些数据的直接影响?这些数据的影响因素又是哪些? 转化率指在一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率。简单地以下面这个公式来说明: 以电商平台购物为例,总流量一定的情况下,购买人数越多,转化率越高。 而一个用户一次成功的购买行为依次涉及搜索(曝光)、浏览、加入购物车、结算、支付等多个环节,任何一个环节出现差错,都能让用户立刻放弃这次购买行为。根据有关数据,多数电商的转化率只有0.5%左右,这意味着有99.5%的流量被浪费了。(听着好心痛哦) 那么,怎么才能提升购买人数呢?产品和运营,又能怎样进行操作来提升产品销量呢? 一、基础分析:转化的直接影响者都需要设计 转化分析的基础阶段,主要是转化步骤的分析和转化率趋势的监测。 大家都知道,流量是呈漏斗形状的,把流量变为消费者,大约会经历这么5个步骤。就是这5步,足以滤掉 99.5%的潜在用户 。另外根据统计,在几个较大的B2C网站中,流量数据在增大,但是客户停留在网站上的时间在减少,在被称为眼球经济的时代,每个网民在电子商务网站停留的时间大约 在17分钟 。 在这一分析阶段,网站运营和产品人员都应该了解什么数据呢? 这一阶段,网站平台能直接获取的数据多而杂,运营人员在收集数据后,对数据进行分类整理,一般分为以下几类: 人口属性,社会属性,行为习惯,兴趣偏好 等几个方面。 人口属性,包含年龄,性别,身高,地域,学历,收入和教育 社会属性,包括社会职务,婚姻状况,住房车辆,社交关系等等 行为习惯,包括运动,休闲旅游,酒店住宿,饮食起居等偏好 兴趣偏好,包括购物,游戏,体育,文化等 这一阶段的收集分析为用户画像提供基数。为后期的运营方案,文案策划,渠道规划等提供一定的数据支撑。 二、中阶分析:从不同维度分析转化情况 过去人们认为数据是企业的资源,实质上数据是资产,是可以为销量创造价值的资产 。要想更好地提升转化率,需要对不同维度的因素进行考虑,也是对上一阶段数据的细分。例如:访问来源、操作平台、跳出页面、操作系统、浏览器类型等。 本阶段,首先要了解,正在网站上浏览的客户,哪些是明确要来买东西的,哪些只是随便来逛逛的,以及他们从什么入口进入; 其次,没有购买的用户,到底看了多少产品页,多少放进购物车没有付款,多少是一个产品页都没有看的; 第三,多少客户产生了购买行为。 第四,非常重要的是,客户登录网站首页之后,除了有40%的弹出率之外,剩下60%的用户分别从哪些渠道进入到产品页面,这些渠道进入之后付款的比例分别是多少。 最后,多少人将产品加入购物车,是否有召回的可能? 通过对网站平台庞大的数据库进行细分整理,才能发现这背后隐藏的用户行为逻辑,从而实现产品人员从产品角度进行优化,运营人员则负责对活动,专题,商品详情页等进行优化。 例如,之前合作过的一个用户,后台数据显示,很多人都将某一款产品加入购物车,但是都没有付款。为了召回这部分客户,网站即时推送了一条优惠券,最后召回30%的订单。 三、高阶分析:多维度交叉分析,不断优化迭代产品 互联网行业的产品都有一个共识: 小步快跑,快速迭代 。唯有如此,才能打造出受用户喜爱的产品。 通过上两段的数据收集和分析,网站的工作人员对网站的优势以及存在的问题,心中已经有概念了。在这一阶段,就需要沉下来,从具体的维度和点进行分析和修正。这一阶段,可以说是数据驱动产品和运营决策。 例如, 广告投放哪个渠道的流量更优质?什么样的品牌内容更容易被消费者传播? 网页内容,如何组织安排更符合访客的个性化需求; 老客户如何才能回访网站,反复购买产品; 如何减少支付失败的订单? 四、分析转化的进阶之旅:思维与工具 提升转化率,既需要有数据驱动的意识,也需要熟练掌握一定的 数据分析 工具 。正所谓,工欲善其事必先利其器。 99click商助科技在大数据营销领域已经实践多年,全面抓取用户的行为数据,根据企业需要获取页面,产品,用户之间的关系。 企业可以知道用户从哪个落地页进入产品,又是在哪一个转化过程中流失掉,切分维度和用户人群,定位流失原因,为运营决策提供数据支撑,提高产品的转化率。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-16 19:59:00
1. 定义 消费者研究也称消费市场研究,是指在对市场环境(政治、法律、社会、文化、技术)、人口特征、生活方式、经济水平等基本特征进行研究的基础上,运用各种市场调研技术和方法,对消费群体通过认知、态度、动机、选择、决策、购买、使用等阶段实现自身愿望和需要的研究。 消费者研究是市场调研领域应用最多的消费品市场研究的一个最基础、主要的组成部分,包括消费者基本特征研究、消费者行为研究、消费者动机研究三大部分。通过这三个层面的研究,为相关行业和企业提供:市场细分、产品定位、品牌管理、定价策略、新品开发、渠道建设、广告投放、促销活动、销售预测等行为的理论、数据基础。消费者研究的组成、作用和目的基本上由下面的图示体现出来: 通常以市场产品销售和市场服务为主的行业和企业会经常需要市场潜力研究,这些典型的行业包括:快速消费品行业(食品、饮料、化妆品、烟草、日用品)、家电业、医药业、保险业、电信业、IT等以及其它服务性、制造性行业和企业。 2. 消费者研究的一般内容 1)消费者基本情况分析、具体特征、变动情况和发展趋势等,包括对年龄、性别、文化程度、职业、婚姻状况、个人收入、家庭收入,是否独生子女等众多基本变量的了解与分析。 2)消费者购买动机及认知能力分析。而购买动机又可以从不同层次加以分析,比如:从消费者对动机的表达方式上可以分为表面动机和实际动机,从习惯上讲又分为偏好动机,习惯购买和从众动机。 3)随着对消费者行为研究的深化,人们越来越深刻地意识到,消费者行为是一个整体,是一个过程,获取或者购买只是这一过程的一个阶段。因此,研究消费者行为,既应调查、了解消费者在获取产品、服务之前的评价与选择活动,也应重视在产品获取后对产品的使用、处置等活动。只有这样,对消费者行为的理解才会趋于完整。 3. 消费者研究的技术方法 1)定性分析技术:焦点座谈会、小组讨论、投影法、观察法、实验法等。 2)定量分析技术:聚类分析、回归分析、因子分析、相关分析、方差分析、对应分析、判别分析与结合分析等。 3)市场分析技术:需求与效能匹配矩阵、职业、收入与消费成长模型等。 一、U&A模型 在消费者行为研究中,使用习惯和态度的研究是其核心问题(简称 U&A )。目前,消费者使用习惯和态度研究是一种相对比较成熟和常用的市场研究模型,广泛应用于家电、食品/饮料、化妆品/ 洗涤品、日用品等快速消费品和耐用消费品的消费者研究中。 1. U&A研究的应用 U&A是一种相当成熟和完整的消费者研究模型,它广泛的被国内外的专业研究机构所采用。通过 U&A 模型,企业可以准确的测量出被测产品的市场状况、目标消费者状况、竞争对手状况,还可以有效的了解消费者特征和消费者行为,从而为企业下一步的市场策略或市场推广提供指导性依据。U&A 的主要的研究内容包括消费者对产品/广告的认知、消费者使用和购买习惯、消费者满意度评价、消费者媒体习惯、消费者对市场推广活动的态度等一系列指标。同时,消费者的产品态度研究还可以用于市场细分和确定目标市场。进行市场细分的方法是根据消费者对产品的偏爱程度。在同等条件下,商家应将目标市场定位于消费者偏爱程度较高的市场,因为消费者对喜爱的产品总是赋予更多的关注。即使采取其它市场细分法,如以地理位置为标准,也需努力检测各个细分市场对产品的相对偏好程度。细分市场对产品的喜好程度越大,成功的可能性也就越大。 2. U&A 研究方法 在实际研究过程中,我们通常采用的研究方法包括费歇宾模式和理想点模式。 A.费歇宾模式 (TheFishbcin Model):费歇宾模式是最广为人知的测试模式。根据费歇宾模式,消费者对于一个给定的产品的态度定量评价为:该产品具有各显著特性的程度与特性的评价值乘积的和。 菲什宾在1963年提出菲什宾模型亦称为多属性态度模型。认为某一客体或行为的态度是由下面两个要素组成:(1)一是消费者对于购买此种产品的态度,即自我认知;(2)是消费者认为其他人对此种产品可能有的态度,即从众心理。该模型的研究发源于美国,现已被用于解释较为广泛的产品的购买行为,该模型的3个变量是: 因此用数学表示即为: AO:代表消费者对待品牌的总体态度; Bi:表示消费者对待品牌拥有的第i个属性的信念强度; Ei:表示消费者对属性i的偏好程度; n:代表品牌具有属性的数量。 费希宾模式告示我们:人的情绪反应,虽然有时处于不自觉状态,但是却对人的行为极有关联。人的外显行为离不开个人的意向作用,而个人意向又直接受消费者情感(态度)的驱动。没有情感的存在,便没有人的消费行为。 B.理想点模式(TheIdeal—Point Model):理想点模式的独特之处在于提供了消费者认为是理想品牌的信息和消费者对现在品牌的看法。 在理想点模式下,消费者被问及某种品牌产品在某一特性中所处的位置,以及他认为“理想”的品牌应处于什么位置。根据模式,品牌具有特性值越接近理想值,则该品牌越受到消费者偏好,也就是AB值越趋近于零越好。 3. 影响购买行为的因素分析 影响消费者购买行为的因素有许多,主要包括心里因素、内部因素和外部因素。通常按如下模式开展消费者行为研究: 4. 模型的优点 全面性-从不同角度了解消费者行为的内因的形成过程。 有效性-准确了解消费者决策的影响因素,从而确定可行的市场策略。 准确性-准确界定目标消费群。 二、AIDMA 1、简介 AIDMA是消费者行为学领域很成熟的理论模型之一,由美国广告学家E.S.刘易斯在1898年提出。该理论认为,消费者从接触到信息到最后达成购买,会经历这5个阶段: A:Attention(引起注意)——花哨的名片、提包上绣着广告词等被经常采用的引起注意的方法 I:Interest (引起兴趣)——一般使用的方法是精制的彩色目录、有关商品的新闻简报加以剪贴。 D:Desire(唤起欲望)——推销茶叶的要随时准备茶具,给顾客沏上一杯香气扑鼻的浓茶,顾客一品茶香体会茶的美味,就会产生购买欲。推销房子的,要带顾客参观房子。餐馆的入口处要陈列色香味具全的精制样品,让顾客倍感商品的魅力,就能唤起他的购买欲。 M:Memory(留下记忆)—— 一位成功的推销员说:“每次我在宣传自己公司的产品时,总是拿着别公司的产品目录,一一加以详细说明比较。因为如果总是说自己的产品有多好多好,顾客对你不相信。反而想多了解一下其他公司的产品,而如果你先提出其他公司的产品,顾客反而会认定你自己的产品。” A:Action(购买行动)——从引起注意到付诸购买的整个销售过程,推销员必须始终信心十足。过分自信也会引起顾客的反感,以为你在说大话、吹牛皮。从而不信任你的话。 2. 优点和缺陷 该理论将消费者的购买行为模型化,有助于广告主系统的研究消费者后更有效的进行的商品的宣传。但是,该理论并没有具体细化到不同的商品类别,实际上,该理论更多的适合高卷入度的商品(价格高,需要小心做决策),而对于低卷入度商品,消费者的决策过程往往没有那么复杂。 3. 演变 这个理论可以很好的解释在实体经济里的购买行为,但在网络时代,该理论的解释无法准确的概况一些消费者的典型特征。2005年,日本电通集团提出了基于网络购买消费者行为的AISAS理论。AISAS的前两个阶段和AIDMA模型相同,但在第三个阶段S为Search,即主动进行信息的搜索,第四个阶段为A,即达成购买行为,最后一个阶段S为Share,即分享,将购买心得和其他人进行分享。这一学说,更加准确的概括了在网络条件下,消费者获得信息,分享信息的能力。是AIDMA理论的发展。 三、AISAS模型 1、简介 AISAS模式是由电通公司针对互联网与无线应用时代消费者生活形态的变化,而提出的一种全新的消费者行为分析模型。强调各个环节的切入,紧扣用户体验。 营销方式正从传统的AIDMA营销法则(Attention注意Interest 兴趣 Desire 欲望 Memory 记忆 Action 行动)逐渐向含有网络特质的AISAS发展。 A:Attention——引起注意 I:Interest——引起兴趣 S:Search——进行搜索 A:Action——购买行动 S:Share——人人分享 AISAS模式的转变。在全新的营销法则中,两个具备网络特质的“s”——search(搜索),share(分享)的出现,指出了互联网时代下搜索(Search)和分享(Share)的重要性,而不是一味地向用户进行单向的理念灌输,充分体现了互联网对于人们生活方式和消费行为的影响与改变。 2、模式形成 从传统时代到网络时代,互联网(WEB)与移动应用(Mobile)得到了爆发性的普及。我们知道,在中国,截至06年7月,互联网使用人数已达到1.23亿,手机的应用则更为普及。从应用的绝对人口数和接触时长来说,这些后起之秀达到甚至超越了电视、报纸等传统媒介。 如果说第一代互联网同电视、报纸一样承担了信息发布者的角色,网络搜索引擎则提供了与传统媒介完全不同的、主动、精准获取信息的可能性。 紧接着,Web2.0带来了传统媒体无可取代的全新传播理念——以生活者为主体的传播——消费者不仅可以通过网络主动获取信息,还可以作为发布信息的主体,与更多的消费者分享信息。由于将生活者也吸引进来的网络工具(如Blog/Wiki/BBS)的崛起,生活者的行为模式和媒体市场也随之变化。个人Blog通过像“Google AdSense”这样的广告定向发布与利益共享机制,不断提高其作为广告媒体的功能,而且各种搜索网站的精度也在不断的得到改进,从而,媒体市场由之前的扁平式发展,逐渐呈现深度、精准发展的趋势。 针对这种趋势,电通提出的CGM(ConsumerGenerated Media)消费者发布型媒体概念:以Blog、Wiki、BBS、SNS等为主要形式的个人媒体,不仅停留在个人信息发布和群体信息共享,还涉及到将新闻和企业信息(也包括广告)进行比较讨论等各种各样的传播形式;信息发布由从前的B2C——由商家向消费者发布的模式,转化为“B2C2C”——由商家向消费者发布之后,消费者向消费者发布与共享的模式。 3、消费者的变化 (1)媒体接触时间的变化。 互联网与移动应用改变了人们的生活、工作、娱乐、学习的方式,在消费者的生活时钟里,除了看电视、看报纸、行车、逛街、差旅等等传统行为,收邮件、搜索信息、上论坛、写Blog、收发短信/彩信、在线交易等藉由互联网与手机创造的生活方式,亦已成为消费者的生活环节。 (2)主动性消费的增加。 由于互联网为消费者主动获取信息提供了极大的便利,消费者在购买决策过程中,可以在互联网上搜索、收集商品/服务的信息作为依据,再决定其购买行为,进行较之以前更为理性的消费。CNNIC历次调查数据显示,对商品/服务等的信息检索始终是网民对互联网的主要用途之一。 (3)心理的改变,“不愿失败”的消费心理有了更充分的信息依据。 在传统时代,营销的手段万变不离其宗,是刺激需求的手段,消费者亦在种种商品信息与营销宣传中混沌迷糊地进行着购买决策。在网络时代,行业频道、行业垂直网站、专业评论网站、专业博客的出现,使消费者有机会从多种渠道获得详尽的专业信息,从而确保其尽可能进行“正确的”购买决策。 4、消费模式 传播环境与消费者是营销过程中的一体两面。依据电通的接触点管理理论(Contact Point Management),生活者(消费者)因使用互联网及手机而产生的生活接触点,都将成为整合营销过程中不容忽视的传播媒介。 重构消费者行为模式 由于传播环境与生活方式的改变,生活者的购买探讨过程也随之变化。营销者需要重新考虑这样的问题,在消费者的购买探讨过程中,商品认知阶段,消费者的信息来源是什么?适合的媒体是什么?理解商品和比较探讨的阶段,消费者的信息来源是什么?适合的媒体是什么?购买商品的阶段,消费者的信息来源是什么?适合的媒体是什么? 根据电通公司的调查数据,在商品认知阶段,消费者的信息来源以电视、报纸、杂志、户外、互联网等媒体广告为主;在理解商品及比较探讨和决定购买的阶段,除了亲临店头之外,互联网及口碑相传是其主要信息来源与决策依据。 基于以上一系列的研究与探讨,电通公司对作为营销基础的消费者行为模式进行了重构。 传统的AIDMA模式(Attention 注意Interest兴趣 Desire 欲望 Memory 记忆 Action 行动),消费者由注意商品,产生兴趣,产生购买愿望,留下记忆,做出购买行动,整个过程都可以由传统营销手段所左右。 基于网络时代市场特征而重构的AISAS(Attention 注意Interest兴趣 Search 搜索 Action 行动 Share 分享) 模式,则将消费者在注意商品并产生兴趣之后的信息搜集(Search),以及产生购买行动之后的信息分享(Share),作为两个重要环节来考量,这两个环节都离不开消费者对互联网(包括无线互联网)的应用。 5、未来发展:跨媒体全传播体系的进化 新的消费者行为模式(AISAS)决定了新的消费者接触点(Contact Point)。依据电通的Contact Point Management(接触点管理),媒体将不再限于固定的形式,不同的媒体类型不再各自为政,对于媒体形式、投放时间、投放方法的考量,首先源于对消费者与产品或品牌的可行接触点的识别,在所有的接触点上与消费者进行信息沟通。 同时,在这个信息沟通圆周的中央,详细解释产品特征的消费者网站,成为在各个接触点上与消费者进行信息沟通的深层归宿。消费者网站不仅提供详细信息,使消费者对产品的了解更深入并影响其购买决策;对消费者之间的人际传播也提供了便利;同时,营销者通过对网站访问者数据进行分析,可以制定出更有效的营销计划。 由于互联网无可替代的的信息整合与人际传播功能,所有的信息将在互联网聚合,以产生成倍的的传播效果,以网络为聚合中心的跨媒体全传播体系随之诞生。 四、AIDEES AIDEES是基于AIDMA原则、强调在CGM环境下的消费者心理行为模型,它把消费者在CGM环境下的心理发展分为六个阶段:注意Attention、感兴趣Interest、欲望Desire、体验Experience、热情Enthusiasm、分享Share,AIDEES即是这六个阶段每个阶段英文名称第一个字母的组合。 所谓AIDEES是在CGM—消费者产生媒体(ConsumerGenerated Media)环境下,口碑影响消费者行为的6个阶段,而这个理论是日本的片平秀贵先生所提出。其中CGM的环境,泛指消费者互相传递信息的媒体(自媒体),诸如BLOG、SNS、BBS等等。 AISAS並不強調在CGM的環境達成的細節,它所要強調的是跟AIDMA的資訊流差異。講了這麼多外星人語言,相信應該有人頭開始暈了吧?為了看清楚AIDEES跟AISAS的差異,我畫了以下這張圖供大家參考: 我們可以看出AIDEES提出了一些AISAS沒有指出的細節(黑線箭頭),不過AISAS所指出的行為,其實也可以插入在AIDEES中(紅線箭頭)。兩相結合之後,就形成了在CGM影響下的「消費者購物的流程」。 還是有鬼打牆的感覺?那我來舉個例子好了。 我是一個擁有部落格的人,而我也經常會瀏覽其他人在網路上所發表的文章。有一天我從某個地方發現了一個特別引起我注意的商品(Attention),並且發現這個商品其實就是我一直想要的東西(Interest)。 在我深入了解它之後,越來越想要(Desire)把它買回家,於是我到處找資訊(Search),看哪裡能比較便宜的買到它,也順便看看其他人對它的評價如何。 終於,在適當的時間、空間我買(Action)下了它,並立刻享受(Experience)它帶給我的快感,我發現這個商品真的是棒到沒話說,真是愛死它了(Enthusiasm),於是我立刻在自己的部落格上跟大家分享(Share)這個商品,並積極加入有關於這個商品的討論。 看完以上的例子後,我想您不難發現這是一個人與人互動的無限迴圈。 在我開始跟別人分享我所買到的商品時,很可能我也引起了下一個人注意這個商品;如此,我所形成的口碑又有可能會成為另外一個人AIDEES過程,就像下圖所示,在人與人之間不斷循環著。 当然,行銷人必須為了口碑行銷想一些策略。 自然產生的口碑往往散落在每個人活動的領域中,難以拼湊出一個具體的商品形象,雖然我們可以透過像富士通的部落格商品評價技術知道口碑變化,但我們始終得有個地方讓行銷人發揮口碑行銷的專才,促進口碑的發酵。 而這個地方,我們稱為口碑平台,它在AIDEES中扮演著讓一個人的「S」順利跟另一個人的「A」接軌的角色,不僅讓口碑的傳輸過程可視化,也可以讓行銷人在這個空間中在「資訊媒介」上多做一些努力,如下圖: 在互联网上,用户轻轻地划一下鼠标就可以对自己感兴趣的东西进行Search(深入了解),甚至马上可以在线购买。互联网也是一个新的通讯渠道,人与人的沟通变得更加畅通,用户在购买前后的感想和行为很方便地能形成口碑与其他人分享。 市场研究公司Jupiter Research调查数据显示:77%的网民在线采购商品前,会参考网上其他人所写的产品评价;超过90%的大公司相信,用户推荐和网民意见在影响用户是否购买的决定性因素中是非常重要的。举例而言,拿一个上网的女孩子来说,如果她注意(Attention)到了一款看上去不错的化妆品,一般会第一时间带着兴趣(Interest)在搜索引擎或自己常逛的消费类网上社区搜一搜,如果她觉得化妆品详细介绍以及社区内网友评价都不错的话,一般就会建立信心选择购买(Action),一段时间之后,她也可能会在社区上写出她的感受(Share),而她分享的意见,又能成为下一个或下下个消费者购买该化妆品的参考信息源。 AIDMA VS AISAS对比流程图 社区营销掀起第三次网络营销浪潮社区营销是继门户广告、搜索广告之后的新型互联网营销模式是从注意力经济向体验经济转换的最好载体。 五、消费者用户价值分析模型 用户价值分析模型 用户价值的高低基于以下两个维度:占用企业资源而发生不同费用的用户对企业的贡献率和单位资源可能给企业所创造的平均利润比较差值,形成经济价值;不同费用水平用户的基于满意度研究基础上的忠诚度研究,形成市场价值;通过上述两个维度的分布结果可以得出以下四类群体: 1. 经济价值比较低,市场价值较低; 2. 经济价值比较低,市场价值较高; 3. 经济价值比较高,市场价值较低; 4. 经济价值比较高,市场价值较高; 第二层级模型:经济价值模型 六、TOFA模型 1、简介 L.凯纳(L.R.Kahle)等人于1992年提出了研究区域消费差异的概念模型亦称TOFA模型。 在众多的区域文化和消费的差异面相中,如何区分出基本类别或典型类型除了饮食文化和习俗的差别,是否接受外部文化,是否敢于花钱是消费文化价值的两个基本维度, 前者导致区域消费形态的变化,后者主导区域消费的基本风格。 由此CMC引入时尚指数S(Style)以衡量在时尚——传统之间的区域位置; 引入花钱指数R(Risk) 以衡量在勤俭——享乐之间的区域位置。TOFA模型如图所示: 高S:追逐新潮、变化快, 乐于接受外部文化、崇尚品牌, 重视品牌的象征价值,群体影响大。 低S:对外来文化谨慎甚至抗拒,崇尚经典与传统价值,保守稳定,注重长远功能。 高R:决策快, 敢冒消费风险,勇于尝试新品,主张享乐主义、及时行乐。 低R:对价格和SP敏感,追求性价比,忧虑未来、安全感低,跟随与后动。 2、区域消费的四种基本类型 用S和R这二个指数可以区分出区域消费行为差异的4种基本面相,其各自的特征如下: A型(高S高R):前卫型(Advance),时尚而敢花钱,如深圳、重庆 ; F型(高S低R):理财型(Fashion,Financing),时尚而精明,如上海、宁波; O型(低S高R):乐天型(Optimism),传统而敢花钱,如贵阳、新疆; T型(低S低R):保守型(Traditionalism),传统而节俭,如西安、昆明。 严格地说,每一区域都是上述4种典型类别的不同比例的混合体, 如某城市为F型55%+A型15%+O型20%+K型10%,但其主导性或主特征决定了其消费特征倾向,可通过调查测量得出实证的结果。 七、VALS系统 1. 简介 VALS系统全称价值观和生活方式系统,是由美国斯坦福国际研究院创立的一种观察理解人们生存状态的方式,通过人的态度、需求、欲望、信仰和人口 统计学 特征来观察并综合描述人们。这套1978年创立的系统现在被广泛认同和引用。 2. 内容 一位名为阿诺德·米歇尔(Arndd Mithchell)的研究者,根据20世纪80年代对大约1600户美国家庭进行的冗长的全面询问,开始设计出一个把消费者放于九个生活方式群体的的系统,也称为VALS类型。 需求驱使类(Need-Driven),总人口11%,国民收入$ =7.5% 1、求生者(Survivor)4%,$ = 2.7%:绝望、压抑,为社会所抛弃的“处境不佳者” 2、维持者(Sustainer)7%,$ = 4.8%:敢于为摆脱贫困而作斗争的处境不佳者 外部控制类(Outer-Directed) 67%,国民收入$ = 36.9% 3、归属者(Belonger)39%,$ = 7.6%:维护传统、因循守旧、留恋过去和毫无进取心的人,这类人宁愿过那种“顺应型”的生活方式,而不愿有所作为。此类人群上升趋势明显 4、竞争者(Emulator)8%,$ = 10.3%:有抱负,有上进心和追求地位的人,这类人总希望“出人头地”。此类人群比例略有下降。 5、有成就者(Acheiver)20%,$ = 19%:能够影响事物发展的领袖们,他们按制度办事,并享受优裕的生活。此类人群比例有所下降。 内部控制类(Inner-Directed)20%,国民收入$ = 37.2% 6、我行我素者(I-Am-Me)3%,$ = 6.8%:年轻,自我关注,富于幻想的人。有所下降。 7、经验主义者(Experiential)6%,$ = 14.1%:追求丰富的精神生活,希望直接体验生活会向他提供什么的人。比例略有下降。 8、有社会意识者(SociallyConscious)11%,$ = 16.3%:具有强烈的社会责任感,希望改善社会条件的人。比例有所上升。 内外部控制类(Outer & Inner Directed),2%,国民收入$ = 18.4% 9、综合者(IntegratedLifestyle):心理成熟,能够把各种内向型因素和外向型因素中的最佳部分有机结合起来的人。 一个人可能会经过多个阶段,如经过了需求驱使阶段,可能进入外部控制阶段,然后进入内部控制阶段,但很少有人会达到综合者阶段。 由于需求驱使类缺乏经济资源,营销人员极少关注这部分细分市场。而其他群体却是兴趣集中的目标,那是因为这些群体具有明确的人口统计、职业和媒体特征。所以,贵重皮箱制造商会想方设法了解有成就者的各种特征以及如何有效地对其开展促销活动。同样,桑拿浴桶制造商不会向经验主义者群体推销其产品,垃圾处理商会对归属者群体和有社会意识者群体采取不同的促销战略方法。目前已有很多大公司赞成这种价值观念和生活方式结构,并运用这些资料来有效地接触目标生活方式群体。 3. 应用 VALS系统已被200多家公司和广告代理商运用于行销实践中,现在该系统经过更新成为VALS2。 起初VALS综合于两个视角来建立生活方式群体。一是基于马斯洛需求等级。二是基于美国社会学家戴维·瑞斯曼(David Reisman)提出的内在驱动者,即那引些受从个性表达和个人品味上来判断价值的人,和外在驱动者,却那些受他人行为和反应和影响而动摇决策的人之间的区别。 VALS类型学把人们归集到“成就者”、“社会自觉者”和“归属者”这三类,这主要依据人们在马斯洛等级中的位置以及他们达到目标的动力是内在还是外在的。例如,“成就者”和“社会自觉者”都是富足的,但外在驱动型的“成就者”会倾向于获得“权力象征”(例如拥有一间外观给人深刻印象的房子),而一个内在驱动型的“社会自觉者”更可能买一间具备有效动力装置的房子(如具备太阳能的)。 梅里尔·林奇公司(Merrill Lynch)设计的广告创意是运用VALS数据去瞄准有此需要的生活方式的细分市场的经典诠释。当此金融中介机构在1978年迁移其代理处机构前,已采用“美国处在高涨期”这一主题12年了。广告是由一群牛狂野地冲过平原这样一组画面组成的。 一项VALS分析揭示了这一广告形态主要对VALS类型中“归属者”那类占据大量市场的、只想适应而不想突出的消费者群有吸引力。另一方面,梅里尔的目标顾客是“成就者”,即那些富裕的商界和政界的领袖人物,他们具有领导才能和自信心,并打算成为批量的投资者。广告代理商就改换了画面,只出现一头牛(象征强烈的个性特征),主题也变为“一头离群的牛”。 八、VALS2模型 VALS2模型是由VALS系统演变出来的。在二十世纪70年代,VALS基于人口统计、价格观念、姿态/倾向和生活方式变量,对美国消费者进行了广泛的研究。尽管大多数公司利用VALS来验明潜在的目标市场以及怎样与消费者进行沟通,但到80年代后期,研究人员开始批评VALS。因为VALS已经过时,并且不能很好地预测消费者的消费行为。由于人们行为差异性的巨大变化、媒体选择的多样化、人们生活方式和价值观念的变化,使VALS在90年代成为描述消费者的一个无效的工具。 基于这些批评,SRI国际公司开发出了VALS2。VASL2仅包括与消费行为有关的项目。所以,它比VALS更接近消费。VALS2模型基于四个人口统计变量和42个倾向性的项目。 VALS2验明美国消费者的细分市场是基于对170个产品目录上产品的消费状况进行调查的结果。细分市场基于两个因素: 1) 消费者的资源:包括收入、教育、自信、健康、购买愿望、智力和能力水平。 2)自我导向,或者说什么激励他们,包括他们的行为和价值观念。被验明的有三种自我导向: 一是以原则为导向的消费者,他们被知识而不是感觉或其它人的观点所左右。 二是以地位为导向的个体,他们的观点是基于其他人的行为和观点,他们为赢得其他人的认可而奋斗。 三是面向行为的消费者,他们喜欢社会性的和物质刺激的行为、变化、活动和冒险。 根据自我导向变量,消费者被划分为8个细分市场: 现代者(Actualizers):乐于赶时髦。善于接受新产品,新技术,新的分销方式。不相信广告。阅读大量的出版物。轻度电视观看者。实现者(Fulfilleds):对名望不太赶兴趣。喜欢教育和公共事务。阅读广泛。成就者(Achievers):被昂贵的产品所吸引。主要瞄准产品的种类。中度电视观看者,阅读商务、新闻和自助出版物。享乐者(Experiencers):追随时髦和风尚。在社交活动上花费较多的可支配收入。购买行为较为冲动。注意广告。听摇滚乐。信任者(Believers):购买美国造的产品。偏好变化较慢。寻求廉价商品。重度电视观看者。阅读有关退休、家庭/花园和感兴趣的杂志。奋斗者(Strivers):注重形象。有限的灵活收入,但能够保持信用卡平衡。花销主要在服装和个人保健产品上。与阅读相比,更喜欢观看电视。休闲者(Makers):逛商店是为了体现舒服、耐性和价值观。不被奢侈所动。仅购买基本的东西,听收音机。阅读汽车、家用机械、垂钓和户外杂志。挣扎者(Strugglers):忠实品牌。使用赠券,观察销售。相信广告。经常观看电视。阅读小型报和女性杂志。 挣扎者(16%的美国人口)在所有细分市场中是收入最低、资源最少的人。因为他们主要是为生存而战,所以他们并没有任何的自我导向。 信任者(17%的美国人口)是以原则为导向,具有适度资源的人。他们是VALS2的细分市场中最大的细分市场。他们受教育的程度很低,他们的信仰被传统的道德观念深深束缚着。他们中的三分之一以上的人已经退休。 实现者(12%的美国人口)也是以原则为导向。处于这个细分市场中的人是成熟的、负责任的、接受过较好的教育、知道较多的信息并且年龄较大(他们中50%的人已经在50岁以上)。他们乐于跟家庭在一起,具有高的收入,在他们的消费中更加面向价值观念。 奋斗者(14%的美国人口)是以地位为导向。他们具有蓝领背景,并且努力超过他们认为比他们更成功的人。 成就者(10%的美国人口)也是以地位为导向。他们具有多的资源。他们关心他们的工作和家庭,并努力在工作伤有所成功。他们在政治上较为保守,尊重执政当局。这种理念不会变化。 休闲者(12%的美国人口)是面向行为的一个细分市场。他们相对年轻,并且在价值观上易于满足。他们对物质财富或世界事件不感兴趣。他们主要关心家庭、工作和身心娱乐。 享乐者(11%的美国人口)也是面向行为的一个细分市场。他们年轻,精力充沛。他们花费大量的时间在身体锻炼和社交活动。他们不吝惜在衣服、快餐和音乐上的花费。略低于20%的人已经完成了大学教育(无学位),但他们正在努力获得一个大学的学位。他们喜欢新产品,与其它细分市场相比,具有更大的冒险性。 现代者(8%的美国人口)。他们具有最大的资源。他们高度自信、高收入和高的受教育水平。他们可以融入所有的自我导向之中。他们利用自己的财富来显示他们个人的格调、品味和特点。他们具有广泛的兴趣。 尽管VALS和VALS2是基于美国消费者开发出来的,但它目前也被应用于欧洲的消费者。这种技术在略加修改后同样被用于日本市场。如日本的 VALS模型用三个导向代替了两个导向:自我表现者、成功者和传统者。利用这些导向,日本的VALS模型产生了10个细分市场。 九、Sheth-Newman-Gross消费价值模型 1. 简介 希斯(Sheth)、纽曼(Newman)和格罗斯(Gross)在1991年提出的以价值为基础,评价消费相关的价值的消费行为模式,认为产品为顾客提供了五种价值,提出五种消费价值来解释消费者在面临某一商品时选择购买或不购买、选择此产品而不是另一个产品、和选择此品牌而不是另一品牌的原因。这五种消费价值分别为功能价值、社会价值、情感价值、认知价值、条件价值。 2.内容 功能价值:功能价值强调的是商品本身所具有的实体或功能价值。当一个产品或品牌具有某些功能上的属性,且能满足消费者使用该产品功能上的目的,则此产品即具有功能价值。 社会价值:当产品能使消费者与其它社会群体连结而提供效用时,则此产品具有社会价值。在社会价值的影响下,消费者选择产品并非理性的注重其真实特性与功能为何,而是产品是否能提升自身的社会地位,塑造社会形象,或是满足内在的自我欲求。在消费者行为的领域中与社会价值相关之研究主题,包括了社会阶级,符号价值,以及参考团体; 情感价值是指消费者的选择可能取决于消费者渴望情感的抒发,消费者所获得的价值系来自于所选择的产品引起的感觉或喜爱感受,则具有情感性价值; 认知价值是指消费者选择取决于产品是否具有满足好奇心、新鲜感和追求新知,则产品具有认知价值; 条件价值是指消费者面临特定情况时所作的选择。指在某些情况之下,产品能暂时提供较大的功能或社会价值。产生条件价值的产品通常会和消费者的前序状态相连结。这些产品因为条件使其产生外部效用,而改变了消费者原先的行为。条件价值基本上并非长期持有而是短暂的。 Sheth认为上述五种影响消费者市场选择行为的价值,在各种的选择情境都有不同的贡献。消费者选择商品时,可能只受上述五种价值中其中的一种价值影响,但是大部分情况可能受到两种以上,甚至是五种价值的影响。 十、详尽可能性模型 1. 简介 详尽可能性模型(ELM)是由心理学家理查德·E.派蒂(RichardE.Petty) 和约翰·T.卡乔鲍(JohnT.Cacioppo)提出的。是消费者信息处理中最有影响的理论模型。根据这一模型信息处理和态度改变的一个基本量纲是信息处理的深度和数量。 ELM模型的基本原则是:不同的说服方法依赖于对传播信息作精细加工的可能性高低。当精细加工的可能性是高时,说服的中枢路径特别有效;而当这种可能性是低时,则边缘的路径有效。 2. 内容分析 消费者在形成对广告品牌的态度时能够有意识地认真考虑广告提供的信息,他们对广告产品或目标的信息仔细思考、分析和归纳,最终导致态度的转变或形成。就是消费者以高参与度对待广告。这种劝导过程被称为态度改变的核心途径。 与核心途径相对的,是态度改变的外围途径,在外围途径中,态度的形成和改变没有经过积极地考虑品牌的特点及其优缺点,劝导性的影响是通过将品牌与广告中积极或消极的方面或技巧性暗示联系起来而产生的。 3. 消费者会选择的两条劝导路线 选择哪一种途径?ELM模型中两个重要因素是受众分析信息的动机和分析信息的能力。假设消费者一旦接收到广告信息就会开始其加工和消化的过程。在个人情况与信息相关程度的基础上消费者会选择两条劝导路线: 当动机和能力都较高时,消费者更可趋向于遵从核心途径;核心途径包括诉诸于理性认知的因素——消费者进行一系列严肃的尝试,以逻辑的方式来评价新的信息。顾客的知识水平较高时往往倾向于理性的选择。当其中之一较低时,便趋向于遵从外围途径。外围路线通过把产品和对另一个事物的态度联系起来,从而涵括了感情因素。例如,促使新新人类购买其崇拜的青春偶像在广告上推荐的某种饮料的原因,实际上与该饮料的特性毫无关系,起作用的是对歌星的喜爱。这是因为人们在对该饮料本身的特性不太了解的情况下,只能通过该信息的外围因素(如产品包装、广告形象吸引力或信息的表达方式)来决定该信息的可信性。 4. 影响动机和能力的因素 广告媒体。消费者越能控制广告展示步骤,就越可能遵循中心途径。例如,印刷广告比速度较快的电视广告和广播广告导致更高的认识详尽程度,广播媒体更可能形成周边途径态度。参与或动机。消费才对广告内容越有兴趣,参与度就越高,就越能产生总体的更详尽的认识,从而以中心途径形成态度。如果消费者不在意广告说了些什么,那么就可能从周边途径形成态度。项目的知识水平。知识丰富的人比缺乏知识的人可以产生更多的与信息相关的思想,将更倾向于从中心途径形成态度。如果消费者不太清楚广告说了些什么,那么就可能从周边途径形成态度。理解。不管是因为其知识水平较低还是时间不允许,只要消费者无法理解广告的信息,他们就将倾向于从广告来源或其他周边暗示里去理解广告,而不是通过广告去理解广告信息。注意力分散。如果观看广告的环境或广告本身使消费者注意力分散,他们将很少产生与信息相关的思想,这将减少中心途径的可能性。情绪。如果广告引发消费者的积极情绪,使消费者心情舒畅,他们则一般不愿花精力去思考广告内容,这样就产生较少认识思想,态度形成更遵从周边途径。认识的需要。一些人本身就愿意思考问题(也就是说他们认识问题的需要较大),他们经常产生与信息相关思想,其态度形成更遵从中心途径。 5. 详尽可能性模型的启示意义 对经理们的启示在目标确定过程中,目标受众的动机和能力是两个关键指标。当两者均较高且中心途径最为可能时,应着眼于强调“为什么这一品牌更好”来改变态度。 内容来源:网络 作者:袁帅( 数据分析 运营者),互联网 数据分析 运营实践者,会点网事业合伙人,运营负责人。CEAC国家信息化计算机教育认证:网络营销师,SEM搜索引擎营销师,SEO工程师。数据分析师,永洪数据科学研究院MVP。中国电子商务协会认证:中国电子商务职业经理人,畅销书《互联网销售宝典》联合出品人之一。中国国际贸易促进委员会:今日会展会员联盟VIP个人会员,全经联园区委秘书处成员,中国低碳智慧园区联盟理事,周五咖啡媒体人俱乐部发起合伙人。百度VIP认证站长,百度文库认证作者,百度经验签约作者,百家号/一点资讯/大鱼号/搜狐号/头条号/知乎专栏/艾瑞专栏等媒体平台入驻作者,互联网数据官(iCDO)原创作者,互联网营销官CMO原创作者。 本文为专栏文章,来自:袁帅,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49751.html 。
来源:数据分析网
发布时间:2018-01-15 12:33:00
2018年转眼已经过了两周之余,是不是又到了一年一度该制作年终报告的时候了呢?其实写年终总结本身就是成长的过程,可以客观地看待过去一年的工作,正视自己的问题,当然也会明确自我价值。 大部分人觉得说起来轻松,写起来却不知从何下手,坐在电脑前半天也敲不出来一个字,那么今天就教你三步做出高质量年终报告PPT。 一、梳理思路 很多人就要说了:我就是没有思路所以才写不出来啊!别急啊,这就讲了~ 1、从现状定目标 首先要清楚自己工作目前的现状,比如你是PM,那么今年共上线了哪些新功能,谈成了哪些新项目, 按照优先级和参与度列举,因为领导大多关注重要的项目,若把次要或是自身参与度不高的项目放在前面说,可能体现不出你的自身价值。 当你简述了这一年的工作情况后,就需制定未来发展的目标了,若是 企业的管理层以结果指标为主,若是 基层员工最好着重于行为指标,当然需要根据当前行业及市场做出合理的展望,定的过高显得不专业,定的过低显得不上进。 2、从问题找对策 当你描述过现状之后,就可以提出造成目前这种工作情况的优缺点,陈述优点时最好精简准确直观,但谈及缺点时可着重分析原因,踩过的所有雷都应心中有数,并且提出怎样才能避免再次踩这些雷。 3、从团队到个人 “团队而非个人、付出而非索取、责任而非荣誉”,无论你是团队的leader还是executor,都不能把工作成果一人独揽,从团队出发,谈谈整个团队沟通力与执行力,最后才是你个人在团队中扮演的角色、负责的工作完成情况以及对于管理上的一些建议,这样会更有效地体现出你的“大局观”哟~ 二、充实内容 充实内容第一步: 讲故事! 重点项目的工作要交代清楚,上线时间,遇到什么样的困难,是怎样解决的,就像讲故事一样;对于那些无关紧要或是效益不佳的项目可以一笔带过。 其次呢,老板最关注的是什么? 指标啊!老板最爱看的是什么? 数据啊! 展现指标数据及其变化最直观的方式是什么? 图表啊! 每个岗位、项目都有不同的关注指标,比如销售人员:商机转化率、购买量、成交量、成交额等;运营人员:网站新增用户量、用户活跃率、留存率等;推广人员:点击率、留电率、投资回报率等。 小心机:业绩一般或以下,着重用表,让老板“似懂非懂” 业绩优异,着重用图,让老板第一时间“重视你” 比如: 1、 数据分析 : 全年新增用户为37980人,目标为40000人,完成进度为95%。其中2017年第3季度环比增长率骤升至47%,原因一:双十一营销活动带来大量新用户;原因二:加大了广告渠道投放的力度。预计2018年全年新增用户50000人,增长趋势会进一步提高。(这样简单的罗列数据也可以,但是没有图表给人的感觉更专业。) 2、可视化图表: 简单的几张图表清晰直观地从多个角度展示了这一年用户的新增情况,在交代清楚工作的同事又轻松的减轻了老板阅读压力,一举两得哟~ 三、美化效果 无论你是套用模板还是自己原创,但毕竟是严肃的年终报告PPT,建议最好是选择简洁明朗的商务主题。 tips: 1、配色: 黑白灰——经典中的经典 蓝色系——万年不出错 深浅配——沉稳又不失鲜明 2、一张PPT写个200字以上?说实话,真的没人看。一句话:能用图表,别用文字。 3、批量添加logo:可以让老板知道你具有超强的品牌意识。(在幻灯片母片中插入logo图片即可) 4、一些特别的工具: 文字云制作工具–Tagul 色彩采集工具–Colorpicker for data 模板素材网站–花瓣网 晶格化背景制作工具– image Triangulator 生动形象的图标网站–findicons 中文字体下载网站–字体传奇网 交互式数据可视化工具–BDP个人版 不久之前我还有一个一直困扰我的问题:在BDP个人版中做好的图表怎样才能让它在自己的PPT中以动态的效果展示呢,而且每次数据更新都要替换,好麻烦的… 没想到,就在最近BDP已经解决了这个问题,这对于将要做年终报告PPT的大家来说无疑是一个天大的好消息。 成功使用PPT插件后,再添加图表点击放映时,将鼠标放置到指定的地域会出现相应的数值,实现了 动态交互的效果,而且会随仪表盘中的图表 实时变化~ 大家如果对这个PPT插件感兴趣的话可参考“ 新年新神器:教你如何在PPT中与BDP零距离互动 ” 欢迎更多PPT达人来一起交流探讨咯~ 本文为专栏文章,来自:海致BDP,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49755.html 。
来源:数据分析网
发布时间:2018-01-12 08:45:00
2018年新年伊始,就被网易的年终听歌报告H5刷了屏,其实网易并不是报告的创始人,但它却又一次点燃了朋友圈。从报告关注的点,你听了多少歌,花了多少时间,哪首歌听得最多,最喜欢的歌手又是谁,哪天又熬夜了,无疑是对用户心理需求的又一次洞察。 有人说,这些 大数据 记录的音乐风格喜好感觉比我自己还了解自己,也有人说,这样的大数据根本不准,“感觉只记录了上半年,没有记录下半年“。 《大数据时代》的作者曾说,大数据提供的并不是精确的数据。这份对个人来说没有那么准确的数据,记录的是个体用户的行为轨迹,汇总以后就是用户的心理。 在网易H5又一次刷屏的背后,我们不难看到大 数据分析 带来的巨大营销价值,数据驱动营销策略,营销打动更多用户,网易的用户增长数据是最有力的证明。 网易云音乐诞生的时间并不长,但是在很短的时间内能积累4亿用户,APP活跃用户数排在音乐类APP第三,这离不开网易云音乐一次次线上线下的营销刷屏。但刷屏的背后,正是它通过大数据对音乐市场的用户洞察。 许多人被收割是因为网易的别致的日推,大概也是国内首次尝试用大数据做个性化推荐的音乐软件。在日推的上方,有这样一句话“根据你的音乐口味生成,每天6:00更新”,听日推,你可能会问,“它怎么知道我喜欢什么样的歌?” 知乎上有人猜想网易云音乐是这样做日推的: step1 建立音乐评分规则 step2 建立用户模型 step3 找相似 除了实现音乐个性化推荐,对大数据的分析也能帮助营销人员洞察把握用户的情绪。2亿用户,每天产生若干评论点赞,而这些数据的汇集就是这群人每天的心理描写。透过 数据分析 ,网易云音乐即时抓住用户心理需求,因此一次又一次做出刷屏的营销活动。 其实,早在2016年,网易云音乐就发布了《听歌多元化时代到来——网易云音乐2016上半年用户行为大数据》报告。根据网易云音乐大数据分析,2016年上半年音乐市场和用户听歌行为呈现出了以下十大现象和趋势: *听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为; *个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好音乐; *独立音乐人迅速崛起,社交互动助推音乐人涨粉; *90后已成为音乐消费主力人群; *用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛; *综艺影视对音乐的影响依旧强大,热门歌曲中7成来源于综艺或影视; *听歌进入多元化时代,民谣、电音、二次元音乐崛起; *偶像流行乐保持高热度,欧美歌曲受众提升; *音乐市场正在构建一种新的评价体系,评论数成为歌曲热度重要评价指标; *男歌手受喜爱度高于女歌手,女性歌迷消费群体经济崛起; 在这份简易的数据分析的驱动之下,网易云音乐在2017年的营销可谓上天入地,最多刷屏的当然是“地铁乐评”展、与农夫三泉的跨界营销。 那么,作为这些营销背后功不可没的大数据究竟给了怎样的指引呢?先看一下这份报告的部分内容: 用户年龄以及他们的喜好关注消费能力都一一在这份数据分析里呈现,网易云音乐再运用自己擅长的情怀+讲故事的营销手段,2018年的开端,他们就做出了刷屏的活动。 随着大数据 人工智能 越来越热,由大数据驱动更多的营销策略在2018年将越来越多,毕竟你不了解用户就不知道让用户看到什么,而相比传统的问卷调查,甚至用户访谈来获取用户需求,大数据其实更准确一点,因为大数据不会骗人。 越来越多的公司会通过自己或者第三方建立自己的数据库,由此驱动营销决策。关注微信公众号cn99click,免费获取大数据监测软件,网站、APP、微信等大数据全面掌握,自动生成用户行为轨迹分析,帮助企业找到更多用户,并提升用户留存和转化。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-09 01:27:00
阿里巴巴将引入 区块链 技术升级知识产权保护体系;百度自研底层区块链技术XuperChain正式开源;本田与通用合作研发区块链技术,使电动汽车为电网供电;沃尔玛加入药品溯源区块链联盟MediLedger……以下带您关注国内外区块链最新资讯。 【国 内】 1、阿里巴巴将引入区块链技术升级知识产权保护体系 阿里巴巴集团平台治理部5月23日宣布,将引入区块链技术,升级知识产权保护体系,更好地为全球企业和品牌以及中小企业提供知识产权保护服务。 阿里巴巴知产保护总监李溪涵表示,利用区块链的开放性、透明性、不可篡改性等特点,阿里正在对知识产权存证备案做升级。今年9月,区块链技术将率先在阿里原创保护平台上使用,并逐步拓展到图片、音视频等数字版权保护领域。 此次知识产权保护体系升级,阿里平台治理部引入了蚂蚁金服集团金融级商用区块链技术。 李溪涵表示,随着区块链技术应用,知识产权保护将突破平台限制。来自全球品牌的电子存证,借助阿里知识产权保护平台(简称“IPP平台”),通过区块链直接链接到互联网法院,为诉讼维权提供依据。 2、百度自研底层区块链技术XuperChain正式开源 5月28日,百度首次发布区块链品牌——Xuper,同时宣布自研底层区块链技术XuperChain正式开源。 百度区块链实验室主任肖伟介绍,此次开源的XuperChain具备多重技术特点。第一,提供多组件、可实现定制化开发。智能合约、共识机制等能力被拆解成单个模块,开发者根据场景应用需求进行灵活调用,让区块链应用搭建更加高效。第二,支持全球部署,可在高效的广域网数据交换。第三,性能行业领先,采用独创的链内并行技术,实现单链6.5万TPS,整体网络20万TPS。除此之外,百度自建区块链社区,提供完善、周全的开发者服务,保证开发者快速、便捷搭建应用。 工信部信息中心《2018年中国区块链产业发展白皮书》显示,我国以区块链业务为主营业务的区块链公司数量达456家。基于国外开源技术研发,企业不仅面临着网络安全方面问题,在当前复杂多变的国际环境下,更容易受制于人。因此,百度XuperChain作为拥有知识产权的中国开源技术,对于国内区块链产业来说具有重要意义。 3、广东佛山市启动“区块链+疫苗安全管理平台”项目 5月29日,佛山市禅城区召开“区块链+疫苗安全管理平台”项目建设启动新闻发布会,正式启动“区块链+疫苗安全管理平台”项目建设。 未来,在禅城接种的每支疫苗从出厂运输、疾控中心仓储、社区点存储、取用等各个环节数据将有追踪档案,市民还可以通过手机完成预约接种、查询接种信息等多项服务。 禅城区疾控中心主任邵昭明表示,目前禅城的预防接种信息化工作仍存在提升空间,比如,当前大部分的预防接种门诊只实行现场取号排队服务,市民排队等候时间较长;疫苗管理信息化水平不高,疫苗溯源的实时性未能实现;冷链设备监测各个环节仍只能分级管理,未形成分级预警监测体系,部门信息缺乏共享等。 为更好解决目前禅城区疫苗管理各项需求,禅城区计划启动“区块链+疫苗安全管理平台”项目建设,充分利用信息化手段打造区域信息化疫苗管理平台,通过资源整合和信息共享,加强对疫苗从生产、冷链运输、仓储、流通、预约、接种以及事后跟踪等全流程的监管。禅城区卫生健康局局长都红介绍,将充分运用区域全民健康信息和计划免疫业务管理信息,建立基于区块链技术的疫苗全程冷链及流通溯源“区块链+疫苗安全管理平台”。 邵昭明表示,该平台预计建设时间约需半年,计划明年初投入使用。项目总目标是构建疫苗从采购、运输、仓储、接种和接种后健康呵护的全过程跟踪追溯,增强自然人“数据空间”数据的鲜活度,通过长期对受种者的情况进行追踪呵护,为政府制定疫苗管理和疾病防控政策提供科学依据和数据支撑。 4、山东胶州成立产业供应链平台 5月31日,胶州举行产业供应链平台成立。平台将以金融科技为核心,运用区块链技术,信用算法等工具,实现“商流、资金流、物流、信息流”的实时、真实、不可篡改地快速流转,形成产业链数据闭环,为传统产业和新兴产业提供供应链增值服务。 “胶州产业供应链平台的成立,将有效促进本地区产业集群的升级,满足新形势下区域优势产业发展需求。”清华大学智慧物流与供应链系统研究中心主任助理、厚德供应链策略研究院院长张钰介绍说,平台由政府牵头设立产业基金,自己在主持平台建设的过程中,引入专业GP管理,并采用“N+1+M”的运营模式。同时,清华大学工业工程系副系主任、青岛胶东临空经济示范区管理委员会副主任李乐飞表示,产业供应链平台这一创新模式能迅速在胶州落地发芽,对胶州市营商环境的改善有巨大促进作用。 5、亚洲文化艺术家联合会成立全球(区块链)专项基金 5月25日,全球区块链产业研讨会暨联合国亚洲文化艺术家联合会区块链产业基金在上海揭牌。 亚文联主席项洋表示:“亚文联成立‘全球区块链(环境、气候、文化)专项基金’,旨在为实现可持续发展目标搭建平台,运用先进技术服务于文化艺术人才,造福于全人类。基金成立后,将通过发展区块链产业,建立更公平、更诚信的文化艺术品全球评估交易平台,并通过区块链的科学技术推进全球文化艺术的交流发展。” 【国 外】 6、本田与通用合作研发区块链技术 使电动汽车为电网供电 据《日经亚洲评论》5月20日报道,本田与通用汽车公司深化合作,计划探索通过区块链技术,使电动汽车和智能电网协同工作,稳定电网,电动汽车也可以“反哺”电网,使车主受益,研究项目将于5月底开展。 本田和通用合作研发的新技术旨在让电动汽车与智能电网进行通信。在电网高负荷运转的用电高峰期,车主能够从汽车电池向电网输送电力。 新的研究项目同时也是“移动开放区块链计划”(Mobility Open Blockchain Initiative)的一部分。该计划由宝马、福特、通用等众多汽车制造商和科技公司联合进行,研究区块链技术在汽车和移动出行领域的应用。 7、沃尔玛加入药品溯源区块链联盟MediLedger 据Coindesk 6月3日报道,大型零售巨头沃尔玛(Walmart)加入了一个旨在追踪药品来源的区块链联盟MediLedger。 这一举措代表着沃尔玛已深入涉足区块链技术领域。此外,这家零售商还是IBM Food Trust的关键参与者。Food Trust是一个建立在Hyperledger Fabric平台上的系统,该平台通过供应链跟踪新鲜农产品。 与Food Trust不同,Mediledger使用企业版以太坊区块链,该区块链由经修改的Parity客户端版本和称为权威证明(proof of authority)的共识机制构建。 沃尔玛加入之际,正值MediLedger准备与美国食品药品管理局(FDA)在6月初启动一个试点项目。该机构正在测试各种方法,以创建一个可互操作的数字化系统来跟踪和验证处方药,国会已要求该系统在2023年前交付。 8、韩国电力企业合作开发基于区块链的可再生能源许可交易系统 6月4日,韩国当地能源新闻网站《能源日报》报道,韩国电力公司KEPCO已经与本国的两家电力供应商签订合约,共同建立一个基于区块链的可再生能源许可证(RECs)交易系统。 KEPCO市值159亿美元,主要控股人为韩国政府和国有银行;根据专注于亚洲市场的Nikkei日经报,该公司对韩国的电力生产和分配拥有“无形的垄断力”。 据《能源日报》,KEPCO与Nambu电力签署了一份商业协议,而此前还曾与韩国南电签署过一份协议,共同建立基于区块链的REC系统。 根据协议,三家企业将合作建立一个系统,实施由政府领导的区块链试点项目,在韩国科学部门的监督下进行REC交易。 《能源日报》表示,区块链落地预计将大大提高新的可再生能源供应许可证交易的透明度和效率,且该试点项目还旨在为韩国区块链领域的早期市场发展做贡献并创造就业机会。 南电主席Shin Jung-sik在声明中指出:“我们计划把全部核心竞争力投入到新业务的开发,同时拥抱新的能源去中心化时代,我们三家企业将会紧密合作,充分利用区块链技术。” 9、印度尼西亚通过新区块链项目改善其航运产业 根据5月29日发布的一份新闻稿,总部位于新加坡的区块链公司PLMP Fintech将与印度尼西亚政府合作,参与一个价值数百万的物流项目。 新计划基于与印度尼西亚贸易部的合作,并计划从位于世界上最繁忙的航道之一的廖内省开始改造该国的航运业。 该项目是PLMP金融科技与廖内群岛中最大的城市巴淡岛的主要行业相关企业签署的新谅解备忘录(MoU)的成果。新闻稿指出,谅解备忘录是由印度尼西亚公司Central Distribusi Batam和自由贸易区及巴淡岛自由港签署的。 据报道,试验阶段将包括部署PLMP Fintech自己的区块链协议Creatanium,以统一农产品买卖双方之间的通信标准。 PLMP Fintech的联合创始人Kym Kee在新闻稿中表示,这个区块链项目旨在通过即时更新货物在途的确切位置,提供更高水平的时间和成本效率。 10、英国一大学用区块链保护他们的数字记录 近日,英国萨里大学发布了一项声明,将用区块链技术和人工智能(AI)保护他们在世界各地的国家视频档案的数字政府记录,以防止篡改。在一份公开发布的新闻稿中,该大学指出,其视觉、语音和信号处理中心(CVSSP)已与开放数据研究所和英国国家档案馆合作开发其所谓的“高度安全”,分散的计算机视觉和基于区块链的系统称为ARCHANGEL,旨在长期保持数字档案的完整性。 萨里大学的项目负责人约翰·科罗默斯教授表示,该系统“本质上为档案提供了一个数字指纹,从而有可能验证其真实性”。 据介绍,该系统旨在自动标记对数字公共记录的修改,无论是意外的还是恶意的,并由“权威证明”区块链系统备份。该大学澄清,“每个人都可以检查和添加记录,但没有人可以更改它们。由于没有数据可以被修改,历史记录的完整性保持不变。” 据介绍,英国国家档案馆以及美国国家档案和记录管理局已经试用了这一新系统。 开放数据研究所的首席执行官Jeni Tennison说:“操纵数字记录正变得越来越容易,这使得管理这些记录的机构能够证明自己的可信度变得至关重要。”
来源:大数据中国
发布时间:2019-06-06 23:24:00
作者:Bernard Marr 大数据 ”炙手可热,很多企业都不会错失机会,谷歌已经从一个网页索引发展成为一个实时数据中心枢纽,可以估量任何可以测量的数据,将输入的查询与所有可用数据相匹配,确定用户查找的信息;对脸谱网来说 大数据 就是“人”,公司也利用这一点在十几年之内成为世界上最大的公司之一;亚马逊通过分析用户习惯,将用户与其他可能符合用户需求的产品和建议相匹配;领英帮助求职者根据自己的技能和经验来匹配空缺职位,帮助招聘人员找到与特定资料相匹配的人才,这些都是大数据应用的典型例子,但也只是其中一部分,越来越多的数据易获得,复杂工具也会随之涌现,大数据的利用可以改变我们个人生活和商业活动。 当下,每个人都听说过人们如何利用大数据治愈癌症、终结恐怖主义和养活饥饿人口来改变世界。 当然,也很明显,有些人正利用它来赚大钱——据估计,到2030年,世界经济将增加15万亿美元。 很多人可能会想“那太好了,但实际上和我没什么关系。”只有拥有数百万美元资产的大型科技公司才会真正受益。那你需要大量的数据才能开始一项新的研究吗 其实并不是这样的。事实上,利用近年在数据收集、分析上的巨大突破,很容易改善我们的个人和商业生活。很多人先前可能没有认识到这点。 以下是大数据作为日常生活工具和服务的一部分的一些细节。 谷歌——语义分析与用户画像 尽管谷歌并没有把自己标榜成数据公司,但实际上它的确是数据宝库和处理问题的工具。它已经从一个网页索引发展成为一个实时数据中心枢纽,几乎可以估量任何可以测量的数据(比如:天气信息、旅行延迟、股票和股份、购物……以及其他很多事情)。 大 数据分析 ——也就是说,当我们进行搜索时大数据就会起作用,可以使用工具来对数据分类和理解。谷歌计算程序运行复杂的 算法 ,旨在将输入的查询与所有可用数据相匹配。它将尝试确定你是否正在寻找新闻、事实、人物或统计信息,并从适当的 数据库 中提取数据。 对于更复杂的操作,例如翻译,谷歌会调用其他基于大数据的内置算法。谷歌的翻译服务研究了数以百万计的翻译文本或演讲稿,旨在为顾客提供最准确的解释。 经常利用大数据分析的对象从最大的企业到单人乐队,当他们通过谷歌的Adwords进行广告宣传时就是对大数据的利用。通过分析我们浏览的网页(很明显能看出我们喜欢什么网页),谷歌可以向我们展示我们可能感兴趣的产品和服务的广告。广告商使用Adwords和谷歌分析等其他服务,以吸引符合其客户资料的人员到其网站和商店时,广告商就利用了大数据分析。 脸谱网——图像识别与“人”的大数据 尽管脸谱网与谷歌在 市场营销 上差异巨大,但实际上它们的业务和数据模式非常相似。众所周知,两个公司都选择将自己的企业形象定位重点放在大数据方面。 对谷歌来说,大数据是在线信息、数据和事实。对脸谱网来说大数据就是“人”。脸谱网让我们与朋友和家人保持联系越来越方便,利用这个巨大的吸引力,该公司在十几年之内成为世界上最大的公司之一。这也意味着他们收集了大量的数据,同时我们也可以自己使用这些大数据。当我们搜索老朋友时,大数据就会发挥作用,将我们的搜索结果与我们最有可能联系的人进行匹配。 由脸谱网开创的先进技术包括图像识别——一种大数据技术,通过利用数百万种其他图像进行训练,能教会机器识别图片或视频中的主题或细节。在我们告诉它图片中的人是谁之前,机器可以通过标签来识别图片中的人。这也是为什么,当我们的朋友分享或给图片“点赞”时,如果它发现我们喜欢看例如婴儿或猫的图片,在我们的信息流中就会看到更多这种类型的图片。 对人们兴趣及其利益的详细了解也使脸谱网能够向任何企业出售极具针对性的广告。脸谱网可以帮助企业根据详细的人口统计数据和兴趣数据找到潜在客户,或者可以仅仅让他们通过查找与企业已有客户相似的其他客户来完成他们的大数据“魔术”。 亚马逊——基于大数据的推荐引擎 亚马逊作为世界上最大的在线商店,也是世界上最大的数据驱动型组织之一。亚马逊和本文提到的其他互联网巨头之间的差别很大程度上取决于市场营销。与谷歌和一样,亚马逊提供了广泛的在线服务,包括信息搜索、关注朋友和家人的账号以及广告,但其品牌建立在最初以购物闻名的服务上。 亚马逊将我们浏览和购买的产品与全球数百万其他客户进行比较。通过分析我们的习惯,可以将我们与其他可能符合我们需求的产品和建议相匹配。大数据技术在亚马逊的应用就是推荐引擎,而亚马逊是推荐引擎的鼻祖,其也是最复杂的。除了购物,亚马逊还让客户利用自己的平台赚钱。任何在自己的平台上建立交易的人都会受益于数据驱动的推荐,从理论上讲,这将吸引合适的客户来购买产品。 领英——被筛选过的精准大数据 如果你是一名雇主,或是正在找工作的人,领英会提供一些可以帮助你的大数据。 求职者可以根据自己的技能和经验来匹配空缺职位,甚至可以找到与公司其他员工以及其他可能竞争该职位的员工的数据。 对招聘人员来说,领英的大数据可以找到与特定资料相匹配的人才,例如现任员工或前雇员。 领英对其数据采取了“围墙的花园”方式(注:“围墙花园”是相对于“完全开放”的互联网,把用户限制在一个特定的范围内,允许用户访问指定的内容),当你选择在何处寻找和使用大数据时,这个不同之处值得考虑。领英的招聘人员和申请人的服务都是由公司内部和由服务本身控制的数据进行的,而谷歌是(在美国也提供招聘信息)从大量外部资源中获取收数据。领英的方法提供了潜在的更高质量的信息,而另一方面,它可能不全面。谷歌的方法提供了更大容量的数据,但这些数据可能是你想要的,也可能不是。 这些只是应用大数据的几种方式——远非资源丰富的公司和技术精英的工具,而是我们大部分人在日常生活中已经从中受益的东西。随着越来越多的数据变得容易获取,越来越复杂的工具涌现出来,从中获得价值,肯定会有更多的数据产生。 End. 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-05 15:01:00
6月29日,“共建新连结,砥砺再奋斗——核心软件创新发展”主题论坛在北京新世纪日航饭店隆重召开。作为2019第二十二届中国国际软件博览会的重要平行论坛之一,论坛聚焦政策、标准制定、产业发展、学术研究、科技应用等五大方向,五位一体共同探讨核心软件创新发展,并见证了《中国数据处理技术与产业白皮书》的发布。 此次论坛以核心软件创新发展为核心,打造基于数据库核心技术的、具备数据处理能力的大数据应用产业,推进数字中国建设。工业和信息化部信息化和软件服务业司副司长李冠宇,IEEE终身院士蔡自兴,国家工业信息安全发展研究中心副主任李新社,北京市经济和信息化局总工程师顾谨栩等政府领导、专家学者出席了本次会议,并汇集了金山云、柏睿数据、金蝶天燕等知名国产数据库厂商与 云计算 企业。 工信部信息化和软件服务业司副司长李冠宇表示,软件产业是信息产业的核心和灵魂,是信息社会的基础性、战略性产业。大数据、云计算、物联网、人工智能等新技术的兴起与发展,为软件产业的发展带来了新的活力,触发新的经济增长点。在“加快科技自立,推动核心软件创新发展”上,他表示,一是要增强创新能力,加强关键技术研发。二是要强化标准研制,形成产业合力。三是要深化市场导向,推动应用创新。四是要坚持开放合作,整合软件生态,推动政企间、企业间的交流互通。鼓励龙头软件企业建设核心软件平台,开放基础资源,助力中小企业深耕细分市场。 IEEE终身院士蔡自兴在《基于大数据的人工智能产业化发展》主旨报告中表示,在全球信息化进入全面渗透,跨界融合、加速创新、引领发展新阶段的大背景下,人工智能作为信息技术革命的重要因素,对促进全面创新发展发挥着不可或缺的重要作用。他指出,判断人工智能即将成为未来趋势的原因主要有三点:1、人工智能的领域研究已经从简单地建立智能系统转变成建立具有人类意识的、值得信赖的智能系统,这是技术基础;2、理论层面,机器学习,由其是深度学习的逐渐成熟也在推动着人工智能革命;3、除了人工智能本身的技术和理论之外,在外延层面,信息处理算法的进步伴随着硬件科技上基本操作的重大进展,以及平台和数据驱动新产品的市场、经济激励机制,这些共同促进了人工智能驱动技术的到来。 国家工业信息安全发展研究中心副主任李新社在致辞中表示,国家工业信息安全发展研究中心一直以来高度关注软件产业发展,建立了全方位研究咨询体系,为软件产业发展提供战略咨询、信息定制、应用推广等服务。未来中心将继续加强自身工作建设,为政府、行业及企业提供有力的决策支撑。一是加强智库建设,完善跟踪体系,加强人才培养,打造有力支撑政府、地方、行业的“外脑”;二是继续开展大数据试点示范项目和案例征集,不断总结经验,发挥辐射带动和示范引领效应;三是加快工控安全体系建设,实现发展与安全的协同推进,夯实工业信息安全发展基础。 北京市经济和信息化局总工程师顾谨栩在致辞中表示,北京市作为中国软件产业中心之一,将加强与国家战略的衔接,发挥北京政策、资源、要素集聚等优势,进一步巩固并提升软件和信息服务产业在全市经济发展中的支柱地位,基本形成与科技创新中心功能定位相适应的创新型产业发展格局,打造“数据引领、软件定义、应用带动”的融合性产业生态。积极部署并落实相关扶持政策,鼓励有能力、有社会担当的重点软件企业,围绕国家急需突破的核心技术,深耕细作,坚持不懈的开展技术攻关和产业落地。 柏睿数据董事长兼首席技术官刘睿民在演讲中提到了面对国际大环境的影响,我国核心软件的创新发展面临着机遇和挑战,我们要善于把握机遇。他表示,推进关键核心技术发展,实现软件技术产业创新发展,既是保障国家信息安全和产业安全的客观需要,也是构建全球竞争新优势的必然选择。作为一家以核心技术创新发展为基石的国产数据库企业,要不断突破技术瓶颈,以科技创新带动产业应用创新,实现行业的标准制定与引领。 论坛上,针对数据处理技术宇产业推进组和《数据处理技术与产业白皮书》进行了详细解读。据悉,白皮书是由国家工业信息安全发展研究中心联合“数据处理技术与产业推进组”成员单位共同撰写,通过梳理全球和我国数据处理技术及产业发展状况,聚焦数据处理核心技术和产业发展,概括总结数据处理技术及产业的发展重点和特点。在此基础上,分析数据处理技术与产业未来亟需解决的关键问题,提出新形势下的发展建议。 “共建新连结,砥砺再奋斗——核心软件创新发展”主题论坛由工业和信息化部、北京市人民政府指导,北京市经济和信息化委员会主办,国家工业信息安全发展研究中心、中国电子技术标准化研究院、北京软件和信息服务业协会、柏睿数据科技(北京)有限公司联合承办。此次论坛以核心软件创新发展为核心,共建数字中国建设安全新生态,再创核心软件新宏图。
来源:大数据中国
发布时间:2019-06-30 21:58:00
电商网站就好比是公司的一个名片,好的网站,能够攫取用户的眼光,能够放慢用户浏览的脚步,能够引导用户完成订单转化,这对于拉新、留存有很重要的作用。 如何对电商网站进行优化?优化的方法很多,本期内容为大家说说如何从核心页面、站内搜索来做网站优化。 一、核心页面优化: 对于一个企业网站来说,网站一定要有核心页面,从用户的角度来说,核心页面能够让他们快速的了解企业的核心竞争力或者说实力;从搜索引擎优化的角度来说,核心页面能够集中权重,让网站的核心关键词获得比较好的排名。所以,我们企业网站建设要注意建设自己网站的核心页面。 一般来说,核心页面指的是:在完整的网站结构中不可缺少,并且受关注度最高的页面。 包含:首页、分类页、列表页、商品详情页。 1、核心页面的重要性: 说起核心页面的重要性,我们可以看一个案例:这是某电商网站统计的核心页面占比情况。 通过上面的数字不难看出,这四部分在网站中占比重比较高,页面的好坏直接影响了网站的各种数据。同时核心页面的优劣也直接影响着用户体验的好坏,也直接决定着用户印象、访问深度、弹出率等重要问题,所以,可以说,核心页面是人们最终想要看到的东西,从而能够产生深远的影响,所以是我们网站运营优化的重点。 2、核心页面的优化,首页是关键。 核心页面优化第一步就是首页,因为首页担负着重要的使命: 标识,告诉用户这是什么网站; 体现层次,通过导航和分类给出网站提供的服务的概貌; 提供搜索,帮助用户查找目标信息; 导读,用重点推荐来吸引用户; 建立可信度和信任感,传达网站整体形象; 注册/登录; 其他。 什么样的首页才是最吸引人的? 案例分析 — 麦考林首页 我们选取了麦考林的首页为大家分析,通过这个首页我们发现具有一些特点: 网站色调活泼柔和,传达甜美的年轻女性特征,切合品牌定位和所售商品属性; 导航清晰全面,易于查找; 商品分类提供多维度索引(按属性按性别特 价断码..),帮助用户快速定位目标商品; 主打当季新品,季节特征明显; 价格信号突出; 服务信息,周到完善; 活动丰富,热点突出; 商品二级分类中的常用分类和主推品牌再次安排在主视觉区下,方便用户直接使用等。 3、优化首页 — 哪些问题值得关注? 在运营人员在优化首页时,哪些问题是关键呢?我们为大家整理了一下,大致有6点: 网页上的重点推广内容 是否是访客关注的热点? 顶部和左侧导航的使用 频率一致吗? 页面各版块的访问情况如何? 哪些内容的点击情况和预期差别很大? 页面加载速度是否平稳?浏览体验是否正常? 第一屏和第二屏的点击落差是否很大? 应用案例 – 页面布局合理化 我们再做页面优化时,常见的问题就是页面布局不合理,比如商品详情页,产品摆放不合理,比较杂乱,用户搜索一个产品要花费很长的时间,对于这种问题,我们应该如何解决呢? 这就需要通过页面热点分析来实现,通过页面点击分析,可以准确地了解用户对页面内容的关注情况,以及页面导航的使用情况,尤其是区分相同内容在不同版块的点击差异,从而进行内容布局优化调整。 二、关于站内搜索 1、搜索的重要性 “如果在商城的搜索引擎里搜不到我要找的东东,而且也没有提供任何替代品,我会马上离开!不再回来!”-某网购达人说 可以说,一个网站的搜索体验是非常重要的。搜索可以为我们提供这些信息: 搜索是否可以带来购买; 访客对搜索结果是否满意; 访客在找了多长时间后,开始求助; 搜索的当搜索结果为空,访客会做什么; 最热门的搜索内容是什么; 站内搜索的使用频率; 如何搜索是否可以带来购买等等。 2、如何优化站内搜索 通过分析用户的搜索行为,为用户补充网站内容/品类、优化搜索结果页结构、优化搜索推荐等提供数据支持。我们以“关键词”为例,通过分析用户的搜索行为,了解设置的“关键词”搜索的频率,哪些内容搜索的频率最高用户对使用关键词搜索的结果是否满意?网站的搜索功能是否存在问题,如何优化等等。如下图: 上图中可以明显看到该关键词的设置不理想,各项数据指标都很低,这时候就需要根据这些 数据分析 原因,对关键词设置进行优化。 通常来说,搜索词的浏览量、用户数、用户比,用户平均搜索量(浏览量不搜索用户数的比值),综合分析出搜索的热门、高频次关键词,参考进行热门关键词推荐,内容调整策略;搜索词的点击率和转化率,综合反映用户对搜索结果满意的程度,用于优化搜索结果。 概括总结一下,可以通过四步骤来实现。 增加搜索结果筛选功能; 补充搜索结果为空的商品,或提供可替代品; 优化热门关键词的搜索结果;通过商品分析,对于销量比较好的商品,可设置为热搜的商品。 培养访客使用站内搜索的习惯,提供人们关键词列表。 结语:企业的网站不再是一个单纯的展示信息的平台,做好网站优化,使网站在搜索引擎中有好的排名,不仅会给一个网站带来极大的流量,同时订单也会随之增加。 关注微信公众号cn99click,免费获取试用产品! 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-03 00:58:00
为什么拿到数据仍然不能做出有效的决策?很可能是因为缺少了有效的分析模型。今天就给大家分享9款经典的企业战略决策、营销决策、服务决策的分析模型,这些模型已经过诸多成功企业和顶尖企业家、经理人的实践验证,被证明是能决定企业成败,影响管理工作效率,有助于企业领导及管理者更好地迎接挑战的最有效的工具。 1、波特五力分析:行业竞争战略最流行的分析模型 波特认为在任何行业中,无论是国内还是国际,无论是提供产品还是提供服务,竞争的规则都包括在五种竞争力量内。这五种竞争力就是企业间的竞争、潜在新竞争者的进入、潜在替代品的开发、供应商的议价能力、购买者的议价能力。这五种竞争力量决定了企业的盈利能力和水平。该模型如下图所示: 竞争对手 企业间的竞争是五种力量中最主要的一种。只有那些比竞争对手的战略更具优势的战略才可能获得成功。为此,公司必须在市场、价格、质量、产量、功能、服务、研发等方面建立自己的核心竞争优势。 影响行业内企业竞争的因素有:产业增加、固定(存储)成本/附加价值周期性生产过剩、产品差异、商标专有、转换成本、集中与平衡、信息复杂性、竞争者的多样性、公司的风险、退出壁垒等。 新进入者 企业必须对新的市场进入者保持足够的警惕,他们的存在将使企业做出相应的反应,而这样又不可避免地需要公司投入相应的资源。 影响潜在新竞争者进入的因素有:经济规模、专卖产品的差别、商标专有、资本需求、分销渠道、绝对成本优势、政府政策、行业内企业的预期反击等。 购买者 当用户分布集中、规模较大或大批量购货时,他们的议价能力将成为影响产业竞争强度的一个主要因素。 决定购买者力量的因素:买方的集中程度相对于企业的集中程度、买方的数量、买方转换成本相对企业转换成本、买方信息、后向整合能力、替代品、克服危机的能力、价格/购买总量、产品差异、品牌专有、质量/性能影响、买方利润、决策者的激励。 替代产品 在很多产业,企业会与其他产业生产替代品的公司开展直接或间接的斗争。替代品的存在为产品的价格设置了上限,当产品价格超过这一上限时,用户将转向其他替代产品。 决定替代威胁的因素有:替代品的相对价格表现、转换成本、客户对替代品的使用倾向。 供应商 供应商的议价力量会影响产业的竞争程度,尤其是当供应商垄断程度比较高、原材料替代品比较少,或者改用其他原材料的转换成本比较高时更是如此。 决定供应商力量的因素有:投入的差异、产业中供方和企业的转换成本、替代品投入的现状、供方的集中程度、批量大小对供方的重要性、与产业总购买量的相关成本、投入对成本和特色的影响、产业中企业前向整合相对于后向整合的威胁等。 2、BCG矩阵法:制定公司层战略最流行的工具 这个模型主要用来协助企业进行业务组合或投资组合。在矩阵坐标轴是的两个变量分别是业务单元所在市场的增长程度和所占据的市场份额。每个象限中的企业处于根本不同的现金流位置,并且应用不同的方式加以管理,这样就引申出公司如何寻求其总体业务组合。该模型如下图所示: 金牛: 在低增长市场上具有相对高的市场份额的业务将产生健康的现金流,它们能用于向其他方面提供资金,发展业务。 瘦狗: 在低增长市场是具有相对低的市场份额的业务经常是中等现金流的使用者。由于其虚弱的竞争地位,它们将成为现金的陷阱。 明星: 在高增长市场上具有相对高的市场份额通常需要大量的现金以维持增长,但具有较强的市场地位并将产生较高的报告利润,它们有可能处在现金平衡状态。 问题: 在迅速增长的市场上具有相对较低市场份额的业务需要大量的现金流入,以便为增长筹措资金。 3、GE矩阵:企业決定发展战略的分析工具 企业通过该矩阵可以保证其资源的合理配置,企业也可以尝试按照发展中业务和已发展业务的混合,与现金产生和现金使用的内在一致性来平衡业务。绘制GE矩阵,需要找出外部(行业吸引力)和内部(企业竞争力)因素,然后对各因素加权,得出衡量内部因素和市场吸引力外部因素的标准。当然,在开始搜集资料前仔细选择哪些有意义的战略事业单位是十分重要的。该模型如下图所示: “市场吸引力”需要考虑的因素主要有: 行业:绝对市场规模、成长率、价格敏感性、进入壁垒、替代品、市场竞争、供应商等; 环境:政府法规、经济气候、通货风险、社会趋势、技术、就业、利率等。 采取五级评分标准评分:1=毫无吸引力,2=没有吸引力,3=中性影响,4=有吸引力,5=极有吸引力 “业务单位的实力或竞争地位”需要考虑的因素主要有: 目前优势:市场份额、市场份额变化趋势、盈利能力、现金流、差别化、相对价格地位等。 持久性:成本、后勤、营销、服务、客户形象、技术等。 采取五级评分标准评分:1=极度竞争劣势,2=竞争劣势,3=同竞争对手持平,4=竞争优势,5=极度竞争优势 4、波特价值链分析模型:寻求确定企业竞争优势的分析工具 价值链分析方法是企业为一系列的输入、转换与输出的活动序列集合,每个活动都有可能相对于最终产品产生增值行为,从而增强企业的竞争地位。企业通过信息技术和关键业务流程的优化是实现企业战略的关键。企业通过在在价值链过程中灵活应用信息技术,发挥信息技术的使能作用、杠杆作用和乘数效应,可以增强企业的竞争能力。该模型如下图所示: 进料后勤: 与接收、存储和分配相关联的各种活动,如原材料搬运、仓储、库存控制、车辆调度和供应商退货。 生产作业: 与将投入转化为最终产品形式相关的各种活动,如机械加工、包装、组装、设备维护、检测等。 发货后勤: 与集中、存储和将产品发送给买方有关的各种活动,如产成品库存管理、原材料搬运、送货车辆调度等。 销售: 与提供买方购买产品的方式和引导它们进行购买相关的各种活动,如广告、促销、销售队伍、渠道建设等。 服务: 与提供服务以增加或保持产品价值有关的各种活动,如安装、维修、培训、零部件供应等。 采购与物料管理: 指购买用于企业价值链各种投入的活动,采购既包括企业生产原料的采购,也包括支持性活动相关的购买行为,如研发设备的购买等;另外亦包含物料的的管理作业。 研究与开发: 每项价值活动都包含着技术成分,无论是技术诀窍、程序,还是在工艺设备中所体现出来的技术。 人力资源管理: 包括各种涉及所有类型人员的招聘、雇佣、培训、开发和报酬等各种活动。人力资源管理不仅对基本和支持性活动起到辅助作用,而且支撑着整个价值链。 企业基础制度: 企业基础制度支撑了企业的价值链条。如:会计制度、行政流程等 对于企业价值链进行分析的目的在于分析公司运行的哪个环节可以提高客户价值或降低生产成本。对于任意一个价值增加行为, 关键问题在于 : 1)是否可以在降低成本的同时维持价值(收入)不变; 2)是否可以在提高价值的同时保持成本不变; 3)是否可以降低工序投入的同时有保持成本收入不变; 4)更为重要的是,企业能否可以同时实现1、2、3条。 价值链一旦建立起来,就会非常有助于准确地分析价值链各个环节所增加的价值。价值链的应用不仅仅局限于企业内部。随着互联网的应用和普及,竞争的日益激烈,企业之间组合价值链联盟的趋势也越来越明显。企业更加关心自己核心能力的建设和发展,发展整个价值链中一个环节,如研发、生产、物流等环节。 5、STP分析:现代营销战略的核心分析工具 STP 理论是指企业在一定的市场细分的基础上,确定自己的目标市场,最后把产品或服务定位在目标市场中的确定位置上。具体而言,市场细分是指根据顾客需求上的差异把某个产品或服务的市场划分为一系列细分市场的过程。目标市场是指企业从细分后的市场中选择出来的决定进入的细分市场,也是对企业最有利的市场组成部分。而市场定位就是在营销过程中把其产品或服务确定在目标市场中的一定位置上,即确定自己产品或服务在目标市场上的竞争地位,也叫“竞争性定位”。 Step1:确定细分市场 市场细分是指企业按照某种标准(如人口因素、心理因素等)将市场上的顾客划分为若干个顾客群,每个顾客群构成一个细分市场(或称子市场),并描述每个细分市场的整体轮廓。在同一个市场细分中的消费者,他们的需求和欲望极为相似;而不同市场细分的消费者,对同一产品的需求和欲望存在着明显的差别。细分标准见下图: Step2:确定目标市场选择策略 根据企业资源或实力、产品同质性、市场同质性综合评估进行选择,一般有以下5种模式: Step3:确定产品定位 市场定位包括对企业整体形象的定位和企业产品的定位,指企业根据目标市场上的竞争状况,针对顾客对某些特征或属性的重视程度,为本企业的形象和产品塑造强有力的、于众不同的鲜明个性,并将其传递给顾客,求得顾客的认同。产品定位可以参考下图所示流程进行: 6、4Ps营销组合模型:制定市场战略最经典的营销理论工具 该模型认为营销活动的核心就在于制定并实施有效的市场营销组合。企业营销活动的实质是一个利用内部可控因素适应外部环境的过程,即通过对产品、价格、分销、促销的计划和实施,对外部不可控因素做出积极动态的反应,从而促成交易的实现和满足个人与组织的目标。该模型如下图所示: 产品(Product): 是指现有产品本身及其特征(商品,质量,包装,品牌,售后服务等),另外也指要重视产品的更新换代与开发创新。要求产品有独特的卖点,把产品的功能诉求放在第一位。 价格 (Price): 是指企业制订价格的方法和竞争定价的策略,也是企业出售产品追求的经济回报。根据不同的市场定位,制定不同的价格策略,产品的定价依据是企业的品牌战略,注重品牌的含金量。 分销 (Place): 在于根据产品的性质,市场的细分和顾客的区隔研究,所采取的分销渠道、储存设施、运输设施、存货控制等,它代表企业为使产品进入和达到目标市场所组织和实施的各种活动。 促销(Promotion): 企业注重销售行为的改变来刺激消费者,以短期的行为(如让利,买一送一,营销现场气氛等等)促成消费的增长,吸引其他品牌的消费者或导致提前消费来促进销售的增长,包括广告,人员推销,营业推广与公共关系等。 4Ps 提示企业经营者: 做好营销工作,其实就是找到下面四个问题的答案 : (1)我们提供什么样的产品是市场最需要的? (2)什么样的定价是最适合的? (3)通过什么样的渠道推广我们的产品最好? (4)采取什么样的手段促销能达到销售目的? 延伸:4Ps-4Cs-4Rs策略对比 7、产品生命周期模型:描述产品和市场运作方法的有力工具 产品生命周期曲线又称成长曲线。它是指新产品研制成功后,从投入市场开始发展到成长、成熟以至衰退被淘汰为止的整个市场产品销售过程的全部时间。产品生命周期可划分为四个阶段:投入期,成长期,成熟期,衰退期。该模型如下图所示: 产业在其生命周期中如何变化以及它如何影响战略: 产品生命周期是一个很重要的概念,它和企业制定产品策略以及营销策略有着直接的联系。管理者要想使他的产品有一个较长的销售周期,以便赚取足够的利润来补偿在推出该产品时所做出的一切努力和经受的一切风险,就必须认真研究和运用产品的生命周期理论,此外,产品生命周期也是营销人员用来描述产品和市场运作方法的有力工具。 8、服务质量差距模型:服务质量简单有效的分析工具 服务质量差距模型(5GAP模型)是专门用来 分析质量问题的根源 ,可以作为服务组织改进服务质量和营销的基本框架,有助于分析服务质量问题产生的原因并帮助管理者了解应当如何改进服务质量。 顾客差距(差距5)即顾客期望与顾客感知的服务之间的差距——这是差距模型的核心。要弥合这一差距,就要对以下四个差距进行弥合:差距1 ——不了解顾客的期望;差距2——未选择正确的服务设计和标准;差距3——未按标准提供服务;差距4——服务传递与对外承诺不相匹配。该模型如下图所示: 差距1是质量感知差距: 该差距是指服务企业不能准确地感知顾客服务预期; 差距2是质量标准差距: 该差距是指服务提供者所制定的服务标准与公司管理层所认知的顾客的服务预期不一致而出现的差距; 差距3是服务传递差距: 该差距是指服务生产与传递过程没有按照企业所设定的标准来进行而产生的差距; 差距4是市场沟通差距: 该差距是指市场宣传中所做出的承诺与企业实际提供的服务不一致而产生的差距; 差距5是感知服务质量差距: 该差距是指顾客所感知的或者实际体验的服务质量与其所预期的不一致而产生的差距。 而这5个差距中,前4个是导致服务质量缺陷的主要因素,第5个是由顾客感知的服务与期望的服务所形成的。 9、服务利润链:服务管理最经典、最有效的分析工具 服务利润链的基本逻辑是: 企业获利能力的强弱主要是由顾客忠诚度决定顾客忠诚是由顾客满意决定的;顾客满意是由顾客认为所获得的价值大小决定的;价值大小最终要由工作富有效率.对公司忠诚的员工来创造:而员工对公司的忠诚 取决于其对公司是否满意、满意与否主要应视公司内部是否给予了高质量的内在服务。简言之,客户的满意度最终是由员工的满意度决定的。该模型如下图所示: 该模型的核心内容是顾客价值等式 ,顾客价值=(为顾客创造的服务效用+服务过程质量)/(服务的价格+获得服务的成本),该等式和内部员工及外部顾客都有关系。 服务利润链模型的评价工具往往是采用平衡计分卡,对每个元素进行记录和评价,再形成一个整体的评价,注意的是局部和整体的控制和协调。 本文为专栏文章,来自:数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49606.html 。
来源:数据分析网
发布时间:2017-12-27 22:44:00
6月13日,由赛可达实验室、国家计算机病毒应急处理中心、国家网络与信息系统安全产品质量监督检验中心、首都创新大联盟及百家行业联盟共同主办的第七届NSC网络安全大会(原中国网络安全大会)在北京国家会议中心成功举行。来自公安部网络安全保卫局处长祝国邦、中国科学院院士尹浩、中国电子技术标准化研究院副院长,全国信安标委秘书长杨建军、中国电科首席科学家吴巍、深信服安全业务副总裁裘波、ESET资深研究员Nick FitzGerald、Cyberbit中国区技术总经理朱凯、Tenable中国区总经理赵阳等近50位顶级网络安全专家发表了精彩演讲,与2000多位与会者共议信息安全热点话题与网络安全新技术。光明网、中新网、科技日报、经济日报、南方都市报、每日经济网、赛迪网、51CTO、天极网、雷锋网、看雪等80多家媒体参与报道。 大会现场 NSC 2019由大会主席,北京大学网络与软件安全保障实验室主任陈钟教授主持。大会执行主席、赛可达实验室CEO宋继忠作为主办方代表致辞,他指出:“我们一直致力于为中国网络安全企业和行业用户服务,强调大会平台化,国际化,行业化,技术创新四大特色,打造具有中国特色和国际水准的网络安全大会,为推动我国网络安全保障体系建设,加强我国关键基础设施的防护能力,提升国家重点行业网络安全防护水平做出应有的贡献。” 大会主席,北京大学网络与软件安全保障实验室主任 陈钟教授 大会执行主席、赛可达实验室CEO 宋继忠 等级保护2.0 网络安全等级保护制度2.0国家标准已于今年5月正式发布。公安部网络安全保卫局处长祝国邦以“深入落实国家网络安全等级保护制度,大力推进我们网络安全产业向纵深发展”为主题做纲领性解读,指出了等级保护2.0在法律层面、保护对象、保护措施、技术标准、工作机制等方面的新要求和新变化。公安部第三研究所国家网络与信息系统安全产品质量监督检验中心大 数据安全 测评实验室主任宋好好对关键网络安全等级保护相关标准、尤其是标准中新增加的个人信息保护、 云计算 扩展等要求进行了详细介绍。 公安部网络安全保卫局处长 祝国邦 物联网安全 物联网安全形势依然严峻,网络设施的安全、数据安全、个人信息安全等问题亟待解决,物联网在产业生态当中备受关注。中国科学院院士尹浩从宏观上分享了对“万物互联的安全问题”的思考。尹院士表示:“物联网主要面临传统安全问题的挑战,由于物联网跟行业结合非常紧密,物联网终端种类的多样和脆弱性导致安全威胁更加严峻,成为限制物联网部署的一个障碍。有效的解决措施是对物联网差异化的应用,通过硬件的绑定可以决定操作系统的可信安全,操作系统再绑定各类APP的安全应用进行轻量化的防护。”公安部信息安全等级保护评估中心副研究员陶源结合等级保护2.0制度,以及国内外相关法律法规和物联网安全标准,对物联网的网络安全等级保护技术原理、安全风险、防护技术进行了阐述和分析,并以联网视频监控系统的网络安全等级测评实践为例,对等级保护2.0中物联网安全要求的相关条款进行了解读。 中国科学院院士 尹浩 数据安全及其标准化 互联网时代如何保证数据安全是社会经济发展的痛点。在网络安全领域,数据安全是最频繁出现的高频词。中国电子技术标准化研究院副院长,全国信安标委秘书长杨建军全面解析了数据安全及其标准化。介绍了数据安全有关国家标准的基本情况和我国2019年新申请立项的标准。北京市安理律师事务所合伙人王新锐以《数据安全管理办法(征求意见稿)》为主题,根据自身长期从事一线网络安全和数据合规法律服务的经验解读了新规,并为企业提供了应对建议。天威诚信总裁唐志红分享了电子认证服务在云安全与数据安全领域的研究与实践。通过电子认证服务在云安全领域的应用及案例分析,帮助大家了解电子认证服务在数据安全领域的价值与作用。 天地一体化信息网络安全 天地一体化信息网络是国家“科技创新2030-重大项目”中首个启动的重大项目。天地一体化信息网络具有军民商共用、信道开放、网络节点暴露、空间网络资源受限、异构网络互联等特点,相比传统地面网络,更易遭受实体假冒、非授权访问、信息窃取、重放攻击、跨网攻击等安全威胁,面临前所未有的安全挑战。中国电科首席科学家吴巍介绍了天地一体化信息网络的项目背景和总体技术方案,分享了关于天地一体化信息网络安全防护的总体思考,包括安全威胁分析、安全防护能力需求、体系结构和功能需求,以及需要重点研究的安全防护技术等内容。 企业网络安全 中信建投证券信息技术部VP史经伟以自身工作经验分享了金融领域信息安全防护实践历程与相关研究。中熙正保远程教育安全专家李晨讲述了甲方安全建设从0到1的思路,主要包含了建设过程中的重点工作内容,工作分类,常见问题的解决方法,以及在实际状况下如何正确的沟通从而推动工作进展,做到更加切合企业环境的可落地方案。 ESET资深研究员Nick FitzGerald归纳了终端检测及防御(EDR)的各项功能和局限性,指出了用户在选购和部署EDR解决方案时,需要考虑的主要因素。Tenable中国区总经理赵阳讲述了如何利用最新的Cyber Exposure技术,高效管理和度量企业的资产攻击面,加速理解和减少企业安全风险。 工控网络安全 中国信息通信研究院副主任柯皓仁将以“工业互联网安全从可见到可控”为主题分享了工业互联网安全近两年在国家与地方政策、标准规范的基础进展,关键技术的发展与应用情况,实现从“可见”、“可知”到“可控”的必需开展与突破的工作,从部分实例说明了实现工业互联网安全可控所需要的基础要求。公安部第三研究所工控安全测评实验室主任邹春明阐明了工业控制信息安全的现状及存在的主要问题,工控信息安全相关的主要政策文件、国内外标准情况。介绍了工业控制安全扩展要求的基本情况,工控系统等保测评的要点以及工控系统网络安全防护建设的要点及建议。国际知名网络安全厂商Cyberbit现场介绍及展示了其主要产品之一保护关键基础设施网络的SCADA安全系统,表示该系统在电力公司、铁路、石油和天然气,智能楼宇等应用中起到了有效的防护作用。 黑客攻防 本届大师讲堂依旧爆满,知名网络安全技术大咖齐聚,分享了前沿性的技术研究和发展趋势,为参会嘉宾带来了一场技术饕餮盛宴。 百度资深安全研究员刘焱(兜哥)以“迁移攻击云端AI服务:一个被遗忘的战场”为主题介绍了针对云端图像分类服务的三类攻击形式:几何攻击、基于查询的黑盒攻击、迁移攻击。表示通过在实际云环境中的实验表明,以上三种攻击方法均可以达到50%以上的成功率。腾讯玄武实验室安全研究员CTO刘惠明详尽地介绍了如何在不突破沙箱策略限制的情况下,实现对沙箱的深度持久化攻击。同时,还提出了一种新型的持久化攻击技术——“克隆攻击”,可以远程克隆并持久化控制目标用户账户。清华大学副教授李琦展示了一种利用声纳信号破解安卓图案锁的新型方法。这种方法的破解效果不受手机所在环境的影响,而且可以同时远程破解大量用户的手机图案锁。 搜索 复制
来源:大数据中国
发布时间:2019-06-21 22:04:00