科技资讯_数据资讯

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

Excel到底有多厉害？ – 何明科的回答 | 数据分析网首页分类阅读行业资讯大数据统计�

你做的那些坏事，大数据全知道 | 数据分析网首页分类阅读行业资讯大数据统计学数�

APP数据分析：用户增长和留存的秘密 | 数据分析网首页分类阅读行业资讯大数据统计学

机器人和大数据成为行业潮流，4大初创公司将改革2018年电商局势 | 数据分析网首页分类�

OFweek 2017（第二届）中国医疗科技大会成功举办 | 数据分析网首页分类阅读行业资讯大�

最牛的数据可视化分析神器双十一疯狂大促，错过了就不再有 | 数据分析网首页分类阅读

汽车之家发布“车智云”，大数据+AI发展汽车生态圈 | 数据分析网首页分类阅读行业资�

影视大数据公司“艾漫”获B站5000万元投资 | 数据分析网首页分类阅读行业资讯大数据 �

从1到N 数据中心变革向纵深发展 | 数据分析网首页分类阅读行业资讯大数据统计学数�

汉语大数据分析：灵玖NLPIR网页信息抽取技术 | 数据分析网首页分类阅读行业资讯大数�

网页信息抽取是将网页作为信息源的一类信息抽取,就是从半结构化的Web文档中抽取数据。其核心是将分散Internet上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化、语义更为清晰的形式表示,为用户在Web中查询数据、应用程序直接利用Web中的数据提供便利。
互联网提供了一个巨大的信息源。这种信息源往往是半结构化的,并且中间夹杂着结构化和自由文本。网上的信息还是动态的,包含超链接,都以不同的形式出现。
1.Web信息抽取的内容一般可以分为几个方面：
命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。
信息抽取的方法主要可以分为以下两类：一类是基于层次结构的信息抽取归纳方法,另一类是基于概念模型的多记录信息抽取方。
Web信息抽取工作主要包装器(Wrapper)来完成。包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络中Web页面的信息数据抽取出来,转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。
2.抽取过程一般包括以下几个步骤：
(1)将Web网页进行预处理。预处理的目的是将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备。
(2)用一组信息模式描述所需要抽取的信息。通常可以针对某一领域的信息特征预定义好一系列的信息模式,存放在模式库中供用户选用。
(3)对文本进行合理的词法、句法及语义分析,通常包括识别特定的名词短语和动词短语。
(4)使用模式匹配方法识别指定的信息模式的各个部分。
(5)进行上下文分析和推理,确定信息的最终形式。
(6)将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
关于网页信息抽取技术的分类方式有多种：依据自动化不同程度可以将网页信息抽取分为人工方式、半自动化方式和全自动化方式三大类信息抽取。基于自然语言处理(NLPIR)方式的信息抽取是目前使用比较普遍的,效果也是比较好的方法。
基于自然语言处理(NLPIR)方式方法的抽取过程一般可归为：语音、词、词性语法分析、语义标注、专有对象的识别(如人物,公司)和抽取规则。如果Web页中包含大量文本(特别针对于合乎文法的文本)比较适用于这类方法,它在一定程度上使用了传统自然语言处理技术。把网页中的文本部分分割成多个句子,对每一个句子的句子成分进行标注,然后将标注好的句子语法结构和事先定制的语言模式(规则)匹配,获得句子的内容,其实就是利用句子的结构、短语和句子间联系建立基于语法和语义的抽取规则。从而实现信息抽取。规则可以人工制定,也可从人工标记的语义库中主动学习得到。
灵玖NLPIR网页信息抽取技术在数据抽取、集成方面,重点关注效率、适应性、以及维护问题,这三大问题都是元信息抽取技术在工程应用中必须解决的关键性问题。
在数据抽取方面,灵玖NLPIR网页信息抽取技术基于机器学习方法实现数据抽取子系统。该子系统虽然需要用户人工参与优化Wrapper,但参与工作非常简单,且提供了友好的交户界面,从而大大降低了后期维护的代价。同时机器学习方法生成wrapper,以及wrapper采用自动机形式表达,使得wrapper本身具有很好的灵活性、适应性,加上人工参与优化wrapper的操作,更使最终的wrapper具有很强的针对性,于是保证了在线抽取操作的高速度、高准确率,同时也保证了低成本的维护代价。
在数据集成方面,灵玖NLPIR网页信息抽取技术定义了一套元数据解析规则(即规定了各元数据的含义、格式等)。用户在数据抽取子系统的优化wrapper阶段,按照解析规则标示出各元数据的配置信息。由于元数据解析规则非常简单,加上提供了友好的配置界面,使得元数据的配置工作简单,从而保证了后期维护的人工代价低。同时元数据的配置信息具有很好的灵活性、很强的针对性,于是保证了数据集成子系统在线操作时的高速度、高准确率。
本文由灵玖软件投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/33720.html 。

数据分析

2016-10-11 17:54:00

作者 | 郭龙（凌祎）
编辑 | Natalie
导读：用户消费行为预测已然是电商领域的经典问题。通过对用户实时意图的理解,我们可以感知用户当下正处于哪个阶段,比如是在买还是在逛,从而可以根据不同阶段制定不同的营销和推荐策略,进而提升营销和推荐效果。
本文相关工作已在 KDD 2019（25th ACM SIGKDD conference on knowledge discovery and data mining, 数据挖掘领域国际顶级会议）正式发表,详细介绍了淘系技术部算法团队如何利用用户的多种实时行为识别用户的实时意图。
一、背景
十亿级别的移动终端,为手机淘宝的情景计算提供了无限可能。本文主要介绍如何利用用户与手机的交互数据对用户实时的购买行为进行预测。
基于大数据分析,通过感知用户在淘宝上的浏览链路,情景计算得以实时感知用户当前的购买倾向。越长的商品详情页停留,越频繁的商品图片滑动,越多的商品评价查看,都预示着用户对商品的购买欲望。掌握用户实时的购买倾向可以帮助营销团队针对不同消费欲望的用户采取不同的营销策略,刺激用户消费,最终达到刺激平台 GMV 增长的目的。比如针对购买倾向增高的用户,平台可以采取发放红包或者限时打折的方式刺激用户完成消费。
另外,通过对用户实时购买意图的理解,我们可以感知用户当下处于哪个阶段,比如是在买还是在逛,从而可以根据不同阶段制定不同的推荐策略,提升推荐效果和用户体验。
用户消费行为预测是电商领域的经典问题,对用户购买概率进行预测也已经不是一个新鲜的问题。但是传统的云上计算预测的是用户的长期购买概率,大多根据用户的历史浏览、收藏和加购商品等数据,预测未来一段较长的时间内（比如一周）用户的购买概率。
相比于长期购买概率,用户的实时购买概率（比如一小时内的购买概率）更能反映用户购买倾向的变化,也使得营销算法的制定可以更加灵活有效。但是,对用户购买概率进行实时识别也带来了更大的挑战。
单纯基于用户的传统云上行为对用户的实时购买意图进行预测很难达到理想的效果,原因是用户的云上行为粒度太粗,很难反映用户的实时状态。表 1 统计了手淘每个用户平均每天产生的不同的行为数。我们可以看到,用户的浏览、收藏和加购等云上行为每天平均只有 40 个,而用户每天的点击和滑动行为数分别是云上行为数的 10 倍和 30 倍。因此基于用户的端上行为,我们可以更加细粒度的刻画用户行为,从而更好地预测用户的实时意图。
表 1：手淘用户每天产生的各种行为数
接下来,我们将详细介绍我们是如何结合用户的云上行为数据以及实时交互数据来预测用户的实时购买意图的。相关工作已被国际会议 KDD 2019 接收《Buying or Browsing : PredictingReal-time Purchasing Intent using Attention-based Deep Network with MultipleBehavior》。
二、数据
我们首先简单介绍一下我们使用的用户相关数据。用户滑动手势数据。该数据包含了用户日常使用手淘的滑动手势数据,包括四种基本动作：打开页面,离开页面,滑动和点击。每种动作都记录了该动作发生的时间,页面以及该动作在手机屏幕上的落点位置。对于滑动动作,该数据记录了滑动动作的起始位置和结束位置,以及滑动动作的持续时间。用户点击控件数据。该数据包含了用户点击控件产生的信息,包括点击控件名,点击页面名以及该点击行为发生的时间。用户云上行为数据。该数据包含了传统的用户浏览、收藏、加购、下单和搜索等基本行为。用户基础特征数据。该数据包含了用户的基础特征,比如年龄,性别和活跃度等。用户统计特征数据。该数据包含了基于用户历史行为的统计特征,比如用户最近 1 个月的收藏、加购和下单次数。
经过特征提取和离散化,我们为用户滑动手势数据中的每个行为提取了 14 种特征,为点击控件数据中的每个行为提取了 3 个特征,为云上行为数据中的每个行为提取了 6 个特征。每个特征首先被编码成 one-hot 向量,然后经过转化得到低维的 embedding 向量。我们使用 embedding 向量作为模型的输入,并与模型一同训练。
三、挑战
基于用户的多种行为对用户的实时购买意图进行预测面临以下技术难点：如何有效利用多种用户行为全方位的刻画用户？如何有效地挖掘端上海量弱信号的价值,避免繁杂的手动挖掘特征？如何表征不同的用户行为之间的联系？如何捕捉不同的用户行为模式之间的共性以及差别？
我们设计了 Deep Intent Prediction Network (DIPN) 模型,通过晚期融合、RNN 自动提取特征、层级注意力机制和多任务学习来克服上述技术挑战。
四、模型
我们采用端到端的深度学习模型对用户的多种数据进行建模来预测用户的实时购买意图。图 1 展示了 DIPN 模型的基本框架。由于我们需要处理三种不同形态的行为序列数据,我们需要设计合理的方法来对这些数据进行融合。
一般有两种数据融合方式：早期融合 (early fusion) 和晚期融合（late fusion）。早期融合指的是在特征上进行融合,首先进行不同特征的连接,然后再输入到一个模型中进行训练。晚期融合（late fusion）指的是特征分别进入不同的模型,然后对模型输出的特征进行连接,进而预测最终结果。由于不同数据的产生频率不一致,早期融合通常会造成一定程度的信息损失,为此我们采用了晚期融合（late fusion）方法。接下来我们分层介绍 DIPN。
图 1：Deep Intent Prediction Network
4.1 RNN Layer
相比于传统的浏览、收藏、加购和下单等用户行为数据,对端上海量弱信号（用户点击控件数据和用户滑动手势数据）进行特征挖掘更加具有挑战性。为了有效地挖掘海量弱信号中有价值的特征,同时避免繁杂的手动挖掘特征,我们采用了 RNN 模型来对时间序列数据建模,从而可以更好地捕捉时间序列数据的时序性和长依赖关系。为了缓解模型训练过程中的梯度消失问题,我们使用了 GRU 作为 RNN 模型的基本单元。
4.2 Hierarchical Attention Layer
在 DIPN 中,我们采用了晚期融合的方式融合三种不同形态的行为序列数据,一个简单的融合方式是对三个 RNN 模型的最后输出进行直接的拼接,但是这种方式忽略了不同行为序列之间的交互。为此,我们设计了层级注意力机制（ hierachical attention mechnism )：底层注意力机制（ intra-viewattention ）可以聚焦到每个行为序列的内部,用于识别用户的重要动作,上层注意力机制（ inter-viewattention ）负责行为序列特征间的交叉融合,使用了类似于 Transformer 的自注意力机制思想,对于序列内的每个动作,计算该动作与其他序列内每个动作的距离,以便捕捉异步动作间的重要交叉特征。底层注意力机制（ intra-view attention )。底层注意力机制用来识别每个行为序列内部对于预测购买意图贡献更多的行为。由于用户当前的行为能够更好地体现用户的实时意图,我们通过计算行为序列内的每个行为与当前行为的相关度作为该行为的注意力分数,计算公式如下：
其中代表 RNN 的最后输出单元。与传统的注意力机制不同的是,我们最后没有采用加权平均的方法得到最终的输出,而是使用元素积（ element-wise product ）的方式得到一个新的行为序列,该行为序列与原始行为序列维度相同,计算公式如下：
其中 hs ,ht 和 hb 代表我们使用的三种行为序列。上层注意力机制（ inter-view attention )。上层注意力机制负责不同行为序列之间的交叉融合。用户的商品相关行为、滑动行为和点击行为从不同角度同时刻画了用户的行为模式。例如,当一个用户对一件商品感兴趣时,在他最终下单前通常会浏览一下该商品的评论并且比较一下其他相似的商品。这个过程会产生一些商品相关行为、滑动行为和点击行为。因此,如何捕捉不同行为之间的交互关系对于用户实时意图的预测至关重要。在这里,我们采用了 Transformer 的自注意力机制思想,如下图所示。
图 2：intra attention mechnism 定两个行为序列,对于其中一个行为序列内部的每个行为,我们计算该行为与另一序列内部每个行为之间的相关性。这样对于每个序列我们会得到一个新的注意力序列,最后我们会通过点击操作连接两个注意力序列,计算公式如下。
4.3 Multi-task Layer
我们希望通过多任务学习更好地捕捉不同的用户行为模式之间的共性以及差别,同时提高模型的泛化能力。为此,我们使用 DIPN 同时预测两种任务：实时购买意图和长期购买意图。由于用户行为模式的复杂性,一些细微的差别往往会导致模型产出错误的结果。而通过同时预测用户的实时意图和长期意图,我们可以提高模型的抗干扰能力。DIPN 的损失函数如下所示：
五、实验
5.1 模型部署
DIPN 模型会通过 AliNN 转换,最终部署在 walle 平台上,并且借助 DBFS 特征服务实时获取模型所需要的用户实时特征,从而达到预测用户实时意图的目的,如图 3 所示。
图 3：情景计算模型部署框架
5.2 测试模型
在本实验中,我们测试 DIPN 模型的效果。除了 DIPN 模型,我们还设计了若干对比实验,各测试模型介绍如下： GBDT：该方法使用【1】中的模型和特征统计方法,同时新加了用户的基础特征和统计特征。我们的目的是通过对比观察用户的端上特征对于用户实时意图预测带来的收益。 RNN+DNN：该方法使用【2】中的 RNN 模型,并且使用 DNN 模型提取用户的基础特征和统计特征。 DIPN-early-fusion：该模型使用了早期融合方式,将三种行为序列按时间顺序拼接在一起。 DIPN-no-attention：该模型没有使用注意力机制。 DIPN-no-intra-view-attention：该模型没有使用底层注意力机制。 DIPN-no-inter-view-attention：该模型没有使用上层注意力机制。 DIPN-no-multi-task：该模型没有使用多任务学习。 DIPN：完整的 DIPN 模型。
表 2：实验结果
5.3 实验结果与分析
实验结果如表 2 所示,通过分析各模型的 AUC ,我们能够得到以下结论。 DIPN 模型效果显著好于单独使用云上行为的 GBDT 和 RNN 模型（ AUC 分别提高 5.6% 和 5.3% ）。这体现了多种数据融合的优势,能够全方位细粒度的刻画用户的行为模式。层级注意力机制在 DIPN 中起着重要作用,能够更好地对多种数据源进行有效的融合。多任务学习可以更好地捕捉不同的用户行为模式之间的共性以及差别,同时提高模型的泛化能力。
5.4 线上 A/B 桶测试
为了进一步验证用户实时意图识别模型在实际场景中的应用效果,我们在去年”双十一”进行的惊喜红包发放场景中进行了线上的 A/B 桶测试。我们设计了如下三个桶进行试验。全发桶：该桶中的全部用户都将得到惊喜红包, 全不发桶：该桶中的全部用户都不会得到惊喜红包, 模型桶：该桶中被模型选中的用户才会得到惊喜红包。
模型桶的策略是选择实时购买概率在给定范围内的目标用户发放惊喜红包。如图4所示,被选中的用户手淘会弹出一个惊喜红包,面值为10元。
图 4：双十一惊喜红包
我们使用红包核销率 Rc 和单红包带动的 GMV 增长 Igmv 作为衡量指标,定义如下：
其中 Nwb 代表一个桶中使用惊喜红包的用户数, Nb 代表一个桶中全部用户数；
其中 Nb 和 Gb 代表一个桶中全部用户数和这些用户贡献的 GMV,Nnon 和 Gnon 代表全不发桶中的全部用户数和这些用户贡献的 GMV 。
表 3：线上 A/B 测试
由上表可以看到,相比于全发桶,模型桶在核销率和单红包带动的 GMV 增长两项指标上分别提升了 41.1% 和 39.8% ,验证了用户实时意图识别模型的效果。
相关工作：
【1】Peter Romov and Evgeny Sokolov. 2015. RecSys Challenge 2015: EnsembleLearning with Categorical Features. In RecSys ’15 Challenge. Article 1, 4 pages.
【2】Humphrey Sheil, Omer Rana, and Ronan Reilly. 2018. Predicting purchasingintent: Automatic Feature Learning using Recurrent Neural Networks. CoRRabs/1807.08207 (2018).
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/66963.html 。

数据分析

2019-07-12 15:00:00

DeepMind向星际玩家们下了战书！你的对手可能是AI，而你毫不知情 | 数据分析网首页分类�

大数据文摘出品
欧洲的星际争霸玩家们即日将有机会和 Deepmind AI打场比赛了！
出战的AI是由DeepMind和暴雪联合培养的,经过了“特别的训练方式”,在星际争霸界 II 早有过赫赫战绩,连续在10场比赛中击败了人类职业选手。
其实,在今年年初的那次交锋总共有11场比赛,只有全球直播现场交手那一次,由于比赛限制了AI的“视觉”能力,MaNa帮人类赢了一场。
另外10场比赛,代表人类出战的是职业选手TLO和MaNa。两位选手分别与AlphaStar打了五场。如果说与TLO对战时AlphaStar还是萌新的话,那么与MaNa的对战则完全显示出了其战术的老辣。毕竟,两个比赛才相隔2周,AI 自学成才的能力已经初步显示了可以超越人类极限的潜力。
AlphaStar VS TLO
那次输给AI后,不少星际争霸 II 的人类玩家都跃跃欲试,希望能亲自挑战AI,但只有少数职业玩家有权与AI对抗。
直到今天,星际争霸官方发推表示,欧洲区星际争霸 II 的玩家,将有机会在限定时间内与 DeepMind 的Alphastar 人工智能对抗。
你的对手可能是只AI,而你毫不知情
作为正在进行的人工智能研究的一部分,DeepMind 星际争霸 II 代理商 AlphaStar 的实验版本很快将在欧洲竞争激烈的平台上与人类玩家对抗。
在官方“战书”中,Deepmind表示,如果你希望有机会和DeepMind 与 AlphaStar 打匹配,你可以点击游戏内部弹出窗口上的”选择加入”按钮进行选择。你可以随时使用1v1 Versus 菜单上的”DeepMind opt-in”按钮来改变你的选择。
为了确保测试数据的真实,玩家不会被告知他们正在和阿尔法星人工智能对抗。因为当玩家知道自己在对抗AI时,他们的反应可能会有所不同。玩家可能会参与社区中所谓的”奶酪策略”,而 AI 可能还没有准备好。
从本质上讲,”奶酪策略”是一种非常规的战略,旨在让对手措手不及。这些游戏不会被纳入AlphaStar的训练中,系统只能从人类回放和自我对战中学习。
AlphaStar是如何训练的？
DeepMind也在今天的博客中描述了AlphaStar的训练方式。
AlphaStar是由一个深度神经网络生成的,它接收来自原始游戏界面的输入数据,并输出一系列指令,构成游戏中的一个动作。更具体地说,神经网络体系结构将transformer框架运用于模型单元(类似于关系深度强化学习),结合一个深度LSTM核心、一个带有pointer network的自回归策略前端和一个集中的值基线。这种先进的模型将有助于解决机器学习研究中涉及长期序列建模和大输出空间(如翻译、语言建模和视觉表示)的许多其他挑战。
AlphaStar还使用了一种新的多智能体学习算法。该神经网络最初是通过在Blizzard发布的匿名人类游戏中进行监督学习来训练的。这使得AlphaStar能够通过模仿学习星际争霸上玩家所使用的基本微观和宏观策略。这个初级智能体在95%的游戏中击败了内置的“精英”AI关卡(相当于人类玩家的黄金级别)。
OMT: 知己知彼,百战百胜？
最后,其实就在上周,一个由澳大利亚开发人员、机器学习工程师和研究人员组成的团队——StarAi就基于星际争霸的人机对抗开发了一个机器学习课程,并且在线免费发布,只用浏览器就能学！不如先去了解一下你的对手,再来试试看胜算有多大呀！
课程链接：
https://www.starai.io/course/
相关报道：
https://www.eassyway.com/starcraft-ii-players-can-now-play-against-deepminds-alphastar-ai-for-a-limited-time/
本文为专栏文章,来自：大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/66854.html 。

数据分析

2019-07-11 19:31:00

10个预训练模型开始你的深度学习（计算机视觉部分） | 数据分析网首页分类阅读行业资

作者：PRANAV DAR
编译：ronghuaiyang
导读对于希望学习算法或尝试现有框架的人来说,预训练的模型是一个很好的帮助。由于时间限制或计算资源的限制,不可能总是从头构建模型,这就是为什么存在预训练模型！
介绍
对于希望学习算法或尝试现有框架的人来说,预训练的模型是一个很好的帮助。由于时间限制或计算资源的限制,不可能总是从头构建模型,这就是为什么存在预训练模型！你可以使用预训练的模型作为基准来改进现有的模型,或者用它来测试对比你自己的模型。这个的潜力和可能性是巨大的。
在本文中,我们将研究在Keras中具有计算机视觉应用的各种预训练模型。为什么Keras ？首先,因为我相信这是一个很好的开始学习神经网络的库。其次,我希望在本文中始终使用一个框架。这将帮助你从一个模型转移到下一个模型,而不必担心框架。
我鼓励你在自己的机器上尝试每个模型,了解它是如何工作的,以及如何改进或调整内部参数。
我们已经把这个话题分成了一系列文章。第二部分将重点介绍自然语言处理(NLP),第三部分将介绍音频和语音模型。我们的目标是让你在这些领域中启动和运行现有的解决方案,这些解决方案将快速跟踪你的学习过程。
目标检测
目标检测是计算机视觉领域中最常见的应用之一。它在各行各业都有应用,从自动驾驶汽车到计算人群中的人数。本节讨论可用于检测对象的预训练模型。你也可以阅读下面的文章来熟悉这个主题： Understanding and Building an Object Detection Model from Scratch in Python ：https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/
Mask R-CNN https://github.com/matterport/Mask_RCNN
Mask R-CNN是一种灵活的对象实例分割框架。这个预训练模型是基于Python和Keras上的Mask R-CNN技术的实现。它为给定图像中的每个对象实例生成边界框和分割掩码(如上图所示)。
这个GitHub库提供了大量的资源,可以帮助你入门。它包括Mask R-CNN的源代码、MS COCO的训练代码和预训练权重、可以通过Jupyter notebooks 来对pipeline的每一步以及其他内容进行可视化。
YOLOv2 https://github.com/experiencor/keras-yolo2
YOLO是一个非常流行的深度学习对象检测框架。这个库包含Keras中YOLOv2的实现。开发人员在袋鼠检测、自动驾驶汽车、红细胞检测等各种目标图像上测试了该框架,并发布了浣熊检测的预训练模型。
你可以在这里下载浣熊数据集（https://github.com/experiencor/raccoon_dataset）,现在就开始使用这个预训练的模型！数据集包含200张图像(160-training, 40-validation)。你可以在这里下载整个模型的预训练权重。根据开发人员的说法,这些权重可以用于一个类的对象检测器。
MobileNet https://keras.io/applications/#mobilenet
顾名思义,MobileNet是为移动设备设计的架构。它是由谷歌建造的。我们在上面已经链接了这个特殊的模型,它在流行的ImageNet 数据库 (它是一个包含数百万张属于20,000多个类的图像的数据库)上提供了预训练的权重。
正如你上面所看到的,MobileNet的应用不仅仅局限于对象检测,它还跨越了各种计算机视觉任务,如人脸属性、地标识别、细粒度分类等。
成熟/生番茄分类 https://github.com/fyrestorm-sdb/tomatoes
如果给你几百张西红柿的图片,你会怎么分类——有缺陷的/没有缺陷的,还是成熟的/未成熟的？谈到深度学习,解决这个问题的关键技术是图像处理。在这个分类问题中,我们需要使用预训练过的Keras VGG16模型来识别给定图像中的番茄是成熟的还是未成熟的。
该模型对来自ImageNet数据集的390幅成熟番茄和未成熟番茄图像进行训练,并对18幅不同的番茄验证图像进行测试。这些验证图像的总体结果如下：
Recall 0.8888889
Precision 0.9411765
F1 Score 0.9142857
小汽车分类
https://github.com/michalgdak/car-recognition
有很多方法来分类一辆车—根据它的车身风格,门的数量,打开或关闭的顶棚,座位的数量,等等。在这个特殊的问题中,我们必须把汽车的图像分成不同的类别。这些类包括制造商,型号,生产年份,例如2012 Tesla model s。为了开发这个模型,我们使用了斯坦福的car数据集,其中包含了196个车型类别的16,185张图片。
使用预训练的VGG16、VGG19和InceptionV3模型对模型进行训练。VGG网络的特点是简单,只使用 3×3 卷积层叠加在一起,增加深度。16和19代表网络中权重层的数量。
由于数据集较小,最简单的模型,即VGG16,是最准确的。在交叉验证数据集上,VGG16网络训练的准确率为66.11%。更复杂的模型,如InceptionV3,由于偏差/方差问题,精度较低。
人脸识别和重建
人脸识别在深度学习领域非常流行。越来越多的技术和模型正在以惊人的速度发展,以提升识别技术。它的应用范围很广——手机解锁、人群检测、通过分析人脸来分析情绪,等等。
另一方面,人脸重建是由人脸的近距离图像生成三维模型人脸。利用二维信息创建三维结构化对象是业界的另一个深思熟虑的问题。面部再生技术在电影和游戏行业有着广泛的应用。各种CGI模型都可以自动化,从而节省了大量的时间和金钱。
本文的这一部分讨论这两个领域的预训练模型。
VGG-Face Model
https://gist.github.com/EncodeTS/6bbe8cb8bebad7a672f0d872561782d9
从零开始创建人脸识别模型是一项艰巨的任务。你需要查找、收集并标注大量图像,才能有希望构建一个像样的模型。因此,在这个领域中使用预训练的模型很有意义。
VGG-Face 是一个包含2,622个唯一身份的数据集,包含200多万张面孔。该预训练模型的设计方法如下： vgg-face-keras: 直接将vgg-face模型转换为keras模型 vgg-face-keras-fc: 首先将vgg-face Caffe模型转换为mxnet模型,然后再将其转换为keras模型
从单张图像重建3D人脸
https://github.com/dezmoanded/vrn-torch-to-keras
这是一个很酷的深度学习的实现。你可以从上面的图像中推断出这个模型是如何工作的,以便将面部特征重构成一个三维空间。
这个预训练模型最初是使用 Torch 开发的,然后转换到Keras。
分割
图像语义分割—Deeplabv3+
https://github.com/bonlime/keras-deeplab-v3-plus
语义图像分割的任务是为图像中的每个像素分配一个语义标签。这些标签可以是“天空”、“汽车”、“道路”、“长颈鹿”等。这种技术的作用是找到目标的轮廓,从而限制了精度要求(这就是它与精度要求宽松得多的图像级分类的区别)。
Deeplabv3是谷歌最新的语义图像分割模型。它最初是使用TensorFlow创建的,现在已经使用Keras实现。这个GitHub库还提供了如何获取标签的代码,如何使用这个预训练的模型来定制类的数量,当然还有如何跟踪自己的模型。
手术机器人图像分割
https://github.com/ternaus/robot-surgery-segmentation
该模型试图解决机器人辅助手术场景下手术器械的图像分割问题。问题进一步分为两部分,具体如下: 二值分割: 图像中的每个像素都被标记为一个工具或背景多类分割: 将不同的仪器或仪器的不同部分与背景区分开来
该预训练模型基于U-Net网络体系结构,并通过使用最先进的语义分割神经网络LinkNet和TernausNet进一步改进。对8×225帧高分辨率立体相机图像序列进行训练。
杂项
图像描述
https://github.com/boluoyu/ImageCaption
还记得那些游戏吗？在那些游戏中,你会看到一些图片,然后你必须为它们配上说明文字。这就是图像标题的基本含义。它使用了NLP和计算机视觉的结合来产生字幕。长期以来,该任务一直是一个具有挑战性的任务,因为它需要具有无偏置图像和场景的大型数据集。考虑到所有这些约束条件,该算法必须对任意给定的图像进行推广。
现在很多企业都在利用这种技术,但是你如何使用它呢解决方案在于将给定的输入图像转换为简短而有意义的描述。编码-解码器框架被广泛应用于这一任务。图像编码器是一个卷积神经网络(CNN)。
这是一个在 MS COCO数据集上的VGG 16预训练模型,其中解码器是一个长短时记忆(LSTM)网络,用于预测给定图像的标题。要获得详细的解释和介绍,建议你继续阅读我们关于[ 自动图像标题 ]的文章(https://www.analyticsvidhya.com/blog/2018/04/solving-animage-title -task- use -deep-learning/)。
结束语
深度学习是一个很难适应的领域,这就是为什么我们看到研究人员发布了这么多预训练过的模型。我个人使用它们来理解和扩展我对对象检测任务的知识,我强烈建议从上面选择一个领域,并使用给定的模型开始您自己的旅程。
英文原文：https://www.analyticsvidhya.com/blog/2018/07/top-10-pretrained-models-get-started-deep-learning-part-1-computer-vision/
本文为专栏文章,来自：AI公园,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/66209.html 。

数据分析

2019-07-11 14:55:00

大数据文摘出品
来源：Nature
编译：魏子敏、宁静
在开发通用人工智能的过程中,训练和评估算法同样重要。
评估指标不仅仅在培训结束时发挥作用,并且也是整个培训过程中智能体进化的关键驱动因素。
错误的排序和不合理的限制可能会让AI自行进化出奇怪的“心眼”。在之前我们的一篇报道中就总结了错误的评估方式导致的AI“钻空子”训练法,比如在让AI玩俄罗斯方块的时候,发现最佳完成任务的方式是直接暂停游戏；在玩井字棋的时候,AI发现它如果做出奇怪的步骤,对手会非常崩溃。
Deepmind 一直致力于研发多智能体的训练算法,并且很看重过程中的评估。他们刚刚发布了一种新的为智能体进行排名的方法,α-Rank。这是一个基于新的动态博弈理论的解决方案,被称为Markov-Conley Chains（MCCs）。这一解决方案可以确保唯一的、切实存在,并且可进行可处理的计算。这些属性允许对大型多智能体进行交互排名,并且规模也超出了之前的研究。
这一研究方法本月初在《自然》杂志的Scitentific Reports上被发布
论文获取链接
https://www.nature.com/articles/s41598-019-45619-9.pdf
支撑α-Rank的进化观点是,游戏中的智能体之间通过相互作用,构成了一个不断变化的种群的动态系统,其中较为强大的代理会复制并取代较弱的对应物。
为了计算智能体之间的排名,α-Rank在从一个智能体向另一个演化的过程中会构建出一个图表（如下图）。这一群类在游戏过程中花费的平均时间就构成了每个智能体的评级数据。
当前存在的模型基本上受限于智能体的数量、交互类型（超过二元）和经验游戏的类型（对称和非对称）这些维度中的一个或者多个,并且不能保证收敛到期望的游戏理论解决方案概念（通常是纳什均衡）。α-Rank自动提供对评估中的代理集合的排名,并提供相关组件的优势、弱点和长期动态的分析。
与纳什均衡（一种仅基于固定点的静态解决方案概念）相比,MCCs是基于马尔可夫链、康利在动力系统的指数理论,以及动力系统的核心要素——固定点、循环集、周期轨道和极限环。Deepmind在论文中引入数学证明,不仅提供现有连续和离散时间进化评估模型的总体和统一视角,而且揭示了α-Rank方法的正式基础。
目前,Deepmind已经在几种游戏中说明了这种方法,并在几个领域进行了经验验证,包括AlphaGo,AlphaZero,MuJoCo Soccer和Poker。
论文的主要贡献在三个方面：引入多种群离散时间模型,即使在非对称游戏中也可以进行多玩家互动的进化分析； MCC解决方案概念的引入,一种新的游戏理论概念,捕捉多智能体交互的动态,以及与离散时间模型的连接；提出α-Rank：一般多种群设置的具体排序策略/算法。
论文结构的思维导图如下图所示,每个章节包含的内容以及之间的联系很直观地反映出来,方便读者阅读。
相关报道：
https://www.nature.com/articles/s41598-019-45619-9
本文为专栏文章,来自：大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/66746.html 。

数据分析

2019-07-10 17:31:00

如何使用无监督机器学习来发现隐藏的科学知识？ | 数据分析网首页分类阅读行业资讯 �

Credit: Olga Kononova
跟上新科学文献出版的速度变得越来越困难。一个研究人员可能要花几个月的时间对一个主题进行广泛的文献综述。如果一台机器能在几分钟内读完所有发表过的关于这个特定话题的论文,并告诉科学家前进的最佳道路,可能这种现象离我们还很远,但是我们下面描述的研究提出了一种新颖的方法,利用科学文献进行材料发现,而不需要人类的监督。
为了使计算机算法使用自然语言,单词需要用某种数学形式表示。2013年,算法Word2vec的作者发现了一种有趣的方法,可以从大量文本中自动学习这种表示。文本中出现在相似上下文中的单词通常具有相似的含义。因此,如果训练神经网络预测目标词的邻近词,它将学习相似的目标词的相似表示。它们表明,单个单词可以有效地表示为高维向量(嵌入),单词之间的语义关系可以表示为线性向量操作(参见这里的教程,其中更详细地解释Word2vec)。这种语义关系的一个著名例子就是表达式。
” king ” – ” queen “≈” man ” – ” woman ” (1),
即在对应单词的向量之间进行减法。(1)两侧词对之间的语义关系代表了性别的概念。
图1:对应的嵌入之间的线性操作捕获成对单词之间的类比。
当然,如果我们使用纯科学文本而不是普通的文本来源,如普通爬行或Wikipedia,在我们的例子中,是数百万个材料科学摘要,那么这些向量操作嵌入了更专业的知识。例如,
“ZrO2” – “Zr” ≈ “NiO” – “Ni”,
其中上述表达式表示氧化物的概念。
语义关系的另一个例子是单词相似性,由嵌入的点积(投影)决定。在原来的Word2vec模型中,单词”large”和”big”有相互接近的向量(有一个大的点积),但是远离”Armenia”的向量。在我们的专业模型中,与”LiCoO2″最相似的单词是”LiMn2O4″——它们都是锂离子电池的阴极材料。事实上,如果我们使用t-SNE在二维平面上投影≈12000种最受欢迎的材料(文中提到的超过10种),我们发现材料大多是根据它们的应用和组成相似性聚类的。
用于类似应用以及具有类似化学成分的材料聚在一起。每个”应用程序集群”中最常见的元素与我们的材料科学知
现在,我们可以做一些更有趣的事情,并根据特定的应用程序为图2左上角的”material map”着色。每一个对应于单一材料的点都可以根据其嵌入与应用词的嵌入的相似性来着色,例如”热电”。
材质根据与application关键字的相似度”light up”
正如你们许多人可能已经猜到的那样,上图中最亮的点是众所周知的热电材料,它们在科学文摘中与”热电”一词一起被明确地提到。然而,其他一些亮点从未作为热电学,因此该算法表明了文本中没有明确写的关系。问题是,这些材料能成为良好的尚未被发现的热电材料吗？令人惊讶的是,答案是肯定的!
我们测试这个假设的几种方法之一是训练单词嵌入,就像我们仍然在过去一样。我们每年删除2000年至2018年间发表的科学摘要,并训练了18种不同的模型。我们使用这些模型中的每一种,根据它们与热电材料的相似度†(图3中颜色的强度)对材料进行排序,并选取了当年未被作为热电材料研究的前50名。事实证明,这些材料中有许多后来在未来几年被报道为热电材料,如下图所示。
如果我们每次回到过去的一年,只使用当时可用的数据进行预测,那么现在很多预测都已经实现了。
事实上,2009年最热门的5个预测之一应该是CuGaTe2,它被认为是目前发现的最好的热电直到2012年才被发现。有趣的是,当我们正在准备和审查中,我们用所有可用的摘要做出的50个预测中有3个也被报道为良好的热电学。
那么,这一切是如何运作的呢我们可以通过预测材料的上下文单词来得到一些线索,看看这些上下文单词中哪些与材料和应用关键词”热电”有很高的相似性。下面列出了我们的前5个预测中,有3个最具贡献的上下文单词。
对预测贡献最大的前5个预测中的3个的上下文单词。连接线的宽度与单词之间的余弦相似度成正比。
该算法有效地捕获了对热电材料非常重要的上下文单词(或者更精确地说,上下文单词的组合)。作为材料科学家,我们知道,例如chalcogenides(一类材料)通常是很好的热电材料,而且在大多数情况下,带隙的存在是至关重要的。我们可以看到算法是如何通过单词的同时出现来学习这一点的。上面的图表只捕获了一阶连接,但是更高阶的连接也可能有助于预测。
在科学应用中, 自然语言处理 (NLP)几乎总是被用作从文献中提取已知事实的工具,而不是用来进行预测。这与股票价值预测等其他领域不同,例如,对有关该公司的新闻文章进行分析,以预测其股票价值在未来将如何变化。但是即使这样,大多数方法仍然将从文本中提取的特性提供给其他更大的模型,这些模型使用结构化数据库中的附加特性。我们希望这里描述的思想将鼓励直接的、无监督的NLP驱动的科学发现推理方法。Word2vec并不是最先进的NLP算法,所以很自然的下一步就是用更新颖的、上下文感知的嵌入替换它,比如BERT[5]和ELMo。我们还希望,由于这里描述的方法需要最少的人力监督,其他科学学科的研究人员将能够使用它们来加速机器辅助的科学发现。
最后
获得良好预测的关键一步是对材料使用输出嵌入(Word2vec神经网络的输出层),对应用关键词使用word嵌入(Word2vec神经网络的隐含层)。这可以有效地转化为预测摘要中单词的共同出现。因此,该算法正在识别研究文献中潜在的”缺口”,比如未来研究人员应该研究的用于功能应用的化学成分。详见原出版物补充资料。
我们用于Word2vec训练和预培训嵌入的代码可以在 GitHub – materialsintelligence/mat2vec: Supplementary Materials for Tshitoyan et al. “Unsupervised word embeddings capture latent knowledge from materials science literature”, Nature (2019). 中找到。代码中的默认超参数是本研究中使用的超参数。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2019-07-10 14:16:00

为什么机器人不会取代我们的工作？ | 数据分析网首页分类阅读行业资讯大数据统计学

数字化工作场所正在减轻我们的日常工作,但自动化是否需要付出代价？
我们已经习惯了流程的简化,重复性工作的自动化,沟通的简单化。但越来越多人担心我们每天使用的日益强大的机器可能成为上班族的死亡之吻。
随着工作场所的不断发展,企业寻求更快、更便宜、更简单的方法,人们越来越担心自动化会摧毁行业,迫使无数工人丢掉工作。虽然人与机器的争论不断,但数字化转型已经逐步渗透到我们的日常工作中。
从表面看,找到捷径是很棒的。我们可以绕过重复性的工作,跳过文件整理,与世界各地的同事联系。因此,数字化工作场所已经成为世界各地办公室的一项重要发展。
但代价是什么呢
机器人、人工智能和数字化正在慢慢取代我们的工作吗我们很快会面临失业经济吗
当有人散布恐慌时,我们需要了解实际情况。虽然我们会听到这样的结论：总有一天,地球上的人类将被计算机取代,但研究表明,技术、自动化和变革不仅可以使普通工人的生活变得更好,还可以通过创造新的产业、创新和发展来增加就业市场。
汽车自动驾驶、零售机器人为我们推荐合适的牛仔裤款式、冰箱提醒我们牛奶变质——我们正生活在一个激动人心的时代。在过去的15年里,技术有了明显的增长,现在我们的工作环境已经非常数字化。尽管新设备和新体验让人兴奋不已,但人们也担心随着科技发展,会有越来越多的工作岗位流失。人们并不明确自动化可以完成哪些任务,整个劳动力中存在一种低水平的恐慌。
当然,以前我们也经历过这样的阶段。在18世纪和19世纪工业革命期间也有类似的焦虑。这一时期纺织和钢铁工业向动力、专用机械、工厂和大规模生产转变。将劳动力从家庭转移到工厂,专用机械取代手工工具,以及农业社会向城市扩张转变,使得民众歇斯底里。勒德分子的起义,对工作条件的抗议,以及对机器将工作从工人手中夺走的恐惧,都源于这种偏执。
听起来熟悉嘛？类似的预兆正在发生。随着机器自动化的逐步推进,有好几代人与数字时代隔绝,有价值数十亿美元的组织因工作环境危险而受到批评,也有越来越多的人担心我们容易受到自动化的影响……但我们应该有多害怕呢？
19世纪如何为21世纪提供经验教训
如果我们回顾18世纪,可以看到与今天的相似之处。工业革命是一个巨大而混乱的庞然大物,它的变革最终带来了相对的和谐。在此过程中,这种变革产生了许多负面影响。非技术工人几乎没有工作保障,劳动往往非常危险,许多工厂工人的工资很低。这些条件最终促成了劳工改革和工会形成。尽管人们担心大规模失业,但显而易见技术进步正在造福社会的所有阶层,包括工人阶级。对变革负面影响的担忧减少,勒德运动被宣布为谬误。这是一个不可避免的转变,在其过程中留下了一些废墟,但在很大程度上要感谢自由企业的前进步伐。
同样的事情会发生在21世纪吗
从愤世嫉俗的角度来看,很容易列举出机器相对于人类的优势。“它们总是彬彬有礼,总是会追加销售,从不休假,从不迟到,从不打滑摔倒,也不会有年龄、性别或种族歧视的情况。”当时的餐饮连锁企业哈迪食品系统公司(Hardee ‘s Food Systems Inc )首席执行官发表了这样的言论,让工人们有理由担心失业经济即将到到来。找一个能胜任工作的机器人,你就把一个人类扔进了垃圾堆,是吗
世界银行的《2019年世界发展报告》(World Development Report 2019)认为,事实并非如此。该报告提出,尽管自动化取代了工人,但总体而言,技术创新创造了更多的新产业和就业岗位。机器人正在取代工人,但技术变革也创造了数百万个就业岗位。事实是,尽管劳动力将需要围绕技术变革改造自己,但优势是充足的。
不能忽视人们对失业经济的担忧,但也有必要指出,目前失业的影响是无法量化的。对于自动化的范围和效果,没有提供准确数字的确切来源。
根据这份报告,玻利维亚的工作自动化估计在2%到41%之间,因此10万到200万个工作岗位可以实现自动化。在日本,可被自动化取代的岗位猜测在6%到55%之间。
这样的猜测并不能真正说明自动化对就业的威胁。相反,有更多关于自动化如何在就业市场上实现就业岗位的巨大增长的信息。
数字化工作场所中工作角色的消长
以数字化工作场所为例。传统的办公室在过去的五十年里发生了巨大的变化。打字小组、秘书等都不见了。现在,办公室围绕其工作人员的各种需求打造——无论是远程工作人员、自由职业者、承包商还是长期员工。
数字化转型逐步减少了办公环境中的一些工作岗位。在微观层面上,我们可以把它与更大范围内正在发生的事情联系起来。自动化正在全面发生,从行政到会计,从IT到人力资源。尽管这一进程缓慢而稳定:先是计算机的问世,再是互联网的兴起,然后是唾手可得的免费软件——但20世纪90年代的办公室与21世纪的办公室之间的差别,相当于昼与夜的差别。
我们受苦了吗不,没有。唯一真正的变化是,那些进入办公室的年轻员工不得不改变他们的技能,作为数字游民,这是非常自然的。我们现在不再训练用账簿纸记账,也不再学习传统的制图技术,我们有软件来为我们做这些。然而,扮演这些角色的人并没有失业。他们正在控制软件,并在其他领域提高自己的技能。自动化和计算机化使事情变得更容易、更可扩展、更快、更高效。根据研究,它也使我们更快乐。
《正确的技术释放数字工作场所的潜力》(The Right Technologies Unlock The Potential of The Digital Workplace),这项研究涵盖了15个国家的7000名员工。研究发现,在更先进的数字工作场所和那些使用数字技术程度较低的工作场所之间,员工的表现和情绪存在明显的差距。有几点是显而易见的:
生产力之外,数字工具带给人类的好处: “数字革命者”——在技术广泛使用的全功能数字化工作场所工作的员工,相比于“数字落后者”——那些在很少使用数字技术的工作场所工作的员工,工作满意度超出51%,对工作与生活平衡持积极态度的高出43%。此外,有60%以上的“数字革命者”表示自己在工作中更有动力,91%的员工称赞公司的愿景。
数字化也是专业发展的基础: 该报告强调,65%的革命者使用数字技术积极促进专业发展,落后者只有31%。在员工方面,72%的革命者报告说他们接受新工作技能的能力比落后者高58%。
数字技术提高了可量化的生产率: 73%的数字革命者表示,他们的生产率受到了积极影响,70%的人表示,数字技术改善了合作。
技术进步如何创造更好的工作体验: 自动化很可能被视为对工作的威胁。然而研究发现,人们对它有着广泛的热情。当谈到在未来创建一个完全自动化的工作场所,以允许组织构建更智能、更有效的工作环境时,71%的受访者表示他们支持这样的发展。
工人和工作场所在哪里相遇
从我们所看到的情况来看,技术和自动化并不是要取代工作。它们正帮助我们走向一个充满人性的工作场所。员工不只是按照传统的要求来塑造自己,现在公司也在满足员工的期望。
普通办公室可以包含四代人——这是有史以来在工作中共存的最多的几代人。公司知道,为了充分发挥每个人的潜力,他们必须适应不同年龄和个性的工作方式。 “无论在哪个行业,我们都看到了以人为本的趋势,因为企业都在努力满足人们对工作方式的快速变化的期望。这取决于将科技进步(包括家具)与认知科学结合起来,帮助人们以新的方式参与工作。这不仅意味着为个人提供独特的优质体验,还为组织吸引和留住最优秀的人才提供了机会。”
——Joseph White, Director of Workplace Strategy, Design and Management, Herman Miller. “工作场所”一词的本质正在发生变化,因为企业开始意识到,有效的空间是以体验为中心的,必须适应跨越几代人的工作风格。在这样的空间里,IT解决方案、建筑系统和家具与人类和谐互动。无论您的企业具体情况如何,当空间成为用户体验的积极参与者时,它都将带来利润。毕竟,在一个空间里感到舒适的员工会定额完成他们的任务,其他人终会转向一个更诱人的选择。”
——Francisco Acoba, Managing Director for Deloitte Strategy & Operations.
劳动力的发展
技术正在改变劳动力市场上获利的技能。虽然我们看到体力劳动、日常工作和任何可以自动化的工作都在减少,但其他技能是安全的。目前,一般的认知技能,如批判性思维和社会行为技能,如管理和识别情绪,可以增强团队合作,是无法被机器人完全复制的。数据录入员职位可能会减少——计算机可以在瞬间加载、归档和分类信息。另一方面,在工作中接待、支持和评估个人的职业人,其技能不太可能仅靠机器人来复制。拥有这些技能的人更能适应市场的变化,他们可以将自己的专业技能调整到其他行业。
最终,虽然我们知道技术会替代工作岗位,但我们无法预测技术将把我们带到哪里。同样,我们也不知道有多少新的工作和职业将由技术产生。进入职场的几代人已经意识到,为了维持生计,他们需要适应环境,致力于持续的培训和学习,并定期更新技能。
研究显示,数字化驱动的工作场所带来的商业和人类利益超过任何固有风险。那些技术不太先进的公司面临着落后于竞争对手、无法吸引顶尖人才的风险。简而言之,阻碍不可避免的技术发展将对员工和企业造成不利影响！
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2019-07-10 11:46:00

数据分析师的“无界画布”：实时交互预测，可拖拽的AutoML系统 | 数据分析网首页分类阅

大数据文摘出品
来源：MIT
编译：洪颖菲、曹培信
还记得《复仇者联盟2》里面钢铁侠和班纳博士创造奥创的时候,使用全息投影将三维数据投射到空气中,然后直接用双手操控这些数据的画面吗？
遗憾的是,这样的系统目前尚未成为现实。
是什么限制了我们像钢铁侠一样操作数据呢？如果暂时还想不到答案,不如我们先来看一下要实现这个需要哪些技术吧。
首先肯定是全息投影,很多人可能认为,限制这个技术的肯定是没有这么好的全息投影,诚然,全息投影目前还尚未成熟,但是以目前的发展来看,并不是说现有的技术不能将数据表实时投影到三维空间中,还记得五月中旬被Magic Leap收购的Mimesys公司么？我们来看看这家公司已经将全息投影做到什么地步了。
建筑模型和人都进行了全息投影,而且人还可以对模型进行交互操作,是不是有点赛博朋克？
也就是说,尽管在边界的处理还存在一些瑕疵,但是将数据表投影到空气中并进行操作,并不是遥不可及的。
那是究竟什么封印了Stark的出现？
答案是智能。因为就算我们将各种数据表投影到了空气中,并且各种诸如手环、指环的传感器也能够将我们的动作反映给计算机形成指令,但是如果没有智能,我们实现的仅仅就是用了更加炫酷的姿势来操作 Excel 而已。你将一个表格拖过来,也就实现了ctrl+c&ctrl+v。
两家高校的研究员正在尝试突破这个瓶颈。
不久之前,麻省理工学院和布朗大学的研究人员开发了一个在触摸屏上运行的交互式智能数据分析系统,名为Northstar,该系统在云中运行,而且其界面支持任何触摸屏设备,包括智能手机和大型交互式显示屏。
更关键的是,它可以根据用户操作实时生成机器学习模型,从而在其数据集上运行预测任务。
而这,得益于一项新的AutoML组件：VDS 迄今为止最快的交互式AutoML工具——VDS
VDS首先出现在ACM SIGMOD会议上发表的一篇论文中,利用的是现在比较火的人工智能技术——自动机器学习(AutoML),它可以让没有数据科学知识的人根据他们的数据集训练AI模型进行预测。
例如,医生可以使用该系统来帮助预测哪些患者更容易患某些疾病,而企业主也可以通过该系统预测销售情况。用户也可以通过使用交互式显示屏进行实时协作。这个系统的目的是使用户更容易进行复杂的数据分析,同时保证分析的速度和准确度,在此基础上实现数据科学的大众化。
“即使是不了解数据科学的咖啡店老板也应该能够预测未来几周内他们的销售情况,以确定要进多少货”,论文的共同作者和长期担任Northstar项目的负责人Tim Kraska说。他是麻省理工学院计算机科学和人工智能实验室(CSAIL)的电气工程和计算机科学副教授,也是新数据系统和人工智能实验室(DSAIL)的创始人之一。
目前,自动机器学习技术的优化基于DARPA D3M自动机器学习竞赛,该竞赛每六个月决出一次性能最佳的AutoML工具。数据分析师的“无界画布”
这一新成果建立在麻省理工学院和布朗研究员在Northstar的多年合作基础之上。四年多来,研究人员发表了大量论文,详细介绍Northstar组件,包括交互式界面,多平台操作,加速运行结果以及用户行为研究。
Northstar系统以空白白色界面开始。用户将数据集上载到系统之后,该数据集会显示在左侧的“数据集”框中。任何数据标签都会自动填充进界面下方的“属性”框。界面上还有一个“运算符”框,其中包含各种算法 ,以及新的AutoML工具。所有数据都在云中存储和分析。
下面让我们用一个例子详细论述：
设想一群医学研究人员,他们想要探究某年龄组中特定疾病并发可能性。
他们将模式检查算法拖放到界面中间,该算法最初显示为空白框。
作为输入,他们将标记好的疾病特征如“血液”、“传染性”和“代谢”移动到算法框中。
随后,算法框中就会显示这些疾病的百分比。如果他们将“年龄”特征拖到界面中,该界面就会出现另外一个框,框内会显示患者年龄分布的条形图。
最后,在两个框之间画一条线将它们连接在一起,算法就会立即自动计算围绕不同年龄范围的三种疾病的关联和并发现象。
“这就像一个大而无界的画布,你可以在这里展示你想要的一切”,Northstar互动界面的主要开发者的Zgraggen说,“你还可以将所有内容链接在一起,以处理更复杂的问题”。
通过VDS,用户现在还可以通过个性化模型,使其适合自己的分析任务,并在自己的数据集上进行预测分析,例如数据预测,图像分类或分析复杂图形结构。
以上述的医学探究为例,医学研究人员希望根据数据集中的特征预测哪些患者可能患有血液疾病。他们从算法列表中将“AutoML”拖入数据集中。系统首先会产生一个带有“目标”标签的空白框。研究人员将“血液”这一标签拖到空白框。系统将自动找到性能最佳的机器学习算法,以不断更新的精度百分比的选项卡显示。用户可以随时停止该过程,优化搜索,并检查每个模型的错误率,结构,计算和其他事项。
请看视频演示：实时智能交互,才是真正的交互
据研究人员的介绍,VDS是迄今为止最快的交互式AutoML工具,这部分归功于他们定制的“估算引擎”。引擎位于界面和云存储之间。引擎自动创建数据集的几个代表性样本进行逐步处理,从而在几秒钟内生成高质量的结果。
“我们花了两年时间设计VDS,使之契合数据科学家的思维方式,”论文的另一位作者Shang说。VDS可以根据各种编译规则,立即确定哪些模型和预处理步骤是不是应该为用户提前实现。
在机器学习模型的选择上,它可以从那些大量的机器学习算法列表中选择并在样本集上运行模拟,同时记录结果并优化选择。在提供快速近似结果后,系统还会在后端细化结果。
“至于预测,用户不希望等待四个小时才能获得第一个结果。用户希望看到实时发生的事情,这样如果发现了错误,用户可以立即纠正它。但这在任何其他系统中通常是不可能的”,Kraska说。
研究人员在300个真实数据集上对工具进行评估。与其他最先进的AutoML系统相比,VDS预测的准确度大致相同,但VDS的预测结果可以在几秒钟内生成,这比其他工具快得多,后者往往需要在几分钟到几小时内才能运行出结果。
有了Northstar的VDS组件,我们得到了一个二维空间的交互式智能数据分析系统,也许离钢铁侠的实验室还有点距离,但是如果有一天Northstar将全息投影加到下一代分析系统中,那么——也许我就可以坐在沙发上小手一挥：“Javis,把我这个表做好发给老板。”
相关报道：
https://www.csail.mit.edu/news/drag-and-drop-data-analytics
本文为专栏文章,来自：大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/66669.html 。

数据分析

2019-07-10 11:24:00

AI芯片独角兽寒武纪获数亿美元B轮融资，估值达25亿美元 | 数据分析网首页分类阅读行业

今日获悉,全球智能芯片领域独角兽寒武纪宣布完成数亿美元B轮融资,本轮融资由中国国有资本风险投资基金、国新启迪、国投创业、国新资本联合领投,中金资本、中信证券投资&金石投资、TCL资本、中科院科技成果转化基金跟投,原股东元禾原点、国科投资、阿里巴巴创新投、联想创投、中科图灵继续跟投支持。该轮融资后,寒武纪整体估值达25亿美元。
据公开资料显示,寒武纪成立之初曾获得来自中科院的数千万元天使轮融资；2016 年 8 月获得来自元禾原点、科大讯飞、涌铧投资的Pre-A轮融资；2017年8月18日,公司宣布完成A轮1亿美元融资,领投方为国投创业,阿里巴巴、联想、国科投资、中科图灵加入,原Pre-A轮投资方元禾原点创投、涌铧投资继续跟投。
近一年来, AI 芯片公司频频获得融资,云端芯片也占据了越来越重要的地位,并成为诸多AI芯片企业即将争夺的下一个入口。
目前的AI芯片可以分为云端(服务器端)和终端(移动端)芯片的两大使用场景。大多研发AI芯片的公司都侧重于其中一端,诸如英伟达、英特尔、IBM和谷歌主要侧重于云端芯片的研发,而ARM、地平线和深鉴科技主要侧重终端芯片的开发。值得一提的是,寒武纪在终端和云端方面均有入局。
去年11月,寒武纪科技曾发布了三款全新的智能处理器 IP 产品：面向低功耗场景视觉应用的寒武纪 1H8、拥有更广泛通用性和更高性能的寒武纪1H16、以及可用于终端人工智能产品的寒武纪1M。
这三款新品相比2016年其发布的全球首款商用深度学习专用处理器“寒武纪1A处理器”,在功耗、能效比、成本开销等方面都进一步优化,适用范围覆盖了图像识别、安防监控、智能驾驶、无人机、语音识别、自然语言处理等各个重点应用领域。
终端方面 ,寒武纪以处理器IP授权的形式进行技术成果的分享,使得全球客户能够快速设计和生产具备人工智能处理能力的芯片产品。例如,手机或者电脑等智能终端嵌入寒武纪处理器后,可对图片、音频等的理解速度能提升近百倍。
云端部分 ,将主要提供高性能、低功耗、高性价比的智能处理芯片。根据猎云网（微信： ilieyun ）的报道, 在今年5月上海的产品发布会上 ,寒武纪发布了最新一代终端IP产品-Cambricon 1M,和首款云端智能芯片MLU100及搭载MLU100的云端智能处理卡。
MLU100可与寒武纪发布的1A/1H/1M等系列终端处理器相互搭配,实现终端和云端协同处理复杂的智能计算任务。
寒武纪首款云端智能芯片MLU100
彼时,寒武纪创始人兼CEO陈天石博士还透过一份公开信表示：“MLU100芯片是寒武纪发展历程上全新的里程碑,标志着寒武纪已成为中国第一家（也是世界上少数几家）同时拥有终端和云端智能处理器产品的商业公司。”
关于寒武纪的市场拓展,陈天石认为,寒武纪将力争在3年之后占有中国高性能智能芯片市场 30% 的份额,并使得全世界10亿台以上的智能终端设备集成寒武纪终端智能处理器。如果这两个目标能够实现,寒武纪将“初步支撑起中国主导的国际智能产业生态”。
当然,随着人工智能芯片领域的战争越来越激烈,除了技术层面的突破,拼抢占到更多应用场景才是根本。当前AI芯片行业应用中,有四个最为火热的商业场景,分别为家居或消费电子、安防监控、自动驾驶汽车、以及云计算。
今年4月,在“猎云网&AI星球2018年度人工智能产业峰会”上, 寒武纪副总裁钱诚就曾在演讲中详细介绍深度学习处理器的相关信息,包括寒武纪专攻的细分领域、深度学习的具体应用等。
钱诚表示,寒武纪的智能芯片主要应用于三个细分领域：
一是消费类电子产品,这类产品需要有弹性的算法,多数是点技术；
二是工业方面,例如在交通方面需要用到系统性的人工智能技术,对技术的需求是刚性的；
第三方面,就是点技术和系统技术进行融合,最后形成生态。钱诚表示,寒武纪目前所做的大数据、云端智能研发,就是要形成一个整体的生态,这三个细分领域对计算能力和智能芯片的需求非常旺盛,有可能形成几万亿的市值。
人工智能时代与工业化时代、信息化时代一样,离不开最核心的物质载体。他把人工智能芯片比作高端发动机这一有着较高门槛的产品,认为研发智能芯片要拥有核心技术,只有将架构、材料、算法等多个领域的高端技术进行综合才能产生划时代的产品。而一旦研发出划时代的产品,即可在该领域抢得1~2年的先机。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-06-20 06:53:00

小白学统计（16）离散型随机变量概率分布——超几何分布 | 数据分析网首页分类阅读行

超几何分布是统计学上一种重要的离散概率分布。它描述了由有限个物件中抽出 n 个物件,成功抽出指定种类的物件的个数（不归还）。
例如：在有 N 个样本,其中 m 个是不合格的。超几何分布描述了在该 N 个样本中抽出 n 个,其中 k 个是不合格的的概率：
或者
上式可如此理解：Cmk表示所有在 N 个样本中抽出 n 个的方法数目。CNn表示在 m 个不合格样本中,抽出 k 个的方法数目。C(N-m)(n-k)表示剩下来的样本 N-m 都是及格的,从中抽取出 n-k 个的方法数目。
若 n =1,即从 N 个样品中抽取一件,恰好抽到不合格样品的概率,此时,超几何分布可以还原为伯努利分布。（伯努利分布内容请见文章——离散型随机变量）
若 N 无穷大,归还和不归还对于样品整体的不合格样品率没有影响,此时,超几何分布可视为二项分布,在实际应用时,只要 N >=10 n （取样数小于样本总体数的十分之一）,就可用二项分布近似描述不合格品个数。（二项分布内容请见文章——二项分布）
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-08-16 13:32:00

机器学习专家张栋：我看到的机器学习及其应用 | 数据分析网首页分类阅读行业资讯大�

我们真的非常幸运,作为技术人,如果早生十年,当时没有足够快的运算和足够大的数据,做机器学习的无用武之地;如果晚生十年,好玩的机器学习难题可能都被前人解完了,会很无聊。
我是2007年博士毕业的,应该是最早把机器学习技术应用在中国互联网的一批人。其实在过去很多年,国外很多互联网和金融公司已经大量使用机器学习技术。中国的互联网公司大规模使用机器学习技术是从2007 – 2009年开始的。什么是机器学习机器学习这个词是和大数据连接在一起的：大数据的作用,从本质上讲,是提升各行各业的效率,而机器学习是求解大数据问题最有效的工具。
在移动互联网时代,个性化引擎变得非常重要!因为手机屏幕小,每屏展示的内容少,个性化变得特别重要。移动互联网,基于机器学习的个性化引擎技术催生了几个公司,比如在新闻资讯领域的今日头条、在短视频领域的快手和美拍、在电商领域的什么值得买、美丽说和蘑菇街等公司,这些公司都是伴随移动互联网起飞的,后台都有一个强大的个性化引擎。
2011年之后,我个人的兴趣是想通过机器学习算法构建一套新的搜索引擎。因为最早的搜索引擎是构建在“规则”系统之上的,规则从几百个到几万个,由很懂用户体验的产品经理设计,早期效果很好!
但是随着互联网发展,互联网上的内容爆炸,规则系统远远不能满足网民的搜索需求,尤其是长尾信息需求。所以我思考：上亿用户每天在互联网上产生大量的行为数据,实际上可以非常好地作为搜索引擎模型的训练数据。
这些行为被浏览器记录,所以基于浏览器行为是可以做出更加强大的搜索引擎的。基于这样的想法,我们开发了基于浏览器的搜索引擎,事实证明,这个系统可以在很短的时间之内赶上甚至超过基于规则系统的搜索引擎。
上面是我以前做过的事情,我在想以后做什么正好趁这个机会,我把一些想法总结下来。
我和一些医生交流,发现医生的知识有一定局限性,因为每个医生接触的病人样本是有限的,通过他接触的病人样本,在脑海中形成一个模型。由于医生见到的病人样本不够多,故而这个模型的能力也是有限的。所以我在想,如果将这些数据样本打通,通过机器学习训练出一个模型,这个模型应该是比每个医生的模型都要强大的。
谷歌在这方面投资非常多,它给一个创业公司投资了大约1.7亿美金,收集大量的癌症数据。然后通过癌症数据,发现一些癌症的知识：比如如何把基因型和表型连接起来等等。能把机器学习应用在医疗领域,对于我们做机器学习的人是一件很兴奋的事情!如果有同学对这个方向有兴趣,我觉得这是一个可以长期做的方向。
另外提一下,包括百度在内,很多公司和个人也捐献了很多钱去收集癌症数据,因为目前癌症治疗方案和药物大多是按照西方人的数据来做的,但实际上亚洲人的基因和西方人的基因有很大差异。只有收集大量的亚洲人基因,才能建立起更准确的基因型和表型之间的连接,这样才能做更加精准的个性化治疗。
这是我非常感兴趣的一个方向。大家可能最近在微信上看到过一个传播很火的视频,一个16岁的美国少年极客在自己的车上装了几个便宜的senser,把自己的驾驶行为记录下来,然后把senser的信息也全部记录下来,训练出一个驾驶员模型,来模拟一个驾驶员怎样开车：这本质上是一个机器学习问题。
大家想想,人在学习开车的过程中也是根据各种情况来决定采取相应的操作。我认为未来自动驾驶一定会变成现实,特别在一些特定路段和特定场景,自动驾驶和半自动驾驶技术一定会非常普及。
国家拥有最多的大数据,如果能够把这些数据有效利用起来,我觉得国家的很多决策会变得更加高效。如果我有幸能为国家大数据做一些事情,我觉得是非常幸运的。
以上基本上总结了我看到的一些机器学习应用。
最后总结一下：今晚有很多同学到现场,有很多是工程师,也有很多是做机器学习的同学。我想跟你们说几句话。我们真的非常幸运,作为技术人,如果早生十年,当时没有足够快的运算和足够大的数据,做机器学习的无用武之地;如果晚生十年,好玩的机器学习难题可能都被前人解完了,会很无聊。
我们正好处在这个时代：有很多有趣的问题等待我们去解决。我们确实非常幸运。既然我们有这个能力,我们就承担时代的责任,一起用机器学习技能做一些有趣的事情!
谢谢大家!
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-01-28 09:40:00

外媒：清理数据成数据科学家最大挑战 | 数据分析网首页分类阅读行业资讯大数据统计

摘要：科学家面对的最耗费时间的工作是什么？有什么样的工具能扫除这些障碍？
数据分析师花费一半以上的时间清理和转换数据,而不是从中提取商业智能 ,这并不稀奇。数据储存的规模不断增大,数据类型也在激增。新一代的工具蜂拥而至,并承诺把复杂的工具送到不依赖数据的科学家的手上。
技术领域最热门的职位之一是数据科学家 ,或许只有最新出现的首席高管职位：首席数据科学家能超越他们。显而易见,人们对这种趋势一直存在质疑,来自美国科技网站InfoWorld的 Yves de Montcheuil曾引用过一则笑话,数据学家就是住在加利福尼亚州的商业分析师。
每个公司都需要把公司的数据转换为商业智能 ,这并不是什么有趣的事,这就是数据科学家承担主导责任的时候。但随着数据数量和种类的激增,数据科学家发现,他们大部分的时间都花费在清理和转换数据,而不是分析数据,并把它们告诉给企业经理。
最近,IT项目众包公司CrowdFlower的数据科学家进行了一项调查(需要注册可查看)。调查发现,三分之二的分析人员认为清理和组织数据是它们最费时的工作,52%称他们最大的障碍是数据质量差。受访者说出了在它们工作中使用的48种不同的技术,最受欢迎的是Excel(55.6%),其次是开源语言研究(43.1%),和Tableau 数据可视化软件(26.1%)。
▲来源：CrowdFlower公司
数据科学家认为它们最大的挑战是清理数据花费时间,数据质量差,缺少分析时间,以及无效的数据建模。
是什么抑制了数据分析的发展？被调查的数据科学家列举出,包括缺少有效满足他们工作需要的工具(54.3%),组织没有清楚地说明目标和宗旨(52.3%),以及培训投资不足(47.7%)。
▲来源：CrowdFlower公司
缺乏工具,目标不明确,不注重培训被报告为影响数据科学家效率的主要障碍。
承诺将满足大数据分析师需要的新工具
在技术领域有一个基本的课题：早期只有少数精英需要理解和使用知识、工具,随着时间的推移,产品日益改进,价格降低,企业适应,技术逐渐成为了主流。新的数据分析工具蜂拥而至,承诺把技术的效益带给非科研人员。
2014年8月17日,Steve Lohr在纽约时报上刊登了几种产品的简介。例如,ClearStory Data公司的软件结合多个来源的数据,并转换成图表、地图和其他图形。在数据准备问题上Paxata公司采取了不同方式,他们的软件通过各种可视化工具对数据进行检索、清理,和混合用于分析。
这家不以营利为目的的知识开放实验室,号称是一个为“公民骇客、数据管理者,以及对技术和资讯结合的可能性产生兴趣的普通公民”提供的社区。这个组织正在招募“数据管理员”志愿者,来维护核心数据集,例如国内生产总值和ISO代码。空军总司令部的Rufus Pollock于2015年1月3日对该项目进行了描述。
▲来源：知识开放实验室
知识开放实验室正在寻找志愿者程序员,策划核心数据集并作为零阻力数据计划的一部分。
没有比使用Morpheus更简单和直接的方式来管理异构MySQL、MongoDB、Redis和ElasticSearch数据库。仪表板上的一次单击,Morpheus能使你在混合云上无缝提供、监控和分析SQL、NoSQL和内存数据库。你创造每个的数据库实例都包括一个内置的容错和故障的完整副本集。译文链接：https://dzone.com/articles/how-to-minimize-data-wrangling-and-maximize-data-i-1
来源：IT168编译
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-06-21 11:12:00

数据科学人才太火，微软推出数据专业学位项目 | 数据分析网首页分类阅读行业资讯大�

如今, 数据科学家可能是市场上最炙手可热的人才类型,曾被评为是“21世纪最性感的职业”,而在20年前这个称呼还只存在于少数几篇论文里。
多伦多时间7月13日,微软在WPC（世界伙伴大会）上宣布了“微软专业学位”（MPD）项目,提供受雇主认可的、大学水平的课程,目标对象包括毫无相关知识背景的年轻人,和已经工作一段时间的在职相关专业人士。相关课程已经陆续在edX.org上线,edX.org是由哈佛大学和麻省理工大学共同创立的免费在线学习平台。
图自：edX
数据科学人才目前在市场上存在很大的空缺。微软副总裁 Steven Guggenheimer说道：“云技术和软件服务业的繁荣为我们的合作伙伴带来很多机会,然而与之相对的是,我们发现在很多行业里都出现了人才技术断层,MPD 项目就是要满足这种日益增长的培训需求。”
在宣布这个消息不久,作为MPD项目的第一套课程–“数据科学课程”（ Data Science Curriculum）就在edX上线了,这套课程由微软和哥伦比亚大学共同制作,总共包含9门课以及一个“最终项目”（Final Project）。涉及到数据挖掘、数据建模、数据可视化、机器学习等内容,需要学习ExcelT-SQL、Power BI、Azure、R语言和Python语言等工具。感兴趣的同学可以点击这里进入MPD课程页面。
图自：edX
所有的课程都是免费的,但是如果学生想得到微软MPD 认证证书,就需要付费,每门课程从49-99美元不等。
微软并不是唯一进入在IT在线教育领域的巨头公司,谷歌员工创办的Udacity已经在网上提供了安卓纳米学位（ Android nanodegree）及其他相关课程,谷歌创始人谢尔盖·布林经常在课程中客串,Udacity的优秀学员还曾被邀请去谷歌总部参观。来源：雷锋网
链接：http://www.leiphone.com/news/201607/mAXDswZEm8sZg0YU.html
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-07-16 11:09:00

微软、SAP和Adobe“结盟”提出开放数据计划 | 数据分析网首页分类阅读行业资讯大数据 �

Adobe CEO Shantanu Narayen, (左), Microsoft CEO,Satya Nadella(中间), SAP CEO Bill McDermott (右)
美国当地时间9月27日上午,在奥兰多举行的年度微软大会上,微软CEO纳德拉(Satya Nadella)在演讲中邀请SAP的CEO Bill McDermott, Adobe的CEO Shantanu Narayen一起上台, 共同宣布三家公司将彼此开放数据研究,为客户提供更好的数据连接和AI服务。
对此,微软方面对此表示,虽然数据是每家公司最宝贵的资产,但现在很多企业无法更好地研究自己客户的用户行为,提供智能解决方案,这是因为重要的客户信息都被中介和第三方服务商所掌控,企业被困在很多信息孤岛之中,这限制了这些企业从中获取更有价值的用户行为信息。
另外,该计划最初的想法是在微软的Azure云应用中使用一个通用数据模型,可以让多个商业应用程序使用,未来可能会对更多软件提供商开放。但目前还没有其他软件提供商对加入此计划表态。
微软发言人向CNBC表示,该计划最初的想法是在微软的Azure云中使用一个通用数据模型,让多个商业应用程序使用。微软的Dynamics365、SAP的C/4HANA和Adobe的体验云将是首批兼容的服务。微软方面表示,对此计划,微软的大客户如可口可乐、联合利华和沃尔玛都支持这一举措。
微软、SAP和Adobe是世界上最大的三家软件公司,遍布世界各地的公司都在使用Adobe,Microsoft和SAP的软件和服务来运行其产品开发、运营、财务、营销、销售和人力资源等,仅SAP的商业和公共用户就高达40万个。
据微软相关负责人介绍,该数据开放计划将让每家客户拥有并且直接控制自己的数据；客户可以通过共享数据为自己的商业提供智能解决方案；这样一个共享的生态可以很容易建立一个开放的数据模型,并且为客户提供商业解决方案。
“该计划旨在消除信息孤岛,帮助客户更好地掌控数据以及保护数据隐私和安全。这样,可以更好地运用AI为消费者服务。”微软首席执行官萨蒂亚纳德拉说：“与Adobe和SAP一起,我们迈出了第一个关键的一步,帮助企业实现前所未有的客户和业务理解水平。”
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-09-25 12:35:00

Adobe收购营销自动化公司Marketo：金额达47.5亿美元 | 数据分析网首页分类阅读行业资讯大

北京时间9月21日早间消息,Adobe今日宣布将收购营销自动化公司Marketo,收购价47.5亿美元。美国科技媒体TechCrunch认为,收购之后,Adobe在企业营销方面实力增强,可以与Salesforce、微软、甲骨文、SAP更好竞争。
Adobe数字体验部门执行副总裁、总经理布莱德·兰切尔（Brad Rencher）在声明中表示：”收购 Marketo之后,在B2C和B2B客户体验方面Adobe的领先优势进一步扩大,而且还可以将Adobe Experience Cloud变成所有营销的核心。“

Constellation Research首席分析师Ray Wang认为,之所以发起收购,主要是因为Adobe想与Salesforce竞争。他还认为,Adobe收购Marketo,意味着它对B2B十分认真,未来它与微软合作对抗Saleforce-谷歌联盟时就会更有竞争力。

上周,Adobe公布三季度财报,总营收达到22.9亿美元,创下新高,同比增长24%。Adobe不甘心只做一家创意软件公司,它还想在企业营销领域分一块蛋糕。不过到目前为止,营销、分析软件为公司带来的收入远少于Creative Cloud业务。上一次公布财报时,数字体验（Digital Experience）营收只有6.14亿美元,同比增长21%,由此证明该业务有很大的潜力。

Adobe去年同期股价约为149.96美元,现在已经冲到266.05美元。

2016年5月,Vista Equity用18亿美元现金收购Marketo,今天的交易让Vista Equity的回报达到29.5亿美元。(中天)
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-09-21 10:57:00

我们都中了魏姐的毒了？不，这一切都是爱奇艺的套路 | 数据分析网首页分类阅读行业�

今年暑期爱奇艺凭《延禧攻略》一剧之力领跑全网,可谓是视频网站的最大赢家。从7月19日上线到8月26日完结,短短40天《延禧攻略》播放量已经超过了130亿,朋友圈、微博等各大社交平台的相关话题仍然在持续发酵。
而早前十分被看好的《如懿传》在腾讯视频上线后非但没有一鸣惊人,反倒成了再次助力《延禧攻略》热度暴增的炮灰。
《延禧攻略》日播放量和累计播放量
远在《如懿传》之上
Source：猫眼专业版数据
其实《如懿传》完全有机会爆火,只是一直执着争取卫视播出才误了良机。《延禧攻略》却直接绕过卫视,借着黄金暑期档的东风直接在爱奇艺上线,完全不拖泥带水。虽然《如懿传》迫于压力急匆匆地在腾讯视频上线了,却早就磨光了观众的耐心。
借了东风的《延禧攻略》可以说是一路开挂,近日已经被电视台反向购买,实现了“反向输出”,足以证明其火爆程度了。
从 MobData 后台的数据也可以看出,7月13日《中国好声音》上线后日活达到一个顶峰,但随之又逐渐下降。直到7月19日《延禧攻略》播出后的近一个月的时间里,爱奇艺的用户日活跃规模才逐渐稳定下来,并呈现增长趋势。
Source：MobData研究院
确实第五季《中国好声音》用谢霆锋作为噱头吸引了一大波粉丝观看,但就第一期而言谢霆锋整体表现并无任何亮点,节目也保持了一贯套路,实在让人视觉疲劳。而无论从剧情还是人设都标新立异的《延禧攻略》则深受观众的喜欢,视频播放趋势也呈现爆炸式增长。
《延禧攻略》近90天视频播放趋势
Source：爱奇艺指数
不过爱奇艺在收获颇丰的同时也承担了不少风险,毕竟自从两年前《甄嬛传》热播之后,再也没有高质量的清宫剧可以与其媲美,整个市场也陷入了疲软状态。而《延禧攻略》的热播却让清宫剧的市场再一次复燃,这也证明了爱奇艺在选剧眼光上的精准性。
那么爱奇艺是究竟怎样步步为营的呢？
虽然现在观众的审美情趣不断在提高,但看剧依旧是用来消遣的,爱奇艺则很好地把握了观众的消遣心理。
爱奇艺的主要用户集中在 25-34岁的企业白领 ,这一部分人平时面临的工作压力较大,所以每天下班后更倾向于放松自我。
爱奇艺用户年龄分布
Source：MobData研究院
爱奇艺用户职业分布
Source：MobData研究院
港真…工作一天真的已经很累了,谁还愿意看一个苦情女子在宫中深受折磨啊！倒不如去看玛丽苏女主“手撕坏人”来的痛快~
其次爱奇艺很会抓住时代发展的趋势 ,2016年是大IP盛行的一年,同时也是网络剧井喷式发展的一年。
在这一年中,爱奇艺推出了《最好的我们》、《余罪》、《老九门》等自制剧均取得了不错的成效,尤其《老九门》的表现可以说是可圈可点,成为了全网史上首部破百亿自制剧。
但平心而论,《老九门》并不能算是一部制作精良的电视剧,无论从特效还是叙事都一度遭人诟病。最令人无法接受的是老九门结局,叙事重点突然由盗墓转移到了抗日……佛爷你是认真的嘛？（冷漠脸）
既然都追到大结局了,弃剧是不可能弃剧了,最多只能找个小伙伴吐槽一下咯~这其实也是爱奇艺的第三个聪明之处—— 善于制造话题。
一部成功的电视剧不一定需要多好的口碑,但一定需要善于制造话题。《延禧攻略》几乎每天都在出新的话题,从“黑莲花女主”到“我劝你善良”、“卫龙夫妇”、“尔晴去死”、“皇上是大猪蹄子”等,每天都能看到这些热词刷爆各大社交网络。
还记得7月底那段时间朋友圈除了杨超越,就是是这俩护身符……
如果当事人对此有所回应的话……就更能牵动网友们的兴奋点了。
同样地,当初在《老九门》热播之后, “二月红前来求药”这个话题依旧可以在其他视频的弹幕中出现,慢慢地它就从一个话题上升为具有引申意义的“梗”了。
吃瓜群众的顽皮现场
就连腾讯视频也没有办法幸免
既然说起话题,那么不得不提及爱奇艺打造的现象级爆款综艺《奇葩说》,从第一季到第四季每一期的选题都极具话题性,并且大多为年轻人身边常常发生的生活琐事。反正我们看辩论也不看谁输谁赢,能舒舒服服吃个瓜就够了~
观众虽然爱吃瓜,但节目也不能为了故意迎合而失去了基本的底线。前段时间由《奇葩说》衍生出的《奇葩大会》第二季就因选手传递出不当的价值观而惨遭下架,经历了两周的停播整改,虽然之后又复播了,疤痕却永远抹不掉了。
其实《奇葩说》最开始做得真的不错,节目形式和话题都非常符合我们年轻人的口味,但是越往后做就慢慢在变味,话题的尺度也越来越大,给人感觉就像是在故意地迎合观众而丧失了节目初心,这也是为啥我看到第三季就直接弃了…
视频的探索之路永远不可能顺风顺水,视频平台的竞争也逐渐加剧,但无论这些视频平台如何竞争,对于观众的影响其实并不大。我们在意的只是能不能找到好看的剧,仅此而已。下一个“魏姐”究竟会花落谁家,就让我们拭目以待吧。
好了,嫔妾准备去物色新剧了,先行告退咯~
本文由 Mob说数据投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/60047.html 。

数据分析

2018-08-31 04:58:00

小米上市后首份成绩单：狂赚452.36亿，AI+IoT收入翻倍 | 数据分析网首页分类阅读行业资�

策划编辑｜Vincent 作者｜Vincent 编辑｜Debra 微信公众号“AI 前线”（ID：ai-front）
财报看点
8 月 6 日上午, 小米在其官网发布公告称,将于 8 月 22 日举行董事会会议,其中议程包括考虑及批准小米集团和附属公司 2018 年上半年之中期业绩。这也是小米集团上市后披露的首份财报。
总览
上市之后,小米的业绩有提升吗？
相信不论是投资人还是消费者,首先关注的一定是这个问题。
从财报看来：
小米 2018 年第二季度收入 452.36 亿元,同比增长 68.3%,环比增长 31.5%,
经调整利润 21.17 亿元,同比增长 25.1%,环比增长 24.6%
整个上半年,小米收入 796.48 亿元,同比增长 75.4%；经调整利润 38.16 亿元,同比增长 62.2%。
在 2016 年经历了业绩下滑的小小打击之后,小米公司快速调整,在产品力、渠道力、品牌力等方面上补齐短板,今年连续两个季度的快速增长,充分说明品类发展已然成效。
小米手机的销量及平均售价均获大幅提升。2018 年第二季度,小米手机销量达 3200 万部,同比增长 43.9%,受高端旗舰的优异表现影响,大陆地区手机平均售价同比增长超 25%。在销量和平均售价的共同带动下,小米手机业务收入达 305.01 亿元,同比增长 58.7%。
虽然手机销量获得了大幅提升,不过对于小米的用户来说,最近的一些产品似乎并不能够满足他们的要求。
小米 8 在发布之前,雷军微博的评论区就充斥着：“不要刘海屏！”“千万不要刘海屏啊,雷总！”这样的言论,看得出,小米的用户,尤其是米粉对于小米的创新力一直是抱有很高期待的。
当年 MIX 手机发布的时候,用户被其惊艳的全面屏外观所震撼,可是,这次的米 8 手机却和其他厂商一样,用上了在用户看来是“丑到爆炸”的刘海屏。这在一定程度上确实影响到了米 8 的销量,也对小米的口碑造成了一些负面影响。
虽然官方用更复杂的 sensor、更多的功能来为刘海屏做解释,但是对大部分用户来说,这种解释有些苍白。
小米的海外战略
再来看看小米在海外的成绩单。
如果要是问：除了中国,哪里的小米用户最多？答案一定是那个空气中飘着咖喱味,一言不合就开始唱歌跳舞的邻国——印度。雷军本人也是在印度“C 位出道”,一句“are you OK？”红遍了互联网。
小米 18Q2 印度销量达到 1000 万台,印度区占小米全球 31% 份额,占比维持稳定。除了东南亚国家,小米在欧洲发达国家同样实现了井喷式增长。
根据这次的财报,小米在印度市场继续领跑,海外收入同比增长 151.7%。虽然是有了强有力的增长,但是,目前进入海外手机市场的国产厂商可不止小米一家,华为、一加、oppo、vivo 都已经开始拓展自己在海外的市场,未来情况怎样,还真不好说。
AI+IoT
小米生态的关键是 AI 和 IOT 建设。
小米 AI 的两大重点是：计算机视觉与语音技术,反映到产品上就是小米手机的 AI 拍照以及智能助理小爱同学。
曾有人说过：雷军的野心不止于手机。从后来米家系列产品的发布情况来看,确实如此。
2017 年 3 月,全球首款人工智能语音电视 – 小米电视 4A 发布,与此同时小爱同学正式问世。本季度财报特别提到,人工智能是小米战略的核心部分,截至 2018 年 6 月,小爱同学月活跃用户超过 2600 万人,小爱同学发布一周年之际,唤醒总次数达 20 亿。
此外,根据今天发布的财报,小米 IoT 及生活消费产品分部增长最为迅速,2018 年第二季度收入达 103.78 亿元,同比增长 104.3%。其中,小米电视、小米笔记本电脑等主要 IoT 产品贡献最大,销售收入达 41.78 亿元,同比增长 147.2%。
结语
小米的股票在上市当日即出现了破发的情况,不过好在影响并不持久,股价最高曾达到 22 元港币的价格。从目前的表现来看,小米的股价算是中规中矩,并没有太亮眼,但也没有太让投资人们失望。
目前,雷军只是在微博上对小米公司本季度的表现情况通过“比心”的方式表达了满意,我们暂时没有得到雷军对该季度财报更进一步的态度。
在官方发布的财报最后,我们看到了“AI 全面赋能小米”的字样,除了 AI 拍照和智能语音助手以外,深度学习在移动领域的开发也是小米关注的重点之一。
对于小米来说,这份“成绩单”似乎还不错,能对股价有多少影响,还有待观察。上市后的小米会带来更多惊喜还是惊吓？我们拭目以待。
参考链接：
http://hk.jrj.com.cn/2018/08/21083924979626.shtml
https://tech.sina.com.cn/t/2018-08-06/doc-ihhhczfc3163985.shtml
https://www.ithome.com/html/it/378155.htm
http://itech.ifeng.com/45134986/news.shtmlch=wt_tech
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/59880.html 。

数据分析

2018-08-30 04:55:00

MobData上周新闻热点盘点自如承诺不涨租金大批区块链公众号遭封锁 | 数据分析网首页分

一周热点一：脉脉获得D轮融资2亿美元
脉脉完成 D 轮融资 2 亿美元。此轮融资由 DST 领投,IDG资本、晨兴资本和 DCM 三家老股东跟投。此轮融资是全球职场社交领域迄今所获得的最大一笔融资。
一周热点二：《如懿传》开播,正面对打《延禧攻略》
《如懿传》终于开播,该剧从开拍就备受瞩目,后多次延播吊足了观众胃口,最终花落腾讯视频,每周一到周四更新2集,上线第一天播放量1.5亿,但是口碑似乎不敌延禧攻略,目前看来后期服化道等有所好转,《如懿传》究竟能不能不枉费巨额制作费成为暑期档最大赢家,谜底很快就会揭开。

《如懿传》全球播放图
一周热点三：百度拿下基金销售牌照
证监会北京监管局核准北京百度百盈科技有限公司证券投资基金销售业务资格,北京百度百盈科技有限公司由百度公司100%控股。这是今年继腾讯之后,监管层批准的第二张基金代销牌照。百度拿到牌照之后,相当于BATJ都有了这张基金销售牌照。
一周热点四：北京主要住房租赁企业作出承诺：不涨租金
北京市房地产中介协会召开座谈会,自如、相寓、蛋壳公寓等10家主要住房租赁企业负责人参加,共同承诺落实“三不得”要求,并承诺不涨租金且拿出手中共计超过12万套的全部存量房源投向市场。
一周热点五：大批区块链公众号遭封杀
有多家媒体报道,一批涉区块链内容微信大号,如金色财经网、币世界快讯服务、大炮评级、TokenClub、比特吴、火币资讯、深链财经等均显示账号违反《即时通信工具公众信息服务发展管理暂行规定》,已被责令屏蔽所有内容并停止使用。
本文由 Mob说数据投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/59920.html 。

数据分析

2018-08-27 06:28:00

2018年高校申报新专业，数据科学与大数据技术继续领跑 | 数据分析网首页分类阅读行业�

在国家大力推动大数据的时代,大数据被认为成了“未来的新石油”, 数据分析技术的发展与区块链、云计算、人工智能等新技术领域的联系将更加紧密,区块链的发展将极大提高数据的获取能力,云计算与人工智能将深刻地融入数据分析体系,融合创新将会不断地涌现和持续深入。
未来数据分析产业发展将迎来快速增长期,创新成为大数据发展主要基调,大数据与各大产业融合将加速,为做大做强数字经济、带动传统产业转型升级提供新动力。
大数据专业也成为了大学的”新宠”,2016年2月第一批成功申请该专业的高校共有3所,为北京大学、对外经济贸易大学及中南大学,2017年3月,在教育部公布的高校新增专业名单中,有32所高校成为第二批成功申请“数据科学与大数据技术”本科新专业的高校。
近期央视新闻公布：今年申报“数据科学与大数据技术”专业的高校,全国超过220所（据不完全统计）,远远超过其他专业。
根据教育部《2017年度普通高等学校本科专业备案或审批结果》, 2018年中国大学新开设专业TOP30。

从去年开始大热的“数据科学与大数据技术”专业今年继续保持优势或者可说成惊讶,是全国高校申报最多的新专业；同时,已成为国家重点发展产业的人工智能是紧随其后的热门新专业。
当前,新一代信息技术正广泛渗透到经济社会的各个领域,聚焦新经济、新产业发展,高职院校在办学和专业设置上,也面临“推陈出新”的新局面。对高职院校而言,既是机遇,也是挑战。
大数据专业强调交叉学科特点,以大数据分析为核心,以统计学、计算机科学和数学为三大基础支撑性学科,培养面向多层次应用需求的复合型人才。因此,如何跟随产业变化,培养满足技术和企业发展需要的大数据人才,是学校迫切需要思考和解决的问题。
本文由 CPDA数据分析师投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/59458.html 。

数据分析

2018-08-15 16:34:00

工信部公布2018年重点实验室名单研究领域覆盖区块链及云计算等 | 数据分析网首页分类�

从工信部网站获悉,依据《工业和信息化部重点实验室管理暂行办法》（工信部科〔2014〕515号）,工业和信息化部组织开展了2018年工业和信息化部重点实验室认定工作。经评审和公示,将2018年工业和信息化部重点实验室名单予以公布。
其中包括北京航空航天大学的空间环境监测与信息处理工业和信息化部重点实验室、北京理工大学的信息光子技术工业和信息化部重点实验室、国家工业信息安全发展研究中心的区块链技术与数据安全工业和信息化部重点实验室、中国电子技术标准化研究院的云计算标准与应用工业和信息化部重点实验室等27项。
工业和信息化部关于公布2018年工业和信息化部重点实验室名单的通知
工信部科〔2018〕149号
部属相关单位,部属各高校：
依据《工业和信息化部重点实验室管理暂行办法》（工信部科〔2014〕515号）,我部组织开展了2018年工业和信息化部重点实验室认定工作。经评审和公示,现将2018年工业和信息化部重点实验室名单予以公布（名单见附件）。
附件：2018年工业和信息化部重点实验室名单
工业和信息化部
2018年8月8日
附件
2018年工业和信息化部重点实验室名单

序号	重点实验室名称	依托单位
1	空间环境监测与信息处理工业和信息化部重点实验室	北京航空航天大学
2	空天网络安全工业和信息化部重点实验室	北京航空航天大学
3	智能系统与装备电磁环境效应工业和信息化部重点实验室	北京航空航天大学
4	信息光子技术工业和信息化部重点实验室	北京理工大学
5	分子医学与生物诊疗工业和信息化部重点实验室	北京理工大学
6	工业制造艺术创新设计工业和信息化部重点实验室	北京理工大学
7	超精密仪器技术及智能化工业和信息化部重点实验室	哈尔滨工业大学
8	寒地城乡人居环境科学与技术工业和信息化部重点实验室	哈尔滨工业大学
9	网络大数据安全分析工业和信息化部重点实验室	哈尔滨工业大学
10	深海工程装备与技术工业和信息化部重点实验室	哈尔滨工程大学
11	海洋特种材料工业和信息化部重点实验室	哈尔滨工程大学
12	信息保密与防护技术工业和信息化部重点实验室	哈尔滨工程大学
13	柔性电子材料与器件工业和信息化部重点实验室	西北工业大学
14	复杂系统动力学与控制工业和信息化部重点实验室	西北工业大学
15	智能感知与计算工业和信息化部重点实验室	西北工业大学
16	模式分析与机器智能工业和信息化部重点实验室	南京航空航天大学
17	深空星表探测机构技术工业和信息化部重点实验室	南京航空航天大学
18	非定常空气动力学与流动控制工业和信息化部重点实验室	南京航空航天大学
19	复杂装备系统动力学工业和信息化部重点实验室	南京理工大学
20	新型膜材料工业和信息化部重点实验室	南京理工大学
21	受控电弧智能增材技术工业和信息化部重点实验室	南京理工大学
22	工业互联网平台创新与测试验证工业和信息化部重点实验室	中国信息通信研究院
23	短距离无线电设备检测与评估工业和信息化部重点实验室	国家无线电监测中心
24	区块链技术与数据安全工业和信息化部重点实验室	国家工业信息安全发展研究中心
25	云计算标准与应用工业和信息化部重点实验室	中国电子技术标准化研究院 26	27 智能产品质量评价与可靠性保障技术工业和信息化部重点实验室	智能制造测试验证与评价工业和信息化部重点实验室中国电子产品可靠性与环境试验研究所	中国电子信息产业发展研究院

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-13 21:04:00

MIT正式发布编程语言Julia 1.0：Python、R、C++三合一 | 数据分析网首页分类阅读行业资讯大

MIT 开发的 Julia 语言是全球热度上升最快的编程语言之一,下载量超过 200 万次,下载者包括谷歌、Facebook、FAA 和美国能源部等各个部门的开发者。近日,MIT CSAIL 实验室正式发布了 Julia 1.0,该语言期望结合 C 的速度、Matlab 的数学表征、 Python 的通用编程与 Shell 的胶水命令行,并构建开源、自由与便捷的编程语言。
Julia 语言的官网：https://julialang.org/ Julia 语言项目地址：https://github.com/JuliaLang
在过去一年中,研究者利用 Julia 在一台超级计算机上分析天文图像,速度提升了 1000 倍,在 15 分钟内将接近 2 亿个天体进行分类。从技术上来看,这种语言还会长期发展下去。然而,现在是一个里程碑的时刻：在本周于伦敦举办的 Julia 语言年会上,Julia 1.0 正式发布！一起发布的还有 JuliaCon。
Julia 的开发者之一、就职于 MIT 计算机科学与人工智能实验室（CSAIL）的教授 Alan Edelman 表示：「Julia 1.0 的发布证明,该语言已经做好准备,将 Python 和 R 的高效性和易用性与 C++的闪电速度结合在一起,改变技术世界。」
从实际应用来说,Julia 已经用于自动驾驶汽车、机器人和 3D 打印机,此外还广泛应用于精准医疗、增强现实、基因组学及风险管理。从 Julia 的生态系统来说,目前它主要的特征或应用领域为数据可视化、一般性的 UI 与网站、数据科学、机器学习、科学计算与平行计算等。
Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外,Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库,这极大地扩展了 Julia 语言的使用范围。
Julia 1.0
备受期待的 Julia1.0 累积了开发者近十年的努力。JuliaCon2018 举行了发布会,该社区正式将该版本设置为 1.0.0.。
Julia 开发者对该语言提出了很多需求：我们想要一种十分自由的开源语言,同时兼具 C 语言的速度和 Ruby 语言的灵活度。我们想要一种同像性语言,具有像 Lisp 一样真正的宏,也有像 Maltlab 一样浅显易懂的数学符号。它是像 Python 一样有用的通用编程语言,像 R 语言一样便于统计的语言,像 Perl 一样自然的字符串处理语言,像 Matlab 一样强大的线性代数语言,也是像 shell 一样的「胶水语言」。它简单易学,却能让严苛的黑客们为之倾心。我们希望它兼具交互性和可编译性。
围绕这一语言,一个欣欣向荣的社区已经蓬勃发展起来,为了同一目标,世界各地的人们不断地重塑并改进着 Julia。超过 700 人对 Julia 做出了实质性贡献,更有不计其数的人制造了数千个惊人的 Julia 开源包。总之,我们构建了一种这样的语言：快速：Julia 为高性能而生。Julia 程序通过 LLVM 为多个平台编译高效的本地代码。通用：它使用多分派作为范例,使得表达许多面向对象和函数式的编程模式变得容易。标准库提供异步 I/O、进程控制、日志记录、性能分析、包管理器等。动态：Julia 是动态型语言,与脚本语言类似,并且支持交互式使用。专业：它擅长数值计算,其语法适用于数学,支持多种数值数据类型,并具有良好并行性。Julia 的多分派天生适合定义数字和类数组的数据类型。多样：Julia 拥有丰富的描述性数据类型,类型声明使程序条理清晰且稳定。可组合：Julia 的包可以很好地组合在一起。单位数量的矩阵,或者货币和颜色的数据列表,都可以组合——而且性能很好。
现在 Julia 1.0 版本已经可以下载了。如果你从 Julia 0.6 或更早的版本升级代码,我们建议你首先使用过渡版本 0.7,它包含了弃用警告,可以帮助引导升级过程。如果你的代码没有警告,那么你就可以直接变更到 1.0 版本而不会产生任何功能性的改变。已注册软件包正利用 0.7 这个过渡版本,并发布了 1.0 的兼容更新。
当然,Julia 1.0 中最重要的一个新特征是对语言 API 稳定性的承诺：为 Julia 1.0 编写的代码可以继续在 Julia 1.1、1.2 等版本上使用。该语言是「完全成熟的」,核心语言开发者和社区都可以基于这个坚实的基础构建新的包、工具和特征。
Julia 1.0 不仅涉及稳定性,还引入了多种新的强大、创新性语言功能。自 0.6 版本以来的新功能如下,更多详细与准确的内容请查看更新文档原文：一种全新的内置程序包管理器给 Julia 1.0 带来巨大的性能提升,并令其相比以往更容易进行程序包和依赖库安装。它还支持每项目（per-project）的包环境,并记录工作应用的明确状态来和其他人（以及你的未来项目）共享。最后,该新设计还完全支持私人包和软件包存储库。你可以使用相同的工具安装和管理你用于开源包生态系统的私人包。JuliaCon 的展示视频对新设计和行为提供了很好的概述。 Julia 拥有对缺失值的新的标准表示。允许表示和处理缺失数据对于统计和数据科学来说是很基础的。在典型的 Julia 编程形式中,新的解决方案是通用的、可组合的和高性能的。任何泛用群集类型可以高效地支持缺失值,仅需要允许元素包含预定义值 missing。这种「统一类型化」的群集的性能在过去版本中可能会非常慢,但如今的编译器改进已经允许 Julia 在其它系统中匹配自定义 C 或 C++的缺失值表示的速度,同时在通用性和灵活性上也远远超越过去的版本。内置的 String 类型现在可以安全地支持任意数据。你的程序不会在一项工作中因为无效 Unicode 的单个丢失字节就浪费数小时或数天的时间。所有的字符串数据在指示哪些字符是有效或无效的同时就已经被保存,允许你的应用安全、方便地处理包含所有不可避免瑕疵的真实世界数据。广播（broadcasting）由于方便的语法特性已经成为了一种核心的语言功能,并且已经比过去更加强大。在 Julia 1.0 中,可以很简单地将广播扩展到自定义类型,并在 GPU 和其它向量化硬件上实现高效的优化计算,为未来更高的性能效益奠定了基础。命名元数组是一种新的语言功能,可以通过命名使数据表示和访问更加高效和方便。例如,你可以将一行数据表示为 row = (name=”Julia”, version=v”1.0.0″, releases=8),并使用 row.version 来访问 version 列,它与不那么便利的 row [2] 有相同的性能。点运算符现在可以重载,并允许类型使用 obj.property 句法获取除 getting 和 setting 结构域外的含义。这对于使用 Python 和 Java 等面向对象语言之间更加平滑的交互操作非常有用。属性访问器重载还允许获取一列数据的语法匹配命名元组的语法：你可以编写 table.version 以访问表中的 version 列,这就和使用 row.version 访问行的 version 字段一样。 Julia 优化器在很多方面比我们列出来的特征还要优秀,但这里只会提一些亮点。优化器现在可以通过函数调用传播常数,因此比以前能更好地消除无用代码和实现静态评估。编译器在避免为长期目标分配短期包装器方面也做得更好,这使得开发者能使用便捷的高级抽象并且不会产生性能损失。现在可以用声明参数类型的构造函数的方式调用它们自己,这消除了语言句法中令人困惑且模糊的地方。完全重新设计迭代协议,使之更易实现多种可迭代量。Julia 1.0 没有设计三种不同泛型函数（start、next、done）的方法,而是设计 iterate 函数的一参数和二参数方法。这通常允许在开始状态使用包含默认值的单一定义来便捷地定义迭代。更重要的是,这使得实现只在尝试并无法生成值后才知道它们已经被实施过的迭代器成为可能。这些迭代器在输入/输出（I/O）、网络和生产者/消费者模式中是非常普遍的,Julia 可以用一种直接、准确的方式表达这些迭代器。作用域规则（scope rule）被简化。局部作用域的结构现在可以一致地进行使用,不用管某命名的全局约束是否已经存在。 Julia 语言本身是非常好的学习器,很多组件被分割封装进 Julia 的「标准库」包,而不是作为「基础」语言的一部分。如果你需要它们,可以导入它们（无需安装）。未来,标准库还将出现多种版本,并独立于 Julia 更新,这使得它们可以更快地迭代。我们已经对 Julia 的所有 API 进行了完全的评议,以改善稳定性和可用性。对很多模糊的已有命名和无效的编程模式进行了重命名或重构,使之更匹配 Julia 的能力。这使得处理集合更加稳定和一致,以确保参数顺序遵循 Julia 语言中一贯的标准,并在恰当的情况下将（更快的）关键词参数整合进 API。
现在围绕 Julia 1.0 的新功能专门构建了许多新的外部软件包,如数据处理和操作生态系统的改进和异构架构支持的改进等。
Julia 1.0 还包括了无数其它的改进,如果想查看完整的列表,请访问：https://docs.julialang.org/en/release-0.7/NEWS/
出处：机器之心
链接：https://www.toutiao.com/item/6587926652867576327/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-11 21:17:00

从Erdos数谈网络数据特征 | 数据分析网首页分类阅读行业资讯大数据统计学数据分析 �

你听说过鄂尔多斯吗？别迟疑,不是做羊毛衫那个,是数学家鄂尔多斯（Paul Erdos ）。Erdos是20世纪最伟大的天才数学家之一。如果你的研究方向是数论与组合数学,那么你很有可能已经读过他的大作。但其实他的论文涵盖数学各个分支领域,甚至统计、物理等跨学科领域。Erdos发表论文如同开挂,战斗力惊人。据说他每天工作19小时,在古稀之年仍然如此。他毕生发表过的数学论文超过1500篇,在数学史上仅次于神级人物欧拉（Euler）。Erdos广泛的研究兴趣使得他有超好的“人缘”。据不完全统计,他的合作者超过450人,若加上别人所作但曾获他关键性的提示的论文,则总数应有数万篇。
图为Erdos Paul, 摄于1983年夏
Erdos的好人缘并不是没有根据的,他人缘好到啥程度呢？数学家们争相以与他合作为荣,甚至设计了一个特别的数字：Erdos数。这个数字的设计原理非常简单：Erdos本人的Erdos数是0；曾与Erdos合作发表过文章的人的Erdos数是1；没有与Erdos合作发表过文章,但与Erdos数为1的人合作过的是2,……,自然,不属于以上任何一类的就是无限大∞。简单来说,大家把Erdos本人当成数学界的宇宙中心,人人都想跟他套近乎,不过得按照远近亲疏排出个先后来。这跟创业公司的员工号码非常类似,号码越小,越早加入公司,越重要。尽管Erdos数远近闻名,但是这个数字并非是Erdos本人设计的（不然的话我想他可能是20世纪最自恋的数学家了）。据已故著名数学家Melvin Henriksen所说,Erdos数字是John Isbell在1957年前后于普林斯顿大学提出的。而第一次以文章形式提出则是由Casper Goffman。
图为Erdos 数项目网站图,由奥克兰大学主持,网站链接（https://www.oakland.edu/enp/readme/）
数学家们甚至为这个数字成立了一个项目,叫做“Erdos数项目”。从这个项目中,可以看出数学家合作网络的变迁。
不过,如果你发现自己的Erdos数小于6,也不要太过沾沾自喜,因为你并没有打败99%的用户。事实上,人们发现,几乎每个数学家都有一个有限的Erdos数,且这个数字往往小的出乎本人预料。比如说证明Fermat大定理的Andrew Wiles,他的研究方向与Erdos相去甚远,但他的Erdos数只有3,是通过这个途径实现的：Erdos–Andrew Odlyzko–Chris M.Skinner–Andrew Wiles。1903-2016年的Fields奖得主的Erdos数都不超过6。甚至一些八竿子打不着的人物,比如首富比尔·盖兹(Bill Gates), 他的Erdos数是4。经过Erdos数项目统计,具有有限Erdos数的直方图分布如下：
图为有限Erdos数分布（2004年数据）,在2004结束时所有具有有限Erdos数的工作数学家中,数值范围可达13,中值为5,平均值为5.58; 几乎所有Erdos数有限的人的erdos数都少于8
以上这些事实告诉我们似乎名人并没有那么遥不可及,通过有限的几步我们也可以与名人相连。这一点也被哈佛大学著名社会心理学家米尔格兰姆(Stanley Milgram)验证,他通过连锁信件实验表明任何两个欲取得联系的陌生人之间最多只隔着5个人,也就是最多经过六个步骤,便可完成两人之间的联系。这就是有名的“六度分割理论”,在学术界也被成为“小世界效应”。除此之外,网络数据还有无标度以及稀疏性的特性。为了方便理解,我们这里利用一个实际数据向大家说明网络的三大特性。
1、豆瓣电影数据及网络构建
豆瓣电影主页
《复仇者联盟3》信息页
我们用于展示的数据来自于豆瓣电影,许多观影爱好者在网站上获取影片信息。共爬取了2005年至今所有豆瓣评分超过7.5的1742部优质电影中所出演的7025位主演情况,依此构建“电影演员合作网络”。每一个演员作为该网络的一个节点。如果两个演员共同主演过至少一部电影,则两位演员之间有对应的连接边。共同合作的电影数目则表示两人之间的联系的密切程度,反映到“电影合作网络”中则是两个节点连边的权重大小,合作1部电影则权重为1,2部则权重为2……。基于上述网络构建规则,我们删除没有合作者的演员,保证每个演员都有合作者,可以得到完整的电影演员合作邻接矩阵,进而获得6647名演员合作关系的无向网络。
通过一些简单的描述统计,我们不难发现一些电影合作出演的规律。如下图所示,演员合作数的直方图中我们可以看到,在“电影演员合作网络”中,在6647名演员中,每一名演员的合作者大概都是一到两人,并随着电影合作者增多,演员的数量也在急剧减少,也就是说合作者多的演员是非常少的。其中,有5728名演员只有1到2名合作者,占总人数的86.17%,看来大多数演员接触其他演员并一起合作的机会还是不多的,只有1到2次,只有少数演员与其他演员一起出镜的机会比较多,当然他们就是那种我们常说的“当红炸子鸡”和“文艺老戏骨”们。
电影合作者数量分布
那么我们就来看看这些国际知名的当红演员们在2005年至今的人缘情况吧！在豆瓣数据中统计了在拍摄电影中合作者数量最多的top10。也可以说是电影界人缘最好的top10了。而且还有一个很有意思的现象是,在2005年后合作者数量最多的演员的前十名中,英国演员占据4席（图中红色标记）,而日本演员占据6席（图中蓝色标记）。从一个侧面也印证了这两个国家的影片较为高产且质优（豆瓣7.5分以上基本已经算是电影中的“优等生”了）。
电影合作者数前十名
从图中我们会发现我们比较熟悉的演员,像“卷福”和“奇异博士”康伯巴奇,“李狗嗨”中的堺雅人等炙手可热的影视演员,还有中村悠一和神谷浩史这些声线逆天的配音演员。这些影视巨星拥有着很多的影视作品,也就有着很多合作者们,成为合作网络中的中心人物。让我们以这些影视巨星为中心来构建一个简单的网络,如图,显示这10位明星的2005年至今的电影合作情况。不难发现top10中的演员之间也有合作关系,并形成了四个集团。其中英国演员两个集团,分别是田纳特、康伯巴奇、苏切为代表的英国电影集团和麦克伊万的《马普尔小姐探案》影视剧集团。日本也有两个集团,分别是加濑亮、户田惠梨香、二宫和也、堺雅人日本影视出演集团和神谷浩史、中村悠一日本影视配音集团。在集团中的当红明星中除了相互合作外还会通过一些都有过合作的明星来建立联系。
合作者数量最多的演员之间的合作网
2、演艺圈的社交网络
为了使的网络清晰可见,删除参演电影较少的配角演员,提取出前300个合作者较多的演员以及他们参演电影中的合作演员,一共1216名演员作为节点画出他们的电影演员合作网络图如下图所示：
电影演员合作网络
密密麻麻的网络被呈现在眼前,是一幅比较完整的电影合作网络。在网络中可以较为明显的看出网络貌似被分成了两部分。上方的一部分是可以看到节点的演员全部是日本演员,所以我们可以认为上面的合作网络是“日本影视合作网络”；而下方的电影网络的演员则全部是欧美的演员,所以我们可以称呼下面的网络为“欧美影视合作网络”。两部分合作网络由一个演员节点连接——“乔治·布洛林”（图中红色点）。这是一位著名的电影导演,在他出演的一部有关于导演介绍的电影《每个人都有他自己的电影》中,他与著名的日本导演北野武进行了合作,因此将两部分影视网络进行了连接,另外值得一提的是乔治.布洛林最近在大卖电影《复联3》中也饰演了大反派“紫薯精”——灭霸。但也可以在网络中看出,虽然现在已经进入到了电影国际合作化的阶段,但是演员们之间的优质电影的合作还是比较少的。
乔治·布洛林
《每个人都有自己的电影》信息页
在电影合作网络中还可以发现一种现象是,在“日本影视合作网络”中又有两个较为明显的合作网络集团,如下图所示,蓝色节点和绿色节点的两个集团。没错,这就是日本影视界的独特的现象——“荧幕演员”和“配音演员”集团。绿色节点部分是声线逆天的声优们,而蓝色节点则是演技出众的日本艺人们。
电影合作社区划分图
图为三个集团的代表人物,从左到右分别为欧美影视集团康伯巴奇,日本影视集团堺雅人和日本配音集团神谷浩史。
3、网络三大特性
1）网络稀疏性：芸芸众生,人海茫茫
佛说,前世500次回眸,才换来今生的一次擦肩而过。那么,我们每个人很有可能是扭断脖子才见到彼此的。这说明啥问题呢？这代表网络结构往往是稀疏的。这里的稀疏是什么意思？简单来说,稀疏就是人和人之间基本没关系,请大家珍惜身边人。每个人精力有限,不是所有人都是“交际花”。经过统计,一个演员平均合作的演员数目是3.39。远远小于我们这里总演员数（1216）。也就是说,网络中直接相连的边寥寥无几。
表示网络稀疏特性的还有一个指标,叫做网络密度。可用于刻画网络中节点间相互连边的密集程度。一个具有个N节点和L条实际连边的网络,网络密度计算方式如下：
网络密度基本代表了任何两个人相连的概率是多少。实际数据中“电影合作网络”密度为0.24%,这再次说明,可能佛说的确实没错。
2）小世界效应：朋友是个圈,我们都在圈里面
我们常常感叹,这世界真小。常常感觉八竿子打不着的人,说不定某天就通过某一位朋友相识了；在朋友圈里,发现小学同学跟大学朋友竟然打得火热；《创造101》中的人气偶像小姐姐竟然是我大学舍友的妹妹,自己距离荧屏上的偶像居然可以那么近；Erdos数其实也表达的是同一个道理。俗世的人管这叫：缘分。从网络数据特性上,有一个特别的名称：小世界特性。先来看两个指标。网络的平均距离。网络两点间的距离被定义为连接两点的最短路所包含的边的数目。它描述了网络中节点间的分离程度,即网络有多小。就拿日本影视集团的网络进行简单举例吧。在日本影视集团的网络图中,堺雅人到加濑亮的路径既可以是“堺雅人-宫崎葵-二宫和也-加濑亮”也可以是“堺雅人-宫崎葵-二宫和也-渡边谦-加濑亮”。但是,堺雅人到加濑亮的最短路径为前者,所以堺雅人和加濑亮的距离为3。把所有节点对的距离求平均,就得到了网络的平均距离。通过R的计算,求得日本影视集团网络中的网络的平均距离为3.11。说明日本影视集团的网络中每一个演员想找到图中任何一个演员合作平均需要经过3个左右的演员。
图1：网络平均距离说明图簇系数。在现实的朋友关系网中,你朋友的朋友很可能也是你的朋友；你的两个朋友很可能彼此也是朋友,也就是说你的朋友间的联系一定会很紧密。簇系数就是用来度量网络的这种性质的。对于某个节点,节点的簇系数为所有相邻节点之间连的边数目占可能的最大连边数目的比例。网络的簇系数则是所有节点簇系数的平均值。专门用来衡量网络节点聚类的情况。这次以中国的影视明星合作网络为例,如下图所示,计算黄秋生的簇系数。黄秋生的合作过的演员为（桂纶镁、周杰伦、梁洛施、杜汶泽）,而这四个演员的连接边数为2,最大可能的连接边数为k（k-1）/2=4（4-1）/2=6。则黄秋生的簇系数为1/3。通过R计算,求得图2中的中国影视网络的簇系数为0.5。
图2：簇系数说明图
研究表明,规则网络具有大的簇系数和大的平均距离,随机网络具有小的簇系数和小的平均距离。而小世界网络则具有大的簇系数以及小的平均距离,而几乎所有的真实复杂网络都具有小世界效应。
不过现实中的社交人际网络,在普通的单一功能性网络里,最长路径长度为更接近logN而非N（N为节点数）,则可以认为“小”。通过R计算出“电影演员合作网络”的平均路径只有10.27,最长的路径长度也不过为24。在反观聚集性,“电影演员合作网络”的簇系数高达22.47%,比较网络密度的0.24%,已经是一个很高的数值了。说明电影合作网络中,聚集效应比较明显,同一个演员的合作者之间的合作关系也比较多。因此,电影演员合作网络中具有较小的平均路径以及较高的簇系数,电影合作关系的小世界效应可以说是非常明显了。
3）无标度特性：明显总是少数的,做个普通人也挺好
不少人觉得明星的生活跟自己隔着一堵墙。从社交网络上,明星们往往粉丝百万,点赞无数。前段时间,谢娜的粉丝数目还突破了吉尼斯纪录。反观我们自己,与明星相比,粉丝可以说是少的可怜了。不过也没必要自怨自艾,事实上,大部分人都是“芸芸众生”。
微博信息页
在真实的社交网络上,节点的度往往呈现非常不均衡的分布,即大多数节点只具有少量连接,而少量节点具有大量连接。这部分人可以说是“社交达人”了。我们用幂律分布来近似刻画这种节点度的统计特性。幂函数曲线是一条下降相对缓慢的曲线,这使得度很大的节点可以在网络中出现。不过不要伤心,如同你我这样的芸芸众生是大多数,普普通通过一生也很好。
在这个意义上,我们把节点度服从幂律分布的网络叫做无标度网络,并称这种节点度的幂律分布为网络的无标度特性。许多实际网络系统的幂指数值介于2.0与3.0之间。利用R软件对于“电影演员合作网络”中的节点度进行统计如下图所示：
电影合作网络节点度分布
可以清晰地看到在电影合作网络图中,节点之间的图分布在1~27之间,其中度为1和2的节点数量很多,占所有节点的将近75%,远远超过其它度数的占比。高节点度数的节点又很少,像度数为26~27的节点都各只有1个。他们分别是英国演员大卫·田纳特和日本演员加濑亮,整体的节点度分布图又很近似一个幂律分布,可以看出电影合作网络是符合幂律性特征的。看来,即使是在名人辈出的大荧幕圈,也总能找到“社交达人”。
日本合作小能手加濑亮拥有27个合作主演,英国团队之星田纳特拥有26个合作主演
本文由狗熊会投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/58905.html 。

数据分析

2018-08-07 23:54:00

传谷歌正与腾讯等洽谈合作，欲在中国推出云服务 | 数据分析网首页分类阅读行业资讯 �

8月4日消息,据国外媒体报道,谷歌希望重返中国,并正在为这项计划的关键部分打基础——将其云业务引入这个全球第二大经济体国家。
消息人士透露,谷歌正在与腾讯公司、浪潮集团以及其他中国公司商谈在中国大陆提供云服务的事宜。由于谈判处于私密状态,消息人士不愿意透露自己身份。
据消息人士称,这项谈判于2018年初开始,并且到3月份晚些时候,谷歌将合作伙伴的候选公司范围缩小到了只剩下三家。
该报道称,谷歌寻求在中国市场提供云服务之际,正值当前中美贸易紧张关系升级之时。目前尚不知道,这项计划是否会受到影响。
通过与中国大陆本地合作伙伴进行合作,谷歌打算通过中国供应商的本地数据中心和服务器来运行其基于互联网服务,就像其他美国云服务公司进入中国大陆市场的方式一样。
在世界上大多数地方,谷歌云（Google Cloud）出租云端计算能力和存储空间,并出售运行于自己数据中心的智能办公套件应用G Suite。中国政府要求所提供服务的数字信息要存储在中国境内,谷歌目前在中国大陆没有数据中心,因此该公司需要与中国大陆本土企业建立合作伙伴关系。
Google Cloud主管戴安格林(Diane Greene)上周表示,她希望谷歌云服务覆盖全球,但她拒绝就中国市场问题发表具体评论。尽管如此,该公司正在为其云业务寻找一名驻上海的业务发展经理。该职位的招聘公告,将应聘者“拥有中国市场的经验和知识”列为招聘首要条件。
针对以上消息,Google Cloud发言人拒绝置评,浪潮集团和腾讯发言人没有立即回应置评请求。浪潮集团是一家提供云服务和服务器业务的重要供应商。
此外,与腾讯、浪潮集团等中国大型建立合作关系,也将给谷歌全面重返中国大陆市场提供强有力帮助。由于不接受中国监管机构的监管,谷歌于2010年退出中国搜索引擎市场。但在那之后,谷歌一直在积极寻求重新进入中国市场的途径。
经过多年在中国的缓慢重建,谷歌重返中国市场的步伐最近已在加速。今年该公司正在香港建设云数据中心,并于1月份在北京开设了一个人工智能研究中心。与Alphabet旗下其它子公司一样,谷歌已开始加大对中国公司的投资。本周早些时候,有报道称谷歌将在中国市场推出审查版本搜索引擎服务。
对于谷歌来说,在中国建立自己的合作关系,将有助于该公司与更强大的竞争对手亚马逊和微软展开竞争。在2017年晚些时候,亚马逊同意将其中国服务器和其他云服务资产出售给本地合作伙伴北京光环新网科技公司。
与腾讯联手,意味着谷歌在中国市场将拥有一个强有力的合作伙伴,但也将面对阿里巴巴等中国本土竞争对手的竞争。阿里巴巴在国内运营有重要的云业务。
据市场研究公司Synergy Research Group称,中国是第二大云服务市场,但本土公司在其中占据主导地位,这无疑给谷歌这样的外来竞争者带来困难。该市场研究公司分析师约翰丁斯代尔(John Dinsdale)表示：“你可能永不言败,但这确实很困难。”该市场研究公司6月份发布的一份研究报告显示,谷歌在亚洲云市场份额排名第四,排名位于亚马逊、阿里巴巴和微软。
今年1月,谷歌与腾讯达成了一项专利共享协议。按照这份协议,两家公司将联手开发未来的技术。
根据腾讯官方网站,腾讯运营着自己的云服务,并正在建立一个合作伙伴生态系统,其中包括思科系统公司、台湾英伟达公司和德勤(Deloitte)。腾讯已经提供了一项名为腾讯云容器服务（Tencent Kubernetes Engine ,TKE）的云服务,该服务基于流行的谷歌技术。谷歌可以通过腾讯的数据中心提供Gmail、Drive和Docs等服务。腾讯可以建议现有的云用户尝试谷歌产品。
谷歌自称其云服务具有安全性和人工智能优势。Tensorflow是谷歌创建的人工智能应用的编码库,在中国的研究人员和软件开发人员中越来越受欢迎。其功能与其他云服务兼容,也被设计成能够最有效地使用谷歌的云服务。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-07 23:43:00

谷歌新增自动化机器学习工具并将其人工智能软件用于呼叫中心 | 数据分析网首页分类�

图片来源：The Verge
谷歌本周在其云计算大会上发布了一系列人工智能公告,该会议将于今天在旧金山举行,许多人都将注意力集中在该公司的机器学习工具的民主化上。谷歌的AutoML Vision工具在今年1月推出的Cloud AutoML项目启动后,从今天开始将在公开测试中推出,该公司在主题演讲中宣布了这一计划。
Cloud AutoML基本上是一种允许非专家——那些没有机器学习专业知识甚至无法流畅编码的人——来培训他们自己的自学模型的工具,所有这些使用的工具作为谷歌云计算产品的一部分。第一个工具是AutoML Vision,它允许你创建用于图像和对象识别的机器学习模型。谷歌通过使用简单的图形界面和普遍理解的拖拽等UI触摸,使这些工具对于软件工程和AI领域以外的人员变得十分清晰。
现在AutoML Vision正在进入公共测试阶段,它可供任何数量的组织,企业和研究人员使用,他们可能会发现这种类型的AI很有用,但却没有资源或技术来开发自己的培训模型。在大多数情况下,公司可以通过适用的API简单地使用AI软件,例如谷歌向第三方提供的Cloud Vision API。但该公司正在设计其Cloud AutoML工具,以服务于主要在科技领域之外的公司,这些公司可能具有需要对自定义数据进行培训的特定需求。
谷歌首次推出的一个例子是Urban Outfitters构建的模型,可以帮助它识别产品的模式和其他相似之处,因此它可以为在线客户提供更细粒度的搜索和过滤选项,这些选项基于你通常认为只有人类才会注意到的服装特征。 (想想“深V”和标准“V领”衬衫之间的区别。)Cloud Vision API专注于广泛的物体和图像识别,并没有完全削减它,所以Urban Outfitters可能会使用谷歌工具发展自己的模型。
今天还宣布推出两个新的Cloud AutoML域名：一个用于自然语言,另一个用于翻译。谷歌使用软件解析口头和书面文字的能力构成了谷歌智能助理产品的基础,而人工智能培训的翻译算法的熟练程度,使谷歌翻译在许多不同类型的语言中取得如此惊人的成功。
当然,如果没有适当的专业知识,资源和相当大的数据集,你将无法开发像谷歌这样的复杂模型和软件。但该公司正在通过这些新领域开始对自定义模型进行基本培训。
谷歌已经表示,出版业巨头赫斯特(Hearst)正在使用AutoML Natural Language,来帮助标记和整理其众多杂志,以及这些出版物的众多国内和国际版本的内容。谷歌还向日本出版商日经集团(Nikkei Group)提供了AutoML Translation,该集团每天都会发布和翻译多种语言的文章。
“人工智能是一种权利赋予,我们希望为每个人和每个企业,从零售业到农业、教育再到医疗保健实现民主化。”谷歌人工智能首席科学家李飞飞在一份声明中表示,“人工智能不再是科技界的小众市场,这是每个行业企业的差异化因素。我们致力于提供能够彻底改变它们的工具。”
除了新的Cloud AutoML域名之外,谷歌还在开发一个人工智能客户服务代理,它可以作为呼叫者通过电话与之交互的第一个声音。谷歌正在调用产品Contact Center AI,它与现有的Dialogflow软件包捆绑在一起,为企业开发会话代理提供工具。虽然公司没有提到名称,但很明显,Contact Center AI与谷歌在Duplex上所做的工作类似。
Duplex是今年早些时候在谷歌I / O上推出的项目,伪装成一个人通过电话为人们提供个人会话AI助手,来预约和完成其他普通的任务。当发现这可以在未经另一端的人类服务工作者同意的情况下完成时,谷歌就会陷入困境。 (谷歌今年夏天正在积极测试Duplex,但仅限于非常有限的用例,例如询问假期时间和预订。)谷歌发言人告诉The Verge,虽然Contact Center AI和Duplex是不同的产品,但它们共享一些底层组件,是“整体上独特的技术堆栈和目标。”
通过Contact Center AI,谷歌正在转变为一个领域,呼叫者更熟悉与机器人交互的概念,并通过主动联系客户服务来实现自己的意愿。由于这种背景,听起来这种技术很可能在未来如何运营呼叫中心。Call Center AI首先让呼叫者与AI代理联系,AI代理尝试解决问题,就像标准的自动客户服务机器人一样,但具有更复杂的自然语言理解和功能。如果呼叫者需要或更喜欢与人交谈,则AI转移到支持角色,并通过实时呈现与对话相关的信息和解决方案来帮助人类呼叫中心工作者解决问题。
李飞飞表示,谷歌正在与其现有的Contact Center AI合作伙伴合作,“与我们一起围绕负责任地使用Cloud AI进行互动。”她谈到当然同意和披露,特别是当有人与AI交谈以及如何不给软件灌输无意识的偏见,尤其是在种族和性别方面。 “我们希望确保我们使用的技术,是以员工和用户将会发现公平、有能力且值得信任的方式。”李飞飞写道。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-07-26 00:31:00

基于AI云平台进行DNA数据分析，Lifebit获300万美元种子轮融资 | 数据分析网首页分类阅读 �

7月21日消息（编译：秦文琰）,基于 AI 云平台进行DNA 数据分析 , Lifebit 获300万美元种子轮融资。
理解DNA数据包含两个步骤：第一步,DNA的生化测序。第二步,分析和洞察DNA数据。发展到2018年,第一个步骤已经可以在最少的人工干预下实现完全自动化。据业内人士称,测序成本已降至1000美元以下,甚至很快可以降到100美元。然而,理解DNA的第二步距离自动化还有很长的路要走,因为它非常复杂,耗时并且需要高度专业化的专家来分析数据。
一家初创公司准备着手解决这个问题。
位于伦敦的Lifebit正在建立一个基于云的认知系统,这个系统可以像人类一样推理DNA数据。Lifebit可以为只接受过有限计算机和数据分析培训的研究人员、研发专业人员以及相应的组织机构（比如制药公司）提供一个高度可扩展、模块化、可重复的系统,该系统可以实现分析过程自动化和数据学习,并且提供可行的分析。
Lifebit现在已经完成了由Pentech和Connect Ventures主导的、有Beacon Capital和Tiny VC（AngelList）参与的价值300万美元的种子轮融资。该公司同时宣布推出其首款产品Deploit,该产品宣称是是世界上第一个基于AI技术的基因组数据分析平台,该公司还表示,此产品已经在接受大型制药和生物技术公司的试用。
Lifebit的主要“竞争对手”是从基因组和生物数据中获取有价值信息的DIY流程。业界和学术界的组织们都在构建和定制软件和硬件解决方案,以便能够大规模分析基因组和生物数据。这导致了资源的大量浪费,因为定制软件和硬件不仅昂贵并且难以扩展和维护。
现已创建的一些平台,如DNAnexus和SevenBridges,往往缺乏灵活性,不能与绝大多数生物信息学家的工作方式相融,操作起来像黑匣子一样,无法让用户完全控制,也缺乏透明度,使用成本高昂,还会强制锁定。总而言之,如果用户停止使用这些平台,则无法再访问他们过去的所有工作。它们不是为人工智能而设计的,也不是对过往分析的高级学习。
Lifebit的Deploit平台旨在解决所有这些问题,它特别突出机器学习功能,自动化流程,致力于创建一个可供每个尝试分析和理解基因组和生物数据的人使用的工具,就像GitHub改变了软件工程师的生活一样。
实际上,Deploit的定价模式也与GitHub类似。个人用途和非商业用途是免费的,开通团队功能以及企业使用是需要付费的。
Lifebit于2017年4月注册成立,但创始人Maria Chatzou博士（首席执行官）和Pablo Prieto博士直到7月份我们搬迁至伦敦,加入Techstars才开始全职工作。
Chatzou说：“这些组织面临的问题不再是对大量基因组数据进行排序,而是快速、经济地搞清楚这些数据,这就需要新的数据分析技术,这也正是Lifebit的用武之地。我们公司的使命就是在任何地方,任何人都可以实现基于云的实时基因组分析。”
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-07-25 07:26:00

谷歌发布AI七原则，不开发伤人武器，但没说不介入战争 | 数据分析网首页分类阅读行业

大数据文摘出品
编译：大数据文摘编辑组
扛不住闹得沸沸扬扬的“参与军方Maven项目”事件带来的多方压力,谷歌这周先是表明将在明年终止与美国国防部的Maven合同,今天又忙不迭发表了一份评估AI应用的原则。
谷歌CEO Sundar Pichai在推特上转发并评论说：“我们将我们的AI原则和实践分享给大家。AI的开发和使用方式将在未来很多年里持续带来重大影响。我们感到了强烈的责任感,要把这件事做好。”
事情是这么开始的：今年3月份,谷歌被曝出正参与Maven项目,内容是向国防部提供TensorFlow APIs和先进的计算机视觉技术,帮助军方识别和检测无人机摄像头中的车辆和其他物体,减轻分析人员的负担。
这一举措很快就遭到了各种人士的反对,谷歌上千名员工还签署了联名信抗议。
不过,谷歌今天发布的AI原则里,并没有员工之前上书时要求谷歌承诺的条款：永远不开发战争相关技术。
谷歌的说法是,不将AI用于武器或其他直接伤害人类的技术。但是对于存在伤害风险的技术,谷歌会做个评估,如果收益大大超出风险的话,还是会执行。
当然,有原则总比没有好。
谷歌AI七原则全文
AI,说到底,是可以学习和改进的计算机程序。它不能解决所有问题,但它可以大大改善我们的生活。在谷歌,我们使用AI来使产品更加有用：从无垃圾的电子邮件到猜出你下一句要打什么字,到可以自然对话的数字助手,以及弹出有趣东西的照片。
除了我们的产品,我们正在使用AI来帮助人们解决紧急问题。一些高中生正在构建AI驱动的传感器来预测野火的风险,农民正使用AI来监测牛群的健康状况,医生开始使用AI来帮助诊断癌症并防止失明。
谷歌大力投资人工智能研究和开发,并通过我们的工具和开源代码使其他人可以广泛使用人工智能技术,正是由于以上原因。
伴随强大技术的,就是对如何使用技术的疑问。人工智能如何开发和使用将会对未来多年的社会产生重大影响。作为人工智能领域的领导者,我们深感责任重大。
所以今天,我们宣布七项原则来指导我们今后的工作。这些不是理论概念,而是具体的标准,将积极主导我们的研究和产品开发,并会影响我们的业务决策。
我们承认,这个领域是动态的和不断发展的,我们将保持谦逊的态度,保持对内部和外部参与的承诺,保持不断调整我们的方法的决心。
AI应用程序的原则
我们将基于以下原则评估AI应用程序。我们相信AI应该：
1.对社会有益
新技术的应用范围越来越广,越来越接触整个社会。人工智能的进步将对包括医疗保健,安全,能源,运输,制造和娱乐在内的广泛领域内产生变革性影响。当我们考虑AI技术的潜在发展和应用时,我们将考虑范围广泛的社会和经济因素,并在我们认为总体上收益大大超过可预见的风险和缺点的情况下继续我们的工作。
人工智能还增强了我们大规模理解内容的能力。我们将努力使用AI来随时提供高质量且准确的信息,同时继续尊重我们运营所在国家的文化,社会和法律准则。我们将继续深思熟虑地评估何时使我们的技术在非商业基础上可用。
2.避免制造或加强不公平的偏见
人工智能算法和数据集可以反映,加强或减少不公平的偏见。我们认识到,区分公平和不公平的偏见并不总是很简单,并且在不同的文化和社会中是不同的。我们将努力避免对人们造成不公正的影响,特别是与种族,民族,性别,国籍,收入,性取向,能力以及政治或宗教信仰等敏感特征有关的人。
3.建立并测试安全性
我们将继续开发和应用强大的安全保护措施,以避免造成伤害风险的意外结果。我们将使我们的人工智能系统保持适当谨慎,并根据人工智能安全研究的最佳实践寻求开发它们的方式。在适当的情况下,我们将在受限环境中测试AI技术,并在部署后监控其操作。
4.对人负责
我们将设计AI系统使之为反馈,相关解释和上诉提供适当的机会。我们的AI技术将受到适当的人类指导和控制。
5.结合隐私设计原则
我们将把我们的隐私原则纳入我们的人工智能技术的开发和使用中。我们将给予通知和同意的机会,鼓励具有隐私保护的架构,并提供适当的透明度和对数据使用的控制。
6.坚持科学卓越的高标准
技术创新植根于科学方法和对开放式调查、智力严谨、诚信和合作的坚持。人工智能有潜力在生物学,化学,医学和环境科学等关键领域开拓科学研究和知识的新领域。在促进人工智能发展的过程中,我们追求科学卓越的高标准。
我们将与一系列利益相关者合作,以科学严谨的、多学科的方式来促进这一领域的深思熟虑的领导力。我们将通过发布教育材料、最佳实践和研究来负责任地分享人工智能知识,使更多人能够开发有用的人工智能应用。
7.考察技术的用途
许多技术都有多种用途。我们将努力限制潜在的有害或滥用的应用。随着我们开发和部署人工智能技术,我们将根据以下因素评估可能的用途: 主要的目的和用途：技术和应用的主要目的和可能使用方式,包括解决方案与有害使用的关系或适应性。性质和独特性：我们是否提供独特的或更普遍的技术。规模：该技术的使用是否会产生重大的影响。谷歌参与的性质：我们是提供通用工具,为客户集成工具,还是开发自定义解决方案。
这些AI应用我们不会去触及
除了上述的目标,我们不会在以下应用领域设计或部署AI：
1.造成或者可能造成整体伤害的技术。如果一项技术存在重大伤害风险,我们只会在其收益大大超过风险的情况下进行,并且会提供适当的安全措施。
2.武器或其他用于直接伤害人类的技术。
3.违反国际规范收集或使用信息进行监视的技术。
4.违反了被广泛接受的国际法和人权原则的技术。
我们希望明确的是,虽然我们没有开发作为武器的AI,但我们将继续与政府和军队在许多其他领域开展合作,包括网络安全 ,培训,军人招募,退伍军人医疗保健和搜救。这些合作非常重要,我们将积极寻找更多方法来加强这些关键工作,保证服务人员和平民的安全。
AI的长期发展
这是我们对待人工智能的方法,但我们知道在这场讨论中还有许多其他的声音。随着人工智能技术的进步,我们会和一系列利益相关者合作,并采用科学严谨的、多学科的方法,推动这一领域的思想进步。我们也会继续分享我们所学到的知识,来改进AI技术和实践。
我们相信这些原则是谷歌和AI未来发展的正确基础。这与我们一开始在2004年发布的价值观相一致。我们在此明确表示我们更看重AI的长远发展,即使这意味着我们需要做出短期的权衡。我们那时是这样说的,现在也还这样相信着。
相关报道：
https://www.blog.google/topics/ai/ai-principles/
本文为专栏文章,来自：大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/55933.html 。

数据分析

2018-07-23 07:53:00

泰国游戏区块链初创公司Gamedex获80万美元种子轮融资 | 数据分析网首页分类阅读行业资�

全球游戏行业持续增长,2017年市场规模已达到1100亿美元。预计到2020年,游戏行业的年复合增长率将达到6.2%,其中大部分增长来自亚洲。 Gamedex 是一家来自泰国的基于区块链的数字收藏卡牌游戏平台。这个平台有点像Steam,不过仅适用于数字收藏卡片游戏。
北京时间17日,Gamedex宣布已获得由Invictus Capital领投的80万美元种子融资,用于为区块链驱动的数字收藏卡片游戏和精灵宝可梦、Hearthstone、Magic等传统数字收藏卡片游戏构建类似Steam的平台。
Gamedex由Henno Fourie在2018年1月创立,是一个集合了各类数字收藏卡（如口袋妖怪和棒球卡）的平台。在Gamedex平台上,可以发行、购买和交易这些卡片,以及将这些卡片用于多人游戏。人们可以在支持下赌注的游戏中赢得或输掉这些Gamedex代币（GDX）。
在本次种子轮融资中,投资者购买的是Gamedex代币而非股权。Invictus Capital通过旗下的Hyperion基金进行了本次投资。Hyperion基金是一支专注于区块链的风险投资基金,投资对象为区块链行业中最有才华的创业者和梦想家。
Gamedex下一次销售Gamedex代币的时间将在8月以后。
Invictus Capital CEO Daniel Schwartzkopff指出：“2017年,数字资产市场规模达到350亿美元,而加密货币市场规模已接近1万亿美元。实际上,虽然大家都在说区块链,但是人们仍然在探索区块链在消费市场中的应用。我预计,到2022年,新兴非货币加密收藏品市场规模将达到1000亿美元。”
在硅谷,已经有不少风险投资机构和个人开始投资区块链及加密货币行业,如Union Square Ventures、Andreessen Horowitz、Coinbase联合创始人Fred Ehrsam、AngelList联合创始人Naval Ravikant和Zynga联合创始人Mark Pincus。
Gamedex联合创始人兼CEO Cameron Garvie补充说：“我们选择接受Daniel和他的团队Invictus给我们的资金,是因为他们拥有深厚的专业背景,并且在行业中拥有丰富的人脉。”Gamedex计划在2018年末推出公共GDX代币销售。
本文为专栏文章,来自：数据猿,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/58263.html 。

数据分析

2018-07-22 11:16:00

Facebook发布基于NLP的代码搜索工具 | 数据分析网首页分类阅读行业资讯大数据统计学数

来源 | Facebook AI Blog
作者 | Sonia Kim, Hongyu Li, and Satish Chandra
译者 | 核子可乐
编辑 | 陈思
导读：事实证明,如果工程师们能够轻松找到代码示例来指导自己完成特定的编码任务时,他们的工作效率与成果都会更令人满意。对于某些问题,例如“如何以编程方式关闭或隐藏 Android 系统的软键盘？”等,则完全可以从 Satck Overflow 等流行资源库中获取信息。但是,某些专有代码或者 API（或者是使用那些不太常见的编程语言编写的代码）中往往存在一些极其小众的问题,而工程师们也很难从主流论坛中找到答案。
为了满足这一需求,Facebook 开发出一种代码搜索工具,能够将自然语言处理（NLP）与信息检索（IR）技术直接应用于源代码文本。他们将这款工具命名为神经代码搜索（NCS）,其能够接收自然语言查询并直接返回从码语料库中检索到的相关代码片段。
我们设置了一个前提,即随着众多大型代码库的上线,与开发人员所查询之代码片段相关的内容有可能已经存在于现有大型代码库之内。在本篇文章中,我们将介绍完成这项任务所用到的两种模型： NCS 是一套无监督模型,结合了 NLP 与 IR 技术。 UNIF 是 NCS 的扩展,当拥有良好的监督数据可供训练使用时,它会利用监督神经网络模型以提高性能。
利用开源 Facebook AI 工具（包括 fastText、FAISS 以及 PyTorch）,NCS 与 UNIF 得以将自然语言查询与代码片段表示为向量,而后训练网络,使得语义相似的代码片段与查询向量在向量空间之内紧密相连。通过这些模型,我们可以直接从代码语料库当中找到代码片段,以便有效回答工程师提出的问题。为了评估 NCS 与 UNIF,我们在 Stack Overflow 上使用了我们新创建的公共查询数据集。我们的模型能够正确回答该数据集中的问题,例如：如何关闭 / 隐藏 Android 软键盘？如何在 Android 当中将位图转换为可绘制图片？如何删除整个文件夹及其内容？如何处理活动中的后退按钮？
NCS 的性能表明,这种相对简单的方法能够在源代码领域带来很好的收效。UNIF 的表现则证明,当拥有可用标记数据时,简单的监督学习方法能够带来显著的额外助益。在配合其它 Facebook 构建的系统（例如 Aroma 与 Getafix）时,该项目能够为我们的工程师提供广泛且不断增长的 ML 驱动型工具包,以帮助他们更加高效地编写并管理代码。
NCS 如何使用嵌入
NCS 模型利用嵌入来捕获程序语义（在本示例中,即代码片段的意图）,并以连续向量进行表示。通过适当的计算,其即可在向量空间当中使语义相似的实体拥有彼此接近的期望属性。在以下示例当中,我们面对的是两个不同的方法体,其都与关闭或隐藏 Android 软键盘有关（前方提出的第一个问题）。由于二者具有相似的语义含义,因此即使其代码行内容并不完全相同,同样能够在向量空间中以彼此接近的点表示。
上图展示了向量空间中类似的代码片段是如何聚集的
我们利用这一概念来构建 NCS 模型。从高级角度来看,模型生成期间的每个代码片段都会以方法级粒度嵌入至向量空间之内。在模型构建完成之后,特定查询将映射至同一向量空间之内,其中向量距离将用于估算代码片段与查询内容的相关性。本节将更具体地描述模型生成以及搜索检索流水线,具体如下图所示。
此图展示了 NCS 的整体模型生成与搜索检索过程
模型生成
为了生成模型,NCS 必须提取单词、构建单词嵌入,而后构建文档嵌入。（这里的「文档」指方法体。）
提取单词
NCS 从源代码当中提取单词,并对其标记化以生成单词的线性序列。此处显示的示例数据来自 GitHub 上基于 Apache 2.0 许可协议的公开代码。
为了生成用于表示方法体的向量,我们需要将源代码视为文本,并从以下语法类别当中进行提取：方法名称、方法调用、枚举、字符串文字以及注释。而后,我们根据标准英语惯例（例如空格、标点符号等）以及与代码相关的标点符号（曲线与峰谷）对其进行标记。例如,对于上图中的方法体“pxToDp”,我们可以将源代码视为单词的集合,即“将 dp px 中的像素转换为 dp,获取资源,获取显示指标。”
对于我们语料库中的每个方法体,我们都可以使用这种方式进行源代码标记并学习每一个单词的嵌入。在这一步骤之后,我们将从每个方法体中提取到的单词列表整理为类似自然语言文档的形式。
构建单词嵌入
我们使用 fastText 为词汇语料库中的所有单词构建单词嵌入。FastText 利用两层密集神经网络计算这些向量表示,而该神经网络则可在大型语料库上进行无监督训练。具体来讲,我们使用到 skip-gram 模型,其中目标标记的嵌入被用于预测固定窗口大小之内的上下文标记嵌入。在以上示例当中,由于嵌入对应“dp”标记与窗口大小为 2,因此 skip-gram 模型将学习预测标记“pixel”、“in”、“px”以及“to”。其目标是学习嵌入矩阵 Tq ∈ R|Vc|×d,其中的|Vc |代表语料库的大小,d 为单词嵌入维度,T 中的第 k 行即代表 Vc 中第 k 个单词的嵌入。
在该矩阵当中,如果相应的单词经常出现在相似的上下文当中,则代表两个向量彼此靠近。我们使用该语句的逆向形式帮助定义语义关系：具有更接近的向量单词则应该具有较为相关的含义。这在 NLP 文献当中被称为分布假设,我们相信源文本中也存在相同的概念。
构建文档嵌入
下一步是使用方法体中存在的单词表达方法体的整体意图。为此,我们需要对方法体中单词集的单词嵌入向量进行加权平均。我们将此称为文档嵌入。
这里,d 代表的是方法体中的一组单词,vw 是单词 w 的 fastText 单词嵌入,C 是包含所有文档的语料库,u 则为标准化函数。
我们使用的术语“频率”是指逆文档频率函数（TF-IDF）,负责为给定文档中的特定单词分配权重。其目标在于突出文档中最具代表性的单词——如果某个单词在文档当中经常出现,则其具有更高的权重；但如果它在语料库的过多文档中出现,则会受到权重惩罚。
在完成此步骤之后,我们已经将语料库中的每个方法体索引至文档向量表达中,模型生成也就此完成。
搜索查询
搜索查询往往表达为自然语言句子,例如“关闭 / 隐藏软键盘”或者“如何创建没有标题的对话框”。我们以与源代码相同的方式对查询内容进行标记,并使用相同的 fastText 嵌入矩阵 T。我们直接对各单词的向量表示进行平均化以建立起查询语句的文档嵌入；所有与核心内容无关的词汇都会被删除。接下来,我们使用标准相似性扫完算法 FAISS 来查找与查询内容具有最近余弦距离的文档向量,并返回前 n 个结果（再加上一些处理后的排名,后文将进一步做出解释）。
两个方法体与查询被映射至同一向量空间中靠近在一起的点上。这意味着查询与这两个方法体具有语义相似性,且后两者与查询内容相关。
结果
我们利用 Stack Overflow 上的问题评估 NCS 的性能,将标题作为查询内容,并将答案中的代码片段作为所需要的代码答案。面向特定查询,我们测量自己的模型能否从 GitHub 存储库集合当中的第五条、前五条以及前十条结果中找到正确答案（分别在下表中标记为 Answered @ 1,5,10）。我们还报告了平均倒数等级（MRR）,用以衡量 NCS 能够在第几个结果当中找到正确答案。在我们创建的 Stack Overflow 评估数据集的总计 287 个问题当中,NCS 能够在前十条结果中正确回答的问题为 175 个；这相当于整个数据集的 60% 以上。我们还将 NCS 性能与传统 IR 技术 BM25 进行了比较。从表中可以看出,NCS 的表现要优于 BM25。
NCS 拥有良好问题回答能力的案例之一,是“从应用程序中启动 Android Market”,其中从 NCS 处返回的最优先结果为： private void showMarketAppIn() {try {startActivity(new Intent(Intent.ACTION_VIEW, Uri.parse("market://detailsid=" + BuildConfig.APPLICATION_ID)));} catch (ActivityNotFoundException e) {startActivity(new Intent(Intent.ACTION_VIEW, Uri.parse("http://play.google.com/store/apps/detailsid="+ BuildConfig.APPLICATION_ID)));}}
(此片段来自 GitHub 上的公开代码,依据 MIT 许可共享)
UNIF: 探索监督方法
NCS 的关键在于其使用了单词嵌入。由于 NCS 是一种无监督模型,因此具有以下几项显著优点：它可以通过搜索语料库进行学习,并能够快速轻松完成训练。NCS 假定查询中的单词来自与源代码中提取之单词相同的域,因为查询与代码片段都映射至相同的向量空间。然而,实际情况并非总是如此。例如,在查询“获取内部内存空间”时,其中的所有单词都不会出现在以下代码片段中。因此,我们需要将查询词“free space”映射至代码中的“available”一词处。 File path = Environment.getDataDirectory();StatFs stat = new StatFs(path.getPath());long blockSize = stat.getBlockSize();long availableBlocks = stat.getAvailableBlocks();return Formatter.formatFileSize(this, availableBlocks * blockSize);
(以上代码片段来自 Stack Overflow 的公开代码,依据 CC-By-SA 3.0 许可共享)
利用收集自 14005 篇 Stack Overflow 帖子整理而成的数据集,我们分析了查询内容中的单词与源代码中单词之间的重叠。我们发现,查询当中存在 13972 个唯一单词,而源代码域中的单词量则不到一半（6072 个单词）。这表明如果查询包含源代码当中不存在的单词,那么我们的模型将无法正确发挥检索作用。因此,我们决定删除这些范围外单词。这一观察结果,促使我们将目光转向监督学习,尝试将查询中的单词映射至源代码中的单词。
我们决定尝试使用 UNIF,即 NCS 技术的有监督最小扩展,用以弥合自然语言单词与源代码单词之间的空白。在该模型当中,我们使用监督学习技术修改单词嵌入矩阵 T,分别为代码与查询标记生成两个嵌入矩阵 Tc 与 Tq。我们还利用基于 attention 的权重方案替代代码标记嵌入中的 TF-IDF 加权方法。
UNIF 模型的运作方式
我们利用与 NCS 相同的（c,q）数据点集合对 UNIF 进行训练,其中 c 与 q 分别代码代码与查询标记。（请参阅以下章节以了解该数据集的更多细节信息。）该模型架构可描述为以下形式。设 Tq ∈ R|Vq|×d 与 Tc ∈ R|Vc |×d 是两个嵌入矩阵,分别将自然语言描述与代码标记中的各个单词映射至长度为 d 的向量（Vq 为查询词汇语料库,Vc 为代码词汇语料库。）这两个矩阵使用相同的初始权重 T 进行初始化,并在训练期间各自独立修改（与 fastText 相对应）。为了将每个代码标记向量组成成文档向量,我们使用 attention 机制计算其加权平均值。其中 attention 权重 ac ∈ Rd 是在训练过程中学习到的一个 d 维向量,并且充当 TF-IDF 的对应实体。给定一组代码单词嵌入向量{e1, ….., en},用于各个 ei 的 attention 权重 ai 将计算如下：
而后将文档向量计算为由 attention 权重加权的单词嵌入向量总和：
为了创建查询文档向量 eq,我们计算查询单词嵌入的简单平均值,方法与 NCS 类似。我们的训练过程通过经典的反向传播过程学习参数 Tq、Tc 与 ac。
此图展示了 UNIF 网络
检索的工作方式与 NCS 相同。首先给定查询,我们利用以上解释过的方法将其表示为一个文档向量,并使用 FAISS 查找与查询内容具有最近余弦距离的文档向量。（在原则上,UNIF 也将受益于 NCS 所给出的处理后排名。）
利用 NCS 进行结果比较
我们将 NCS 与 UNIF 在处理 Stack Overflow 评估数据集时得出的结果进行比较,以查看该模型是否正确能够在第一、前五以及前十项结果中找到正确答案,并观察其 MRR 得分。通过下表可以看出,UNIF 大大改善了 NCS 找到问题答案所需要的结果数量。
这再次证明监督学习技术在具有理想的训练语料库时,能够带来令人印象深刻的搜索性能。例如,使用搜索查询“如何退出应用程序并显示主屏幕？”时,NCS 返回的结果是： public void showHomeScreenDialog(View view) {Intent nextScreen = new Intent(getApplicationContext(), HomeScreenActivity.class);startActivity(nextScreen);}
UNIF 则给出了相关度更高的代码段： public void clickExit(MenuItem item) {Intent intent=new Intent(Intent.ACTION_MAIN);intent.addCategory(Intent.CATEGORY_HOME);intent.setFlags(Intent.FLAG_ACTIVITY_NEW_TASK);metr.stop();startActivity(intent);finish();}
（第一段来自基于 Apache 2.0 许可的 GitHub 公开可共享代码,第二段来自基于 MIT 许可的 GitHub 公开可共享代码)
再来看另一个例子,“如何获取 ActionBar 高度？”NCS 返回的答案为： public int getActionBarHeight() {return mActionBarHeight;}
UNIF 同样给出了相关度更高的代码片段： public static int getActionBarHeightPixel(Context context) {TypedValue tv = new TypedValue();if (context.getTheme().resolveAttribute(android.R.attr.actionBarSize, tv, true)) {return TypedValue.complexToDimensionPixelSize(tv.data,context.getResources().getDisplayMetrics());} else if (context.getTheme().resolveAttribute(R.attr.actionBarSize, tv, true)) {return TypedValue.complexToDimensionPixelSize(tv.data,context.getResources().getDisplayMetrics());} else {return 0;}}
(两段结果皆来自 GitHub 上基于 Apache 2.0 许可的可共享公开代码。感兴趣的朋友可以点击此处查看更多与 UNIF 性能相关的其它数据）
构建有效的 ML 支持型工具
创建成功机器学习工具的关键之一,在于获取高质量的训练数据集。对我们的模型而言,我们利用到 GitHub 中的大型开源代码库资源。此外,拥有高质量的评估数据集对于评估模型的实际质量同样非常重要。在探索相对较新的研究领域时（例如代码搜索）,可用评估数据集的匮乏往往会限制我们评估各种代码搜索工具性能的能力。因此,为了帮助改善该领域的基准性能,我们从 Stack Overflow 当中整理出一套包含 287 个公开数据点的数据集,其中每个数据点由自然语言查询与“黄金”代码片段答案共同组成。
创建一套训练数据集
我们在 GitHub 上挑选了 26109 个最受欢迎的 Android 项目,直接在搜索语料库上训练我们的无监督模型 NCS。随着训练的推进,NCS 返回的代码片段又构成了新的搜索语料库。为了整合 UNIF 模型的监督学习技术,我们需要一对经过校准的数据点以学习映射关系。我们利用一组（c,q）数据点集合对 UNIF 进行训练,其中 q 代表自然语言描述或者查询,c 则代表对应的代码片段。我们从 Stack Overflow 问题标题以及 Stack Exchange 公开发布数据（基于 CC-BY-SA 3.0 许可）的代码片段中整理出这一数据集。在对问题进行各种启发式过滤之后——例如代码片段必须具有 Android 标记,或者必须存在方法调用,或者绝对不可包含 XML 标记等——我最终得到了 45 万 1 千个训练数据点。该数据集与评估查询完全不相交。（这反映出训练数据集的最佳案例可用性；正如我们在前文中所指出,基于文档字符串的训练方法并没能给出理想的结果。）
评估数据集
我们利用 Stack Overflow 评估了 NCS 的有效性。Stack Overflow 是一种非常实用的评估资源,其中包含大量自然语言查询素材,以及可以接受的高支持率答案。我们将特定 Stack Overflow 问题标题作为查询内容,NCS 则从 GitHub 中检索方法列表。在我们创建并改进 NCS 的过程当中,如果 NCS 中至少有一个前 n 项结果与 Stack Overflow 中回答代码片段采用的方法相匹配,我们即将其视为搜索成功。（在我们的评估当中,我们使用了第一、前五以及前十条答案分别进行计算。）
我们使用具有以下标准的脚本对 Stack Overflow 问题进行了筛选：1）问题包含“Android”与“Java”标记；2）代码答案至少得到一位用户的支持；3）实际代码片段至少与我们的 GitHub Android repos 语料库内容具有一项匹配。通过一定程度的手动处理,我们获得了这个包含 287 个问题的数据集。
利用 Aroma 进行自动评估
我们发现,手动评估搜索结果的正确性可能很难以可重复的方式进行,因为答案往往因作者与审查者的思路而有所区别。我们决定使用 Aroma 建立自动评估流水线。Aroma 在搜索结果与实际代码片段间给出相似性评分,超过评估阈值即证明答案能够正确回应查询内容。通过这条流水线,我们得以通过可重复方式评估模型。我们使用 Stack Overflow 上的代码答案作为评估的基本事实依据。
我们不仅利用上述评估比较池 UNIF 与 NCS 之间的差异,同时也将 UNIF 与文献中提到的其它一些代码搜索解决方案进行了比较。（关于更多细节信息,请点击此处。）
这套工具集正在不断扩展
随着当今生产中大量代码存储库方案的广泛应用,机器学习技术从中提取出足以提升工程师生产力的重要模式与见解。在 Facebook 公司,我们使用的机器学习工具包括 Aroma 代码到代码推荐,以及基于 Getafix 的自动 bug 修复工具。NCS 与 UNIF 正是代码搜索模型当中的典型案例,其能够弥合自然语言模型与相关代码片段之间的表达差异。在这些工具的帮助下,工程师们将能够轻松查找并使用具有高相关性的代码片段,且适用范围涵盖各类专有源代码或者使用频率并不高的编程语言代码。在未来我们希望能够立足更为广泛的领域探索其它深度学习模型,从而进一步提高工程师们的生产效率。
https://ai.facebook.com/blog/neural-code-search-ml-based-code-search-using-natural-language-queries
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/66098.html 。

数据分析

2019-07-04 18:35:00

鲸准研究院：全球交易所评估报告-AEX | 数据分析网首页分类阅读行业资讯大数据统计�

交易所作为区块链发展前期的重要应用场景,它承担着市场拓展,资本引流、通证流通交易等重要任务,同时交易所也是区块链初期的重要流量入口。
本次报告主要从以下几个方面阐述区块链交易所行业发展情况：
1.AEX的简介与评估
2.AEX产品介绍
3.商业模式解读
作者：陈泓伊指导：谭莹
. 01 .正文

编辑: 陈文洋
本文由鲸准研究院投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/56541.html 。

数据分析

2018-06-27 10:17:00

苹果2亿美金收购机器学习和人工智能公司Turi，未来的Siri会更强大吗 | 数据分析网首页分

据科技网站Geekwire消息,苹果公司全资收购机器学习和人工智能创业公司 Turi,金额达到2亿美金。这笔收购也显示了苹果公司大举进攻AI 人工智能和机器学习的意图。近两年来,苹果已经在西雅图建设了一座工程师分部,这次的收购也意味着苹果从加州地区跨入到西雅图地区的布局。
苹果公司并没有对这笔收购做太多的回应,一位苹果公司负责人表示：苹果偶尔也收购小的科技创业公司,但是通常并不会对收购目的或者规划做过多评论。
收购的金额在2亿美元左右,这标志着公司原来的投资者或者持股者获得了一大笔收益,作为持股最大的创始人Carlos Guestrin则拒绝对收购进行评论。
根据知情人的消息,随着苹果在数据科学这一领域的加大布局,位于西雅图的 Turi 团队将继续保留甚至继续扩大,帮助苹果在这一领域继继续研发。
苹果公司对Turi的战略规划暂时不得而知,但是苹果在人工智能的持续发力已经被业内关注,预计Turi主要通过推动苹果人工语音助手Siri和相关技术的发展。
这是苹果公司在近两年在西雅图的第二个收购案例,早在2014年,苹果公司收购云计算和软件数据定义公司Union Bay Networks,这使得苹果公司在西雅图地区直接设立工程师办公室。
Turi 是一款帮助开发者开发 App 的应用工具,开发者在开发机器学习和人工智能的相关 App 时,可使用这一应用工具达到自动缩放和调节的功能。具体的功能产品包括Turi及其学习平台,GraphLab Create,Turi Distributed 和Turi 预测服务。其中大部分的功能设置,是为了帮助各大公司更好地利用数据,利用的案例包括推荐引擎、欺诈检测、客户流失预测、情感分析和客户细分。
在创始人Guestrin 的带领下,Turi早在2009年建立的时候是一个开源的项目。2012年,创始人加入华盛顿州立大学,亚马逊创始人Jeff Bezos提供200万美元研发资金,在华盛顿州立大学内支持两位机器学习领域的专家,Guestrin和他的妻子Emily Fox接受了该笔研发资金。此后,Guestrin 将这一开源项目从学校剥离出来到自己公司,并命名为GraphLab。根据他在 LinkedIn 上的介绍,Guestrin保留了华盛顿州立大学亚马逊机器学习教授的称呼。
在拆分的一年之后,公司获得了西雅图领先的投资公司 Madrona Venture Group 的A轮融资,金额为675万美元,同时,硅谷著名的投资公司 NEA 也在2015进行了投资,金额为1850万美元。作为美国西北地区著名的风投机构,这家公司曾经投出了Tableau 等这样的明星项目,NEA 的投资对Turi公司的发展起到了巨大的助推作用。
Turi是西雅图地区从事机器学习和人工智能科技开发的几家科技公司之一,这一类的公司已经在西雅图地区形成了一定的聚集效应。甚至有部分人开始认为,西雅图地区即将这份这一新兴产业的聚集地之一。
值得一提的是,从2015年,苹果已经完成了15笔收购工作,包括比 Turi规模更小的两家人工智能和机器学习创业公司Perceptio和VocalIQ,其他的收购包括今年收购的人脸识别公司Emotient,教育公司LearnSprout,空间感知公司公司Flyby Media,以及固件安全相关的创业公司 LegbaCore 等。
在今年的早些时候,苹果CEO库克暗示,随着苹果产品销量的下滑,公司将会做更多的收购工作。在苹果最近的营收报告上,苹果的现金收益达到2310亿美元。库克曾表示,“我们将继续观察,并在机器学习和人工智能领域持续保持活跃。” 来源：36Kr 作者：克里斯唐链接：http://36kr.com/p/5050692.html
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-08-06 23:00:00

关于TensorFlow你应该知道的9件事 | 数据分析网首页分类阅读行业资讯大数据统计学数据

作者 | Cassie Kozyrkov 译者 | Sambodhi Liu 编辑 | Natalie 微信公众号“AI 前线”（ID：ai-front）
在旧金山举办的 Google Cloud Next 大会上,有场精彩的演讲《What’s New with TensorFlow？》（演讲视频见文末）,我提炼了这场演讲的精华,以飨我的粉丝们！
我强烈建议你无论如何要抽空看完这场演讲,这简直太棒了！感谢 Laurence Moroney（@lmoroney）为我们带来如此精彩的演讲！如果你没有时间看完长达 40 多分钟的视频,那么就来看看我提炼出来的干货吧！
#1 它是一个强大的机器学习框架
TensorFlow 是一个机器学习框架,如果你拥有大量的数据,或者你正在学习人工智能最先进的技术：深度学习（可参阅《Step-by-Step Deep Learning Tutorial Walkthrough》https://github.com/kozyrkov/deep-learning-walkthrough ）,那么,TensorFlow 可能就是你趁手的兵器。它处理的是特别大的神经网络。从某种意义来说,它就是数据科学中的工业车床,而不是瑞士军刀。这意味着,如果你要做的是通过 20×2 的电子表格生成一条回归线,那么你很可能不需要再读下去了。
如果你追求的是大型项目,那么你就准备雀跃欢呼吧！因为 TensorFlow 可以干的事很多,可以用来寻找系外行星,可以帮助医生筛查糖尿病视网膜病变来预防失明,还可以通过提醒当局注意非法砍伐森林活动的迹象来保护森林。另外,TensorFlow 是 AlphaGo 和 Google Cloud Vision 的基础,也是你的最佳选择。TensorFlow 是开源的,你完全可以免费下载并使用。 AI 前线注：可参阅《TensorFlow Tutorial For Beginners》（http://u6.gg/ek2e4 ）
天文学家借助 TensorFlow,发现了系外行星 Kepler-90i,使得它所在的行星系 Kepler-90 成为我们已知的唯一有八颗行星的行星系统。由于尚未发现超过八颗行星的行星系统,因此就目前来说,我们的太阳系和 Kepler-90 都是拥有八大行星的行星系统。
#2 哪怕方法再奇怪,也不是不可以
我狂热地爱上了 TensorFlow Eager。
如果你以前尝鲜过 TensorFlow,但是因为它让你像学术界或外星人而不是像开发者那样编写代码,让你产生畏难情绪,那么就跟我来吧！
有了 TensorFlow Eager,你就可以像纯 Python 程序员那样,与它进行交互：一行一行地编写代码,并即时进行调试,而不是在构建那些庞大的图表时屏住呼吸。我自己也正从那个阴影走出来,但自从 TensorFlow Eager 问世以来,我就深深爱上了它。请一定要关注 TensorFlow Eager！
#3 你可以一行一行地构建神经网络
Keras + TensorFlow = 更容易的神经网络构建！
Keras 完全致力于用户友好性和简单的原型设计,这是传统的 TensorFlow 所渴望拥有的特色。如果你喜欢面向对象的思维,喜欢一次构建一层神经网络,那么一定会爱上 tf.keras。在下面的几行代码中,我们创建了一个 Sequential 神经网络,带有标准的额外卖点,比如 dropout。
哦,你喜欢智力拼图,对吧？要耐心。
#4 不仅仅是 Python
好了,对于 TensorFlow 只能运行在 Python 这一点,你已经抱怨很久了,我知道。但今天有个好消息！TensorFlow 不再是 Python 的专利了！现在,它可以在多种语言中运行,从 R 到 Swift,再到 JavaScript,都可以运行 TensorFlow 了！
#5 你可以在浏览器里做所有的事情
说到 JavaScript,你可以使用 TensorFlow.js 在浏览器中训练并执行模型。去看看这些很酷的演示吧：https://js.tensorflow.org/ ,我保证你会感到目瞪口呆！

使用 TensorFlow.js 实现浏览器中的实时人体姿态估计。打开你的摄像头,访问 http://u6.gg/ekpRz 体验一下。记得不要离开座位, ¯_(ツ)_/¯ 一切由你决定。 AI 前线注：可以参阅《Introducing TensorFlow.js: Machine Learning in Javascript》（http://u6.gg/ek2q7 ）、《Real-time Human Pose Estimation in the Browser with TensorFlow.js》（http://u6.gg/ek2tv ）
#6 有针对微型设备的精简版
从博物馆得到了老旧的台式设备？是烤面包机吗？TensorFlow Lite 为各种设备（包括移动设备和物联网设备）带来了模型执行的能力,与最初的 TensorFlow 相比,推理方面的速度提升了 3 倍以上。没错,现在,你可以在树莓派或手机上进行机器学习了！在这场演讲中,Laurence 做了一件很有勇气的事情：在成千上万的人面前,用 Android 模拟器演示了图像分类,演示非常成功！
1.6 秒就计算出来了！看！香蕉的概率超过 97%！看是卫生纸吗？好吧,我去过一些国家,我认为像 Laurence 这样的纸可以用来计数。
#7 专门的硬件变得更好了
如果为完成训练神经网络而等待 CPU 完成数据处理让你感到厌倦,那么你现在可以试试专为 Cloud TPU 而设计的硬件了。这个 TPU 中的 T 是指 tensor。就像 TensorFlow……这是巧合吗？我认为不是！就在几周前,Google 发布了 TPU 内测版的第三个版本。
#8 新的数据管道有了很大的改进
你原来用 numpy 做的是什么？如果你想用 TensorFlow 做同样的事,然后进行 rage-quit,那么 tf.data 命名空间就可以让你在 TensorFlow 中的输入处理更有效率。tf.data 为你提供了快速、灵活、易用的数据管道,实现了与训练同步。
#9 你不必从零开始
你知道开始机器学习的一种有趣的方式是什么吗？在编辑器中只有一个空白的新页面,没有任何示例代码,有没有一种无从下手的感觉？有了 TensorFlow Hub,你就可以更高效地执行由来已久的传统,就是获得别人编写的代码进行参考,改写,成为自己的代码（也称为专业软件工程）,跟 GitHub 一样一样的。
TensorFlow Hub 是可重复使用的预训练机器学习模型组件的存储库,为单行重用进行了打包。善用它就是帮助你自己。
虽然我们讨论的是社区主题,而不是孤军奋战,但你应该想知道的是,TensorFlow 刚刚有了官方的 youtube 频道和博客。 YouTube： https://www.youtube.com/channel/UC0rqucBdTuFTjJiefW5t-IQ blog： https://medium.com/tensorflow
上述内容,就是我从这场演讲中提炼出来的精华。下面就是完整的演讲视频,长度为 42 分钟：
原文链接：
9 Things You Should Know About TensorFlow
https://hackernoon.com/9-things-you-should-know-about-tensorflow-9cf0a05e4995linkId=55312498
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/59870.html 。

数据分析

2018-08-28 05:39:00

如何在学习机器学习时学习数学？ | 数据分析网首页分类阅读行业资讯大数据统计学 �

摘要：机器学习到底需要怎么样的数学基础？高段位机器学习如何练成？来瞧瞧。
到目前为止,我们都还不完全清楚开始机器学习需要什么样的数学水平,特别是那些没有在学校学习数学或统计学的人。
在这篇文章中,我的目标是提出建立产品或进行机器学习学术研究所需的数学背景。这些建议源于与机器学习工程师、研究人员和教育工作者的对话以及我在机器学习研究和行业角色方面的经验。
首先,我会提出不同的思维模式和策略,以便在传统课堂之外接近真正的数学教育。然后,我将概述不同类型的机器学习工作所需的具体背景,这些学科的范围涉及到高中统计和微积分到概率图形模型（PGM）。
关于数学焦虑的一个解释
事实证明,很多人包括工程师都害怕数学。首先,我想谈谈“善于数学”的神话。
事实是,擅长数学的人有很多练习数学的习惯。并不是他们先天就是擅长数学,你可能在看他们做数学时发现他们得心应手。要清楚,要达到这种舒适状态需要时间和精力,但这肯定不是你生就有的。本文的其余部分将帮助你确定所需的数学基础水平,并概述构建它的策略。
入门
作为先决条件,我们假设你有线性代数/矩阵运算以及概率计算的基本知识点。我还希望你有一些基本的编程能力,这将支持作为在上下文中学习数学的工具。之后,你可以根据你感兴趣的工作类型调整你的主要方向。
如何在校外学习数学？这个问题几乎困扰我们很多人。我相信专心学习数学的最佳方式是在学生的时代。在这种环境之外,你可能不会拥有学术课堂中的氛围、同伴和可用资源。
在校外学习数学,我建议组成学习小组,并学会及时分享各自的资源。相互激励在这里发挥着重要作用,这种“额外”的研究应该受到鼓励和激励,这样在学习上就会很有动力。
数学和代码
数学和代码在机器学习工作流程中是高度交织在一起的。代码通常是由数学模型构建,它甚至共享了数学符号。实际上,现代数据科学框架（例如 NumPy ）使得将数学运算（例如矩阵/矢量积）转换为可读代码变得直观和有效。
我鼓励你将写代码作为巩固学习的一种方式,数学和代码都是基于理性思考,写代码的过程其实就是理解数学公式的过程。例如,损失函数或优化算法的手动实现可以是真正理解基础概念的好方法。
通过代码学习数学的一个例子：在神经网络中实现ReLU激活的反向传播。作为简要的入门读物,反向传播是一种依赖于微积分链规则来有效计算梯度的技术。
首先,我们可视化 ReLU 激活,定义如下：
要计算梯度（直观地说,斜率）,你可以想象一个分段函数,由指标函数表示如下：
NumPy为我们提供了有用、直观的语法,我们的激活函数（蓝色曲线）可以在代码中解释,其中x是我们的输入,relu是我们的输出：
relu = np.maximum(x, 0)
接下来是渐变（红色曲线）,其中grad描述了upstream渐变：
grad[x < 0] = 0
在没有首先自己推导出梯度的情况下,这行代码你可能看的不是很明白。在我们的代码行中,(grad)对于满足条件的所有元素,将upstream梯度中的所有值设置为0 [h<0]。在数学上,这实际上相当于ReLU梯度的分段表示,当乘以upstream梯度时,它会将小于0的所有值压缩为0！
正如我们在这里看到的那样,通过我们对微积分的基本理解,我们可以清楚地思考代码。可以在此处找到此神经网络实现的完整示例。
为构建机器学习产品的数学
为了写这部分,我与机器学习工程师进行了交谈,以确定数学在调试系统时最有帮助的地方。以下是工程师自己回答的数学在机器学习中的问题。希望你能从中发现一些有价值的问题。
问：我应该使用什么样的聚类方法来可视化高维客户数据？
方法：
PCA与tSNE
问：我应该如何校准“阻止”欺诈性用户交易的阈值？
方法：
概率校准
通常,统计和线性代数可以以某种方式用于这些问题中的每一个。但是,要获得满意的答案通常需要针对特定领域的方法。如果是这样的话,你如何缩小你需要学习的数学类型？
定义你的系统
市场上有很多资源（例如, 数据分析的 scikit-learn ,深度学习的 keras ）它们将帮助你跳转编写代码来为你的系统建模。在你打算这样做的时候,尝试回答以下有关你需要构建管道的问题：
1.你系统的输入/输出是什么？
2.你应该如何准备数据以适合你的系统？
3.如何构建特征或策划数据以帮助你的模型进行概括？
4.你如何为你的问题定义合理的目标？
你可能会感到惊讶,定义一个系统竟然需要处理那么多问题！之后,管道建设所需的工程也是非常重要的。换句话说,构建机器学习产品需要大量繁重的工作,不需要深入的数学背景。
资源
• Google的研究科学家Martin Zinkevich 为ML工程提供的最佳实践
需要什么数学知识就需要什么！
当你的头脑中完全进入到机器学习工作流程时,你可能会发现有一些步骤会被卡住,特别是在调试时。当你被困住时,你知道要查找什么吗？你的权重是否合理？为什么你的模型不能与特定的损失定义融合？衡量成功的正确方法是什么？此时,对数据进行假设,以不同方式约束优化或尝试不同的算法可能会有所帮助。
通常,你会发现建模/调试过程中存在数学直觉（例如,选择损失函数或评估指标）,这些直觉可能有助于做出明智的工程决策。这些都是你学习的机会！来自 Fast.ai的 Rachel Thomas 是这种“按需”学习方法的支持者。
资源：
•课程：计算线性代数 by fast.ai ；
•YouTube： 3blue1brown ：线性代数和微积分的本质；
•教科书：线性代数 ,Axler；
•教科书：Tibshirani等人的统计学习元素；
•课程：斯坦福大学的CS229（机器学习）课程笔记。
数学用于机器学习研究
我现在想要描述对于机器学习中以研究为导向的工作有用的数学思维方式。机器学习研究的观点指向即插即用系统,在这些系统中,模型会投入更多计算以训练出更高的性能。在某些圈子里, 研究人员仍然怀疑缺乏数学严谨性的方法可以将我们带入人类智慧的圣杯。
值得关注的是,研究人员需要提供原始资源,例如新的基础构建模块,可用于获取全新的洞察力和实地目标的方法。这可能意味着重新思考用于图像分类的卷积神经网络等基础模块,正如Geoff Hinton在他最近的Capsule Networks 论文中所做的那样。
为了实现机器学习的下一步,我们需要提出基本问题。这需要深度数学成熟,因为整个过程涉及数千小时的“卡住”,提出问题,并在追求新问题时翻转问题观点。“有趣的探索”使科学家们能够提出深刻,富有洞察力的问题,而不仅仅是简单的想法/架构的结合。
ML研究是一个非常丰富的研究领域,在公平性、可解释性和可访问性方面都存在紧迫问题。越来越多的研究者希望从数学的角度来解决这些问题,而非辩证性的去看待问题。本文由阿里云云栖社区组织翻译。文章原标题《learning-math-for-machine-learning 》, 作者： Vincent Chen 译者：虎说八道。文章为简译,更为详细的内容,请查看原文。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-19 12:00:00

AI学习笔记——Tensorflow中的Optimizer(优化器) | 数据分析网首页分类阅读行业资讯大数据 �

在使用Tensorflow搭建神经网络的时候,最后一步总会用到tf.train.XxxOptimizer(). 然后会有很多Optimizer()如下图
其实这些Optimizer 都是优化算法下面重点介绍几个常见的
1. Gradient Decent
这是最基础的梯度下降算法,更新权重W,不多解释。
W += – α * dx
其中 α是learning rate(学习速率)。我们可以把下降的损失函数看成一个机器人,是由于在下降的时候不是均匀的,机器人会左右摇摆,所以下降速度会比较慢,有时候遇到局部最优,还可能在原地徘徊好长时间。

2. Momentum
顾名思义这个优化算法实际上给了一个动量,让机器人下降的的时候带一个惯性,下降的速度就加快了。
算法如下：
m = b1*m – α * dx
W += m
3. AdaGrad
这个算法是通过动态改变学习速率,提高下载速度,相当于给机器人穿上一个左右侧滑有阻力的鞋子,让它只好沿着正确的方向下滑。
v = dx^2
W += -(α/sqrt(v)) * dx
4. RMSProp
这个算法相当于在AdaGrad中引入了Momentum的惯性
v = b1 v + (1-b1) dx^2
W += -(α/sqrt(v)) * dx
但是RMSprop缺少了Momentum的变量m
5. Adam
Adam是目前用得最广的优化算法,它结合了AdaGrad和Momentum的优点(所以叫才Adam嘛)
m = b1 m + (1-b1) dx
v = b2 v + (1-b2) dx^2
W += -(α*m/sqrt(v)) * dx
这个算法相当于给机器人一个惯性,同时还让它穿上了防止侧滑的鞋子,当然就相当好用用啦。
给大家看看不同优化算法下降速度的差距
文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言或者访问我的Steemit主页
来源：https://www.jianshu.com/p/8f9247bc6a9a
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-17 16:22:00

一份关于如何为回归任务选择机器学习算法指南 | 数据分析网首页分类阅读行业资讯大�

摘要：本文总结了一些针对于回归问题的机器学习方法,辩证地分析了其各自的优缺点,读者可以根据具体问题选择合适的机器学习算法以完成相应的任务。
当遇到任何类型的机器学习（ML）问题时,可能会有许多不同的算法可供你选择。但是在机器学习中,有一个“没有免费午餐”的定理,该定理表明,基本上没有一种机器学习算法能够对所有问题而言是最合适的。不同机器学习算法的性能很大程度上取决于数据的大小和结构。因此,除非我们直接通过一次次实验和错误来测试我们采取的算法,否则,如何选择正确的算法通常仍然是不清楚的。
事物总有两面性,每种机器算法也会有一些优点和缺点,我们可以根据其优点和缺点作为选择合适算法的一种指导。虽然一种具体的算法并不总是优于另外一种算法,但我们可以根据每种算法本身具有的一些属性作为快速选择正确算法和调整超参数的指南。本文将分析一些针对回归问题的典型机器算法,并根据其优势和劣势制定何时使用它们的规则。看完这篇文章,应该可以帮助你为回归问题选择出最佳的机器算法！
线性和多项式回归
线性回归
从简单的情况开始讲解,单变量线性回归是一种技术,用于使用线性模型对单个输入自变量（特征变量）和输出因变量之间的关系进行建模。更一般的情况是多变量线性回归,其中为多个独立输入变量（特征变量）和输出因变量之间的关系构建模型。该模型保持线性,因为输出是输入变量的线性组合。
存在第三种最常见的情况被称为多项式回归,其中模型变为特征变量的非线性组合,即等式中可以存在指数变量、正弦项和余弦项等。然而,这种情况需要知道数据如何与输出相关,可以使用随机梯度下降（SGD）算法训练回归模型。
优点
▪ 能够快速建模,且当要建模的关系不是非常复杂并且没有大量数据时,该方法特别有用。
▪ 线性回归很容易被理解,这对于业务决策而言显得非常有价值。
缺点
▪ 对于非线性数据,多项式回归在设计时可能非常具有挑战性,因为必须具有关于数据结构和特征变量之间关系的一些信息。
▪ 由于上述原因,当涉及高度复杂的数据时,这类模型不如其它模型好。
神经网络
神经网络
神经网络由一组称为神经元的节点相互连接组成。来自数据的输入特征变量作为多变量线性组合传递给这些神经元,其中乘以每个特征变量的值称为权重。然后将非线性应用于该线性组合,这给予神经网络模拟复杂非线性关系的能力。神经网络可以具有多层结构,每一层的输出出以相同的方式传递给下一层。在最后的一层,即输出端,通常不应用非线性。一般使用随机梯度下降（SGD）和反向传播算法训练神经网络模型（如上图所示）。
优点
▪ 由于神经网络可以有许多具有非线性的隐藏层,因此它们对于高度复杂的非线性关系建模方面非常有效。
▪ 通常, 我们不必担心神经网络中的数据结构,该方法在对任何类型特征变量关系学习时都非常灵活。
研究表明,简单地为网络提供更多的训练数据,无论是全新的数据,还是增加原始数据集,都有利于提升网络的性能。
缺点
▪ 由于这类模型的复杂性,它们不易于解释和理解。
▪ 它们在训练时可能具有一定的挑战性,且对计算性能有一定的要求,需要仔细的调整超参数和学习速率的设置。
▪ 神经网络方法一般需要大量数据才能获得高的性能,并且在“小数据”情况下通常优于其他的机器算法。
回归树和随机森林
随机森林
从基本情况开始说起,决策树是一种直观的模型,遍历树的分支,并根据节点的决定来选择下一个分支。树形导入是将一组训练实例作为输入,决定哪些属性是最佳分割,分割数据集以及在生成的分割数据集上重复操作,直到所有训练实例都被分类务。在构建决策树时,目标是分割创建最纯子节点的属性,这将使我们的数据集中的所有实例分类所需的分割数量保持最小。纯度是通过信息增益的概念来衡量的,信息增益的概念与先前看不见的实例需要了解多少以便对其进行适当分类有关。在实践中,一般是通过比较熵,或者如果要在给定属性上进一步对当前数据集分区进行分区,则对单个实例进行分类的信息量。
随机森林只是决策树的集合,输入向量通过多个决策树运行。对于回归问题,所有树的输出值是取的平均值；对于分类问题,投票方案用于确定最终类别。
优点：
▪ 擅长学习复杂、高度非线性的关系。通常可以实现相当高的性能,优于多项式回归,并且性能通常与神经网络相当。
▪ 很容易被理解和理解。虽然最终训练的模型可以学习到复杂的关系,但是在训练期间建立的决策边界很容易理解。
缺点：
▪ 由于在决策树训练时,可能很容易出现严重的过度拟合现象。完整的决策树模型可能过于复杂并且包含不必要的结构,这种情况下有时可以通过适当的树枝修剪和更大的随机森林集合来缓解。
▪ 使用较大的随机森林集合来实现更高的性能,这会使得训练过程耗时长,且需要更多的内存。
结论
本文总结了一些针对于回归问题的机器学习方法,辩证地分析了其各自的优缺点。可以根据具体问题选择合适的机器学习算法以完成相应的任务。
作者信息
George Self,AI、机器学习工程师
LinkedIn： https://www.linkedin.com/in/georgeseif/
本文由阿里云云栖社区组织翻译。
文章原标题《Selecting the Best Machine Learning Algorithm for Your Regression Problem》,译者：海棠,审校：Uncle_LLD。
文章为简译,更为详细的内容, 请查看原文。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-17 13:47:00

我数学不好、不爱刷题，如何入门机器学习？ | 数据分析网首页分类阅读行业资讯大数�

作者 | Vincent Chen
译者 | Sambodhi Liu
编辑 | Vincent
微信公众号“AI 前线”（ID：ai-front）
人们并不完全清楚机器学习入门都需要什么样的数学水平,尤其是那些没在学校里研究过数学或统计学的人,更是迷茫。
我写本文的初衷是介绍构建机器学习产品或进行机器学习的学术研究所需的数学背景。我提到的这些建议,都是源于我跟机器学习工程师、研究人员和教育工作者的交谈,以及我自己在机器学习研究和业界工作中的个人经验。
为了构建数学的先决条件,我首先提出不同的思维模式和策略,以便帮助大家在传统课堂环境之外也可接受数学教育。然后,我会概述不同类型的机器学习工作所需的数学背景,因为这些学科的范围很广,从高中水平的统计和微积分到概率图模型（probabilistic graphical models,PGM）的最近进展。我希望你读完本文后,能对数学教育有一个大致了解。
我也清楚,学习风格、框架、资源,对于学习者的个人需求或目标而言,是独一无二的。
关于数学焦虑的见解
大量事实表明, 很多人都对数学感到恐惧 ,这其中就包括工程师。首先,我想谈一谈关于“擅长数学”的神话。
事实上,擅长数学的人,都有做过很多数学练习题的经历,因此,他们在做数学题时很难会发生“卡壳”。相比天生才能,学生的思维模式是学习数学能力的主要预测因素。（正如最近的研究表明：《The Myth of ‘I’m Bad at Math’》http://u6.gg/eaPW2）
你要清楚,要达到这种境界需要你付出时间和精力,但这种境界肯定不是你与生俱来的。我将在本文中,帮助你了解需要什么样的数学基础,以及学习策略。
准备开始
作为软件开发者,我们一般都有线性代数、矩阵计算的基础知识（这样你就不会因符号而感到困扰）（可参阅《Linear Algebra Review and Reference》http://u6.gg/eaQxa）,以及概率论的基础（可参阅《Review of Probability Theory》http://u6.gg/eaQzr）。当然,还有基本的编程能力。这些都是我们学习数学背景的工具。然后,你就可以根据你所感兴趣的工作来决定你的学习方向。
如何在校外学习数学
我个人认为,学习数学最好的方法还是当做一份全职工作去学（比如当学生）。因为离开了学校这种环境,你很可能不会有那种结构化的学习,也不会有积极的同学压力以及可用的学习资源。
为了在校外学习数学,我建议采用学习小组或者午餐讨论的形式,并将学习研讨会作为学习的重要资源。在研究实验室中,这些有可能是以阅读小组的形式出现的。小组可以讨论教科书章节,也可以定期讨论课程。
学习氛围有着很大的作用,这种“额外”的研究应该受到管理层的鼓励和激励,这样就不会觉得它侵占了日常工作。事实上,尽管在时间上有短期的成本,但有同伴驱动的学习环境可以使你的长期工作更有效。
数学和代码
数学和代码在机器学习工作流中高度交织在一起。代码通常是根据数学直觉构建的,它甚至会共享数学符号和语法。实际上,现代数据科学框架（如 Numpy）使得将数学运算（如矩阵 / 向量积）转换为直观的代码变得很容易。
我鼓励你将代码作为巩固学习的一种方式。数学和代码都依赖于对概念的理解和符号表示。例如,执行损失函数或优化算法的手工实现可能是真正理解基础概念的好方法。
作为通过代码学习数学的案例,我们可以考虑一个实际的例子：在神经网络中实现 ReLU 激活函数的反向传播（是的,即使 TensorFlow/PyTorch 也可以实现这点：http://u6.gg/eaYfS）！作为入门,反向传播是以微积分的链式法则来高效计算梯度的技术。为了利用链式法则,我们将上游导数乘以 ReLU 的梯度。注： ReLU（Rectified Linear Unit）,线性整流函数,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数机器变种为代表的非线性函数。广泛引用于诸如图像识别等计算机视觉人工智能领域。链式法则（chain rule）是求复合函数导数的一个法则。
首先,我们将 ReLU 激活函数可视化,定义如下：
要计算梯度（直观地说,是斜率）,可以想象成一个分段函数,由指标函数表示如下：
NumPy 就提供了有用、直观的语法,可用于构建 ReLU 函数。ReLU 激活函数（蓝色曲线）可以在代码中解释,如下所示,其中 x 是我们的输入,relu 是输出：
接下来是梯度值（红色曲线）,其中 grad 描述了上游梯度,如下所示：
如果不先自己推导出梯度,这几行代码就可能就无法理解。在这段代码行中,将上有梯度 (grad) 中所有满足条件 [x<0] 的元素的值设置为 0。从数学上讲,这实际上等价于 ReLU 梯度的分段表示,所有小于 0 的值都压缩为 0,并与上游梯度相乘。
如上所示,通过对微积分的基本理解,我们就可以清楚地理解这两行代码的作用。这个神经网络的实现的完整示例在此：http://u6.gg/eaYJg
构建机器学习产品中的数学
为完成这一部分,我曾与机器学习工程师进行了交谈,了解数学在调试系统时最有帮助的地方。下面一些工程师从数学角度来回答的问题：我应该使用什么样的聚类方法来可视化我的高维客户数据？○ 方法：主成分分析与 t 分布随机近邻嵌入（http://u6.gg/eaYVQ）为组织一些欺诈性用户数据,我应该如何校准阈值（如可信度选择 0.9 或 0.8）？○ 方法：概率校准（http://u6.gg/ebac3）把卫星数据偏向到世界上特定地区 (硅谷和阿拉斯加) 的最好方法是什么○ 方法：开放性研究问题。也许是人口统计学方法？（http://u6.gg/ebaeQ）
一般来说,统计学和线性代数都可以用某些方式用在这些问题上。然而,要得到满意的答案,通常需要针对特定领域的方法。如果是这样的话,你该如何缩小需要学习数学的范围呢？
定义你的系统
现在,我们并不缺乏资源 (例如,用于数据分析的 scikit-learn,用于深度学习的 keras),这些资源将有助于你编写代码来为系统建模。在这样做的时候,你可以试着回答以下关于你需要构建的机器学习工作流的问题: 机器学习系统中的输入 / 输出是什么？应如何准备合适的数据以拟合系统？如何构建特征或数据以帮助模型泛化？如何为任务定义合理的目标函数？
你可能会感到惊讶：定义机器学习系统如此困难！构建机器学习工作流所需的工程也很重要。换言之,构建机器学习产品需要的是大量繁杂的工程工作,而不需要深厚的数学背景。
资源 Best Practices for ML Engineering,（http://u6.gg/ebat9）,Google 研究科学家 Martin Zinkevich 著
根据需要学习数学
深入到机器学习的工作流中,你可能会发现有一些步骤会让你“卡壳”,特别是在调试时。当你被捆住的时候,你知道应该要查找什么吗？你的权重合理吗？为什么模型使用特定的损失函数后不收敛？衡量成功的正确方法是什么？这时候,对数据进行假设,以不同方式约束优化或尝试不同算法都可能会有所帮助。
通常,你会发现在建模 / 调试过程中融入了数学直觉（如,选择损失函数或评估指标）,这些直觉有可能有助于你做出明智的工程决策。这些就是你学习的好机会！
Fast.ai 的 Rachel Thomas 是这种“按需”方法的支持者。在教育学生时,他发现对于深度学习的学生而言,更重要的是要走得足够远,对这些材料产生兴趣是非常重要的。之后,他们的数学教育就包括了按需填补漏洞。
资源课程：Computational Linear Algebra（http://u6.gg/ebaKX）,Fast.ai 出品 Youtube：Essence of Linear Algebra and Calculus（http://u6.gg/ebaNn）,3Blue1Brown 出品教科书：Linear Algebra Done Right（http://linear.axler.net/）,Axler 著教科书：Elements of Statistical Learning（http://u6.gg/ebaPx）,Tibshirani 等著课程：Stanford’s CS229 (Machine Learning) Course Notes（http://u6.gg/ebaQS）,斯坦福大学出品
机器学习研究的数学
我现在想要描述对机器学习研究的工作有帮助的数学思维方式。对机器学习研究有一种嘲讽的观点是,它只不过是即插即用的系统,把大量计算投入到模型中从而挤出更好的性能。在某些圈子里,研究人员仍然质疑缺乏数学严谨性的经验方法（如某些深度学习方法）是不是真的可以带领我们拿到人类智慧的圣杯。（详见 http://u6.gg/ebaW7）
值得关注的是,研究界可能是建立在现有系统和假设的基础上,而这些并没有扩展我们对机器学习领域的基础理解。研究人员需要贡献新的、基础构建模块,可用来获得全新的洞见和领域目标的研究方法。例如像深度学习教父 Geoff Hinton 提出 Capsule 网络那样,重新考虑图像分类常用的卷积神经网络基础。
要实现机器学习的下一个飞跃,我们需要提出一些基础问题。这需要对数学的掌握,《深度学习》(deep Learning book) 的作者 Michael Nielsen 对我说,这是一种“好玩的探索”。在这个过程中,你会被“困住”,问问题,翻来覆去地寻找新的视角。“好玩的探索”让科学家们可以在简单的想法 / 架构的组合之外,提出深度而富有洞见的问题。
显而易见的是,在机器学习研究中,仍然不可能学到所有的东西！要正确地进行“好玩的探索”,你需要遵循的是你的兴趣,而不是关注最热门的新研究。
机器学习研究是一个非常丰富的研究领域,有很多有待解决的问题：公平性、可解释性和易用性。在所有的学科中都是如此,基本思想不是一种按需的过程,需要耐心地用高级数学框架思考重大问题的解决方案。
资源博文： Do SWEs need mathematics （http://u6.gg/ebbmk）,Keith Devlin 著 Reddit 讨论：Confessions of an AI Researcher（http://u6.gg/ebbpU）博文：How to Read Mathematics（http://u6.gg/ebbr2）,Shai Simonson、Fernando Gouvea 著论文：NIPS 和 ICML 最近的会议论文（http://u6.gg/ebbsS、http://u6.gg/ebbsW）文章：A Mathematician’s Lament（http://kks.me/aH3Aj） Paul Lockhart 著
机器学习研究民主化
我希望我没有将“研究数学”描绘得太深奥,因为使用数学的思路应该以直观的形式呈现！遗憾的是,许多机器学习论文仍然充斥着复杂的、矛盾的术语,这使得关键直觉难以理解。作为学生,你可以这样为自己和这个领域做出卓越的贡献：通过博客、推特等方式,将这些密集的论文转写为可消化的直觉知识块。distll.pub 就是这样的,它专注于为机器学习研究提供清晰的解释。换句话说,将技术概念转为清晰的解释作为““好玩的探索”的一种方式,你将会因此受益,机器学习领域也会因此感谢你！小贴士
最后,我希望为你提供一个起点,思考一下机器学习的数学教育。不同的问题需要不同的数学水平。我鼓励你首先弄清楚目标是什么。如果你想构建产品,可以通过问题寻找同行和学习小组,并通过深入研究最终目标来激励你的学习。在研究领域中,广泛的数学基础可以为你提供工具,通过提供新的基础构建快来推动该领域的发展。一般来说,数学（尤其是研究论文形式的数学）是令人生畏的,但“沉浸其中”是学习过程中的重要组成部分。
祝你好运！
原文链接： Learning Math for Machine Learning
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/58926.html 。

数据分析

2018-08-12 23:03:00

DeepMind首次披露旗下AI专利申请情况，引发热议 | 数据分析网首页分类阅读行业资讯大数

选自blogspot
作者：Rose Hughes
机器之心编译
参与：王淑婷、路谷歌旗下的人工智能研究公司 DeepMind 近年来提交了一系列国际专利申请,这些申请现已首次公布。这些申请涉及现代机器学习的一些基本方面,因此对任何从事商业化人工智能领域的人都具有潜在的意义。此消息一经公开,就在 reddit 网站上引发热议。有网友表示：你不能对数学公式申请专利！
关于 DeepMind
DeepMind 是一家总部位于伦敦的顶尖人工智能研究公司,成立于 2010 年并于 2014 年被 Google 以 4 亿英镑收购。2017 年,DeepMind 研发了一款人工智能 AlphaGo,能够在围棋比赛中击败世界冠军。
DeepMind 创始人 Demis Hassabis 博士曾在一篇文章中介绍了其人工智能方法（地址：https://www.theverge.com/2016/3/10/11192774/demis-hassabis-interview-alphago-google-deepmind-ai）。Demis Hassabis 博士很受欢迎,被《卫报》形容为「人工智能超级英雄」和「天才」,被《金融时报》形容为「现代学者」,还被《伦敦晚旗报》（《Evening Standard》）形容为「伦敦巨擘」。他甚至上了 BBC 广播节目《荒岛唱片》。
DeepMind 专利申请
DeepMind 目前公布的专利申请包括： WO 2018/048934：「利用神经网络生成音频」,优先权日期：2016 年 9 月 6 日。https://worldwide.espacenet.com/publicationDetails/biblioCC=WO&NR=2018048934A1&KC=A1&FT=D&ND=3&date=20180315&DB=&locale=en_EP WO 2018/048945：「利用卷积神经网络处理序列」,优先权日期：2016 年 9 月 6 日。https://worldwide.espacenet.com/publicationDetails/biblioCC=WO&NR=2018048934A1&KC=A1&FT=D&ND=3&date=20180315&DB=&locale=en_EP WO 2018/064591：「利用神经网络生成视频帧」,优先权日期：2016 年 9 月 6 日。https://worldwide.espacenet.com/publicationDetails/biblioII=11&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180405&CC=WO&NR=2018064591A1&KC=A1 WO 2018/071392：「帮助机器人智能体选择执行动作的神经网络」,优先权日期：2016 年 10 月 10 日。https://worldwide.espacenet.com/publicationDetails/biblioII=0&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180419&CC=WO&NR=2018071392A1&KC=A1 WO 2018/081089：「利用神经网络处理文本序列」,优先权日期：2016 年 10 月 26 日。https://worldwide.espacenet.com/publicationDetails/biblioII=9&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180503&CC=WO&NR=2018081089A1&KC=A1 WO 2018/083532：「利用神经网络训练动作选择」,优先权日期：2016 年 11 月 3 日。https://worldwide.espacenet.com/publicationDetails/biblioII=8&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180511&CC=WO&NR=2018083532A1&KC=A1 WO 2018/083667：「强化学习系统」,优先权日期：2016 年 11 月 4 日。https://worldwide.espacenet.com/publicationDetails/biblioII=7&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180511&CC=WO&NR=2018083667A1&KC=A1 WO 2018/083668：「利用神经网络理解和生成场景」,优先权日期：2016 年 11 月 4 日。https://worldwide.espacenet.com/publicationDetails/biblioII=6&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180511&CC=WO&NR=2018083668A1&KC=A1 WO 2018/083669：「循环神经网络」,优先权日期：2016 年 11 月 4 日。https://worldwide.espacenet.com/publicationDetails/biblioII=5&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180511&CC=WO&NR=2018083669A1&KC=A1 WO 2018/083670：「序列转导神经网络」,优先权日期：2016 年 11 月 4 日。https://worldwide.espacenet.com/publicationDetails/biblioII=4&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180511&CC=WO&NR=2018083670A1&KC=A1 WO 2018/083671：「辅助任务强化学习」,优先权日期：2016 年 11 月 4 日。https://worldwide.espacenet.com/publicationDetails/biblioII=3&ND=3&adjacent=true&locale=en_EP&FT=D&date=20180511&CC=WO&NR=2018083671A1&KC=A1 WO 2018/083672：「强化学习环境导航」,优先权日期：2016 年 11 月 4 日。https://register.epo.org/applicationnumber=EP17812054&lng=en&tab=main
从申请日期来看,在 2016 年 9 月至 12 月期间几乎每周 1 份申请。专利申请自优先权日期起 18 个月后公布,因此 2016 年 12 月以后提出的申请都尚未公布。
快速阅读这些申请可以发现,其权利要求书通常实现了标题中所承诺的广泛性,并且在不涉及基本算法的情况下,要求 ML 平台用于解决一般问题,而不限于特定的应用领域。例如,「WO 2018/048945」的条款 1 涉及卷积网络（现代意义上的神经网络大多是卷积网络）处理任意序列,即音频、文本等任何时序数据。「WO 2018/081089」的条款将此应用于以翻译为目的的文本序列。虽然还有其他人工智能方法可以获得类似的结果,但该应用涵盖了一类基本方法。
当然,DeepMind 并不是第一家在人工智能领域申请专利的公司。众所周知,人工智能在专利申请中是一个庞大且迅速扩展的领域。然而,DeepMind 的申请非常重要,因为他们是领先的人工智能研究公司,而且权利要求书的范围很广。这些申请并没有显示出明确的商业产品或目的,而是旨在覆盖广泛的人工智能技术。
申请与专利
与反专利博客的普遍看法相反,专利申请并不等同于授予的、可强制执行的专利。DeepMind 的申请仍处于非常早期的审查阶段,将在 DeepMind 寻求授权的每个司法管辖区对其专利性进行审查。意料之中的是,在较新的领域,国际检索报告（ISR）（针对一些申请发布）没有引用大量已有技术。事实上,许多用于新颖性和创造性步骤的被引用文档似乎是 DeepMind 自己在 arXiv 上发表的论文。但是,DeepMind 将不得不通过论证或条款限制来克服审查员基于这些文件提出的异议。此外,在许多司法管辖区（尤其是欧洲和美国）,机器学习系统的专利申请虽然可能,但并非是一件简单的事情。
「不作恶」
DeepMind 研究人员在学术期刊上广泛发表论文,公司的既定目标是支持和加速更广泛的人工智能研究。DeepMind 创始人 Hasabiss 博士认为,人工智能有潜力「成为科学家部署的一种元解决方案,改善我们的日常生活,让我们都能更快更有效地工作。如果我们能够广泛而公正地运用这些工具,营造一个让每个人都能参与并从中受益的环境,我们就有机会促进整个人类社会的发展。」因此在公关层面,DeepMind 高度强调其合作态度和开放性。这种做法是可以理解的,因为人工智能学术界对开源之外的事物都怀有敌意,而且 DeepMind 需要不断吸引这一领域最好的研究人员。
令人感兴趣的是,DeepMind 的专利申请消息将如何在人工智能社区和大众中流传；比 DeepMind 更注重商业化的公司在这方面没有获得公众的理解。谷歌当然是众所周知的高产专利申请人,包括在人工智能领域。相比之下,DeepMind 呈现出来的存在意义是为研究人员和整个人类发展人工智能。当然,获得适当的知识产权保护有助于实现这一目标。但是,DeepMind 最新披露的专利申请与「人工智能最终属于整个世界」的使命声明有何契合之处？这也许是下次采访 Hassabis 博士的话题。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-07 23:40:00

当前最好的词句嵌入技术概览：从无监督学习转向监督、多任务学习 | 数据分析网首页分

词语和句子的嵌入已经成为了任何基于深度学习的自然语言处理系统必备的组成部分。
它们将词语和句子编码成稠密的定长向量,从而大大地提升通过神经网络处理文本数据的能力。
当前主要的研究趋势是追求一种通用的嵌入技术：在大型语料库中预训练的嵌入,它能够被添加到各种各样下游的任务模型中（情感分析、分类、翻译等）,从而通过引入一些从大型数据集中学习到的通用单词或句子的表征来自动地提升它们的性能。
它是迁移学习的一种体现形式。
尽管在相当长的一段时间内,对句子的无监督表示学习已经成为了一种行业规范。但在最近的几个月里,人们开始逐渐转向监督学习和多任务学习,并且在 2017 年底/2018 年初提出了一些非常有趣的方案。
近期的通用词/句嵌入的趋势：在本文中,作者将介绍上图中用黑体表示的模型。
因此,本文是一篇对于当今最先进的通用词/句嵌入技术的简介,详细讨论了以下模型：强大、快速的对比基线： FastText、词袋模型（Bag-of-Words）最先进的模型：ELMo、Skip-Thoughts、Quick-Thoughts、InferSent、MILA 研究组和微软研究院提出的通用句子表征,以及谷歌的通用句子编码器。
让我们从词嵌入开始娓娓道来。
最近的词嵌入研究进展
在过去的五年中,人们提出了大量可行的词嵌入方法。目前最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设（在相同的上下文中出现的单词往往具有相似的含义）的无监督学习方法。
尽管此后有一些研究（https://arxiv.org/abs/1805.04032）通过引入语义或者句法的监督信息来增强这些无监督方法,但是纯粹的无监督学习方法在 2017 年到 2018 年得到了令人关注的提升,最著名的是「FastText」（word2vec 的一种拓展）以及「ELMo」（目前最先进的基于上下文的词嵌入技术）。
FastText 由 Tomas Mikolov 的团队提出,他曾在 2013 年提出了著名的 word2vec 框架,引发了通用词嵌入技术的研究浪潮。
FastText 相对于原始的 word2vec 向量最主要的提升是它引入了 n 元字符（n-gram）,这使得对没有在训练数据中出现的单词（词汇表外的单词）计算单词的表征成为了可能。
FastText 向量的训练速度非常快,并且可以在 GitHub 上获取通过「Wikipedia」和「Common Crawl」数据集上预训练好的版本。它们是非常棒的对比基线。
深度上下文单词表征（ELMo）在很大的程度上提高了目前最先进的词嵌入模型的性能。它们由 Allen 人工智能研究所研发,并将在 6 月初的 NAACL 2018（https://arxiv.org/abs/1802.05365）中展示。
ELMo 能感知到丰富的单词的上下文知识
ELMo 模型会为每一个单词分配一个表征,该表征是它们所属的整个语料库中的句子的一个函数。词嵌入将从一个两层的双向语言模型（LM）的内部状态中计算出来,因此该模型被命名为「ELMo」： Embeddings from Language Models（E 代表「嵌入」,LM 代表「语言模型」）。
ELMo 模型的特点： ELMo 模型的输入是字符而不是单词。因此,它们可以利用子词单元的优势来计算有意义的单词表示,即使这些单词可能在词汇表之外（就像 FastText 一样）。 ELMo 是在双向语言模型中的一些层上的激励函数的串接。一个语言模型的不同层会对一个单词的不同类型的信息进行编码（例如,词性标注（Part-Of-Speech tagging）由双向 LSTM（biLSTM）的较低层很好地预测,而词义排歧则由较高层更好地进行编码）。将所有的层串接起来使得自由组合各种不同的单词表征成为了可能,从而在下游任务中得到更好的模型性能。
现在让我们转而讨论通用句子嵌入。
通用句子嵌入的兴起
目前有许多相互竞争的学习句子嵌入的方案。尽管像平均词嵌入这样简单的基线也能够一直给出很好的实验结果,但一些新的类似于无监督和监督学习以及多任务学习的方法,在 2017 年底 2018 年初出现在了人们的视野中,并且取得了令人瞩目的性能提升。
让我们快速浏览一下目前研究出来的四种嵌入方法吧：从简单的词向量平均的基线到无监督/监督学习方法,以及多任务学习方案（如上文所述）。
在这个领域有一个广泛的共识（http://arxiv.org/abs/1805.01070）,那就是：直接对句子的词嵌入取平均（所谓的词袋模型（Bag-of-Word,BoW））这样简单的方法可以为许多下游任务提供一个很强大的对比基线。
Arora 等人在 ICLR 2017 上提出了「A Simple but Tough-to-Beat Baseline for Sentence Embeddings」（https://openreview.net/forumid=SyK00v5xx）,这是一个很好的能够被用于计算这个基线（BoW）的算法,算法的大致描述如下：选择一个流行的词嵌入方法,通过词向量的线性的加权组合对一个句子进行编码,并且删除共有的部分（删除它们的第一个主成分上的投影）。这种通用的方法有更深刻和强大的理论动机,它依赖于一个生成模型,该生成模型使用了一个语篇向量上的随机游走生成文本。（这里不讨论理论细节。）
「HuggingFace」对话的词袋模型的示意图。词袋模型弱化了词语的顺序关系,但保留了大量的语义和句法的信息。在 ACL 2018 上,Conneau 等人对此提出了有趣的见解（http://arxiv.org/abs/1805.01070）。
除了简单的词向量平均,第一个主要的提议是使用无监督学习训练目标,这项工作是起始于 Jamie Kiros 和他的同事们在 2015 年提出的「Skip-thought vectors」（https://arxiv.org/abs/1506.06726）。
无监督方案将句子嵌入作为通过学习对一个句子中一致且连续的短句或从句进行预测的副产品来学习句子嵌入。理论上,这些方法可以利用任何包含以一致的方式并列的短句/从句的文本数据集。
「Skip-thoughts vector」是一个典型的学习无监督句子嵌入的案例。它可以被认为相当于为词嵌入而开发的「skip-gram」模型的句子向量,我们在这里试图预测一个给定的句子周围的句子,而不是预测一个单词周围的其他单词。该模型由一个基于循环神经网络的编码器—解码器结构组成,研究者通过训练这个模型从当前句子中重构周围的句子。
Skip-Thoughts 的论文中最令人感兴趣的观点是一种词汇表扩展方案：Kiros 等人通过在他们的循环神经网络词嵌入空间和一个更大的词嵌入空间（例如,word2vec）之间学习一种线性变换来处理训练过程中没有出现的单词。
「Quick-thoughts vectors」（https://openreview.net/forumid=rJvJXZb0W）是研究人员最近对「Skip-thoughts vectors」的一个改进,它在今年的 ICLR 上被提出。在这项工作中,在给定前一个句子的条件下预测下一个句子的任务被重新定义为了一个分类问题：研究人员将一个用于在众多候选者中选出下一个句子的分类器代替了解码器。它可以被解释为对生成问题的一个判别化的近似。
该模型的运行速度是它的优点之一（与 Skip-thoughts 模型属于同一个数量级）,使其成为利用海量数据集的一个具有竞争力的解决方案。
「Quick-thoughts」分类任务示意图。分类器需要从一组句子嵌入中选出下一个句子。图片来自 Logeswaran 等人所著的「An efficient framework for learning sentence representations」。
在很长一段时间内,人们认为监督学习技术比无监督学习技术得到的句子嵌入的质量要低一些。然而,这种假说最近被推翻了,这要部分归功于「InferSent」（https://arxiv.org/abs/1705.02364）的提出。
与之前详细讨论的无监督学习不同,监督学习需要一个带标签的数据集,为一些像自然语言推理（例如：有蕴含关系的句子对）或者机器翻译（例如：翻译前后的句子对）这样的任务进行标注。监督学习提出了以下两个问题：（1）如何选择特定任务？（2）若要获得高质量的嵌入,所需的数据集大小应该如何确定？在本文的下一节和最后一节,作者将会对多任务学习进行进一步的讨论。但在这之前,让我们一起来看看 2017 年发布的 InferSent 背后的原理。
InferSent 具有非常简单的架构,这使得它成为了一种非常有趣的模型。它使用 Sentence Natural Language Inference（NLI）数据集（该数据集包含 570,000 对带标签的句子,它们被分成了三类：中立、矛盾以及蕴含）训练一个位于句子编码器顶层的分类器。两个句子使用同一个编码器进行编码,而分类器则是使用通过两个句子嵌入构建的一对句子表征训练的。Conneau 等人采用了一个通过最大池化操作实现的双向 LSTM 作为编码器。
一个用于对 Sentence Natural Language Inference 进行学习的有监督的句子嵌入模型（InferSent）。此图来自 A.Conneau 等人所著的「Supervised Learning of Universal Sentence Representations from Natural Language Inference Data」。
InferSent 的成功不仅导致了对选择最佳的神经网络模型的探索,它还引发了对以下问题的研究：哪种监督训练任务能够学到能更好地泛化到下游任务中去的句子嵌入呢？
多任务学习可以被视为对 Skip-Thoughts、InferSent,以及其他相关的无监督/监督学习方案的一种泛化,它通过试着将多个训练目标融合到一个训练方案中来回答这个问题（上文提到的问题）。
在 2018 年初,研究人员发布了一系列最新的多任务学习的方案。让我们快速的浏览一下 MILA 和微软研究院提出的「通用目的句子表征」和谷歌的「通用句子编码器」。
在 ICLR 2018 上发表的描述 MILA 和微软蒙特利尔研究院的工作的论文《Learning General Purpose Distributed Sentence Representation via Large Scale Multi-Task Learning》（https://arxiv.org/abs/1804.00079）中,Subramanian 等人观察到,为了能够在各种各样的任务中泛化句子表征,很有必要将一个句子的多个层面的信息进行编码。
因此,这篇文章的作者利用了一个一对多的多任务学习框架,通过在不同的任务之间进行切换去学习一个通用的句子嵌入。被选中的 6 个任务（对于下一个/上一个句子的 Skip-thoughts 预测、神经机器翻译、组别解析（constituency parsing）,以及神经语言推理）共享相同的由一个双向门控循环单元得到的句子嵌入。实验表明,在增添了一个多语言神经机器翻译任务时,句法属性能够被更好地学习到,句子长度和词序能够通过一个句法分析任务学习到,并且训练一个神经语言推理能够编码语法信息。
谷歌在 2018 年初发布的的通用句子编码器（https://arxiv.org/abs/1803.11175）也使用了同样的方法。他们的编码器使用一个在各种各样的数据源和各种各样的任务上训练的转换网络,旨在动态地适应各类自然语言理解任务。该模型的一个预训练好的版本可以在 TensorFlow 获得。
以上就是我们对于通用的词语和句子嵌入的简要总结。
在过去的短短的几个月中,这个领域取得了很多令人瞩目的发展,并且在评价和探索这些嵌入的性能以及其内在的偏差/公平性的方面（这是讨论通用的嵌入时的一个真实存在的问题）有了很大的进步。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-08-03 00:38:00

《连线》杂志创始主编凯文·凯利：大数据将横扫一切 | 数据分析网首页分类阅读行业资

摘要：如果我们穿越到1980年,告诉那时的人,30年以后你们会有维基百科,会有今天各种各样很酷的技术,没有人会相信。展望今后20年,也是今天的我们难以想象的。我唯一知道的是,20年以后最伟大的产品,现在还没被发明出来。未来将至,你怎么看
个人数据才是必然的大未来
未来数据还有一个趋势：如今很多数据都在洲际间通过海底光缆来传输,是地理位置之间的传输。但今后很多数据会留在本地进行处理,甚至以每个家庭为单位处理的信息总量可能会比留在本地的数据总量还要大。
再扩大一个层面来说,我们每个人每天都会产生很多数据。在广播时代,观众人数是一个很大的量级,由广播台去触及;到了互联网时代,出现博客和社会化媒体,你成为了一个广播台,可以拥有很多受众,但你传递的信息量比较少,远远不如广播台;后来出现了微信朋友圈,传递给相对少的受众,但信息的总量非常大。
亚马逊那样的大网站有一个节点去控制很多观众,我们称之为“云”;低一层次的就是一些本地的发送站,我们称之为“雾”;而最底层的称为网格,就是我们每一个人作为接收端。
我预言,接下来数据会更多地在每个人的智能设备之间传输,不会回到发射塔、交换机或者“云”里面。我们自己就形成了一个小的局域网。
到2020年,超过2/3的信息传送距离不会超过1公里。那么像WiFi、蓝牙技术等目前虽然不是电信级别的技术,利润很低,市场很小,问题很多,但是不是有可能颠覆未来呢
云计算 ,介入网络的能力重于所有权
另一个颠覆性的技术就是云技术。在一个500人的团体里,信息量是500平方等级的;另一个500人团体的信息量也是500平方等级的。如果这两个团体联网,则能产生的数据量远远大于两个500的平方。传统扩大网络很简单,就是把这些小的网络连起来,变成一个更大的网络。扩大网络规模带来的增长是几何倍数的。所以,有一个很大的云,要比你把它分散成很多小的网络的价值更多。
从这个互联网角度看,人数越多,你提供每个客户的成本就向零无限靠近,你基本上可以提供一个免费的服务。随着云技术的不断发展,介入网络的能力要比实际拥有的所有权要更重要。
数据生意就是所有的生意
不管你现在做什么行业,你做的生意都是数据生意。你关于客户的这些数据,其实跟你的客户对于你来说是同样重要的。数据可以通过网络流转,从一个格式变成另一个格式。数据不应该以它的存储而定义,应该由它的流转来定义。
过去的数据时代,我们使用文件、文件夹、桌面这些东西。进入网络时代之后,数据就出现在网页上、链接里。今天我们用云,用标签、流量比喻数据。对现在来说,文件夹、网页什么的就不是最重要的数据。所有的东西都在我们的数据流里,有信息、有新闻。过去的关键词是我,现在的关健词是我们;过去的关键词是项目,现在的关健词是数据。接下来我们就需要了解如何量化自己,我也一直在参与这样的项目,把我们自身的一些信息去数据化。
我们使用很多设备去进行自我量化。我认识的一些人,会在身上装40多个传感器,不停地检测自己的数据。我曾经跟一个人打赌说,任何一个只要是人类用工具可以测量的数据,都一定在被测量。我们为什么要跟踪这些数据有健康的原因,社交的原因,提高工作效率的原因。
还有很多非常前沿的数据测量工具,比如说有一种工具可以去分析我们呼吸气体里面的化合物,通过分析呼吸来判断你的血液情况。苹果推出的手表也是不停采集你的数据,通过APP进行处理。通过数据分析 ,我们可以看到哪天的工作效率最高,在那天我们吃了什么,做了哪些事情来提高效率。我们就可以通过这样的方式更好地了解自己,提高生产效率。
现在只是分享时代的早期
现在讨论很热的一个话题就是无处不在的摄像头监控。然而互联网总是希望去监控和采集数据,我们是很难去停止这个趋势的。我们每一台手机上都有一个摄像机,这意味着全球一共有60亿台摄像机。社会化媒体的兴盛,让我们总是不停在报告我们的位置。
我和斯皮尔伯格一起做了部电影叫《少数派报告》,男主角想从一直被跟踪的环境里逃出去,但他发现,他每到一个地方,屏幕上的广告都变成针对他的广告。我们现在谈论艳照门、国家安全局的棱镜,我们都知道自己的数据一直被采集不安全。这些数据我们是无法停止被采集的,我们应该想的是,如何怎么样把采集数据的模式从由某一个机构来掌控,变成你我之间去互相观察。比如,美国的警察带了一个传感器摄像头对市民进行实时监控,那么反过来,市民也可以带这个东西去监控警察对我们做了什么。
个性化与透明度是正相关的。如果你完全把自己藏起来,不对别人分享任何数据,你的个性化也为零。如果你想成为一个有个性的人,就必须向外面展现你自己的数据,把你的信息传达出去。
我们现在还处于传统和前沿交替的年代,很多人说：我不会去跟别人分享我的医疗数据,财务数据,不会去跟别人分享我的性生活。但这些只是你现在的观点。我认为,今后人们会去分享这些数据,我们现在还处于分享时代的早期。
增强现实、新交互界面与视觉跟踪
大家都知道谷歌眼镜,而现在的可穿戴智能隐性眼镜可以直接贴在你的角膜上。可穿戴设备不止是眼镜,它可能变成衣服。我们用它来接收数据,同时也在传递数据,通过各种摩擦跟它互动。我们还给盲人做了一个可穿戴式的背心,上面有摄像头,可以看到前方,通过振动去告诉这个盲人怎么走。
这些就是增强现实,我在大学里学的就是这个专业。增强现实把虚拟的物体跟你看到的真实世界通过某种方式结合在一起,这是很酷的。
新的交互界面,我在《少数派报告》中演示过。汤姆克鲁斯在操作一台电脑的时候,并不是像我们这样敲键盘,而是浑身都用起来去跟一台机器互动。我们身体的每一个部分都应该可以操作一台电脑。如果我要再做一个科幻电影,我绝对不会让电影主角用键盘来操作电脑的,我会让他做一些手势,看上去就是在工作。
此外还有视觉跟踪。它会跟踪你的眼睛看的地方,知道你在看什么。通过视觉跟踪,我们还可以捕捉他的情绪,利用这些技术去跟踪他的眼球,去看他在看哪些内容的时候情绪变化如何,据此去更改我们的内容。结果就是,我们在看屏幕的时候,实际上它也在看我们。我们就可以去根据这样反馈来修改我们的作品。
语音技术也远不止是苹果的SIRI技术,比如说翻译。有一种实时的翻译工具,画面拍的是西班牙语,显示出来就变成了英语。
注意力在哪儿,钱就在哪儿
注意力经济是一个颠覆性的领域,注意力在哪儿,钱就在哪儿。很多人每天都在看邮件,花很多时间在邮件上,它占用我们的时间。于是有人说,你读邮件是应该能拿到钱的,因为你在花时间。如果读邮件都要给钱的话,那读广告是不是更要给钱呢现在的广告投放模式是花钱投给广告公司,为什么不去直接把钱花在你的用户上,让他看广告就能拿到钱呢这样我们就可以看这人的关注度在哪儿,然后用钱去买他的注意力,让他看我们的广告。这个人会影响其他的人,有影响力人的就应该给更多钱。
一种新的商业模式是,我们应该有权利去让自己成为媒体,在自己上面放广告去赚钱。比如一些博客的下面会放一个广告,看上去挺酷的,不像是一个广告,而博主能拿到钱。另外人们应该有能力去通过自己去制作广告赚钱。有消费者直接参与广告制作,直接进行广告宣传,然后通过自己的社会化媒体变成社会化的一个广告,这彻底颠覆了广告行业。
远距离图像与视频技术
远距离图像也是一个颠覆性的领域,比如电话会议、远程医疗。Oculus是 Facebook 刚刚收购的一家虚拟现实公司,我试过他们的产品,感觉特别好,是一种全浸入式的体验,非常真实。Facebook花了10亿美元去收购这家公司。
除此之外还有各种屏幕,包括可折叠的屏幕。未来的屏,不仅仅是硬硬的一块,我们甚至可以把屏变得跟书一样,可以翻,可以折,里面的内容可变。还有一些没有屏的展示,比如说全息图。全息技术现在不完美,但以后可能也会对我们产生颠覆。我们现在已经不是读书的人,而是读屏的人。屏里面有各种各样的逻辑。
3D打印给我们带来的一个巨大颠覆就是,你以前认为硬件的那些东西,在未来都会变成软件了。3D打印出来的东西其实就是一个图纸,是能够更改的,能够传输、修改的,是数据形成的。那么这就跟我们现在谈到的这个各种各样的互联网设备一样,它里面是也芯片的。美国人有一种期望,利用3D打印技术重新让制造业回归美国,但也有一种说法,中国现在是3D打印的领袖。
人工智能是可购买的智慧
苹果的SIRI就是人工智能 ,你可以跟它对话。但我们看到的大多数人工智能没那么酷,都在后台运行。它可以处理X光片、处理法律证据、飞行问题等等。现在图形处理芯片的进步提升了机器学习能力,有一些机器可以看懂你的照片,告诉你这些照片是关于什么的,还可以跟你进行人际交互对话,目前还处在实验室阶段。
人工智能是你可以花钱购买的一种服务。通过人工智能去创业的公司,需要将人工智能运用到某一个特定领域去增加智慧。比如无人驾驶汽车,其实就是把人工智能的智慧放到车里。它的出现将影响交通状态、影响快递这样的行业和司机行业的人。而真正的革命是：这些汽车今后将变成你的新办公室,今后你用汽车接收的数据将比你坐在写字楼里接收的数据更多。本文摘编自《连线》创始主编凯文·凯利在斯坦福大学的演讲
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-02-21 18:00:00

QuestMobile：2017年中国智能终端报告 | 数据分析网首页分类阅读行业资讯大数据统计学 �

今天Mr.QM带大家看看2017中国智能终端市场是如何杀红眼的：三星已经从舞台跌落,成了台下吃瓜群众了；苹果虽然疲态尽显,不过每次出击都能有所收获；华为双品牌、两线作战,上战苹果,下攻OPPO、VIVO,狼性尽显；小米狂攻低端…
一、行业发展概况
华为、OPPO、vivo强势追赶苹果,三星进一步萎缩
移动互联网全面爆发之后,华为、OPPO、vivo、小米四大品牌接替之前的“中华酷联”,成为中国终端市场的新领军。2017年12月对比去年同期,苹果终端占比有所下滑,华为、OPPO、vivo提升明显,逐步逼近苹果的霸主地位。三星自16年底Note7爆炸后,终端出货量大幅下滑,至今在中国智能终端占比已经不足5%。
苹果依旧霸占爆款前六,OPPO凭借R9系列也成为当红街机
Top10智能终端的用户占比约30%,与去年基本一致。TOP6机型均为苹果手机,苹果之前霸主地位的影响仍延续到现在。除了苹果之外,OPPO也占据了三席,OPPO R9系列铺天盖地的广告,让这系列手机在中国市场热卖,抢夺了中高端市场的份额。
2017年逐步向1000-2999元区间集中
由于苹果手机出厂价基本为3000元以上,所以终端价格仍较集中在这个区间,其他价格段分布较平均,1000-1999元占比稍多。对比2016年,2017年1000-1999元以及2000-2999元用户占比有所上升,其中2000-2999元占比提升较大,主要各大安卓品牌的主打机型系列均集中在这个价位端,这些机型的出货表现较好。
安卓手机屏幕尺寸逐步稳定,市场不再追捧巨屏体验,1080P地位进一步巩固
苹果手机由于机型较少,所以硬件变化主要受新旗舰机型的变化拉动,相对而言安卓市场更能体现趋势性。进入2017年,5.5寸以上屏幕占比并没有进一步扩大,相反有微弱的下滑,高分辨率的手机占比仅有小幅提升；与此同时,5-5.5寸依旧占比过半,而且占比有较大提升,终端市场在大屏与操作体验上已经找到比较好的平衡点。
安卓手机进入10核时代,RAM大小有较大提升
安卓手机性能的大幅提升,离不开高通、联发科以及各厂家自研芯片的计算能力的几何式增长。4核CPU所有减少,8核CPU占比大幅提升,10核CPU逐步登上普通消费者的舞台。从RAM大小来看,2GB以下占比从2016年的占比近半,已经下滑至只有四成；2-4GB占比已经有较大提升,4GB以上手机占比也达到2.6%。
苹果依旧垄断高端市场,中端市场华为、OPPO、vivo混战,小米偷袭低端市场
由于苹果手机定位就在3000元以上的市场,借助苹果庞大的用户基数,苹果基本垄断高端市场,OPPO、华为、vivo、三星抢夺剩余市场。1000-2999元核心市场中,华为、OPPO、vivo争锋相对,1000-1999元价格段三国鼎立,2000-2999元OPPO占据一定优势。在1-999元低端市场,小米凭借红米系列抢夺了较大市场份额,夯实在终端市场的用户基础。
高城市等级的品牌集中度更高,OPPO、vivo品牌强势争夺三四线及以下城市
TOP5品牌在一线城市占比超过80%,行业集中度较高。其中,一二线城市苹果均霸占超过30%市场,OPPO、vivo份额相对偏低。而在三四线及以下,苹果势力减弱,OPPO、vivo占比则有较大提升,所以这两大品牌的城市下沉策略的确起到了差异化发展的价值。
苹果在中国新旗舰上线面临热度下降,教主光环日渐式微
2017年万众期待的苹果旗舰机型iPhone X虽然具备领先的人脸识别技术以及一流的计算单元,但高昂的售价,以及“齐刘海”的外形,也被较多果粉诟病。iPhone X上线以后,活跃设备量仅有134万,与iPhone6上线初的万众秒杀现象,的确不能相提并论。
二、用户换机行为分析
安卓终端的换机率基本保持在4-5%
安卓终端的换机率在过去一年中有逐步走高的趋势,这主要得益于各厂家旗舰机型的不断推出,品牌的不断塑造,用户进入更新换代的新一波浪潮。年终各厂家旗舰机型上线较多,换机率出现小高峰；年末随着电商大促的推动,换机率增大至全年峰值。
2017年12月,华为用户换机忠诚度较高,三星换机流向三星占比仅为15.2%
换机之后是否选择本品牌,可以近似理解为用户的忠诚度。在2017年12月,华为用户换机至华为品牌的用户占比超过一半；OPPO、vivo、小米用户水平相当。三星、魅族换机至本品牌的占比均只有15%左右,用户流失情况值得关注。
华为、小米新旗舰用户来源主要为本品牌,核心用户迁移是终端市场抢夺的关键
2017年12月,华为新旗舰系列Mate10较多用户来自于本系列的Mate8、Mate7以及Mate9,其次为相近的P系列,用户的来源较集中。对于小米,新旗舰机型从品牌角度均主要集中在本品牌,但是来源于不同的系列,这是对于用户资源的重新汇聚。
OPPO旗舰机型用户也主要来源于本品牌,但vivo有较多来自于兄弟公司OPPO
OPPO新旗舰R11与华为的Mate10类似,用户主要还是来源于历史旗舰的R9以及R7系列。然而,vivo的X20来源较为分散,TOP占比不到5%,而且占比第一的竟然为OPPO R9,这款新旗舰的用户拉新效果较为凸显。
三、四大终端品牌用户洞察
男性用户热衷华为/小米,女性用户青睐OPPO/vivo
根据 QuestMobile 数据,华为手机用户中男性占比近四分之三,远超其他品牌,近几年华为的旗舰机主打商务风,给人一种成熟稳重的感觉。小米依旧是发烧性能的代表,但售价却非常亲民,男性对手机配置比较了解,自然也有更多的男性选择小米。OPPO和vivo这两个品牌定位非常相似,主打时尚的外观,神奇的自拍美颜,吸引了广大女性用户购买。
华为/小米一线城市占优,OPPO/vivo用户下沉显著
根据QuestMobile数据,华为手机的用户中一线城市用户占比显著较高,这与其品牌定位、营销推广有一定关系。小米手机的一线城市用户占比也较高,主要是因为小米多年来一直重点运营线上渠道,网购普及率较高的一线城市自然成为其重要的用户聚集地。OPPO、vivo深耕三四线城市多年,拥有强大的线下渠道,其三四线城市用户占比较高。但同时,随着华为、小米开始重视线下渠道,华为体验店、小米之家的快速布局,将在三四线城市与OPPO、vivo形成正面竞争。
根据QuestMobile数据,安卓四大终端品牌用户的行为偏好和应用偏好存在较大差异。
比如,华为用户偏好金融类、资讯类、电商类应用。
OPPO、vivo手机用户偏爱泛娱乐类应用,包括音乐、游戏、阅读、K歌、直播等,同时他们也是社交达人,对微博社交、社区交友比较感兴趣；女性用户“爱美爱自拍”,对美图秀秀、美颜相机等图像服务类应用偏好也较高。
小米手机用户表现出对综合资讯类应用的高度偏好,应用偏好TOP 10APP中,新闻资讯就占了6个。

四大热门机型用户画像
华为Mate10典型用户：30岁以上男性用户居多,主要居住在一线城市,具有较高的线上消费能力。
OPPOR9 典型用户：24岁以下用户占比超五成,女性用户略多,低线上消费水平用户占比较高,推断女学生人群有一定比例。
vivoX20 典型用户：女性用户近七成,主要居住在一二线城市,具有较高的线上消费能力。
小米MIX2 典型用户：男性用户占四分之三,一二线城市用户居多,具有较高的线上消费能力。

一二线中高线上消费水平用户成为iPhoneX 购买主力
2017年新换机iPhoneX 用户中男女分布较为均衡,基本与移动大盘一致。
年龄分布方面,以80、90后居多。他们主要居住在一二线城市,同时具有较高的线上消费水平。
这部分人群对喜欢追逐时尚,愿意并且有能力为品质买单,iPhoneX 自然成为其2017年换机首选。
2017年新换机iPhoneX 用户主要来自于原苹果手机用户
QuestMobile调研数据显示,超一半的2017年新换机iPhone X 用户原本就是苹果手机用户,恰逢换机或出于尝新购买iPhone X 。同时,三星和华为并列成为iPhone X 用户换机的第一大安卓来源,结合前文所述三星在国内的市场份额跌至4.2%,可见三星用户换机为 iPhone X的比例十分可观。
大部分用户新换机iPhoneX 属于理性消费
QuestMobile调研数据显示,近6成用户的消费理念是“精打细算”,超3成用户是“追求新潮”,超四分之一的用户“看重颜值”,只有不到四分之一的用户“装壕”和十分之一的用户是“真壕”。综合来说,大部分用户购买iPhone X 属于理性消费。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-02-02 16:59:00

如何成为AI工程师的学习之路，包括各种课程，资源，代码 | 数据分析网首页分类阅读行

作者：Andrey Nikishaev
编译：ronghuaiyang
导读 AI 这么热,大家都想做AI,如何成为一个AI工程师,给大家一条学习路径参考一下,特别是CV方向的,里面包括了各种课程,资源,代码等,快来看看吧！
我们将带你了解机器学习的所有方面,从简单的线性回归到最新的神经网络,你不仅将学习如何使用它们,而且还将学习如何从头开始构建它们。
这条道路的很大一部分是面向计算机视觉(CV)的,因为这是获得一般知识的最快方法,CV的经验可以简单地转移到任何ML区域。
我们使用TensorFlow作为ML框架,因为它是最有前途的,并且已经为生产做好了准备。
如果你在学习理论和实践的同时获得实践经验,学习将会更好。
此外,如果你想与解决现实生活中的问题,并且和其他人比一比,我建议你注册Kaggle,因为这可能是你简历上的一个不错的补充。
要求：
Python,你不必非常厉害,基本的知识就可以了,其他的都有手册。
1. 课程:
1.1 Practical Machine Learning by Johns Hopkins University
1.2 Machine Learning by Stanford University
这两门课程将教你数据科学和机器学习的基本知识,并让你准备好面对真正困难的东西。
1.3 Deep Learning course from Andrew Ng来自吴恩达的非常出名的非常好的课程。
1.3 CS231n: Convolutional Neural Networks for Visual Recognition 2017(2016)
这就是Party的开始,这是你能在网上找到的关于ML&CV最好的课程之一。它不仅会告诉你兔子洞有多深,而且会给你进一步研究提供良好的基础。
1.4* Deep Learning by Google
可选课程,你可以只看其中的实践部分。
1.5* CS224d: Deep Learning for Natural Language Processing
可选课程,那些自然语言处理方向的同学可以看看,是的,非常的不错。
1.6* Deep Learning book
一本好的手册,覆盖了ML的非常多的方面。
2. 实践部分:
这个列表包含许多教程和项目,你应该尝试了解它们是如何工作的,并考虑如何改进它们。创建这个列表是为了增加你对ML的专业知识和兴趣,所以不要害怕,如果有些任务对你来说很困难,你可以在准备好之后再来处理它们。
2.1. Simple practical course on Tensorflow from Kadenze
2.1. Tensorflow cookbook
2.2. Tensorflow-101 tutorial set
2.3. IBM Code Patterns
来自IBM的编程模式,还包括数据科学和分析。
2.4. Fast Style Transfer Network
这个将展示如何使用神经网络将任何照片转换成名画的风格。
2.5. Image segmentation
2.6. Object detection with SSD
用于对象检测的最快(也是最简单)的模型之一。
2.7. Fast Mask RCNN for object detection and segmentation
2.8. Reinforcement learning
非常有用的东西,特别是如果你想造一个机器人或下一个Dota AI：）
2.9. Magenta project from Google Brain team
该项目旨在利用神经网络创造引人注目的艺术和音乐,结果是非常厉害的。
2.10. Deep Bilateral Learning for Real-Time Image Enhancement
来自Google的新的了不起的照片增强算法。
2.11. Self driving-car project
想让你的车全自动吗?—这是个很好的起点。
3. FAQ
如果卡住了怎么办？
首先,你必须了解ML并不是100%精确的—大多数情况只是一个很好的猜测和大量的调优迭代。因此,在大多数情况下,想出一些独特的想法是非常困难的,因为你将花费在培训模型上的时间和资源。因此,不要试图自己找出解决方案—寻找可以帮助你的论文、项目和人。你获得经验越快越好。
一些网站可以帮助你:http://www.gitxiv.com/, http://www.arxiv-sanity.com/, https://arxiv.org/, https://stackoverflow.com。
为什么论文没有完全覆盖这个问题,或者在某些地方是错误的？
遗憾的是,并不是所有的技术人员都想公开他们的工作,但他们都需要出版来获得资助和名声。所以他们中的一些人只发表了部分材料,或者在公式中出错。这就是为什么搜索代码总是比搜索论文更好的原因。你应该把这些论文看作是某个问题已经解决的证据或事实。
我在哪里可以找到最新的资料？
我使用这两个网站http://www.gitxiv.com/, http://www.arxiv-sanity.com/, https://arxiv.org/。首先,人们不仅找到了一篇论文,而且找到了它的代码,所以它更实用。
我应该使用云计算还是PC/笔记本电脑？
云最适合生产模型的密集计算。对于学习和测试来说,使用带有CUDA显卡的PC/笔记本电脑要便宜得多。例如,我在笔记本电脑上使用GTX GeForce 960M和690 CUDA核对所有型号进行了训练。
当然,如果你有云计算的授权或免费资金,你可以使用它。
如何改善模型超参数的调优？
训练的主要问题是时间,你不能只是坐着看训练数据。因此,我建议你使用智能网格搜索。基本上,只需要创建超参数集和模型体系结构,你认为它们可以更好地工作,然后在流程中一个接一个地运行它们,保存结果。因此,你可以在晚上进行训练,并在第二天比较结果,找出最有希望的一个。
你可以在sklearn库中看到这是如何实现的：
http://scikit-learn.org/stable/modules/grid_search.html
英文原文：https://medium.com/machine-learning-world/learning-path-for-machine-learning-engineer-a7d5dc9de4a4
本文为专栏文章,来自：AI公园,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/76114.html 。

数据分析

2019-10-14 03:33:00

<上一页 4 5 6 7 8 9 10 11 12 13 14 下一页 >

咨询电话(周一至周五9：00-18：00)