数据专栏

智能大数据搬运工,你想要的我们都有

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

“想看书只有几本教科书,偶尔村头会放几场电影,去县城里才能遇到文工团演戏。”现居北京市朝阳区的田向丽,出生于20世纪60年代的河南农村,回忆起从前文化生活的匮乏,她感慨万千。如今,文化事业快速发展,精神食粮丰富多样,用手机上网看新闻、读文章,成了田向丽每天必做的事。 新中国成立70年来,我国文化事业取得了巨大的成就,为满足人民群众的文化需要提供了绚丽多彩的文化产品。 更普及 文化服务到身边 新中国成立初期,百废待兴,我国文化事业的基础十分薄弱。1949年,我国公共图书馆为55个,博物馆数量仅为21个。 “我的少年时代,买书、借书来看都不容易,荧幕上的电影也不甚丰富。”中国文联电影艺术中心主任饶曙光出生于1959年,当时,在“双百”方针的指引下,我国公共文化事业已经获得了较快发展,然而群众文化生活仍然比较贫乏。 以党的十一届三中全会为标志,我国进入了新的历史时期,伴随经济的快速发展、物质生活的极大丰富,推动文化发展的各项政策相继出台,我国文化发展进入了快车道。党的十八大以来,建设现代公共文化服务体系作为全面建成小康社会的重要内容,受到了各级政府的高度重视。2018年,全国群众文化机构达到44464个,公共图书馆3176个,博物馆4918个。 在硬件设施不断完善的同时,近年来,我国各地公共文化服务机构在提升场馆和活动的吸引力上下功夫,服务越来越对味。流动图书车、流动舞台车把精彩的文化食粮直接送到群众家门口;借助互联网、高科技,借书还书、预约文艺活动在手机上就能实现,群众的获得感实实在在。 更丰富 文化作品种类多 “八九十年代,能看到的书越来越多了,也逐步出现了《西游记》《渴望》等优秀电视剧,《黄土地》《红高粱》等优秀电影作品。”饶曙光说,逐渐富裕起来的广大群众对参与文化生活的渴求日益强烈,也激发了文艺工作者的创作欲望。 近年来尤其是党的十八大以来,精美的图书、精彩的展览、精致的文创产品越来越多,各种类型的网络文艺也蓬勃兴起……人们的文化生活可谓多姿多彩。中国书刊发行业协会发布的数据显示,1978年我国只有105家出版社,年出版图书仅14987种。而到了2017年,全国有580多家出版社,出版图书超过50万种,出版物销售总额3704亿元,我国成为出版发行大国。 不只是出版物,近年来,豫剧《焦裕禄》、芭蕾舞剧《八女投江》等优秀舞台艺术作品赢得观众点赞;《舌尖上的中国》《我在故宫修文物》等纪录片和《朗读者》《中国诗词大会》等原创综艺圈粉无数。2018年,全国电影总票房达到609亿元,国产影片总票房378.97亿元,市场占比超过62%。全国银幕总数达到60079块,稳居世界首位。 更兴旺 文化产业发展快 现在,除了阅读纸质图书以外,田向丽几乎每天都会刷刷微信、玩玩微博,“方便又有趣!” 党的十八大以来,文化与互联网、旅游、体育等行业融合发展,跨界融合成为文化产业发展最突出的特点。数字内容、动漫游戏、视频直播等基于互联网的新型文化业态成为文化产业发展的新动能和新增长点,“互联网+文化”成为文化产业发展的重要趋势。2018年,全国6.0万家规模以上文化及相关产业企业实现营业收入89257亿元,比上年增长8.2%,文化产业为国民经济转型升级和提质增效提供了有力支撑。 “一部手机给我们带来了随时随地、触手可及的文化大餐——无论是新闻资讯、电子图书,还是音乐、短视频,都充实着我们每个人的文化生活。”饶曙光表示,“优秀文艺作品不断涌现,社会和经济效益持续提升,国际影响力日益加大,这样的繁荣景象让我们的文化自信更加坚定!”
来源:大数据中国
发布时间:2019-06-11 22:29:00
近日,Google旗下的科技孵化器Jigsaw、康奈尔大学和维基媒体基金会合作,联合开发了一个预测谈话走向的AI系统。 这个系统能从一开始就能预测谈话是否会失控 ,想在对话能被挽救的情况下,尽早预防不必要的争吵甚至是攻击行为。 这个AI系统的算法和论文发表在Association for Computational Linguistics conference收录的论文《Conversations Gone Awry: Detecting Early Signs of Conversational Failure》中。论文的作者Lucas Dixon、Nithum Thain、YiqingHua和Dario Taraborelli 通过分析维基百科中的讨论页面,收集了大量的讨论板块中大量的网友讨论数据(我们可以称之为帖子),利用 自然语言处理 技术进行语义分析,并收集人类标注的标签作为数据集作为训练数据,建立预测模型,识别开始谈话中,具有什么样特征的句子会导致谈话会失控甚至是攻击行为 (论文中提到:In this work we aim to computationally capture linguistic cues that predict a conversation’s future health)。 论文中提到的例子是是关于“Dyatlov Pass Incident” 的两组维基百科的网友讨论(Dyatlov事件是指1959年2月2日晚发生在乌拉尔山脉北部的9位滑雪登山者离奇死亡的事件。这个团队的队长叫做Dyatlov,他们在登“死亡之山”的东脊时发生事故,10人9死)。其中A1和A2为一组(见下图),分别为两位不同的网友;B1和B2为一组,也是两位不同的网友。A1开始交流,A2用另一个问题反问。相反,B1更温和,用“似乎”提出了意见,B2实际上解决问题,而不是搪塞。这两组讨论中有一组讨论导致对话失控,一个对话者开始进行个人攻击。 一些保持礼貌的谈话指标包括任何一位幼儿园老师都会认可的基本礼貌如“谢谢”,用礼貌的问候开头,并用语言表达一种合作的愿望。在这些谈话中,人们更倾向于用自己的观点来表达他们的观点,比如“我认为”,这似乎表明他们的想法并不一定是最终的结论。 另一方面,直接提问或用“你”这个词开头的对话更有可能使得谈话产生差异甚至是争执,如A2的说话方式。研究人员在论文中提到:“这种影响与我们的直觉相一致,即直接性暗示了来自对话发起人的潜在敌意,也许加强了有争议的强制的有力性(This effect coheres with our intuition that directness signals some latent hostility from the conversation’s initiator, and perhaps reinforces the forcefulness of contentious impositions)”。 以上只是数据集中的一个样本的简要分析。 以上过程我们可以通过自然语言处理技术,开始分析这些对话中“最初的评论和回答”的关键词有怎样的特征,并进一步通过 机器学习 算法构建结果(最终是否有敌意)和“最初的评论”的关联关系,从而建立通过“最初评论”的特征预测对话变成敌意的可能性。 论文的算法结果显示,一台经过训练以识别这些特征的计算机,能够根据最初的评论和第一次回答,以61.6%的准确率预测产生敌意的对话。而人类在72%的时间内是正确的。该论文的机器预测的准确率比人类要低,但算法还有很大的提升空间。这个结果目前还是可以测试使用的。 而且机器可以不厌其烦的24小时无休的判断对话是否会恶化,在恰当的时机可以做出一定的提醒和友情干预,而人类则不可能持续大规模的做此类监测。 在中国,这个对话预测模型也许可用于有管理员的论坛和微信群。 以微信群为例,如果微信群主赋予了这个对话预测模型的能力,群主可以快速的提前预警群里可能要变坏的讨论。 更进一步的,自然语言处理技术(NLP)和机器学习(Machine Learning)技术是通用的,我们也可以预测更多,比如预测一开始对话中出现什么特征的对话的用户,更有可能买某个商品。 如果这个用户及时的被发现,我们的版主或者群主可以接收到及时的提醒,群主便可以及时的把用户喜好的商品或者服务的促销信息发给该用户。 甚至,整个过程中,在微信允许的情况下,没有人介入,全通过机器自动推荐,这就是先进的微信群智能营销了。当然还有更多的应用,就看您的脑洞了。 参考文献: Conversations Gone Awry: Detecting Early Signs of Conversational Failure. Lucas Dixon,Nithum Thain,YiqingHua and Dario Taraborelli. 论文下载:https://arxiv.org/pdf/1805.05345.pdf 关于作者:傅志华先生为中国信息协会 大数据 分会理事,北京航空航天大学软件学院大数据专业特聘教授,中科院管理学院MBA企业导师、首都经贸大学统计学兼职教授、研究生导师。曾为360公司大数据中心总经理以及腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长,在腾讯前为互联网 数据分析 公司DCCI互联网数据中心副总裁。目前在某集团企业负责 人工智能 研究院。 本文为专栏文章,来自:傅志华,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/54442.html 。
来源:数据分析网
发布时间:2018-05-29 00:12:00
“我们非常惊讶,在中国的内陆城市能举办如此国际化的博览会,并且感受到浓郁的大数据氛围。”谈起第一次参展2019中国国际大数据产业博览会,俄罗斯Napoleon IT公司CEO巴维尔·巴特科鲁托夫感慨地说。 不久前在贵阳举办的数博会上,巴维尔·巴特科鲁托夫带来了一套大数据解决方案,利用AI识别系统对超市的货架、人流量进行采集和 数据分析 ,从而帮助商家更好掌握商品流量,进行布局调整。他表示,此次前来参会,最大的成果就是结识了许多同行,接触了行业的前沿技术。 “俄罗斯企业纷纷感叹,没想到中国的技术应用这么‘前卫’。”贵阳高新区国际合作促进中心主任李海波介绍,“俄罗斯的展商今年比去年多,共十余家企业30多人。” 2017年,贵阳高新区在莫斯科政府科技园建立了贵阳高新离岸创新中心,招募当地人员从事国际交流、创新孵化、招商引智等业务。 李海波介绍,贵州省是中国首个大数据综合试验区,省会贵阳市又提出打造“中国数谷”。作为大数据产业发展集聚的贵阳高新区,近年来为补齐人才短板,提出“当地孵化、高新区产业化”的模式,在海外总共建了8个创新中心,位于莫斯科的是其中之一。 “创新中心不仅是招商,更多是想做一种科技孵化。”他说,俄罗斯有很多高端人才和技术专利,创新中心可以通过提供资金等方式,助其更好、更快成长。发展到产业化阶段,再引进到高新区落地。 据介绍,在创新中心的帮助下,贵阳高新区多次和俄罗斯的企业、专家进行技术交流对接,随着洽谈深入,有望达成更多合作。 “同时,园区内的企业也想走出去,比如中国电建集团贵阳勘测设计研究院就承接了莫斯科一个政府性安居工程。我们也希望做大数据解决方案的输出,例如把食品安全云这套追溯体系推广出去。”李海波表示。 李海波对俄罗斯自然科学院的彼得里琴科院士印象深刻:“70多岁了,还坚持做农业防冻技术。他定期过来指导,已经多次表示,贵阳这边发展潜力大、前景好,希望能够把产业发展起来、技术应用起来。” 记者了解到,截至目前,贵阳高新区已经与包括彼得里琴科在内的数十名俄罗斯专家签订了合作协议,并将其纳入该区“一带一路”发展专家库,成为长期合作伙伴。
来源:大数据中国
发布时间:2019-06-11 22:19:00
在面对外围压力下,华为在ICT通信产业主航道上的行驶并没有减慢。 继5月中旬发布AI-Native数据库GaussDB和分布式存储FusionStorage 8.0后,华为于近日又发布了名为“FusionData”的智能数据解决方案,此举被外界认为是华为发力打造自有大数据生态的重要一步。 “FusionData是华为多年来积累的结果,希望为中国的产业界做出贡献。”华为IT产品线副总裁、智能数据与存储领域总裁周跃峰近日在接受第一财经记者采访时表示,在中国有很多做组件做工具的厂商,甚至做大 数据分析 ,做应用的厂商,他们需要这些基础能力,华为愿意把自己的能力开放出来,共同打造一个繁荣的生态。 数据被称为智能时代的“石油”,而异构、智能和融合的数据库,正是金融、政府、电信等各行业数据基础设施的关键支柱。而目前在数据生态链中,依靠的底层基础设施依然由欧美企业提供,新的数据生态圈还没有形成,业内认为,此时华为等企业在该领域的加速快跑,或许能够在国产大数据生态链中“撕开”一个机会。 大数据生态中的新晋者 在万物互联的社会,任何企业都无法独善其身,数字化正在通过通信技术渗透到各行各业,而随着5G以及人工智能时代的到来,这种变化将会变得更加明显。 根据华为全球产业展望(GIV)报告预测,全球数据量将从2018年32.5ZB快速增长到2025年的180ZB,海量的数据带来了巨大的挑战,也孕育了前所未有的机遇,大数据、 云计算 、人工智能等新技术对市场产生了颠覆性变革。 “to C和to B的边界在逐渐消失,无论是生存于何种商业体系的企业,都无法回避数字世界与物理世界的结合点。”华为一内部高管对记者表示,新技术的到来在倒逼企业加快数字化的转型,而华为内部从多年前开始就在为这一机会做准备。 目前,华为近8万研发人员队伍中有超过70%的人从事的是软件开发,算法和软件已经是华为ICT领域最核心的竞争力。而在甲骨文、微软等传统数据库厂商转型之际,以及外围环境不确定因素加大的情况下,进入市场的时机被打开。 记者注意到,在此次华为发布的“FusionData”中,包含了三个重要“角色”,一块是支持1100多种应用和异构数据源接入的智能数据连接部件ROMA,另一块是将AI能力植入到数据库内核的架构和算法中的GaussDB,还有一块是智能数据使能部件DAYU,该部件可以像“大禹治水”一样,自动感知和采集多个系统的元数据,并进行智能化分级分类,并且提供统一的数据访问接口,使得数据获取速度提升10倍以上。 而在“智能数据处理”层,最为体现华为的研发能力,这也是其不受制于外力的核心能力。“x86、ARM、NPU、GPU,华为以多样化算力,匹配多样性数据,让计算更高效。”周跃峰对记者表示:“华为也正在打造以鲲鹏为核心的大数据产业生态。” 据了解,基于华为鲲鹏芯片的存储设备,全球发货量已经超过3万台。 西南证券电子行业分析师对记者表示,服务器是一种高性能计算机,作为网络的节点,存储、处理网络上80%的数据、信息,因此也被称为网络的灵魂。服务器最核心的部位就是服务器芯片,可以说是整个服务器的大脑,技术难度大。根据DRAMeXchange数据,目前全球97%的服务器用处理器为英特尔主导的X86架构,华为鲲鹏芯片的推出对于国产服务器水平的飞跃起着关键作用。 已考虑业务连续性问题 目前,在运营商、金融、制造等行业大型企业数据中心的云化转型过程中,普遍采用更加适合云数据中心建设和发展需求的分布式云存储来承载各类关键应用。 招商银行总行数据中心应用与数据库管理室经理田永江在上述产品发布现场表示,目前招商银行零售业务两大APP的总用户数超过1.4亿、月活8000万以上,浪涌特征非常明显,即事先难以估计客群访问量,对业务资源快速扩展提出非常高的要求,大量业务数据也带来了大数据决策需求。 他表示,在关键的数据库技术方面,由于现有的开源数据库内核还达不到甲骨文的性能和功能,并且会导致集群规模过大、性价比低、维护成本高,为此招商银行与华为进行了分布式数据库联合创新,使用了华为的GaussDB数据库OLTP版本。 华为IT产品线数据库产品总监黄涛则对记者表示,目前数据库的发展趋势是由集中式向集中式加分布式方向演进,而华为GaussDB数据库是集中式和分布式都能支持。“我们现在这个数据库研发了八年时间,通过投入大量的人力和时间成本,研发出自主创新的数据库。” 他表示,GaussDB还支持本地部署、私有云、公有云等多种场景,并且首次将人工智能技术融入分布式数据库的全生命周期,实现自运维、自管理、自调优、故障自诊断和自愈。 更重要的是,在非常时期,这款支持ARM的分布式数据库承载着更重要的使命,被内部视为可与华为芯片有着并列意义的研发突破。 “今天我们发布的这些解决方案,我们都考虑到了业务连续性的问题。这些问题从几年前就是普遍考虑的问题,要确保供应链能够持续服务好客户,这对于我们来讲这是基础要求,在任何时候推出的产品解决方案,都要能够应对任何时候任何极端情况。”周跃峰对记者如是说。 同时,他提到,目前华为智能数据解决方案FusionData已经应用于全球60多个国家及地区,服务于1500多个客户,拥有500多家商业合作伙伴,除了产品之外,华为更希望构筑强有力的生态圈。 “连接、计算和数据是ICT基础设施三大基石,在华为内部有着长远的规划和准备。”周跃峰对记者表示,在中国有很多做组件做工具的厂商,华为也希望为中国的产业界做出贡献,共同打造一个繁荣的生态。
来源:大数据中国
发布时间:2019-06-11 22:13:00
作者  Mohit Mamoria 编译  Mika 虽然”比特币”和” 以太坊 ”这两个术语常常一起出现,但实际上这两者有很大的区别。以太坊与比特币的唯一联系在于,两者均为成功的 区块链 技术应用。 以太坊不像比特币仅仅是作为加密货币,它还具备一些特性,从而让其具有大型去中心化计算机的功能。 要了解以太坊,首先必须了解区块链的工作原理。 区块链是什么 简单地说, 区块链就是一个数据库 。它是包含特定数据,并不断增长的数据库。区块链具有很强大的性能: 1. 一旦数据存储在数据库中,就永远不会被修改或删除。区块链上的每条记录都是永久不变的。 2. 维护该数据库的不是个人或组织; 而是数千人在维护,并且每个人都有自己的数据库副本。 那么,怎样保持每个人的数据库副本同步呢 假设网络中有十个人,每个人都有空文件夹和一个空白页面。每当有人在网络中进行了重要操作,比如转移资金等,他们就会将此广播给网络中的每个人。 每个人都在页面上进行记录,直到页面填满。当填满时,每个人需要通过解决数学难题来对页面内容进行确认。解决数学难题可以确保每个人的页面都具有相同的内容,并且永远不会被修改。率先完成的人将获得一定数量的加密货币。 一旦页面被确认就会被添加到文件夹中,接着出现新的页面,继续持续这个过程。 区块链 随着时间的推移,包含着重要记录(交易)的页面(块)会被添加到文件夹(链),从而形成数据库(区块链)。 区块链存储着什么 区块链可用于存储任何类型的数据,当中的数据具有一定价值。比特币的区块链存储着金融交易记录,比特币的作用和美元等货币类似,而以太坊就不同了。 以太坊不仅仅是美元、英镑、比特币之类的货币。 可以把以太坊视为大型计算机。 但是其运行速度特别慢,大约比普通计算机慢5到100倍,而且成本非常昂贵。“以太坊计算机”与90年代罕见的智能手机的功能差不多,因此它的能力是有限的。 这听起来似乎并不理想,那么为什么以太坊受到大量的关注呢?作为全球性的去中心化计算机,以太坊正在席卷全球。 为什么说以太坊是全球性计算机呢?让我们来看到它的运行原理。 以太坊如何运作 像其他区块链一样,以太坊需要数千人在他们的计算机上运行软件,从而驱动整个网络。网络中的每个节点(计算机)都运行着 以太坊虚拟机(EVM) 。可以把EVM视为一种操作系统,用于理解并执行以太坊特定编程语言编写的软件。以太坊虚拟机执行的软件或应用被称为“智能合约”。 要在这台全球性计算机上进行操作,你需要付费。但是,并不是使用美元、英镑等常规货币进行支付。而是使用网络原生的加密货币进行支付,即以太币(ether)。以太币与比特币几乎完全相同,除了前者还可以用于在以太坊执行智能合约的支付。 个人和智能合约都被视为以太坊的用户。无论人类用户做什么,智能合约也可以做。 智能合约与网络中的其他人类用户一样,两者都能发送或接受以太币。 但是与人类用户不同的是,智能合约还可以执行预定义的计算机程序,从而进行各种操作。下面让我们看到智能合约能做些什么。 智能合约能做些什么 假设我们对明天的天气打赌。我打赌明天是晴天,你打赌是雨天。我们约定输的人必须给赢家100美元。那么我们如何确保失败者会遵守诺言呢?常见的有以下三种方式: 1. 相互信任 最简单方法是相互信任。如果我们是多年的好友,彼此间十分了解,那么相互信任是很容易的。但如果我们是陌生人,那就麻烦了,我们间难以互相信任。 2. 签订法律协议 另一种方法是针对我们的赌注签订相关协议。当中详细规定赌注条款,包括如果失败方违反协议会怎么样。 该协议能够确保失败方对赢家进行支付,但这是不现实的,因为通过法律途径达成协议比赌注的成本更高。 3. 求助共同的朋友 我们还可以找到一个彼此都信任的朋友,让朋友代为保管100美元。在答案揭晓时将100美元支付给赢家。但是如果这个朋友拿着钱跑了怎么办? 现在我们有三种不同的方法,但各有缺点。陌生人难以相互信任;法律协议成本昂贵;求助共同朋友还可能存在信任方面的问题等。 这时,以太坊的智能合约就派上用场了。 智能合约相当于双方的共同朋友,而且是用代码编写的。以太坊能让我们编写相关软件,让双方支付价值100美元的以太币,并在第二天用天气API检查天气,接着将价值200美元的以太币转交给获胜者。 一旦编写好智能合约,就无法进行编辑或修改。因此,无论合约中制定了什么内容,它都将被执行。 但是,智能合约是如何执行的呢?它与区块链有什么关系? 智能合约与区块链有什么关系 当执行智能合约时,它会将执行信息作为交易记录到区块上。以太坊上的交易就像这样: 当中,“数据”用于记录智能合约的创建和执行,这被称为交易。以太坊区块链上的任何区块都可以包含以下三种交易: 1. 用户间的以太币交易 这是网络中的常规比特币式交易。如果你将以太币发送给你的朋友,数据字段将被清空。 2. 没有接收方的以太币交易 如果交易中没有接收方,这意味着交易的目的是,使用”数据”字段的内容在网络中创建智能合约。“数据”字段包含的软件代码将与网络中的其他用户一致。 3. 用户与智能合约间的以太币交易 当用户或智能合约想要执行智能合约时,都必须与智能合约进行交易,并将执行指令放在’数据’字段中。 就像其他区块链一样,只要发送以上任何一种交易均会广播给整个网络,从而让每个节点进行记录。除此之外,每个节点还会执行指示的智能合约,从而让其EVM状态与网络的保持同步。 每个节点执行一个软件,从而使整个网络成为大型(但速度很慢)的分布式计算机。然后,每次执行都会永久存储在区块链中。 Gas 是什么 在上文我提到过,用户在执行智能合约时必须支付一定费用。该部分费用将支付给消耗内存、电力,进行存储和计算的节点,成本的单位称为Gas。最终,根据交换率将gas转换成以太币。 当你执行智能合约,你都必须定义要消耗的最大gas量。当完成执行或达到gas值时,执行将停止。这样是为了避免智能合约中的无限循环,防止程序被卡住而无法继续执行。 程序员的粗心会导致这种情况。每次重复将使用指定的gas,从而让无限循环成为有限循环。gas的概念有效地解决了这个问题。 结语 以太坊不仅仅是一种可交易的加密货币,其真正的价值在于它的目的。以太坊的目的是让所有者能够使用由数千个节点驱动的全球分布式计算机。 当然,因为每个操作都必须由网络中的每个节点执行,从而也导致去中心化计算机运行缓慢且成本昂贵。 相比起来,集中式计算机成本更低,但是一旦集中式计算机(服务器)发生故障或遭到黑客入侵,那么所有连接的客户端都会受到影响。去中心化计算机就不同了,只有当每个节点都出现故障才会崩溃,因此让其一直都可以使用。只要有网络,就有以太坊。 原文链接: https://hackernoon.com/wtf-is-ethereum-c65e0d67ac09 本文为专栏文章,来自:CDA数据分析师,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/53642.html 。
来源:数据分析网
发布时间:2018-05-24 09:26:00
译者 | 郝毅 编辑 | Vincent 文章来源 | AI 前线公众号(ID:ai-front),转载请联系公众号负责人取得授权 AI 前线导读: 对于某些应用,人类设计的 AI 系统会表现的无能为力。但是对于另一类应用,专家则可以设计一些智能系统并保证其正确性;这些 AI 应用是节省成本和提高性能的最佳解决方案(例如,在某些安防应用中)。因此,保证 机器学习 决策结果的正确性是一个关键问题,本文针对该问题提出三点关键步骤。 如何入门机器学习 (ML) 关于 人工智能 (AI)和机器学习(ML)如何改变商业实践的故事越来越多,数据科学从业者被要求仅用模糊的或高层次的商业目标来“应用机器学习”。在实施 人工智能 和从数据中创造商业价值方面存在很大差距,数据科学中的许多尚未解决的问题是导致这些差距的原因。本文试图展示 AI 从业人员和企业管理人员如何弥合这一差距。入门 AI 的顺序不同于大多数人所想的,应该遵循以下步骤: 设立目标 分析数据 定义模型 大多数人都会忽略前两个步骤,而急于求成的同时往往会适得其反。通过仔细地分析需求、应用和商业约束之后,你将得到非常详细的问题描述。这样,就可以使用机器学习的知识来更好地解决问题。 1. 设立目标 如果没有一个正确的目标问题,机器学习不一定能得到好的结果。使用机器学习前,需要明白自己追求的目标是什么,并给它一个明确的定义。为了使用机器学习,在实际的商业案例中,需要做许多方面的评估和考察,但是首先,需要搞清楚的就是你期望的结果是什么:  定义问题 目标结果需要足够的详细,你应当先问自己几个这样的问题: 机器学习模型应该输出什么? 它是对观察到的数据的预测,还是在某种情况下的行动建议?例如,你需要一个模块来帮助一个骑自行车的机器人在一条滑坡上保持平稳。那么你是否需要一个模型来预测自行车在给定情况下的行驶状态?或者是能够最快调整自行车运行轨迹的模型? 模型的预期计算速度应该是多少? 使用的软硬件能否为机器学习模型的准确预测提供良好的平台? 模型的可扩展性如何? 回到上面关于自行车机器人的例子:你的模型是只在某个特定型号的自行车上工作就行还是在多个不同的自行车上都能良好运行?  测量问题 假设有人给你一个预训练的模型。我们需要先对其性能进行评估,比如对于给定的输入,模型应当能输出预期的结果,并且应当测量对于大量的输入预训练模型的预测成本是多少。 你还应该考虑如何向机器发出信号,说明结果是好的。这可以像使用真伪机一样简单(例如,某个项目是否成功),或者更复杂的方法是由应用程序决定。  使用问题 从商业角度来看,这个问题值得解决吗? 消费者会乐意为 ML 技术买单吗? 或者 ML 能降低制造成本吗? 也许,使用 ML 只会提供额外的营销优势?(想想苹果的 Siri) 应用 ML 需要在 ML 工程专业进行投资,以及基础设施的设置和维护。因此一定要确认 ML 带来的回报是否能够支撑得起其成本。  训练与测试 当你训练一个模型时,你的目标是提高它的性能。在测试过程中,你只需使用一个预训练模型来生成预测结果,但是模型不会学到任何新的东西。 重要的是要记住,测试的计算要求明显小于训练。要训练一个模型,你需要访问你所有的训练数据,耗费很久的训练时间。根据你的 ML 任务,一个更好的游戏计算机可能提供足够的计算能力来训练你的模型;而在某些情况下,则可能需要一个计算集群。一旦模型被训练,你通常可以删除大部分的训练数据,并将模型保存为一个小文件。许多 ML 模型只需要很少的资源,例如嵌入式设备或手机来测试。这已经暗示了训练和测试的分离。 对于训练过程,软件基础设施所需的复杂性和敏捷性比测试过程高得多。这种分离提供了训练作为服务的商业模型(也称为订阅模型)。 2. 分析数据 AI 不能学到所有的东西,因此训练过程需要大量的数据。主要考虑因素包括设计数据、数据可防卫性、数据采集、数据结构、数据清洗以及隐私和法律问题。良好数据的标准如下: 可量化 : 数据应当是可以量化的,可以使简单的是或否的,或者是更详细的测量结果。 同分布 :训练数据应该服从独立同分布。通常,这意味着确保你正在使用的数据集是一致测量和记录的。当你收集更多的数据,你需要确保一致的测量。 多样性 :你应该有一个足够大的样本大小以覆盖整个空间的潜在结果。这应包括足够的覆盖范围的罕见的事件,模型应当能够区分随机错误和罕见事件。例如,如果你想建立一个爱预测未来股票市场的崩溃,仅使用 2009 年至 2017 年的数据会限制太多。 捕获额外数据 :一些额外数据会影响到模型的预测结果,因此需要采集这些信息以产生良好的预测。打个比方,如果想要一辆汽车的价格,仅知道方向盘的大小和油箱容量是远远不够的,如果知道里程和车型将更好预测它的价格。 3. 成功建模 这是管理人员希望使用 AI 的最初原因。在机器学习中,模型是非常重要的部分,机器学习研究者通常会在这方面积累很多。然而,机器学习的成功实施需要从一开始就将深层的战略和设计整合起来。 简而言之,在目标结果和数据限制未知时,不能盲目的设计一个机器学习模型。一个好的模型应该具备以下几点: 可行性和可用性:在给定的数据、技术约束和设计约束的情况下,目标问题是否有可能被解决?在没有测试的情况下,很难解决先验问题。 可扩展性:这决定了模型的计算效率。当增加数据大小时,应当考虑到计算和训练成本的增加。考虑到模型的扩展,基础设施的成本是不可忽视的。 人工智能的实现面临的主要问题是商业和产品策略。这并不是说技术部分容易实现,而是技术约束往往是已知问题,是可以解决的。对于 AI,我们知道其能力,也知道它能够完成哪些工作。 AI 和 ML 的未来仍存在一些不确定性。一般来说,即使是经验丰富的数据科学家也不可能预测需要多少数据来训练模型。此外,模型训练过程中的微调也需要依靠丰富的经验,以及训练过程中模型对数据中的异常值敏感程度也难以掌握。 最后,将一个训练过程从早期的原型移植到成熟的产品所需的时间具有高度的不确定性。这种情况下,需要记住大多数机器学习算法具有很强的随机性。即使在相同的数据集上训练,模型的模型的表现也会有所差异,而在不同的数据集上训练,这种差异会更大。一般来说,获取数据需要巨大的时间成本,而自动化的模型训练方法则在获得一个成熟化的产品过程中起着不可或缺的作用。这就需要在最开始的原型阶段由机器学习专家的人为的设定一些过程:数据清洗、对特定数据集的训练过程的调整和自动模型选择。 因此,将每个机器学习项目都是视为一个具有高风险和潜力的研究项目是明智的。机器学习不是魔法——它是一个非常强大的工具,但只有在一些需要它的应用上才能发挥作用。 查看英文原文: https://medium.com/axiomzenteam/the-two-steps-people-forget-to-take-when-applying-machine-learning-dc0e3797442b 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/52560.html 。
来源:数据分析网
发布时间:2018-05-17 22:15:00
2019年5月31日,在南京云创 大数据 科技股份有限公司举行的CMMI3级认证结果发布会上,CMMI Institute Partner 外籍评估师Joonki Paek正式宣布:经过严格的现场审核和评估,云创大数据已经达成CMMI3级目标,成功通过CMMI3级认证。   通过CMMI3级认证标志着云创大数据在软件研发标准化流程、过程改进、项目管理等方面已经跻身国际业界先进水平,实现了与国际主流模式的接轨,能够为全球客户提供更高技术水平、更高质量的产品和服务。    左六为外籍评估师Joonki Paek   云创大数据于2018年8月正式启动CMMI导入工作后,公司高度重视,专门成立了EPG(工程过程组),从相关部门选拔骨干人员加入。经过半年多的工作改进,形成一系列涵盖公司产品研发、质量管控、人力资源管理等多项工作内容的正式规范,并且在多个项目中试点实施运行,从而建立了一套符合公司特点的过程管理体系。2019年5月27日,云创开始了正式的CMMI3评审工作,并于5月31日顺利通过认证。   云创大数据是专业从事大数据、人工智能、 云计算 、云存储技术领域研发及产品销售的高新技术企业,此前通过了ISO9001质量管理体系、ISO14001环境管理体系以及OHSAS18001职业健康安全管理体系等多方认证。针对爆炸式增长的大数据需求,云创大数据研发了具有自主知识产权的智能视频监控、智能视频教学以及大数据综合应用等产品,其产品与服务在环保、地震、公安、教育、广电等10多个领域建立了200多个成功案例。   CMMI是一个持续改进模型,通过CMMI3级认证虽然是云创大数据过程改进工作的重要里程碑,但也只是万里长征中的一步。在以后的工作中,云创大数据将继续着重加强自身团队建设,促进技术发展和创新,为广大用户单位提供更全面、更可信、更成熟的服务。
来源:大数据中国
发布时间:2019-06-11 21:59:00
大数据 文摘作品 编译:张南星、卫青、钱天培 究竟什么样的 AI 人才能被微软这样的巨头聘用呢? 是不是要码力超群,上来就能徒手写个AlphaGo呢?还是要眼光毒辣,当场就能构想出未来20年AI发展前景呢? 当然不是! 今天,文摘君就淘来了几道微软AI 面试题,同时给出了最基本的解答。(注意是最基本解答哦,欢迎在文末留言给出你认为更好的答案。) 神秘的微软AI面试题,其实非常平易近人。一起来答答看! 合并k个数列(比如k=2)数列并进行排序 代码如上。最简单的方法当然就是冒泡排序法啦。虽然不是最有效的,但却容易描述和实现。 L1/L2正则度量有什么区别? L1范数损失函数也叫做最小一乘法(LAD)以及最小绝对误差(LAE)。它主要在于最小化目标值(y_i)同预测值(f(x_i))之间的绝对差值之和。 公式一 L2范数损失函数也叫做最小平方误差(LSE)。它主要在于最小化目标值(Yi)以及预测值[f(xi)]之间差值平方之和。 公式二 对于较大的误差误差,L2比L1给出的惩罚更大。此外,加入L2正则后,模型系数会向0聚拢,但不会出现完全为0的情况,而L1损失函数则能使部分系数完全为0。 如何寻找百分位数? 就拿上面这道题目为例吧:过去12小时内共有1000人来过这个购物中心,请估测,截止至何时,购物中心刚好达到30%的总客流量? 我们可以通过多项式线性回归(polynomial regression)或者平滑样条(spline smoothing)等技巧作出下图。  即为30%的客流量对应3000人 从Y值为3000的点画一条水平线,当与曲线相交时,画一条垂直线在横轴上找到对应的时间值就可以啦。 怎么区分好的可视化与坏的可视化? 针对这个问题,我们会有很多不同的答案。比如,一个不能很好地处理异常值(outliers)的可视化,就不是一个好的可视化。 比如说我们有一个数组,在一系列小数字中有一个很大的数据([1,2,3,4,7777,5,6,9,2,3]),当我们可视化这个数组的时候,会产生如下的图: 右图→原始图片;中间图→规范化值;左图→标准化值 怎样才能更好地可视化这组数据呢?正如上图所示,即使我们对分析值进行了标准化或者规范化,产生的折线图依然不能很好地表示这组数组。究竟要怎么做呢?欢迎留言发表看法。 怎样更快地计算出逆矩阵? 比如,可以考虑Gauss-Jordan法。 如果是一个2×2的矩阵就很简单了。 逆矩阵是: ad-bc≠0 只需要交换a和b,取b和c的负值,然后除以方阵ad-bc。 定义方差 方差是每个数据点与整个数据集平均值之间差值的平方和。换而言之,就是数据的变化性。下面这张图就很好地解释了什么是方差。 首先我们计算出每只狗和平均身高的差值;为了计算方差,将每个差值平方后加总,再求平均值。 最后,献上本文出现的所有代码: https://colab.research.google.com/drive/1DYimC5CEKeXdT15tbptifYL2v5MPkyHj 相关报道: https://towardsdatascience.com/my-take-on-microsoft-ai-interview-questions-with-interactive-code-part-1-c271388af633 本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/52320.html 。
来源:数据分析网
发布时间:2018-05-14 22:19:00
技术进步是经济长期持续增长的源泉。习近平总书记曾指出:“纵观工业革命以来的世界历史,每一次科学技术的大飞跃都推动了经济社会的大发展”,“我们正处在新一轮科技革命和产业变革蓄势待发的时期,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。”当前,物理世界和数字世界加速融合,产业互联网孕育兴起,各行各业开始“在云端用人工智能处理大数据”,以数字化、网络化、智能化为特征的数字经济风起云涌,其势浩荡,“对国际政治、经济、文化、社会、生态、军事等领域发展产生了深刻影响”。   为更好引领和适应技术创新,习近平总书记在二十国集团领导人第十三次峰会讲话中提出重要倡议:“建议二十国集团将‘新技术应用及其影响’作为一项重点工作深入研究,认真探索合作思路和举措。” 2019新年伊始,联合国秘书长古特雷斯在联大讲话中指出,新技术应用,与应对气候变化、推进可持续发展一道成为2019年联合国的关键行动领域。秉持科技向善的理念,深入研究新技术应用及其影响,对于不断满足人民日益增长的美好生活需要,促进社会公平正义,构建人类命运共同体具有重要意义。   基于新技术应用及其影响,腾讯研究院近期推出了《新技术应用及其影响(2019)》报告。本报告重点研究了数字鸿沟、劳动就业、GDP核算、安全隐私、科技伦理、经济理论、政府监管等七个方面。期待未来有更多机构从更多元化的视角进行更加深入的研究。    目录    01 弥合数字鸿沟,释放数字红利   相较其它技术,数字技术是一种更为普惠的技术。我们必须充分利用技术迅速变革这一契机,建设更为繁荣与包容的世界。虽然已取得重大进步,但还有许多无法利用数字技术的人被抛在后面。   世界银行集团行长金墉指出:“有史以来信息通信的最大飞跃,只有惠及全球所有人,才具有真正的革命意义。”提高数字经济的参与度,将为消费者和企业家创造更多可能性。在提升数字竞争力的同时,我们要兼顾公平,弥合数字鸿沟,让整个国家和地区共享数字红利,实现可持续发展。    02 数字技术促进就业的结构性变革   就业是最大的民生。让每个人有体面的工作,是最大的“善举”。技术进步对就业具有双重影响,它会带来新的工作机会,也会替代一些原有岗位,带来所谓的“技术性失业”。每次技术变革都会引发人们对就业问题的激烈争论。人类过往的实践表明,技术进步并没有导致长期的大规模失业,它带来的新增就业机会要远多于其替代的就业机会,技术革命中的失业工人最终都找到了工作,但也经历了混乱和痛苦的调整过程。而且新技术对各类人群影响不一。人们需要变革教育培训和社保制度,不断提高数字素养和数字化生存能力。    03 数字经济发展挑战GDP核算体系   GDP(国内生产总值)被誉为“20世纪伟大的发明之一”,是针对工业经济设计的用来指导宏观经济运行和进行宏观调控的最佳指标。然而,在数字经济时代GDP则力不从心。由于GDP仅以市场价格记录交易,它完全无视人们可能获得的免费服务。互联网上的各种免费服务触手可及,但不被统计。近年兴起的自助服务也一样,如银行ATM机、自助点餐、无人超市等,它使消费者变成“生产者”,但其价值不被核算。另外,技术进步和创新挑战价格统计,分享经济对GDP统计方法也带来挑战。    04 重视网络安全,加强用户隐私保护   “没有网络安全,就没有国家安全。”当前,世界范围内非传统安全问题凸显,网络信息安全威胁持续呈高发态势,网络攻击、网络犯罪、隐私泄露等各类安全问题更加突出,网络安全成为事关世界各国和地区安全的重要问题。用户数据泄露也给国家安全带来影响。由于数据中蕴藏着价值,包含着重要的信息,数据的不当利用将给人们带来重大损害。我们需要确保 数据安全 ,把用户隐私保护置于发展数字经济的重要位置。    05 加强科技伦理建设,汇聚起向上向善的强大力量   随着人工智能和机器人成为我们的仆人、伙伴和同事,我们需要处理日益复杂的情况,以及可能引发的安全问题。要避免人工智能技术创新治理陷入“科林格里奇困境”,就必须预先研判,提前布局。尽管人们对人工智能未来将走向何方众说纷纭,但对人工智能加以伦理规制,已经成为基本共识。人类社会需要在其发展的所有阶段积极主动地考虑新技术的伦理道德、法律体系和社会影响,而不是采取自由放任的做法和事后应对挑战。这需要政府、企业、学术界和民间社会相互合作,促进指导研究和创新的伦理道德标准以及法律体系。    06 数字经济时代呼唤经济理论的创新   传统经济理论主要建立在农业经济、工业经济基础之上,以物质产品和服务为研究对象。进入数字经济时代,数字产品逐渐成为主要的商品形式。数字产品具有网络外部性,产品对消费者的价值随着其他使用者数量增加而增加。数字经济对现有经济理论的挑战是全方位的,正如中国社会科学院原副院长李扬所言:“目前,全世界有大量经济学者在研究互联网问题,虽然革命性的成果尚未推出,但大家一致同意,由于互联网的发展,全部经济学都应当重写。”    07 数字经济发展挑战监管体制   作为一种新生事物,数字经济具有一系列不同于工业经济的新特征和新问题,它为政府监管提供了新的技术手段,也对传统监管体系带来了新的挑战,提出了更高的要求。数字经济发展挑战属地管理模式,亟需调整央地监管关系;挑战行业管理模式,跨部门联合监管成为重要趋势;挑战准入管理模式,对事中事后管理提出更高要求。面对数字经济带来的新机遇和新挑战,需要以包容审慎的政策措施来积极推动发展,更需要调整政府监管体制,着力构建更加一体化、法治化、信息化的数字经济监管体制。
来源:大数据中国
发布时间:2019-06-11 21:51:00
6月之初,夏日炎炎,随着气温的升高,第十五届全国高性能计算学术年会(CCF HPC China2019)也进入了如火如荼的预热阶段。近日,CCF HPC China2019揭晓了部分主题论坛,围绕本次大会的主题“计算 见智 赢未来”,论坛将分享HPC在不同领域呈现的新形态,全面探讨HPC各产业应用的广阔未来。 主题活动丰富多样 精彩不断! 主题论坛(部分)举办日期如下: 8月21日全天 海洋气候模式与高性能计算论坛 第二届脑科学与类脑计算——超级计算与脑模拟论坛 8月21日下午 第三届西北太平洋气候变化趋势研究学术讨论会(限制邀请) CCF高专委全体委员会议 智能超算论坛 量子计算论坛 8月23日下午 第七届中国高性能互连网络论坛 第六届高性能计算教育论坛 第五届HPC Plus论坛 第四届高性能计算环境运维与优化论坛 未来HPC&AI超级计算机的必经之路 - CPU/GPU计算,网络计算及存储计算 高性能计算—海洋预报发展的加速器——第一届海洋数值预报与高性能计算论坛 8月24日上午 第四届高校高性能计算平台应用交流论坛 第三届面向科学与工程大数据的高效可视分析论坛 第三届HPC性能建模论坛 数值反应堆前沿技术论坛 通向E级计算的应用之路 第二届高能效计算论坛 第四届HPC开源软件栈论坛The 4th HPC Open Source Software Stack Forum 8月24日下午 并行存储系统论坛 容器技术在高性能计算中的机遇和挑战论坛 高性能稀疏矩阵计算的架构、算法与应用论坛 第六届“国产应用软件”专题论坛 第七届大数据系统评测与优化研究案例论坛 HPC中的高能效计算 欲了解论坛详情可登录 http://hpcchina2019.csp.escience.cn/dct/page/70008查看。 4天大会,30余场干货满满的主题论坛,来自各大高校、国内多家超算中心和高性能计算机研制方的一线专业人员等100多位产学研专家学者大咖将围绕高性能计算环境的系统运维和优化面临的挑战性问题,深度探讨HPC高性能整体解决方案,并分享HPC在众多领域的创新与发展趋势动态,包括E级计算、天气气候、人工智能、海洋环境、量子计算、大数据系统、国产应用软件等领域的突破性研究,携手带来一场超算领域各学科学术交流与交叉融合的顶级盛会。 (一)招牌论坛强化品牌生命力 值得一提的是《第四届高性能计算环境运维与优化论坛》、《第四届HPC开源软件栈论坛》、《第四届高校高性能计算平台应用交流论坛》、《第三届面向科学与工程大数据的高效可视分析论坛》、《第三届HPC性能建模论坛》、《第三届西北太平洋气候变化趋势研究学术讨论会》等主题论坛已举办至第三、第四年,已然成为了CCF HPC China的代表性招牌活动。《第七届大数据系统评测与优化研究案例论坛》更是连续举办七年,长盛不衰的背后是大会本身以及超算产业生态的不断延续和升级,诠释了大会朝气蓬勃且向上生长的生命力。 (二)国际会议强势加盟 今年,第九届international Workshop on CO-DESIGN、The 16thIFIP International Conference on Network Parallel Computing(NPC2019)、第五届高性能计算中间件技术研讨会(HPCMid2019)、第五届高性能科学计算方法及其应用研讨会(WHPSC2019)、第三届西北太平洋气候变化趋势研究学术研讨会5个国际国内会议强势加盟,大会将搭建国际精英交流平台,让国内外演讲嘉宾尽情在中国舞台上共议高性能计算前沿发展趋势。 (三)精选干货课程 让计算更简单 除了精彩纷呈的主题论坛,并行学院将举办与HPC实际应用相关的培训课程,包括OpenMP和MPI编程、CUDA编程基础与优化进阶课程等。并行学院立足于高性能计算应用领域,通过与各大高校、中科院所、知名行业专家合作,为高性能计算企事业单位输送了一批优质人才,培训课程涵盖计算化学/物理/材料Python科学计算、流体力学专题、气象海洋常用软件、人工智能等超过30种专题课程,为参加培训的学员提供技术+案例+实操等全方位的实用技能再培训教育。 大会合作伙伴火热招募中 汲取了前几届的成功经验,CCF HPC China的成就不止步于高性能计算机的辉煌成绩,在其性能优化和各产业融合趋势的研究进步更体现了中国HPC不断推陈出新的活力,赋能超算领域各产业创新,CCF HPC China2019一触即发! 借此契机,大会广邀业界各位朋友前来参会,成为我们的合作伙伴。在此,我们诚挚欢迎老朋友共同探索HPC新时代,也热切期待与各领域的新朋友开展合作。 钻石合作 席位1-2(已满) 白金合作 席位3-4 (虚位:1个) 黄金合作 席位5-6 (虚位:2个) 展览展示合作 席位60+(虚位:20个) 大会创意合作伙伴 大会宣传片广告植入2个 注册页面广告植入1个等 联系人: 胡永利、李希代 联系电话: 136-9123-9019、010-62600662 欢迎与您共同抢占HPC应用先机,为中国高性能计算机发展增加新动能、共筑新生态! “青色的城”抹上“科技蓝” 随着各项主题论坛的尘埃落定,大会的招商、议程、活动也在紧张有序的筹备当中,CCF HPC China2019的举办地——呼和浩特的科创氛围也随之火热起来。 呼和浩特地处祖国北疆,蒙古语意为“青色的城”,这里资源丰富,环境优美,交通便捷、生态条件良好,发展空间充裕,创新资源不断集聚,具有高起点高标准开发建设的基础条件。2017年2月24日,内蒙古自治区党委、政府决定在这片充满生机的大地上,打造全区经济发展的“新引擎”和“新增长极”,内蒙古和林格尔新区应运而生。短短两年时间,和林格尔新区深入贯彻落实建设现代化经济体系和推进高质量发展的要求,大力实施大数据战略,将大数据、 云计算 、人工智能等战略性新兴产业作为产业发展的主攻方向,提出构建“数字产业生态”的发展思路,不断延伸和升级大数据云计算产业链,先后引进了百度、阿里、腾讯、浪潮、滴滴、中石化等200多家知名企业和教育部、国家信息安全中心等国家部委数据存储、应用业务入驻,共注册云计算、大数据科技企业390余家。 作为“内蒙古国家大数据综合试验区”的核心区,内蒙古高性能计算公共服务平台、旷视人工智能超算平台等一批高性能计算项目的建设,促使和林格尔新区初步形成了高性能计算能力的集聚效应 在这片绿色草原之地,越来越多的科技企业和项目正在为“青色的城”抹上鲜明的“科技蓝”,形成了和林格尔新区蓝绿交织的独特魅力。CCF HPC China2019将于8月在此举办,“科技蓝”装点“草原绿”,势必将绘就出一幅波澜壮阔的HPC创新图景!
来源:大数据中国
发布时间:2019-06-11 16:21:00
译者|无明 编辑|Debra 文章来源| AI前线公众号(ID:ai-front),转载请联系公众号负责人取得授权 与 机器学习 博士相关的工作职位不仅创下了薪水的新高,而且对世界产生了巨大的影响。80000 小时(YC S15)提供了一个综合指南(https://80000hours.org/career-reviews/machine-learning-phd), 用于指导如何开始你的机器学习博士学位之旅。80000 小时(https://80000hours.org) 是一个非营利组织,负责研究具有社会影响力的职业,并提供在线咨询。该指南基于与六名机器学习研究人员的讨论而总结而来,其中有两名来自 DeepMind,一名来自 OpenAI,还有一名是某机器人初创公司创始人。以下是该指南的主要内容。 机器学习博士的职业路径是怎样的? 通常,我们必须告诉计算机要做什么,它们才能按照我们的指令一步一步地执行任务。如果我们没有事先给出步骤,它们就无法执行任务。 相比之下,在机器学习领域,程序员制定规则,监督软件如何进行学习,而不是直接通过编程指定它们的行为。我们因此可以构建出能够自动改进体验的系统。 机器学习博士需要学习如何设计和实现这些算法。博士研究工作可能包括以下主题:开发一个能够标记视频中正在发生的事件的程序,通过改进技术来理解为什么机器学习系统能够做出预测,或者对在线文本进行分析,以便了解社交过程,例如网络流行语是如何传播的。 机器学习是计算机科学的一个分支,与统计学密切相关。统计学和机器学习都从数据中学习,它们之间有很多相通的概念和公用的数学工具。 但是,与统计数据不同,机器学习倾向于强调构建软件来进行预测,通常应用于较大的数据集,而且它使用的技术对数据本身或数据是如何收集的并没有多做假设。 机器学习博士日常都做些什么? 在美国,拿到博士学位通常需要 5 到 6 年。在头两年需要上课,在剩下的几年里从事研究工作。英国的博士学位时间较短,通常为 4 年,因为只需要做研究工作。与美国博士不同,他们一般要求你先拿到硕士学位,不过不同的大学也有不同的要求。 你需要为你的研究工作写一篇论文,对某个特定主题进行深入的探讨,或者(更常见的是在美国)发表一系列相关主题的论文。你的研究将经历几个阶段,首先完善你的主题,然后研究与之相关的研究项目,最后写出你的论文。 你将花费大部分时间进行编程、数学演算、阅读论文,并与合作者一起思考和讨论想法。 为什么要攻读机器学习博士学位? 1. 了解那些可能是未来十年最重要的技术 机器学习在过去十年中取得了飞速的发展,这要得益于理论上的突破、数据可用性的提升、投资的增加以及处理能力的提升。它已经被应用于很多以前未能完成的任务,包括自动驾驶、图像识别、游戏、直升机飞行、语音合成和电影推荐。 如果技术不断进步,我们将能够实现越来越多的劳动力自动化,并解决以前难以解决的问题。最终,我们可以通过软件来完成大多数任务,甚至比人类做得更好。 这种进步将会彻底改变我们的世界。我们将看到自动驾驶汽车交通事故造成的死亡人数大幅下降、医疗诊断费用更低、诊断更准确,以及具有危险性或繁琐的工作被自动化。 但它也可能导致出现自动化武器、大量的失业以及政治和经济权力集中在少数人手中。 更令人感到担忧的是,如果我们开发的软件具备了高度智能,却与我们的想法相左,那么就有可能产生灾难性的后果。 我们认为机器学习是未来几十年最重要的领域之一。尽管近来人们对这个领域的兴趣在增长,但仍然只有少数人能够掌握这些技能。 2. 积极促进 人工智能 发展 积极促进人工智能发展是我们最关注的问题,我们需要更多拥有机器学习专业知识的人才来解决这些问题。因此,我们认为,对于机器学习博士生来说,尝试解决这些问题才是他们应该做的事情。在这个问题领域,主要有两条途径。 技术安全研究 我们缺少能够通过技术研究来减少人工智能给社会带来风险的人才,而机器学习博士可以为此做好准备,迎接挑战。 政策和策略研究 人工智能政策可帮助政府、企业和非营利机构的决策者设计和实现有助于人工智能发展的政策。与政策相关的角色包括制定政策的研究人员以及倡导和实现政策的从业人员。 机器学习博士是很好的人才储备库,因为他们不仅拥有技术背景,而且其他政策角色还赋予了他们信誉。 3. 将机器学习应用于社会重要问题上 在美国,脓毒症和感染性休克占所有重症监护病房住院人数的 10%以及所有医院死亡人数的 20-30%。约翰斯霍普金斯大学的科学家已经开发出一种名为 TREWScore 的机器学习系统来帮助解决这个问题。它可以在使用标准筛查方法之前识别发生感染性休克的高风险患者,从而加快治疗速度。 机器学习可以用在很多紧迫性问题上: 健康: 改善诊断,预测登革热暴发,减少不恰当的抗生素使用 全球性贫困 :为现收现付的太阳能电力找到合适的客户,使用卫星图像找到收款方所在的村庄 动物福利 :预测哪种植物蛋白最适合制作植物性肉类 要从事这类工作,你需要了解你的技能可以应用在哪些社会问题上。你可以通过参与到公司或相关研究项目中,与其他人一起探讨,来加深对这些问题的理解。你可能会在一家成熟企业工作,也可能创办自己的公司,或者进行学术研究。 4. 高收入职业 对机器学习专业知识的需求,导致该职位薪水一路走高:考虑到这些数据包括只需要硕士或学士学位的职位,我们预计博士的收入应该处于较高的范围。 由于发展迅速以及在解决问题方面的实用性,机器学习具备很高的盈利潜力(我们预计它在未来十年仍将保持高位)。然而,由于有很多感兴趣的人进入该领域,存在薪水逐步下降的风险。 机器学习技能在科技初创公司中非常受待见,近来,机器学习初创公司也不断涌现。 Y Combinator 首次增加了对 AI 初创公司的追踪。大型公司近年来一直在收购人工智能创业公司,而且收购的价值通常取决于团队本身,而不是一般的收入指标。 据业内人士透露,拿到机器学习博士学位,就很有可能在量化对冲基金中获得一份高收入的工作。 5. 具备自主性的智力工作 你需要和世界上最能干的人一起工作,并且会对你的领域有一个令人满意的深刻理解,而且你可以自由选择做什么以及什么时候做。 如何开始博士学位? 首先,你需要具备扎实的量化技能,通常是通过攻读计算机科学、数学、工程学、数量经济学或物理学等本科学位而获得的。至少,你应该掌握概率和统计、多变量微积分和线性代数。我们知道那些已经被机器学习硕士录取的人可能没有量化背景,所以他们需要在数学预备课程中进行自学或参加课程学习(如开放大学)。 在英国和欧洲其他国家,通常要求拥有机器学习硕士学位或相关学科(如计算机科学或数学)学位,不过也取决于各个大学的具体要求。在美国、加拿大和澳大利亚,通常没有这种要求,虽然如果拥有相关硕士学位有助于申请博士学位,也有助于在开始攻读博士学位之前进行兴趣和研究能力测试。 不要求硕士学位的博士学位通常比其他的要长 1 到 2 年时间。如果你打算攻读硕士学位,那么两年的学位会更好,因为你有更多的时间来做研究,这是开始顶尖博士学位的关键。 基于在线指南以及与正在攻读机器学习博士学位的人的交谈,我们发现,能不能获得认可完全取决于你如何展示好你的研究能力。 应该研究哪些主题? 深度学习 虽说不同的机器学习方法适用于不同的应用,不过深度学习确实在过去十年中取得了很大的成功。这项技术受我们大脑网络结构的启发,虽然它们之间有很多不同之处。 深度学习帮助我们解决了以前人工智能技术无法解决的问题,其中包括图像识别、预测潜在药物分子的活性、分析粒子加速器数据、重建大脑回路、预测非编码 DNA 突变对基因表达和疾病的影响。 由于深度学习的成功应用,对应的专业知识对于在机器学习方面处于领先地位的公司以及致力于促进 AI 发展的人来说都是很有价值的。 强化学习 在强化学习中,软件会在其环境中做出一些动作,以便最大化由程序员定义的奖赏。 强化学习非常重要,因为它是一种很有前途的创建软件的方法,与人类一样,它具有长期目标,并通过试错来学习在其环境中最有效的方法。 考虑到深度学习目前广受关注,强化学习博士学位可能不像深度学习那么难。当然,你也可以攻读深度强化学习博士学位。 应用 如果你要开发特定的机器学习应用,例如视觉或语音识别,需要记住一些事项。只要你使用的是底层的机器学习方法,那么选择哪种应用就变得无关紧要。不过,仍然值得花点时间在选择应用上,最理想的应该是那些正在取得进展但尚未定型的应用。 如何知道你是否适合这项工作? 如果不去尝试,就很难知道你是不是适合做机器学习研究。为了测试你的适应性,以下是可以采取的一些步骤,按照时间顺序排列: 与正在攻读机器学习博士学习的人交谈,更多地了解机器学习以及是否适合自己。 参加机器学习在线课程,例如 Coursera 的机器学习课程或所在大学的机器学习课程。 参加在线比赛。 参加更多的课程,阅读更多的教科书。 阅读研究论文并尝试复制其结果。我们采访了来自 OpenAI 的 Dario Amodei,他详细地介绍了如何做到这一点。以下是一些参考论文: 一些重要的深度学习论文 (https://github.com/ChristosChristofidis/awesome-deep-learning) 一些重要的强化学习论文 (https://github.com/aikorea/awesome-rl#papers–thesis) 来自顶级会议的论文(https://80000hours.org/ai-safety-syllabus/#conferences) 参加夏季研究实习。 攻读一个包含研究项目的硕士学位。 加入哪个研究小组或机构? 基于在线指南和我们与该领域人士的交谈而得出的参考标准: 研究小组的声望 。你希望加入一个能够不断把论文带入顶级机器学习会议的团队。 你的潜在导师是什么样的人 。不要只关注大学或学院的声望,你的导师对你的成功至关重要。 选择一位能与你一起工作并且支持你的导师。与其他学生交谈,看看他们是否对你正在考虑的导师感到满意。 确保他们的研究兴趣与你的研究兴趣保持一致。 如果前两项标准得到满足,那就选择有声望的成功导师。著名的研究人员,比如负责大型实验室的研究人员,往往拥有更好的资金和人脉,但可能很难与之合作,因为他们往往太忙而无法对你的工作提供反馈。不太出名的导师反而可以更好地支持你,比如一位即将上任的初级教授。另外,如果你感兴趣的领域有多个导师,这样也不错。 导师和实验室的稳定性与资源 。寻找确保能够让你呆在那里工作的实验室和导师。另外,奖学金(如来自 NSF 和 NSERC 的奖学金)有助于你与资金较少的导师合作。请确认你的潜在导师是否想在你攻读博士学位期间更换实验室。如果导师在中途离开,对你来说可能是灾难性的,因为你可能发现很难找到另一位具有同等专业知识的导师。 教学负担 。有些学院会要求你做很多教学工作,这样会占用你太多的研究时间。 实验室气氛和包容性 。你将与其他学生和博士后一起合作和学习,所以请确保他们愿意帮助你。如果可能的话,在实验室会议上或通过与当地在校学生交谈,看看实验室是否有友好的气氛。 一个让你感到开心的地方。 找到大家庭的感觉对你来说很重要,因为到了一个语言不通的地方,你会感到孤独。 有与你感兴趣主题相关的研究人员。 例如,如果你想从事与人工智能安全相关的工作,那么就应该与拥有人工智能安全研究小组的大学合作,这样就可以在博士学习期间开展这方面的工作,并建立与其他研究人员的联系。 当地行业 。如果你知道拿到博士学位后要做什么,那么就选择周边有相关行业的大学。也就是说,如果你对初创公司或大型科技公司感兴趣,可以去旧金山湾区的大学,如斯坦福大学和伯克利大学,如果你想与 DeepMind 建立更好的联系,就去英国的大学。 整体机构声望 。如果你要留在机器学习领域工作,那么机器学习研究组的声望比整个大学的声望要重要得多。 原文链接: https://80000hours.org/career-reviews/machine-learning-phd https://blog.ycombinator.com/a-guide-to-machine-learning-phds/ 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/52192.html 。
来源:数据分析网
发布时间:2018-05-13 23:09:00
人工智能 摧毁的不是工作岗位,而是商业模式 在最近的一项调查中,53%的高管表示,他们所在的行业“已经被 AI 颠覆”。 绝大多数(86%)的受访高管表示,他们的公司做了“中期”或“后期”AI部署,把AI视作未来商业运营的一个主要促进因素。 讽刺的是,作为AI的实现者,IT部门的工作岗位反而受到AI的影响最大。61%的受访者表示,在未来五年,IT将继续成为受影响最大的岗位职能。 近半数(49%)的IT决策者表示,他们的公司不能部署他们想要的AI技术,因为他们的数据无法满足AI技术的要求。 原文翻译: 人工智能 (AI)是真的,而且已经来了。但成功地将AI投入应用并非易如反掌,而是需要彻底反思商业实践。压力很大——在最近的一项调查中,53%的高管表示,他们所在的行业“已经被AI颠覆”。零售行业可能被AI颠覆的一个例子是西雅图的Amazon Go无人便利店。Amazon Go利用AI经营,没有收银员,无需排队。顾客只要从货架上取走商品,其购买行为就会被记录下来。 除了颠覆的征兆以外,Infosys最近委托进行的对1,000名商业和IT高管的一项调查发现,我们现在所知的AI已经脱离实验阶段,正在带来实实在在的好处。绝大多数(86%)的受访高管表示,他们的公司做了“中期”或“后期”AI部署,把AI视作未来商业运营的一个主要促进因素。此外,73%的受访高管认为或强烈认为,他们的AI部署已经改变了他们开展业务的方式。90%的C级高管表示,AI给他们的公司带来了显著的好处。 不管你信不信,AI不只是自动化那么简单。大多数(66%)的受访企业最初利用AI来实现日常工作和低效率流程的自动化,但随着时间的推移和经验的累积,AI成为创新和差异化的一个因素。例如,在处于AI部署后期的公司中,80%的IT决策者表示,他们正利用AI来改善现有的解决方案,或者制定新的业务关键解决方案和服务,以优化洞见和消费者体验。同样比例的C级高管表示,他们未来的企业策略“将通过AI技术带来的机会获取市场信息”。42%的高管预计,在未来五年,AI将对研发产生重大影响。 Infosys总裁莫希特·乔希(Mohit Joshi)在这份调查报告的前言中写道:“迄今为止,AI的轨迹倾向于赋能,给予人类必要的工具,实现冗余任务的自动化,发现和分析数据中的隐藏模式,使人们有可能提出革命性的洞见,让生活变得更加美好。” 正如上文所述,AI已经变成一股颠覆性力量。三分之二的通信行业高管表示,AI正在颠覆他们所在的行业。63%的银行和保险业高管也有此感受。大多数(54%)的零售业者也感受到了AI带来的影响。(Amazon Go只是其中的一个例子。)唯一一个没有这种感觉的行业是公共部门和政府机构。 如果说AI是一股颠覆性力量,那么它将像其他任何颠覆性力量一样,使行动迟缓、跟不上竞争步伐的企业面临生死存亡的威胁。由此来看,AI确实会摧毁工作岗位。但同时,它也为高瞻远瞩的企业、创业公司及其所有员工提供了新的机遇,帮助他们迅速、坚定地采取新的思考方式,更好地满足客户需求。 令人意想不到的是,当AI接管基本的决策职能之际,大多数企业似乎正在采取行动,保障其员工的就业前途。不少于53%的受访者表示,对于受AI影响最大的岗位职能,他们的公司已经加强了相关培训。更多的企业甚至乐观地认为,AI将增加而不是取代工作岗位。77%的受访者相信,他们公司的员工经过培训后,可以胜任AI技术创造的新岗位。 讽刺的是,作为AI的实现者,IT部门的工作岗位反而受到AI的影响最大。61%的受访者表示,在未来五年,IT将继续成为受影响最大的岗位职能。不过,AI也开始对营销传播(32%)、人力资源(29%)和法务部门(15%)产生越来越大的影响。AI事务负责人将成为公司上下不可或缺的人物,跻身C级高管行列。在处于数字化转型后期的公司中,绝大多数(95%)的IT决策者表示,他们的公司计划建立一支由AI行家组成的专业团队。 商业领袖乐观地认为,AI技术创造的工作岗位最终将超过它摧毁的工作岗位。C级高管普遍表示,AI技术将有益于他们的劳动者(70%),同样有益于客户(45%)和员工(43%)。 69%的C级高管表示,其公司的员工担心AI技术会抢走他们的饭碗。但48%的人相信,AI增强了人类的技能,使员工可以更好地完成工作。45%的人表示,AI让员工可以腾出时间,从事更有价值的工作。 大多数(80%)的商业领袖相信,在采用AI技术后,他们的管理团队能够适应领导方式的改变。企业仍然需要对管理人员进行培训。四分之三的IT决策者认为,他们的管理人员将受益于有关AI技术将带来哪些影响的正式培训。 人力资源服务公司德科集团(Adecco Group)首席执行官阿兰·德哈兹(Alain Dehaze)喜欢把AI称为“增强智能”。他说,AI一旦与人力结合,就会让人们“更深入地关注人类与生俱来的本领——批判性思维、情商和价值判断。在平台经济中,技术将各种背景、各种能力的人联系起来,创造出更多的机会。在数字化转型时代,技术也促进了熟练工人和非熟练工人的就业,使这个世界为所有人服务”。 是什么阻碍AI驱动型企业迈向这种美好的未来?数据,或者说是不恰当的数据。近半数(49%)的IT决策者表示,他们的公司不能部署他们想要的AI技术,因为他们的数据无法满足AI技术的要求。AI的内部运作晦涩难懂,这令高管们困扰不已。大多数(52%)的高管担心他们的公司失去透明度。 原文:  Artificial Intelligence Isn’t Killing Jobs; It’s Killing Business Models 来源: https://www.forbes.com/sites/joemckendrick/2018/01/25/artificial-intelligence-isnt-killing-jobs-its-killing-business-models/#64dd220b5ea0 本文为专栏文章,来自:车品觉,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/52173.html 。
来源:数据分析网
发布时间:2018-05-12 22:57:00
数字时代,数据就是机遇,数据就是潜力。 当前,信息化引领经济社会发展已是大势所趋。最新数据显示,2018年我国数字经济规模达31.3万亿元,占GDP比重34.8%。数字化创新持续迭代,数字化新业态加速涌现,数字经济不断创造新的可能。 牢牢抓住新一轮科技变革契机,推动实体经济与数字经济融合发展,经济高质量发展将迎来新机遇,获得新动力。    注入经济发展新动能 安装传感器和平板电脑、接入网络,一台缝纫机“摇身”变成了工厂的“中枢神经”。工人可根据指令同时操作多个流程,打破以往只负责一个工序的局面。通过缝纫机采集的数据,可帮助实现小订单、快生产。数字经济改变的不只是一台缝纫机,越来越多站在国际品牌背后的中国工厂,正用“数字”撕去“代工”标签,制造业本身也因数字发生蝶变。 相关数据显示,今年1至4月,我国高技术制造业增加值同比增长8.7%。当前,重点行业骨干企业数字化研发设计工具普及率、关键工序数控化率分别达到68.9%、49.2%,实施智能化改造的试点示范项目生产效率平均提升近40%。网络化协同设计、云制造等新业态,正不断提高我国整体供给体系质量。 消费、服务同样因数字而变。扫码进店、自动买单,“数字化”销售在实体店推开;智慧医疗、智能教育,“数字化”服务空间不断拓宽……4月,我国信息传输、软件和信息技术服务业同比增长25%。 数字技术助力社会各领域创新进入快速扩张期。以数字为杠杆,我国经济正进行深层次变革。抓住机遇,发挥好我国渗透融合和应用创新优势,就能重塑竞争力。 构建开放协同新生态 以信息技术为核心的数字经济,正打破传统的供需公式,推动构建更加开放协同的新生态,助推高质量发展。 打破空间、产业界线,越来越多的制造集群“变身”共享平台。从单一的上下游延伸到相关领域,产业合作方式更加多元,平台“赋能”效果更强。 通过人工智能精准预测消费需求,实现有效供给,苏宁联合众多制造企业打造智能供应链;将技术、运力、订单等共享,美团向更多物流方开放平台,打造配送生态。 产业发展与社会建设、民生改善相结合,数字经济不断产生外溢效应。 数字经济既创造了非常大的就业增量,也提高了就业的质量,成为吸纳和带动就业的新引擎。以新职业数字化管理师为例,当前从业人员已超过70万人。 激活源源不断的创新力 数字经济代表活力、潜力、创新力。当前,全球经济正处在大调整、大变局中,世界主要国家纷纷布局数字经济。拥有良好经济基本面、厚实产业基础、广阔市场空间的中国,有望抓住变革机遇,在数字时代重塑竞争力。 连续多年大力推进网络基础设施建设和电信普遍服务,我国夯实了较为坚实的数字“地基”。工信部数据显示,目前我国超过100个城市部署了G比特宽带接入网试点,行政村通用宽带的比例达到98%,4G网络覆盖水平全球领先。 良好的网络基础不仅促进了信息技术的研发创新,更拓展了市场空间,加速了创新应用。近年来持续不断降低电信网络资费,极大降低了市场应用门槛,激发了企业创新的热情。 不久前召开的国务院常务会议中再一次对网络提速降费作出部署,提出在300个以上城市部署千兆宽带接入网络,实现移动流量平均资费降低20%以上。与此同时,瞄准降本减负、构建良好营商环境等一系列举措频频出台,大幅降低了数字经济的创新门槛,提振了人们谋事创业的信心。工信部将推动重大科研设施、基础研究平台等创新资源开放共享,支持企业深入开展“双创”。与此同时,集聚社会创新资源,扩大工业互联网应用场景,加速创新向各领域推进。 因共享共创而兴的数字经济,其发展壮大离不开“开放”二字。印发《数字乡村发展战略纲要》、大力推进工业互联网向各领域融合、加快服务业数字化转型……我国大力推进数字技术向经济发展、政府改革、社会民生等方面深度融合,数字创新更加澎湃,数字红利更加普惠。(记者 张辛欣 叶昊鸣)
来源:大数据中国
发布时间:2019-06-10 22:16:00
要点 大多数组织都难以解锁数据科学以优化其操作流程,让数据科学家、分析师和业务团队采用一致的语言:不同的团队和数据科学流程常常是形成摩擦的根源。 健康的数据科学组织框架是一系列方法论、技术和资源的组合,它们将帮助你的组织 (从业务理解、数据生成和获取、建模,到模型部署和管理) 变得更为数据驱动。 为了成功地将愿景和业务目标转化为切实有效的结果,建立清晰的绩效指标非常重要。 组织需要更有机地考虑其端到端的数据流和体系结构,它们将是数据科学解决方案的支撑。 基于 Azure 机器学习服务,团队构建了一个人员部署推荐方案,为新项目推荐最优的员工组合和具有对口经验和专业知识的人员。 在过去的几年里,来自无数不同来源的数据变得更加可用和可消费,许多组织都在开始寻找使用最新 数据分析 技术的方法,以满足他们的业务需求和寻求新的机会。除了数据变得更加可用和可访问外,还出现了大量工具和应用程序,使团队有能力构建复杂的数据分析解决方案。鉴于以上种种,组织越来越多地围绕数据科学的职能组建团队。 数据科学是一个结合数学、编程和可视化技术的领域,它将科学方法应用于特定的业务领域或问题,如预测未来的客户行为、规划空中交通路线或识别语音模式等。但是,成为一个数据驱动的组织究竟意味着什么呢? 通过本文,业务和技术领导者将学到一些评估他们的组织是否是数据驱动的方法,以及对其数据科学成熟度进行基准测试的方法。此外,通过现实世界中已经应用过的用例,他们将学习如何使用健康的数据科学组织框架在组织内培养健康的数据科学思维。作为一名数据科学家,我基于自身的经验创建了这个框架,我正在从事端到端数据科学和机器学习解决方案的工作,与许多不同类型行业的外部客户合作,包括能源、石油和天然气、零售、航空航天、医疗保健和职业劳务。该框架提供了一个构建数据科学项目的开发生命周期。这个生命周期概述了项目在运行时从开始到结束要遵循的步骤。 理解健康的数据科学组织框架 成为一个数据驱动的组织意味着要嵌入数据科学团队,以充分参与业务,并调整公司的运营骨架 (技术、流程、基础设施和文化)。健康的数据科学组织框架是一系列方法论、技术和资源的组合,如果正确使用,这些方法论、技术和资源将帮助你的组织 (从业务理解、数据生成和获取、建模,到模型部署和管理) 变得更为数据驱动。这个框架包括六个关键原则。 了解业务和制定决策的过程 建立绩效指标 构建端到端解决方案 构建你的数据科学技巧工具箱 统一组织的数据科学愿景 让人类参与其中 考虑到该领域的快速发展,组织通常需要指导如何应用最新的数据科学技术来满足其业务需求或寻求新的机会。 原则 1:了解业务和制定决策的过程 对于大多数组织来说,缺乏数据并不是问题。事实恰恰相反:通常在制定决策时手里掌握太多的信息。有这么多的数据需要分类,组织需要充分定义一个策略在以下各方面对业务加以阐述: 数据科学如何帮助企业做业务转变,更好地管理成本,并驱动更卓越的运营? 组织对想要完成的事情是否有一个明确定义并予以清晰表达的目标和愿景? 组织如何获得 C 级管理人员和涉众的支持,以实现数据驱动的愿景,并推动它贯穿至业务的各个部分? 简而言之,公司需要对其业务决策过程有一个清晰的理解,以及一个更好的数据科学策略来支持该过程。有了正确的数据科学思维,以往大量不同的信息就变成了一个简单清晰的决策点。推动转型需要公司对他们想要实现的事情有一个明确定义并予以清晰表达的目标和愿景。它通常需要 c 级主管的支持,以实现该愿景,并推动它贯穿至业务的各个部分。 组织必须从正确的问题着手。该问题应该是可度量的、清晰的、简洁的,并与他们的核心业务有直接的关联。在此阶段,设计问题就特定业务问题或机会的潜在解决方案加以限定(或取消限定)非常重要。例如,从一个明确定义的问题开始:一家零售公司的成本正在不断上升,无法再向客户提供有竞争力的价格。要解决这一业务问题,可能会引出许多的问题,其中之一可能是:公司能否在不影响质量的情况下减少运营? 要回答这类问题,组织需要解决两项主要任务: 定义业务目标:数据科学团队需要与业务专家和其他涉众合作,以理解和识别业务问题。 提出正确的问题:公司需要提出明确的问题,定义数据科学团队可以瞄向的业务目标。 去年,Azure 机器学习团队为一家职业劳务公司开发了一个基于推荐的员工分配解决方案。通过使用Azure 机器学习服务,我们开发并部署了一个人员部署推荐解决方案,该方案为新项目推荐最优的员工组合和具有对口经验和专业知识的个人员工。我们这个解决方案的最终业务目标是提高客户的利润。 当时,项目人员配置是由项目经理手工完成的,他基于的是员工的可用性和其个人过去业绩的先验知识。这个过程非常耗时,而且结果往往并不理想。利用历史数据和先进的机器学习技术可以更有效地完成这个过程。 为了将这个业务问题转化为切实可行的解决方案和结果,我们帮助客户提出了正确的问题,例如: 我们如何预测新项目的员工构成?例如,一名高级项目经理、一名首席数据科学家和两名会计助理。 我们如何计算新项目的员工适合度评分?我们将员工适合度得分定义为度量项目员工适合度的指标。 我们这个机器学习解决方案的目标是根据员工的可用性、地理位置、项目类型经验、行业经验和以前项目产生的小时贡献边际,为新项目推荐最合适的员工。Azure和无数的基于 云计算 的工具,可以帮助该组织制定成功的劳动力分析解决方案,为具体的行动计划和人力资源投资提供基础:使用 Azure 云,更容易获得无与伦比的生产力,它具有端到端的开发工具和监控、管理和保护云资源的管理工具。此外,Azure 机器学习服务提供了一个基于云的环境,组织可以使用它来准备数据、培训、测试、部署、管理和跟踪机器学习模型。Azure 机器学习服务还包括自动生成模型和调优的功能,以帮助你轻松、高效并准确地创建模型。这些解决方案可以解决组织人员分配中需要克服的偏差或低效,从而得到更好的业务结果。组织可以通过使用劳动力分析来优化人力资本的使用,从而获得竞争优势。在接下来的几个章节,我们将一起了解如何为客户构建这个解决方案。 原则 2:建立绩效指标 为了成功地将这个愿景和业务目标转化为切实有效的结果,下一步是建立清晰的绩效指标。在第二步中,组织需要从分析层面关注定义数据解决方案管道的以下两个关键方面(如图 2): 解决该业务问题并得出准确结论的最佳分析方法是什么? 如何将这一愿景转化为能够改善业务的切实有效的结果? 这一步分为三个子步骤: 决定度量什么 我们以预测性维护为例,这是一种用于预测在役机器何时会发生故障的技术,它使你能够对其维护提前很好地进行规划。事实证明,这是一个非常广泛的领域,有着各种各样的最终目标,比如预测故障的根本原因、哪些部件需要更换以及故障发生后何时提供维护建议等等。 许多公司正在尝试进行预测性维护,以及从各种传感器和系统中获得大量数据。但是,通常情况下,客户并没有足够的故障历史数据,这使得预测维护非常困难。毕竟,为了预测未来的故障事件,需要基于此类故障历史数据对模型进行培训。因此,尽管为任何分析项目制定愿景、目的和范围很重要,但是从收集合适的数据开始才至关重要。用于预测维护的相关数据源包括但不限于:故障历史、维护 / 维修历史、机器操作条件、设备元数据。让我们假定有一个车轮故障用例:训练数据应该包含与车轮操作相关的特征。如果问题是预测牵引系统的故障,训练数据必须包含牵引系统的所有不同部件。第一个案例针对特定的组件,而第二个案例针对较大子系统的故障。一般的建议是设计关于特定组件的预测系统,而不是更大的子系统。 给定上述数据源,预测维护领域中观察到的两种主要数据类型是:1)暂态数据(如操作遥感、机器条件、工作指令类型、记录时具有时间戳的优先级代码)。故障、维护 / 修理和使用历史记录也将有与每个事件相关联的时间戳);2)静态数据(机器特征和操作员特征一般是静态的,因为它们描述了机器或操作员属性的技术规格。如果这些特征随着时间的推移而改变,那么它们也应该具有与之相关联的时间戳)。预测器和目标变量应该根据使用的算法进行预处理 / 转换为数值、分类和其他数据类型。 2. 决定如何度量它 考虑组织如何度量数据也同样重要,尤其是在数据收集和摄入阶段之前。这一子步骤的关键问题包括: 时间是什么时候? 度量单位是什么? 应该包括哪些因素? 此步骤的中心目标是确定分析需要预测的关键业务变量。我们将这些变量称为模型目标,并使用与它们关联的度量来确定项目的成功。针对这类目标,举两个例子为销售预测或预测是欺诈性订单的可能性。 3. 定义成功指标 在标识关键业务变量之后,将业务问题转换为数据科学问题并定义界定项目是否成功的度量标准非常重要。组织通常使用数据科学或机器学习来回答以下五类问题: 多少?(回归) 哪一类?(分类) 哪一组?(聚类) 这奇怪吗?(异常检测) 应该采取哪种选择?(推荐) 确定公司正在询问哪些问题,以及如何回答这些问题,这样才能实现业务目标,并能够对结果进行度量。在这一点上,通过提出和精炼相关的、具体的、明确的尖锐问题来重新审视项目目标是很重要的。例如假设,一家公司想要实现客户流失率的预测,需要精确到在一个为期三个月的项目结束时达到“x”%。有了这些数据,公司就可以为客户提出减少客户流失率的促销活动了。 以我们的职业劳务公司为例,我们决定解决的第一个业务问题是,如何预测一个新项目的员工组合,例如一名高级会计师加两名会计助理。对于这种客户参与,我们使用了近五年个人级别的每日历史项目数据。我们删除了任何有负边际贡献或负总小时数的数据。我们首先从测试数据集中随机抽取了 1000 个项目,以加速参数调优。在确定了最优参数组合后,我们对测试数据集中的所有项目进行了相同的数据准备。 我们使用了一种聚类方法:K 最近邻 (KNN) 算法。KNN 是一种简单、易于实现的监督机器学习算法。KNN 算法假设相似的事物具有很近的距离,从而在训练数据中找到最相似的数据点,并根据它们的分类进行有根据的猜测。该方法虽然易于理解和实现,但在推荐系统、语义搜索和异常检测等领域也得到了广泛的应用。 在第一步中,我们使用 KNN 来预测一个新项目的人员组成,也就是说,使用历史项目数据预测每种人员分类 / 职务的数量。我们根据不同的项目属性,如项目类型、总账款、行业、客户、收入范围等,找出与新项目相似的历史项目。我们根据业务规则和标准为每个项目属性分配了不同的权重。我们还删除了任何有负边际贡献 (利润) 的数据。对于每一种人员分类,通过计算同类历史项目对应人员分类的人员数量加权和来预测人员数量。最后将这些权值规格化,使所有权值的和为 1。在计算加权和之前,我们剔除了 10% 的过高异常值和 10% 的过低异常值。 我们要解决的第二个业务问题是,如何计算新项目的员工适合度得分,我们决定使用基于内容的自定义过滤方法:具体来说,我们实现了一个基于内容的算法来预测员工的经验与项目需求的匹配度。在基于内容的过滤系统中,通常是根据用户对条目的历史评分来计算得出用户配置文件。这些用户配置文件描述了用户的品味和偏好。为了预测员工对新项目的适合度,我们使用历史数据为每个员工创建了两个员工档案向量:一个向量基于的是一个小时数,它代表员工在不同类型项目上的经验和专业技能;另一个向量基于的是每小时贡献利润率 (CMH),它代表员工在不同类型项目上的盈利能力。新项目的员工适合度评分是通过计算这两个员工轮廓向量和代表项目重要属性的二进制向量之间的内积来计算的。 我们使用Azure 机器学习服务实现了这个机器学习步骤。使用主流的 Python SDK和用于 Azure 机器学习的Data Prep SDK,我们在 Azure 机器学习服务工作区中构建我们的机器学习模型,并对其展开训练。这个工作区是为该服务准备的顶级资源,它为我们提供了一个集中的地方来处理这个项目创建的所有工件。 为了创建一个工作区,我们确定了以下配置项: 当我们创建一个工作区时,会自动添加以下 Azure 资源: Azure Container Registry(Azure 容器注册表) Azure Storage(Azure 存储) Azure Application Insights(Azure 应用洞见) Azure Key Vault(Azure 密钥保管库) 该工作区保存了一个计算目标列表,你可以使用这些目标训练你的模型。它还保存执行训练的历史记录,包括日志、指标、输出和脚本快照。我们使用这些信息来确定哪个训练运行生成了最佳模型。 之后,我们将模型注册到工作区中,并使用注册的模型和计分脚本创建用于部署的镜像(为此用例构建端到端体系结构的相关更多细节将在下面讨论)。工作区的概念和机器学习流程如图 4 所示: 原则 3:构建端到端解决方案 在大数据时代,越来越多的数据的积累和分析,往往是非结构化的,它们来自于应用程序、Web 环境和各种各样的设备。在第三步中,组织需要更有机地考虑支持其数据科学解决方案的端到端数据流和体系结构,并问问自己以下问题: 他们真的需要这么多数据吗? 他们如何确保它的完整性和可靠性? 他们应该如何存储、处理和操作这些数据,以回答我的问题? 最重要的是,他们如何将这个数据科学解决方案整合到他们自己的业务和运营中,以便随着时间的推移仍能成功地使用它? 数据体系结构是规划数据收集的过程,包括对所要收集的信息的定义、用于结构化数据的标准和规范以及用于提取、存储和处理此类数据的工具。 对于任何执行数据分析的项目来说,这个阶段都是基础,因为它保证了将来所要研究的信息的可用性和完整性。为此,你需要了解数据将如何存储、处理和使用,以及项目需要哪些分析。就这一点,可以说项目的技术愿景和战略愿景是交叉的,因为这个计划任务的目的是保持数据提取和操作过程与业务目标保持一致。 在定义了业务目标(原则 1)并将它们转换为有形的度量标准(原则 2)之后,现在必须要做的是选择正确的工具,以使组织能够实际构建端到端数据科学解决方案。考虑诸如数据量、数据种类以及数据生成和处理的速度等因素,对公司确定应该使用哪种类型的技术会很有帮助。在现有的各类工具中,必须考虑: 数据收集工具,如Azure Stream Analytics 和Azure Data Factory,这些工具将帮助我们提取和组织原始数据。 存储工具,如Azure Cosmos DB和Azure Storage:这些工具以结构化或非结构化的形式存储数据,并且可以以集成的方式聚集来自于多个平台的信息 数据处理和分析工具,如Azure Time Series Insights和Azure Machine Learning Service Data Prep,有了这些,我们可以使用存储和处理的数据创建可视化逻辑,使分析、研究和报告成为可能,从而支持运营和战略决策的制定。 模型操作化工具,如 Azure Machine Learning service 和Machine Learning Server:在公司拥有一组运行良好的模型之后,它们可以将这些模型操作化,供其他应用程序使用。根据业务需求来看,可以实时预测,也可以批量预测。为部署模型,公司需要使用一个开放的 API 接口来暴露它们。各类的应用程式可以通过该接口轻松使用这个模型,例如:在线网站/电子表格/仪表板/企业重要流程线(LoB)应用程序/后端应用程序 这些工具可以根据业务的需要予以调整,但在理想情况下应该提供它们之间集成的可能性,从而使数据可以在任意选择的平台上使用,而不需要手工处理。这种端到端架构(如图 5)还将为公司提供一些关键的优势和价值,例如: 加速部署和降低风险:集成的端到端体系结构可以极大地降低组装端到端解决方案所需的成本和精力,从而进一步减少部署用例的时间 模块化:使公司能够从端到端体系结构的任何部分开始切入,并确保已经集成了关键组件,且可以良好地配合 灵活性:可以在任何地方运行,包括多云或混合云环境 端到端分析和机器学习:支持从边缘到云的端到端分析,能够将机器学习模型回推到边缘进行实时决策 端到端 数据安全 性和依从性:预集成了跨基础设施的安全性和可管理性,包括访问、授权和身份验证 支持开源创新:基于开源项目和确保开放标准的充满活力的社区创新模型 之于我们职业劳务公司,我们的解决方案架构由以下组件组成(如图 6): 数据科学家使用 Azure 机器学习和 HDInsight 集群来训练模型。Azure HDInsight 是一种面向企业的管理、全频谱、开源的分析服务。HDInsight 是一种云服务,它使海量数据的处理变得简单、快速和划算。模型被装箱并放入Azure 容器注册表。Azure 容器注册表使你可以为所有类型的容器部署构建、存储和管理镜像。对于这个特定的客户参与,我们使用Azure CLI创建了一个 Azure 容器注册表实例。然后,使用 Docker 命令将容器镜像推入注册表,最后从注册表中拉出并运行镜像。Azure CLI 是一个命令行工具,为管理 Azure 资源提供了很好的体验。CLI 旨在简化脚本编写、查询数据、支持耗时操作等等。 该模型通过离线安装程序部署到 Azure 栈上的 Kubernetes 集群。Azure Kubernetes Service (AKS) 简化了 Kubernetes 的管理,它通过 Azure CLI 等工具简化了集群的供应,并通过自动化的升级和扩展简化了集群的维护。此外,创建 GPU 集群的能力使 AKS 能够用于高性能服务和机器学习模型的自动扩展。 最终用户提供的数据是根据模型评分的。将预测模型应用于一组数据的过程称为对数据进行评分。一旦建立了模型,就可以将模型规格说明保存在一个文件中,该文件包含重构模型所需的所有信息。然后你可以使用该模型文件在其他数据集中生成预测分数。 从评分中获得的洞见和异常将被存储起来供以后上传。Azure Blob storage 用于存储所有项目数据。Azure 机器学习服务与 Blob 存储集成在一起,以便用户不必在计算平台和 Blob 存储之间手动移动数据。从该工作负载所需的性能来看,Blob 存储也是非常划算的。 在全局应用程序中,全局相关和兼容性的洞见可供使用。Azure App Service是一种托管 Web 应用程序、REST API 和移动后端的服务。App Service 不仅为你的应用程序添加了 Microsoft Azure 的强大功能,比如安全性、负载平衡、自动缩放和自动化管理,还为你提供了 DevOps 能力,例如 Azure DevOps、GitHub、Docker Hub以及其他来源的持续部署,包管理、准生产环境、自定义域和 SSL 证书。 最后,利用边缘评分数据对模型进行改进。 原则 4:构建数据科学技巧工具箱 在为我们的职业劳务公司开发基于推荐的人员分配方案时,我们立刻意识到他们的时间有限,并且没有无限的计算资源。组织如何组织他们的工作以保持最高的生产力呢? 我们与客户的数据科学团队紧密合作,帮助他们开发了一组不同的技巧,以优化他们的工作,缩短生产时间,例如: 首先,不要在你拥有的整个数据集进行培训,而应在一个小得多的子集上:一旦数据科学团队清楚地了解了他们需要实现的功能、损失函数、度量标准和超参数值之后,再进行扩展。 重用以前项目中获得的知识:许多数据科学问题都是彼此想通的。从其他数据科学家过去解决过的类似问题中重用超参数或特征提取器的最佳值,这将为组织节省大量时间。 设置自动报警,通知数据科学团队某个特定的实验已经结束:假使实验时有些东西出错了,这么做将节省数据科学团队的时间。 使用Jupyter 笔记本进行快速原型设计:数据科学家可以在对结果满意之后再将代码重写为 Python 包 / 类。 将实验代码保存在版本控制系统中,比如GitHub。 使用云中的预配置环境进行数据科学开发:这些是虚拟机镜像(如Windows 虚拟机和Azure 数据科学虚拟机),使用一些常用的工具进行预安装、配置和测试,这些工具通常在数据分析和机器学习培训会用得到。 在运行实验时,列出要做哪些事情:数据收集、清理、注释;阅读新的数据科学主题,尝试新的算法或框架。所有这些活动都会对你未来项目的成功有所助益。建议可参考这几个数据科学网站:数据科学中心、KDnuggets、Revolution Analytics 原则 5:统一组织的数据科学愿景 从开始数据科学过程的第一天起,数据科学团队就应该与业务伙伴进行交互。数据科学家和业务伙伴不经常接触解决方案。业务伙伴希望远离技术细节,数据科学家也是想远离业务。然而,为了理解并行模型的实现以构建模型,他们之间保持持续交互是非常重要的。大多数组织都难以解锁数据科学以优化其操作流程,让数据科学家、分析师和业务团队采用一致的语言:不同的团队和数据科学流程常常是形成摩擦的根源。这种摩擦定义了新的数据科学铁三角,它基于的是数据科学、IT 运营和业务运营的协调配合。 为了与客户共同完成这项任务,我们实施了以下步骤: 要求 C 级别高管的支持采纳这一愿景,并将其推动至其他不同业务部分:哪里有清晰的目标, 愿景和支持,就在哪里先试点,最初的成功或胜利,会刺激大家进一步试验和探索,这经常会导致多米诺效应,让大家产生积极的转变。 营造一种实验文化:即使有了明确的目标,但通常仅凭这一点也不会带来成功的业务转型。在许多组织中,一个重要的障碍是员工没有足够的权力来实现变革。向员工充分授权有助于让员工参与进来,并让他们积极地为共同的目标做出贡献。 让每个人都参与到沟通中来:达成共识会增强绩效表现。如果数据科学家在没有其他人参与的情况下孤立地工作,组织将缺乏共同承担的愿景、价值观和共同的目标。跨多个团队的组织的共同愿景和共同目标,能带来协作的提升。 原则 6:让人类参与其中 成为一家数据驱动型公司,更多的是一种文化转变,而不仅仅是数字化:因此,任何数据科学解决方案的结果都应让人类参与评估,这很重要。人类 - 数据科学的团队合作将会得到比任何一个单独的团队更好的结果。 例如,在我们的客户案例中,我们结合数据科学与人类经验,帮助他们构建、部署和维护了一个人员部署推荐解决方案,为新项目建议最优的人员组合和具有对口经验和专业知识的人员,这常常会直接带来经济价值。在我们部署了解决方案之后,我们的客户决定与几个项目团队进行试点。他们还创建了一个数据科学家和业务专家的 v-Team,目的与机器学习解决方案并行开展工作,从两个试点团队使用 Azure 机器学习解决方案前后比较机器学习在项目完成时间、收入、员工、客户满意度等方面得出的结果。这种由一组数据和业务专家进行的线下评估对项目本身非常有益,这主要有两个原因: 验证了该机器学习解决方案能够为每个项目提高约 4% 到 5% 的贡献边际; 该 v-Team 能够测试这个解决方案并创建一个可靠的即时反馈机制,使他们能够不断地监控结果并改进最终的解决方案。 在这个试点项目之后,客户成功地将我们的解决方案集成到了他们的内部项目管理系统中。 在开始这种数据驱动的文化转变时,公司应该牢记以下几点准则: 并肩工作: 业界领先的公司越来越认识到,当技术能够助力人类,而不是取代人类时,它们才是最有效的。理解数据科学和人类为不同类型的工作和任务带来的独特能力将是至关重要的,因为这样重点就从自动化转向了对工作的重新设计。 对人类接触的认知: 重点是要记住,即使高度电脑化的工作不得不保持在面向服务的层面,并由像数据科学家和开发人员这些角色来解释公司的成功,但仍需要创造力、同理心、沟通能力和解决复杂问题等必要的人类技能。 投资于劳动力的发展: 对劳动力的发展、学习和职业模式予以重新关注也很重要,要不吝为其注入创造力。也许最关键的是对做有意义的工作的需求——尽管他们与智能机器有了新的合作,但人类将热切地拥抱这些工作。 在数据科学需要额外的目前昂贵得令人望而却步的基础设施(例如巨大的知识图谱),以在每个领域中提供上下文和替代人类经验的情况下,人类组件将特别重要。 结论 通过在数据分析过程中应用健康数据科学组织框架中的这六个原则,组织可以针对他们的业务做出更好的决策,他们的选择将得到可靠的数据收集和分析的支持。 我们的客户能够实现一个成功的人员部署推荐解决方案,该方案为新项目推荐最优的员工组合和具有对口经验和专业知识的个人员工。通过将员工经验与项目需求结合起来,我们帮助项目经理更好更快地进行人员分配。 通过实践,数据科学过程将变得更快、更准确,这意味着组织将做出更好、更明智的决策,从而最有效地运营。 以下是一些可能会用到的附加资源,可帮助你学习如何培养健康的数据科学思维,建立一个成功的数据驱动组织: 团队数据科学过程文档(Team Data Science Process Documentation) 团队数据科学处理 GitHub 库(Team Data Science Process GitHub Repo) 数据架构指南(Data Architecture Guide) Azure 的笔记本(Azure Notebooks) 数据科学虚拟机(Data Science Virtual Machine ) Azure 机器学习文档(Azure Machine Learning Documentation ) 微软 Azure 数据科学博客(Microsoft Azure Data Science Blog) 作者简介: Francesca Lazzeri 博士(推特:@frlazzeri)是微软云计算倡导团队的高级机器学习科学家,也是大数据技术创新和基于机器学习的解决方案在现实问题中的应用方面的专家。她是《时间序列预测:机器学习方法》(O 'Reilly Media, 2019) 一书的作者,她定期在美国和欧洲的大学教授应用分析和机器学习课程。在加入微软之前,她是哈佛商学院商业经济学研究员,她在那里的技术和运营管理部门进行统计和计量分析。她还是麻省理工学院博士和博士后的数据科学导师,并在学术和行业会议上发表主题演说和专题演讲,在会上,她分享了她对人工智能、机器学习和编码的知识和激情。
来源:大数据中国
发布时间:2019-06-10 22:06:00
人类的进化发展史就是一部人类制造和使用工具的历史,不同的工具代表了人类的进化水平。从石器时代、铁器时代、蒸汽时代、电气时代再到现在的信息时代,我们使用更加先进便捷的工具来改变生产和生活。 工具的目的是延伸和拓展人类的能力,我们跑得不快,但可以借助骑马和开车日行千里,跳得不高,更不会飞,但是借助飞机火箭上天入地。工具总体来看可以分为两类:拓展人类体力的工具和拓展人类脑力的工具。 在计算机发明之前,人类制造的大多数工具都是前者,它可以帮助我们减少体力劳动。比如使用牛或者拖拉机来耕地的效率更高。 当然也有少量的减少脑力劳动的工具,比如算盘,也包括文字——它可以极大的扩充人类的记忆容量,现在很多机械的脑力劳动都可以由计算机完成。但传统的计算机程序只能帮我们扩充记忆和完成简单机械的计算,我们有容量更大速度更快的存储器,可以编制财务软件来帮助进行财务核算。 我们无法实现需要“智能”才能来完成的事情,比如无法让计算机进行汽车驾驶,计算机目前也无法像人类一样用自然语言和人类进行日常沟通,而人工智能的目标就是让计算机能够像人类一样“智能”的解决这些复杂问题。 现在的人工智能系统已经能够在围棋上战胜人类世界冠军,现在的语音识别系统已经能在某些特定场景下达到人类的识别准确率,无人驾驶的汽车也已经在某些地方实验性的上路了。 未来,人工智能会有更多的应用场景,我们的终极目标是制造和人类一样甚至超越人类智能的机器。 人工智能发展简史 人工智能最早的探索也许可以追溯到莱布尼茨,他试图制造能够进行自动符号计算的机器,但现代意义上人工智能这个术语诞生于1956年的达特茅斯会议。 关于人工智能有很多的定义,它本身就是很多学科的交叉融合,不同的人关注它的不同方面,因此很难给出一个大家都认可的一个定义。我们下面通过时间的脉络来了解AI的反正过程。 黄金时期(1956-1974) 这是人工智能的一个黄金时期,大量的资金用于支持这个学科的研究和发展。这一时期有影响力的研究包括通用问题求解器(General Problem Solver),以及最早的聊天机器人ELIZA。很多人都以为与其聊天的ELIZA是一个真人,但它只是简单的基于匹配模板的方式来生成回复(我们现在很多市面上的聊天机器人其实也使用了类似的技术)。 当时人们非常乐观,比如H. A. Simon在1958年断言不出10年计算机将在下(国际)象棋上击败人类。他在1965年甚至说“二十年后计算机将可以做所有人类能做的事情”。 第一次寒冬(1974-1980) 到了这一时期,之前的断言并没有兑现,因此各种批评之声涌现出来,国家(美国)也不再投入更多经费,人工智能进入第一次寒冬。这个时期也是联结主义(connectionism)的黑暗时期。1958年Frank Rosenblatt提出了感知机(Perception),这可以认为是最早的神经网络的研究。但是在之后的10年联结主义没有太多的研究和进展。 兴盛期(1980-1989) 这一时期的兴盛得益于专家系统的流行。联结主义的神经网络也有所发展,包括1982年John Hopfield提出了Hopfield网络,以及同时期发现的反向传播算法,但主流的方法还是基于符号主义的专家系统。 第二次寒冬(1989-1993) 之前成功的专家系统由于成本太高以及其它的原因,商业上很难获得成功,人工智能再次进入寒冬期。 发展期(1993-2006) 这一期间人工智能的主流是机器学习。统计学习理论的发展和SVM这些工具的流行,使得机器学习进入稳步发展的时期。 爆发期(2006-现在) 这一次人工智能的发展主要是由深度学习,也就是深度神经网络带动的。上世纪八九十年度神经网络虽然通过非线性激活函数解决了理论上的异或问题,而反向传播算法也使得训练浅层的神经网络变得可能。 不过,由于计算资源和技巧的限制,当时无法训练更深层的网络,实际的效果并不比传统的“浅度”的机器学习方法好,因此并没有太多人关注这个方向。 直到2006年,Hinton提出了Deep Belief Nets (DBN),通过pretraining的方法使得训练更深的神经网络变得可能。2009年Hinton和DengLi在语音识别系统中首次使用了深度神经网络(DNN)来训练声学模型,最终系统的词错误率(Word Error Rate/WER)有了极大的降低。 让深度学习在学术界名声大噪的是2012年的ILSVRC评测。在这之前,最好的top5分类错误率在25%以上,而2012年AlexNet首次在比赛中使用了深层的卷积网络,取得了16%的错误率。之后每年都有新的好成绩出现,2014年是GoogLeNet和VGG,而2015年是ResNet残差网络,目前最好系统的top5分类错误率在5%以下了。 真正让更多人(尤其是中国人)了解深度学习进展的是2016年Google DeepMind开发的AlphaGo以4比1的成绩战胜了人类世界冠军李世石。因此人工智能进入了又一次的兴盛期,各路资本竞相投入,甚至国家层面的人工智能发展计划也相继出台。 2006年到现在分领域的主要进展 下面我们来回顾一下从2006年开始深度学习在计算机视觉、听觉、自然语言处理和强化学习等领域的主要进展,根据它的发展过程来分析未来可能的发展方向。因为作者水平和兴趣点的局限,这里只是列举作者了解的一些文章,所以肯定会遗漏一些重要的工作。 计算机视觉 无监督预训练 虽然”现代”深度学习的很多模型,比如DNN、CNN和RNN(LSTM)很早就提出来了,但在2006年之前,大家没有办法训练很多层的神经网络,因此在效果上深度学习和传统的机器学习并没有显著的差别。 2006年,Hinton等人在论文《A fast learning algorithm for deep belief nets》里提出了通过贪心的、无监督的Deep Belief Nets(DBN)逐层Pretraining的方法和最终有监督fine-tuning的方法首次实现了训练多层(五层)的神经网络。此后的研究热点就是怎么使用各种技术训练深度的神经网络,这个过程大致持续到2010年。主要的想法是使用各种无监督的Pretraining的方法,除了DBN,Restricted Boltzmann Machines(RBM), Deep Boltzmann Machines(DBM)还有Denoising Autoencoders等模型也在这一期间提出。 代表文章包括Hinton等人的《Reducing the dimensionality of data with neural networks》发表在Nature上)、Bengio等人在NIPS 2007上发表的《Greedy layer-wise training of deep networks》,Lee等人发表在ICML 2009上的《Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations》,Vincent等人2010年发表的《Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion》。 那个时候要训练较深的神经网络是非常tricky的事情,因此也有类似Glorot等人的《Understanding the difficulty of training deep feedforward neural networks》,大家在使用深度学习工具时可能会遇到Xavier初始化方法,这个方法的作者正是Xavier Glorot。那个时候能把超参数选好从而能够训练好的模型是一种”黑科技”,我记得还有一本厚厚的书《Neural Networks: Tricks of the Trade》,专门介绍各种tricks。 深度卷积神经网络 深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet在LSVRC-2012 ImageNet这个比赛中取得了非常好的成绩。此后,卷积神经网络及其变种被广泛应用于各种图像相关任务。从2012年开始一直到2016年,每年的LSVRC比赛都会产生更深的模型和更好的效果。 Alex Krizhevsky在2012年的论文《ImageNet classification with deep convolutional neural networks》开启了这段”深度”竞争之旅。 2014年的冠军是GoogleNet,来自论文《Going deeper with convolutions》,它提出了Inception的结构,通过这种结构可以训练22层的深度神经网络。它同年的亚军是VGGNet,它在模型结构上并没有太多变换,只是通过一些技巧让卷积网络变得更深(18层)。 2015年的冠军是ResNet,来自何恺明等人的论文《Deep residual learning for image recognition》,通过引入残差结构,他们可以训练152层的网络,2016年的文章《Identity Mappings in Deep Residual Networks》对残差网络做了一些理论分析和进一步的改进。 2016年Google的Szegedy等人在论文《Inception-v4, inception-resnet and the impact of residual connections on learning》里提出了融合残差连接和Incpetion结构的网络结构,进一步提升了识别效果。 下图是这些模型在LSVRC比赛上的效果,我们可以看到随着网络的加深,分类的top-5错误率在逐渐下降。 图:LSVRC比赛    目标检测和实例分割 前面的模型主要考虑的是图片分类任务,目标检测和实例分割也是计算机视觉非常常见的任务。把深度卷积神经网络用到这两个任务上是非常自然的事情,但是这个任务除了需要知道图片里有什么物体,还需要准确的定位这些物体。为了把卷积神经网络用于这类任务,需要做很多改进工作。 当然把CNN用于目标检测非常自然,最简单的就是先对目标使用传统的方法进行定位,但是定位效果不好。Girshick等人在2014年在论文《Rich feature hierarchies for accurate object detection and semantic segmentation》提出了R-CNN模型,使用Region Proposal来产生大量的候选区域,最后用CNN来判断是否是目标,但因为需要对所有的候选进行分类判断,因此它的速度非常慢。 2015年,Girshick等人提出了Fast R-CNN,它通过RoI Pooling层通过一次计算同时计算所有候选区域的特征,从而可以实现快速计算。 但是Regional Proposal本身就很慢,Ren等人在同年的论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》提出了Faster R-CNN,通过使用Region Proposal Networks(RPN)这个网络来替代原来的Region Proposal算法,从而实现实时目标检测算法。 为了解决目标物体在不同图像中不同尺寸(scale)的问题,Lin等人在论文《Feature Pyramid Networks for Object Detection》里提出了Feature Pyramid Networks(FPN)。 图:Fast R-CNN 图:Faster R-CNN   因为R-CNN在目标检测任务上很好的效果,把Faster R-CNN用于实例分割是很自然的想法。但是RoI Pooling在用于实例分割时会有比较大的偏差,原因在于Region Proposal和RoI Pooling都存在量化的舍入误差。因此何恺明等人在2017年提出了Mask R-CNN模型。 图:Mask R-CNN 从这一系列文章我们可以看到深度学习应用于一个更复杂场景的过程:首先是在一个复杂的过程中部分使用深度神经网络,最后把所有的过程End-to-End的用神经网络来实现。 此外,Redmon等人《You only look once: Unified, real-time object detection》提出了YOLO模型(包括后续的YOLOv2和YOLOv3等),Liu等人也提出的SSD: Single Shot MultiBox Detector模型,这些模型的目的是为了保持准确率不下降的条件下怎么加快检测速度。 生成模型 如果要说最近在计算机视觉哪个方向最火,生成模型绝对是其中之一。要识别一个物体不容易,但是要生成一个物体更难(三岁小孩就能识别猫,但是能画好一只猫的三岁小孩并不多)。而让生成模型火起来的就是Goodfellow在2014年提出的Generative Adversarial Nets(简称GAN)。 因为这个领域比较新,而且研究的”范围”很广,也没有图像分类这样的标准任务和ImageNet这样的标准数据集,很多时候评测的方法非常主观。很多文章都是找到某一个应用点,然后生成(也可能是精心挑选)了一些很酷的图片或者视频,”有图有真相”,大家一看图片很酷,内容又看不懂,因此不明觉厉。 要说解决了什么实际问题,也很难说。但是不管怎么说,这个方向是很吸引眼球的,比如DeepFake这样的应用一下就能引起大家的兴趣和讨论。我对这个方向了解不多,下面只列举一些应用。 style-transfer 最早的《A Neural Algorithm of Artistic Style》发表于2015年,这还是在GAN提出之前,不过我还是把它放到生成模型这里了。它当年可是火过一阵,还因此产生了一个爆款的App叫Prisma。如下图所示,给定一幅风景照片和一幅画(比如c是梵高的画),使用这项技术可以在风景照片里加入梵高的风格。 图:Neural Style Transfer 朱俊彦等人在《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》提出的CycleGAN是一个比较有趣其的模型,它不需要Paired的数据。所谓Paired数据,就是需要一张普通马的照片,还需要一张斑马的照片,而且要求它们内容是完全匹配的。 要获得配对的数据是非常困难的,我们拍摄的时候不可能找到外形和姿势完全相同的斑马和普通马,包括相同的背景。另外给定一张梵高的作品,我们怎么找到与之配对的照片?或者反过来,给定一张风景照片,去哪找和它内容相同的艺术作品? 本文介绍的Cycle GAN不要求有配对的训练数据,而只需要两个不同Domain的未标注数据集就行了。比如要把普通马变成斑马,我们只需要准备很多普通马的照片和很多斑马的照片,然后把所有斑马的照片放在一起,把所有的普通马照片放到一起就行了,这显然很容易。风景画变梵高风格也很容易——我们找到很多风景画的照片,然后尽可能多的找到梵高的画作就可以了。它的效果如下图所示。 图:CycleGAN text-to-image text-to-image是根据文字描述来生成相应的图片,这和Image Captioning正好相反。Zhang等人2016年的《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》是这个方向较早的一篇文章,其效果如下图最后一行所示。 图:StackGAN和其它模型的对比 super-resolution super-resolution是根据一幅低分辨率的图片生成对应高分辨率的图片,和传统的插值方法相比,生成模型因为从大量的图片里学习到了其分布,因此它”猜测”出来的内容比插值效果要好很多。 《Enhanced Super-Resolution Generative Adversarial Networks》是2018年的一篇文章,它的效果如下图中间所示。 图:ESRGAN效果 image inpainting image inpainting是遮挡掉图片的一部分,比如打了马赛克,然后用生成模型来”修补”这部分内容。下图是Generative Image Inpainting with Contextual Attention的效果。 图:DeepFill系统的效果 《EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning》这篇文章借鉴人类绘画时先画轮廓(线)后上色的过程,通过把inpainting分成edge generator和image completion network两个步骤,如下面是它的效果。 图:EdgeConnect的效果 最新热点:自动优化网络结构和半监督学习 最近有两个方向我觉得值得关注:一个是自动优化网络结构;另一个是半监督的学习。 自动网络优化最新的文章是Google研究院的《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》,它希望找到一个神经网络扩展方法可以同时提高网络的准确率和效率(减少参数)。要实现这点,一个很关键的步骤便是如何平衡宽度、深度和分辨率这三个维度。 作者发现,可以使用一种固定比例的缩放操作简单地实现对三者的平衡。最终,作者提出了一种简单却有效的compound scaling method。如果想使用 2?倍的计算资源,只需要对网络宽度增加??,深度增加??和增加??倍的图像大小。其中?,?,?是固定的系数,最优的值通常使用小范围的grid search得到。 通过这种方法他们实现了EfficientNet模型,这个模型使用非常少的参数就达到了很好的效果,如下图所示。 图:模型参数和准确率图 我们可以看到,EfficientNet比之前最好的模型GPipe要小8.4倍,但是效果比它还要好。 半监督学习这里指的是通过未标注的图片来预训练学习特征,然后用少量监督的数据进行学习。最新的文章是Google DeepMind的《Data-Efficient Image Recognition with Contrastive Predictive Coding》。 这篇文章通过Contrastive Predictive Coding的方法来从大量未标注的数据量提取特征。在这些特征上简单的加上一个线性的softmax层,在ImageNet上就可以超过使用AlexNet有监督学习的模型。 如果每个类的训练数据只有13个,则本文的方法比只用13个数据训练的模型的Top-5准确率要高20%,比之前最好的半监督模型高10%。传统的很多无监督的特征在少量数据会比较好,但是当数据量足够多的时候会比完全的监督学习要差,但是本文的方法得到的特征使用全部的ImageNet数据训练,也可以达到和完全监督学习类似的效果,这说明它学到的特征足够好。 语音识别 语音识别系统是一个非常复杂的系统,在深度学习技术之前的主流系统都是基于HMM模型。它通常时候HMM-GMM来建模subword unit(比如triphone),通过发音词典来把subword unit的HMM拼接成词的HMM,最后解码器还要加入语言模型最终来融合声学模型和语言模型在巨大的搜索空间里寻找最优的路径。 Hinton一直在尝试使用深度神经网络来改进语音识别系统,最早(2006年后)的工作是2009年发表的《Deep belief networks for phone recognition》,这正是Pretraining流行的时期,把DBN从计算机视觉用到语音识别是非常自然的想法。 类似的工作包括2010年的《Phone Recognition using Restricted Boltzmann Machines》。但是这些工作只是进行最简单的phone分类,也就是判断每一帧对应的phone,这距离连续语音识别还相差的非常远。 真正把深度神经网络用于语音识别的重要文章是Hinton等人2012年《Deep Neural Networks for Acoustic Modeling in Speech Recognition》的文章,这篇文章使用DNN替代了传统HMM-GMM声学模型里的GMM模型,从此语音识别的主流框架变成了HMM-DNN的模型。接着在2013年Sainath等人在《Deep convolutional neural networks for LVCSR》用CNN替代普通的全连接网络。 从George等人的文章《Improving deep neural networks for LVCSR using rectified linear units and dropout》也可以发现在计算机视觉常用的一些技巧也用到了语音识别上。 前面的HMM-DNN虽然使用了深度神经网络来替代GMM,但是HMM和后面的N-gram语言模型仍然存在,而且DNN本身的训练还需要使用HMM-GMM的强制对齐来提供帧级别的训练数据。 怎么构建一个End-to-end的语音识别系统一直是学术界关注的重点。RNN我们现在处理时序数据的有力武器,2013年的时候Graves等人在论文《Speech Recognition with Deep Recurrent Neural Networks》里把RNN用于了语音识别。这篇文章使用了RNN加上CTC损失函数,CTC是后来的Deep Speech的核心。 免责声明: 除非特别声明,文章均为网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除
来源:大数据中国
发布时间:2019-07-08 21:09:00
一、总论 1. 概念网站流量统计,是指对网站访问的相关指标进行统计。 网站访问分析(有时也使用“网站流量分析”、“网站流量统计分析”、“网站访问统计分析”等相近的概念),是指在获得网站流量统计基本数据的前提下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。 2. 意义 (1) 了解网站的目标人群特征,为产品设计提供重要依据 (2) 了解网站关注行业用户量的潜在规模 (3) 对比行业平均指标,作为评估自身网站发展的指标 (4) 分析网站与竞争对手之间的用户重合度 (5) 分析自身网站内部各栏目间的用户重合度 3. 分析报告 网站统计分析通常按日、周、月、季度、年或围绕营销活动的周期为采集数据的周期。当然单纯的网站访问统计分析是不够的,我们在分析报告中需根据网站流量的基本统计和可采集的第三方数据的基础上,对网站运营状况、网络营销策略的有效性及其存在的问题等进行相关分析并提出 有效可行的改善建议才是网站访问统计分析报告的核心内容。 应该包括以下几方面的内容: (1) 网站访问量信息统计的基本分析 (2) 网站访问量趋势分析 (3) 在可以获得数据的情况下,与竞争者进行对比分析 (4) 用户访问行为分析 (5) 网站流量与网络营销策略关联分析 (6) 网站访问信息反映出的网站和网站营销策略的问题诊断 (7) 对网络营销策略的相关建议 二、关键绩效指标(KPI) 1.常用指标红色标记的指标是最为必要的KPI,对网站的统计分析有很大的意义和作用。 1.1. 网站流量KPI 网站流量统计KPI常用来对网站效果进行评价, 主要的统计指标包括: 访问量(Page View): 即页面浏览量或者点击量,用户每次对网站的访问均被记录1次。用户对同一页面的多次访问,访问量值累计。 日均访问量: 指对应时间范围内,网站每日的平均访问量。 最高日访问量: 指对应时间范围内,网站在某天获得最高访问量。 PV%: 指选择时间范围内,某个类别的PV占总PV的比例。 独立IP: 指在一天之内(00:00-24:00),访问网站的独立IP数。相同IP地址只被计算1次。 独立访客(Unique Visitor): 将每台独立上网电脑(以cookie为依据)视为一位访客,指一天之内(00:00-24:00)访问您网站的访客数量。一天之内相同cookie的访问只被计算1次。 UV%: 指选择时间范围内,某个类别的UV占总UV的比例。 重复访客(Repeat Visitor): 某个cookie的再次访问计为一个重复访客,它的数目即为重复访客数量。 重复访客百分比: 重复访客占全部访客的比例。 重复访问数量: 是指某个cookie除第一次访问之后,又访问您网站的次数。 人均访问页面数: 指对应时间范围内,每个访客访问网站的平均页面数。 1.2. 用户行为KPI 用户行为KPI主要反映用户是如何访问网站的、在网站上停留了多长时间、访问了哪些页面等,主要的统计指标包括: 访问深度(Depth of Visit): 在一次完整的站点访问过程中,访客所浏览的页面数。访问页面越多,深度越高,访问深度可以理解为是平均页面访问数的另一种形式,也是衡量网站粘度的指标。 新访客: 某个cookie的首次访问计为一个新访客。最近访客:最新访客统计,最近一段时间内(5分钟内)访问您网站的100个独立访客,按“进入时间”倒序排列。 同时在线人数: 15分钟(时间范围可自己定)内在线访问的UV数。 最高小时在线人数: 指对应时间范围内,网站在某一小时内最高同时在线的唯一访客数。注:“天”以24小时(00:00-24:00)为单位。 访问入口: 每次访问过程中,访客进入的第一个页面,此页面可以显示网站对外或搜索引擎的一些链接入口。 访问出口: 每次访问过程中,访客结束访问,离开前点击的最后一个页面,此页面可以显示网站对外或搜索引擎的一些链接入口。 访问最多的页面: 访客访问最多的页面。进入最多的页面:作为访客访问站点的访问入口中最多的页面。 退出最多的页面: 作为访客访问站点的访问出口中最多的页面。到达最多的目标:通过点击链接到达的最多的目标页面。 首页访问数: 首页的游览量。 站点覆盖(点击密度分析): 通过覆盖在Web页面上方的点击,可以直接显示访客在Web页面上点击了哪里。 访客所用搜索引擎: 分析网站访客访问网站所使用的搜索引擎。 访客所用关键字: 分析网站是通过哪些关键字搜索带来的流量,并分析每个关键字是由哪些搜索引擎带来的。 最频繁的关键字: 使用最多的关键字的比例。 访客停留时间(访问时长): 访客访问网站的持续时间。 访客平均停留时间: 所有访客的访问过程,访问持续时间的平均值。 来源分析: 分析网站访客的来源类型,来源页面统计。 来源类型分为: 搜索引擎: 由搜索引擎的链接访问网站。 其他网站: 由非搜索引擎的其他网站链接访问网站。 直接输入网址和标签: 访客通过在地址栏、收藏夹、书签等方式直接访问网站。 站内跳转: 访客在网站内部的页面之间进行跳转,产生的流量。 总数据: 网站自开通盘点系统之日起至今的各数据量总和。 访问量变化率: 指对应数据项在当前时间段,与上一个时间段相比较,访问量的同比变化率。例如,上周(7天)的访问量变化率为 ↓21.1% ,表示上周的访问量比上上周的访问量下降了21.1%。又如,今日10:00-11:00的访问量变化率为 ↑1.3% ,表示今日10:00-11:00比昨日10:00-11:00的访问量上升了1.3%。 被访页面: 分析网站中各个页面的流量分布,以及其随时间的变化趋势。 当前访客活跃度: 是指您网站上当前访客的多少,它在一定程度反应了您网站在当前时间的受欢迎程度。 访问路径: 每个访问者从进入您的网站开始访问,一直到最后离开您的网站,整个过程中先后浏览的页面称为访问路径。 访问频度: 指您网站上访问者每日访问的频度,用于揭示您网站内容对访问者的吸引程度。 点击次数: 是指用户点击页面上链接的次数。 1.3. 用户访问方式KPI 用户访问方式KPI主要反映用户访问网站的地域、设备、浏览器名称和版本、操作系统等,主要的统计指标包括: 地理位置: 网站的访客来源于哪个省、市、自治区或国外。 网络服务提供商: 网站的访客所处的网域,是电信用户还是网通用户。 IP段: 网站的访客所在的IP段。 浏览器: 网站的访客所使用的浏览器类型。 屏幕分辨率: 网站的访客所使用的各种屏幕分辨率。 操作系统: 网站的访客所使用的操作系统类型。 语言环境: 网站的访客使用的哪国语言的操作系统。 插件类型: 网站的访客安装的各种插件情况。 Cookie支持: 网站的访客所使用的浏览器是否支持cookie。 终端类型: 网站的访客所使用什么类型的终端上网。 2. 重要指标 关键指标是网站访问统计中最为重要的参考指标,分为如下两类: 2.1. 用户和流量增长KPI 用户增长百分比: 即UV的增长百分比(一般是同上个月或上一周来比较)。 流量增长百分比: 即PV的增长百分比(同上)。 从搜索引擎而来的流量百分比: 从搜索引擎而来的PV占总PV的比例。 新访客比例: 新访客占全部访客的比例。 2.2. 内容效率KPI 每次访问的平均页面数: 总访问量/访问人次。平均页面访问数代表了网站的粘度,粘度越高,用户看的页面越多,平均页面访问数也就越高。 每个独立访客的平均访问次数 回访率: 回访访客占所有访客的比例,用于揭示网站访问者对网站的忠诚度。新访客同回访客的比例网站访问者在不同逗留时间(0—30秒,30秒—2分钟等)的数量不同访问深度的访客数量 跳出率(Page Bounce Rate): 指仅浏览了该页面(一个页面)就离开网站的用户比例。 3. 特殊指标 如果网站有全站搜索,才用得到这部分,不过很多统计工具不提供这种统计。 3.1. 内部搜索效率KPI 使用搜索的用户百分比每次访问的平均搜索次数得到”0结果”的搜索百分比从搜索结果中得到”0点击”的百分比 4. 营销类指标 4.1. 营销效率的KPI 每个访客的平均成本每个访客的平均收益新访客和回头客的收益比较新客户同旧客户的收益百分比每个购物车的平均商品数量每次转换的订单平均价值和平均成本 4.2. 购物车的KPI 购物车放弃率: 指在购物过程中途放弃的比例。 开始购物率: 指添加第一个商品到购物车的访客数量除以总的访客数量。 开始结帐率: 指点击了结帐按钮的访客数除以总的访客数。 完成结帐率: 总的完成付款购物的用户数目/点击了结帐按钮的用户总数。 4.3. 转换KPI 转换率(Conversions Rates): 进行了相应的动作的访问量/总访问量。 新访客的转换率 回访客的转换率 三、数据的分析方法 1、聚类分析 相应的算法分析K-means算法,统计学上的原理等 2、用户细分 (1) 大部分访问者从哪里来—分析网站流量来源 (2) 访问者最关注哪些栏目—分析访问者的浏览路径 (3) 访问者从哪里流失得最多—分析网站流量流失的原因 (4) 分析访问来源的差异性—分析不同访问渠道对流量的贡献程度 四、访问统计分析工具 1. 分类 1.1. 服务器端软件通过直接读取网站访问Log文件,来做统计分析。 优点: 可以从任何地方都可以访问; 速度快,因为通常这些统计分析都是通过Cron任务来定时执行的; 可靠度高,因为是直接读取Log文件,当然所有访问服务都有记录; 隐私问题,因为是使用自己的分析工具,当然没有被第三方获得的机会; 网站访问错误统计,同样是因为基于Log日志的统计,所有的访问记录都有,也包括404错误等各类错误统计; 搜索引擎的蜘蛛访问统计 1.2. 桌面软件 这种软件通常都是商业软件,极少免费的,比如Web Trends,Sawmill等。一般这种软件是安装在用户的桌面电脑上,然后定期下载网站的Log文件,在本地进行分析统计,无需上网都可以使用。 1.3. 在线统计服务 这种服务现在很流行,目前使用最多的就是Google Analytics。要使用在线统计服务的话,需要在你的网站的所有页面中,都加入一段统计代码。而统计的过程中,是不会统计到那些404错误的。 2. 统计服务商对比 2.1. CNZZ站长统计 优点: 后台栏目设置分类比较清晰,统计的数据比较详细。 缺点: 没有统计访客的停留时间和跳出率;没有深入的分析报告。 2.2. 51啦统计 优点: 后台界面比较清晰,顶部栏目设置很不错。 缺点: 没有统计访客的停留时间和跳出率;没有深入的分析报告。 2.3. 51yes统计 优点: 客户地理位置统计用地图显示。 缺点: 后台功能的归类比较零散,不方便统计,没有深入的分析报告。 2.4. 量子恒道统计 优点: 界面比较清晰,比较简洁。 缺点: 数据不是很详细,没有深入的分析报告。 2.5. Google Analytics 优点: 对访客停留时间和跳出率都有统计,功能是其中最为复杂强大的。 缺点: 没有什么明显缺点。 2.6. 百度统计 优点: 基于搜索引擎关键字分析。 缺点: 很难申请到。 3. 免费工具 3.1. Woopar站在业界尖端的统计系统。 Woopra的客户端可以运行在目前99%的平台,包括Windows、Mac和Linux,界面非常华丽。除了可以实时查看访问流量、搜索关键字、访问来源等常规信息外,还可以进行搜索、查看实时分析数据及图表、创建事件提醒等功能。 非常有特色的一个地方就是,你可以通过客户端自带的IM系统同正在访问你的网站的用户实时沟通。这个功能是目前的统计系统都没有的功能。可以对特别的用户用tag来表示,并且可以查看历史上他所访问的记录。还有很多很多的特别的功能。 丰富的界面 实时通讯 实时统计Tips:需下载客户端,是基于JAVA开发的平台,注册是免费的。 地址: http://www.woopra.com/ 3.2. 维度统计 一个类似Woopra的统计系统,也有客户端,还有IM,但不是基于Java。它的客户端界面不够漂亮,效率也不够高,数据同步较慢。 地址: http://www.vdoing.com/ 3.3. Analog 需要下载的一个站点统计工具,非常的专业。 地址: http://analog.cx/ 3.4. AwstatsAwstats 除了可以分析Web,还可以分析FTP,Email Log文件。地址: http://www.awstats.org/ 3.5. OneStatFree 提供免费的点击统计和 网站分析 。同时提供高级的付费服务。地址: http://www.onestatfree.com/ 3.6. CrazyEgg 具有追踪、评估功能,可以根据访客点击的位置对网站进行优化。CrazyEgg有一个非常有特色的地方,就是heat map,就像一张红外线照片,用红色橙色蓝色的不同区域在你的网页上表示出哪些部分是热区。 最基本的服务是免费的,每月可以统计5000个Visits,同时可以统计4个页面。作为一种尝试,也是不错的。 地址: http://crazyegg.com/ 3.7. PiwikPiwik 是一个开放源代码的网站分析应用,它使用PHP和MySql开发。 Piwik有一个允许你任意延伸和自定义的“插件”系统。你可以选择仅仅安装你需要的插 件,或者全部安装。Piwik插件系统,和你想象的一样,它也给你一个创建你自己的定制扩展应用的可能,并且Piwik是个轻量级的应用,下载包只有 1.9MB。 地址: http://piwik.org/ http://piwik.org/demo/index.phpmodule=CoreHome&action=index&idSite=1&period=day&date=yesterday#module=Dashboard&action=embeddedIndex&idSite=1&period=day&date=yesterday (在线演示地址) 3.8. FireStatsFireStats 是一个简单和直接的网站分析应用,使用PHP和MySql开发。它支持多种平台,包括C#站点,Django站点等,以及Wordpress和其他的一些平台。FireStats 还有一个优秀的API[应用程序接口,它可以协助你创建你自己的基于你的FireStats数据的特制应用程序或发布平台组件。 地址: http://firestats.cc/ 3.9. Snoop 轻量级的站点统计服务商reinvigorate推出的一个桌面工具,能够让你实时查看自己站点发生的各种事件,比如用户注册,留言,访问等,常规的站点统计服务,便于在一定时间后对各种累积数据的统计分析,而Snoop的功能则在于事件的动态展现,能够让Blogger即时了解自己的Blog状况,提供实时访客追踪,具有姓名标签合并等高级功能。Snoop 是一个基于桌面,运行在 Mac OS X 和 Windows XP/Vista 平台的web分析工具。它运行后,会驻留在你的系统状态栏或系统托盘中,当一些事件发生的时候,会有声音来提醒你。另外一个显著的Snoop特色就是Name Tags 选项,允许你使用“标记”来更容易的识别访客。 地址: http://report.reinvigorate.net/snoop 3.10. Clicky 这是一款功能全面的分析套装软件,服务主要针对于小网站和博客,易于使用,包括实时访客追踪、深度内容分析等高级服务。 地址: http://getclicky.com/ 3.11. Enquisite 尤其擅长搜索引擎访问和PPC访问。提供地域数据、页面位置等深度统计。 地址: http://www.enquisite.com/ 3.12. 103bees 是一款实时搜索引擎分析和统计工具,高度关注搜索引擎访问量,擅长为网站SEO分析关键词。 地址: http://103bees.com/ 3.13. Measure Map 为博客提供容易理解的统计数据,目前该网站不接受新帐号,但是可以输入电子邮件获取未来通知,该网站归Google所有。 3.14. whos.amung.us 实时访客计数器,能显示任何一个时刻网站的总访问人数,不需要注册,很容易安装。 地址: http://whos.amung.us/ 3.15. FeedBurner 全球最大的RSS托管服务网站。针对博客,界面简洁、直观,提供深度统计数据,目前归Google所有。 地址: http://feedburner.google.com 3.16. ClickTale 记录访客活动,网站SEO分析后便可理解用户行为并提高网站的可用性。 地址: http://www.clicktale.com/ 3.17. MyBlogLog 基本上是博客的一个社交网络,但是也提供有价值的统计数据,其中包括点击习惯等信息,归雅虎所有。 地址: http://www.mybloglog.com/ 来源:简书 作者:罗黑喵爱吃棉花糖 链接:http://www.jianshu.com/p/d34e35a9f419 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2017-03-04 09:13:00
   活动现场展示的“天河三号”原型机 7月6日,在天津滨海新区举行的“纪念中国超级计算事业发展四十年暨国家超级计算天津中心成立十周年”活动上,记者获悉,截至目前,中国先后在天津、长沙、广州等地建成6家国家级超算中心,为创新驱动发展提供了新动能。 据了解,早在2009年5月,科技部批准成立国家超级计算天津中心,随后又批准成立了深圳、济南、长沙、广州、无锡国家级超算中心。随着“天河一号”、“神威蓝光”、“曙光星云”、“天河二号”、“神威·太湖之光”等一批超级计算机在这些国家级超算中心完成部署和应用,开创了中国自主超级计算技术创新与产业化的跨越式发展新历程。 国家超算天津中心成立最早,不但部署着中国首台千万亿次超算“天河一号”,而且这里还肩负着中国新一代百亿亿次超算“天河三号”研发的重任。 天津滨海新区区委书记张玉卓说,自2008年滨海新区与国防科技大学签署全面科技合作协议以来,双方走出了一条军民融合发展创新之路,“‘天河一号’不但广泛应用于经济、科技等诸多领域,而且为科技创新产业发展提供了有力支撑。” 国防科大副校长黎湘表示,围绕超级计算技术创新成果转化,天津逐步建立起从高性能芯片、自主操作系统、高性能服务器、数据库等较为完善的自主信息产业,成为高端信息技术创新、转化和引领的示范基地。 从“银河”的历史性突破,到“天河”“神威”等一系列超级计算机在世界范围内叫响“中国速度”的品牌,过去40年是中国超算事业不断突破的40年。在实践中,依托国家级超算中心建设,在国家和地方的协同支持下,中国超算事业发展进入了快车道。 “超级计算机已成为体现国家创新能力的国之利器。”科技部高新司副司长梅建平表示,下一步中国将研究建设完善国家超算基础设施,从全国一盘棋来设计和整体布局,支持在重点区域建设国家级超算中心,“希望这些超算中心连接起来,成为真正的国家超算网络,形成全国超算资源共享的新格局。”
来源:大数据中国
发布时间:2019-07-08 20:56:00
核心提示:马云认为,当前需要做的不是一个企业独自面对假货这场战争,需要的是法律的完善,机制的建立,提高造假者的成本,让不诚信的人寸步难行,让有能力的中国制造创出自己的品牌。 新华网杭州10月12日消息,作为全世界最大的电子商务平台,阿里巴巴对待假货的态度,直接影响到数亿消费者的权益。日前,阿里巴巴集团董事局主席马云就此接受了新华社记者专访。 有观点认为,阿里巴巴借助假货来助长业绩,阿里巴巴今天的成功是假货的成功。对此,马云表示,不相信靠不诚实能真正成功。 据统计,每卖出一件假货,阿里巴巴就会失去5个以上的用户,阿里巴巴也是假货的受害者。“中国制造要可持续、有核心竞争力,阿里巴巴才可能拥有长久的活力。”马云说。 马云认为,当前需要做的不是一个企业独自面对假货这场战争,需要的是法律的完善,机制的建立,提高造假者的成本,让不诚信的人寸步难行,让有能力的中国制造创出自己的品牌。 “阿里巴巴从诞生的第一天起,就知道需要解决好假冒伪劣问题,这对任何一个商场都是一样的。我们从来不回避侵权商品的问题,因为根本回避不了。”马云说,近年来,阿里巴巴在做两件事:系统性地监控售假,并且通过 大数据 分析得出线索,并将线索报送给相应监管部门;提供资源和机会,帮助那些不想继续卖假的制造商和销售商打造自己的品牌。 “阿里巴巴这个部门有上千名员工,每年花10个亿,已经送了400名不法分子进监狱。我们很多知识产权保护方面的主管是世界级的专家,就因为经手的案子太多,成专家了。”马云指出,真正要根治假货,需要“治假”。我们现在大力在做的是创造环境、创造机制,让卖正品比卖假货赚钱。 他举例说,莆田以前是最大的假冒鞋的产地,鞋子质量很好,就是没有自己的品牌。现在淘宝开辟的“中国质造”,专门推广莆田自主品牌的运动鞋,销售非常好,这对很多制造企业是巨大的鼓励。 马云表示,要靠互联网和 大数据 来解决假货问题。“通过互联网,我们有了一套评价体系,这在线下很难;通过互联网,商品出厂就有二维码;通过大数据,直接定位那个卖假甚至造假的人。这些互联网领域的创新创造,对打假有着里程碑意义的贡献。” “我们今天最骄傲的,不是卖出了多少货,而是为了知识产权保护所进行的探索和创新,我们这方面的能力可能是当今世界最强大的,现在亚马逊都来阿里巴巴了解知识产权保护的措施。阿里巴巴这十五年的努力,最大心血,就是建立了一套信用体系,信用是一切的基石,这是无价的。”马云说。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2015-10-13 21:20:00
张烈生(TIMOTHY CHEUNG),前IBM大中华区副总裁,曾任世界最大的管理软件公司 SAP 中国区总裁。在IBM和中国内地工作30年,先后执掌过IBM大中华区金融事业部、服务部、市场部和IBM香港等重要机构。Tim亲历了中国IT行业从1985年以来发展的全部过程,是中国第一代IT行业顶级经理人。2016年5月,Tim加入 永洪科技 ,任首席战略官。 我的同事告诉我,他曾经采访过Tim, 那时Tim还是SAP中国区总裁,机智、自信而健谈,看得出他很善于与媒体打交道。当我拿到Tim的最新简介,心里不知为何想到在不久之前印象深刻的一篇文章——好奇心日报发表的《公司里40来岁的人都去了哪儿?》,文中引用了普林斯顿大学的汉内斯·施万特博士在 2013 年发表的 “Unmet Expectations” 研究报告中的一段话:“相比于中年人,年轻人乐观、甚至过度乐观,再老一点的人心态平和,而中年人更多的是遗憾。他们有事业、有家庭,但不确定自己是不是还能要的更多,或者犹豫于是否要安于现状。” 我的同事说,当你看见Tim现在的状态,你一定会放下这种“中年转行一定是出于中年危机”的偏见。也许是想象力有限,或者身边实难找出振奋人心的实例。我在心中暗暗期待与Tim的这次会面,这对即将步入35岁的我来说,意义重大,对于和我一样职业经理人生涯超过10年的人来说,想想我们的40岁和50岁要去向哪里,Tim的经历会给予怎样不同的职业价值样板?而他目前选择的这家公司,到底有着怎样非凡的吸引力? 选择,做当下最好的选择 我很清楚,前途并不属于那些犹豫不决的人,而是属于那些一旦决定之后,就不屈不挠不达目的誓不罢休的人。 ——罗曼·罗兰 Tim的职业经历,几乎见证了中国整个IT行业发展的历史。1984年从香港中文大学毕业,85年考进香港IBM工作,正好赶上IBM中国扩大经营,Tim自荐,加入了IBM中国。问他一个香港人,又是名校毕业,可选择的方向有很多,怎么舍得放弃那时经济繁荣的香港,选择到内地。85年,内地经济还不算发达,IT行业还在起步阶段,背井离乡加上语言隔阂,定是常常遭遇压力与挫折。他说:“我总是考虑,什么是当下最好的选择。” 那时候在中国的IT外企,一如IBM,更多雇佣的是“国际派遣员工”。这让IBM的价值观和基本信念得到最直接有效的传播,但语言与文化的隔阂仍是难以逾越的障碍。IBM考虑从香港公司调用10名“自愿人士”转入华南区,Tim与IBM中国的缘分由此开始。“香港的同事有经验的就不会想来内地,香港那个时候还是经济很好的,国内那时候经济还不发达,有经验的不想来,所以只能是找到刚刚入行的人,没人去,我说我去好了,就是这样子。我觉得对我也是个机会,我在香港,是在很多人之后,每个人都比我有经验,因为我刚刚入行。跑到内地来,也许,我哪怕比你多一天,我都是多一天的经验。我学会一件事情的多面性,我觉得中国(市场)是个机会,然后就举手说我来内地工作。而这边后来的确给我很多的收获。” 从1984年到2008年,从实习生到副总裁,Tim为第一份工作整整服务了23年。这23年,Tim见证了中国IT行业从空白到飞跃发展的整个时代。2011年,Tim写了一本书,《IBM——蓝色基因 百年智慧》,他怀着对IBM这一百年品牌的敬意,回顾了中国第一代IT人的奋斗经历,还有对IBM能够成为百年老店核心能力的剖析。 之后的几年间,Tim陆续为SAP和Datacard两家公司服务,担任中国区总裁职务。30年的职业经理人生涯,从初级专员做到顶级经理人,别人看到的是功成名就,稳定持续的高收入,受人拥戴和尊重,还有令人渴望的权利,Tim却在这时说,“我不想在外企工作了。” 的确,近年来我们身边其实不乏这样的例子,从500强出身的经理人,投身初创企业,大家都说在中国的外企500强从2014年起就大势已去,这样的例子绝不罕见,罕见的是如Tim这般走到顶端后重新抉择的勇气。很多人在500强的内部竞争中其实难以脱颖而出,选择创业公司反而有更多职业上升的机会。试问一个做到总裁的人跑去做战略顾问算不算疯狂的决定?如果不是这个新公司充满了无限美好的可能性,也许实在无法找到更合理的理由。 秩序与自由 真实的、永恒的、最高级的快乐,只能从三样东西中取得:工作、自我克制和爱。 ——罗曼·罗兰 “我觉得在外企里头自由度还是不够大的,所以我不想在外企工作了。我做了30几年,决心不再继续在外企做管理,然后后来想想,如果什么都不做的话,现在还有一些‘残余’的价值——这些经验和方法也许就‘再不见天日’了。这些东西如果不去分享,我可以天天去钓鱼打球,但如果这个‘残余’价值可以用来帮助别人也许不是一个坏主意。那么怎么帮助,帮助谁呢?我想帮助国内的创业公司,它的可塑性、可能性高,这些年轻的团队和那些想要去做事情的人,我喜欢这样的氛围,我也愿意去帮助这些人,这些公司,就是这样一个梦想,也是我规划的最后10年的职业生涯。” 问Tim这么大的转变,是不是他在人生很多的大的抉择里面,都跟普通人不一样,所以他其实是一个特别有勇气的人?他说:“我觉得勇气说不上,如果有勇气就创业去了。我只是在某一个时间点上做我认为最好的一个选择。” 问他放弃创业念头是因为什么?很多像他这个年纪做IT创业的人,都已经名利双收,他却为何不为所动?当然,他说,其实现在的创业潮可以说是第二波,第一波是90年代初期,邓小平南巡的时候,很多人下海了,开始打破铁饭碗,那个时候下海,的确是好的创业时机,但是那个时候创业的环境,许多时候是关系和低劳动成本创业,那个不是我想做得事情。“那个时候做生意,要创业也可以,拉到关系,吃吃喝喝,这个不是我想做的事情,可能也是被IBM教育出来的,个人价值的选择。”就像现在选择服务的公司,Tim说,“I am only interested in companies who are genuinely believe in the long term potential of the China market.”(我只对那些愿意在中国市场做长远发展的企业感兴趣。) 再出发,拥抱变化 每一次都是新的开始,每一次要这么做的时候,他决不会去思考过去的丰功伟绩。 ——海明威 “我刚加入了一家国内的 大数据 分析平台服务商,新的身份是永洪科技的首席战略官。”Tim说道。被问及一个有着IT行业30年从业经验的顶级经理人为何会选择一家年轻的 大数据 公司,Tim说,“首先当然是看好这个行业与公司的前景。永洪是一个中国本地的公司,我觉得现在整个IT行业的发展,本地的公司已经到了有机会去走上主流的阶段。一是因为现在大环境是希望扶持本土的企业创新;第二,我觉得中国现在也有很多技术人才出现,所以有大环境、好土壤加上有好的种子,就可以发芽出来。另外,中国企业在近20多年的企业IT信息化的进程中,已经积累了大量的数据;而近年来中国的经济的发展放缓,国内同业竞争的加剧,也要求这些企业从粗放经营转向精细化经营。这时候,企业管理人员要对其企业、客户、市场、运营、财务状况等有更深入的了解,而最能够‘帮助’他们的,就是这大量的数据,并且从中发现价值,更好的指导经营决策。随着时间的发展, 数据分析 将成为每个企业的基础需求和必须具备的企业能力,这将是一个非常大的市场。现在是国内大数据公司最好的发展时机,而我觉得有机会去帮助一家很有机会成就伟大的国内公司,对我自己而言也是很好的机会,当然没有人愿意去帮助一个没有机会成功的公司。” 至于如何判断一个成长型的公司是否有机会成功,Tim坦言这其实与任何伟大的公司都有着一样的共性:比如正直的价值观、凝聚人才的企业文化、引领市场的思想领导力、持续的创新力和随需应变的能力等。“而最核心的价值观,是这家公司能够真正为客户带来价值,这是市场的真理。” Tim谈及他与永洪科技创始人的初次会面,当Henry告诉他永洪提倡的价值观“用卓越的数据技术为客户创造价值,实现客户成功”时,Tim形容当时的感受是:“就像年轻的我初初融入IBM的那种工作热忱被重新点燃,我想这会是我当下最好的选择。” 问Tim在加入永洪科技之后的感受如何,有没有失望与落差?Tim说,“首先永洪是一家视长远发展更重于短期利益的公司,这就足以跟大多数的初创企业区别开。举例来说,永洪给潜在客户做产品培训会严格限制参加人数,因为CEO会跟市场部门强调客户体验大于一切。还有某天开会时,我看见CEO Henry眼睛里布满血丝,因为前一晚他跟研发部的同事一起在客户的公司彻夜工作,即便是问题并不在于永洪的软件出了错(是客户自身的硬件配置问题)。从CEO开始到下面的每一位员工,每一位永洪人都相信:客户至上——只有出自内心,才能深入内心。这与当年的IBM其实有几分相似,言行一致绝不止于一句公司的Slogan,这些日常工作的细节是企业价值观最重要的印证。其次,作为一家初创企业,永洪是一家有系统管理体系的公司,这对于初创企业尤为难得,并且对于一个想把企业做大做强的人来说,这种‘投资’是十分重要的。最后,也可能是最重要的,是永洪在大数据分析这一科技领域的创新能力——短短数年中,它获得的各项技术专利成绩有目共睹。 作为一个本土的企业,永洪率先提出敏捷型和一站式的数据分析,把数据分析工作从IT和数据分析部门解放到各个业务部门的人员手里,这将很大程度把大数据分析这门学问送进‘寻常百姓家’。”“在过去的二十年,中国的企业自己不相信自己国内的软件产品,太多的盗版和抄袭让中国软件业承受了大量非议;而现在,加入一家完全自主研发,自主知识产权的科技企业,我了解到在短短三年时间,包括移动、联通、电信、富国基金、中信银行、美的、乐视、华为等巨头都选择了永洪科技作为数据技术提供商,我很欣慰地看到像永洪这样年轻的IP正在市场上取得越来越多的肯定和成绩。” Tim与永洪的年轻人合影 新事业的天花板 大数据就是21世纪的石油,但数据本身是不会说话的。如果你不知道如何使用数据的话,它就毫无价值可言。 ——Garner高级副总裁兼全球研究主管 彼得·森德高 问Tim如永洪这样的国内软件公司的天花板在哪里?放眼全球软件行业,如SAP这样的传统IT企业固然已成一方巨头,新兴的软件公司中也不乏如Salesforce这样的市值600亿的独角兽不断涌现。可中国市场大为不同,我们看到国内软件业的老大用友用了28年才将市值发展到46亿美金。更多雄心勃勃的软件创业者们在经历了10多年的创业之后,却发现还是突破不了1亿元销售额这个瓶颈。 “区别在于欧美、日本市场与中国的本地市场对软件IP的价值认同的差异。我们现在看到的同样的软件在美国售价是中国的好几倍,为什么?很多企业说是因为付不起,但问题是,是真的付不起吗?中国已经有不少全球五百强的公司,那些公司为什么付不起?如果他们付不起,美国那些公司没有中国公司那么大,都付的起啊?所以这是个概念问题,对于价值的一个认识问题。这个(改变)我觉得是要一点时间的,随着时间的推移,越多优秀的本地软件公司的崛起,会让中国政府更重视IP,对IP的保护会更好,越来越多的企业(无论是软件使用方还是提供方)重视IP,IP才会更有价值。另外,让企业的每个员工更普及的去使用软件去提高生产力和效率,培养良好的使用习惯,会使软件的市场潜力更大。在这方面,中国还有很大的普及空间。同理,随着更多的人才去从事数据分析或者业务信息的分析,当数据价值随着操作人员专业度的提升以及软件易用性的提高而被更广泛普及的利用,客户对于软件的价值认同会相应提高,客户会愿意付更高的价格去购买软件。市场规模的增长已经显露出明显的趋势,这个变化会比想象中更快,我从不担心我们选择的这个行业会很快遇到所谓行业天花板。” Tim又补充说“也需要优秀的软件才行,软件的开发是一种科学,需要好的质量和科学规范。”问及在永洪的研发团队是否有他提及的科学规范,Tim说:“我有问过公司一位初级的研发人员,问他是怎么写代码的,他告诉我他是严格按照公司规定Code Style(编程风格)规范来写。对于Code Style,我觉得最好的效果就是,任何一段代码你都看不出来是谁写的,大家都是一样的风格,不会增加别人阅读代码的难度。这是一种严格的工作要求,也是一种严肃的科学规范。” 愿景&承担 我们与世界相遇,我们与世界相蚀,我们必不辱使命,得以与众生相遇。 ——苏格拉底 当Tim主动说起永洪的CSR(社会责任)规划(Corporate-Social-Responsibility,简称CSR)时,多少让人讶异。这种企业行为放在国际大公司似乎不算什么。哪个国际上市公司的网站上还没有一块属于CSR的内容?媒体人笑谈这是跨国企业取悦本地政府的小把戏,而鲜有国内的初创公司会在这个阶段肯用心用力甚至连篇公关稿都不发的。问他CSR这种在IBM与SAP的大企业行为会不会根本不适合现在公司的发展阶段,言之过早?他却诚恳的告诉我说,在他加入之前,永洪已经在做这样的实践了。“要让更多的人懂得去使用数据,利用数据。当然,我希望国家以后的教育体制可以培养出更多专业的数据分析人才,同时又能普及数据分析作为一门通用的能力,这样才能带动整个行业的可持续发展。但是企业也应当付出他们的一份力量。在这方面,我觉得永洪比起许多本土软件企业已经做得很不错了。 永洪每年投入大量资金和资源做非盈利性质的大数据分析沙龙和培训,教的是数据分析的基本,让更多的人懂得怎么去用数据,才会让这个行业有更好的未来。” 记者手记: Tim说,别人都认为一个已经实现财富自由的人没必要再去放下身段和绕路而行,而他却觉得职业生涯更像一场马拉松比赛,之前的他有幸在领跑群中,而现在的他在为一个完美的收官做最后的冲刺。 与Tim的会面在愉快的交谈中结束。我们相约下一次见面一定要替我引荐永洪科技那位低调神秘的创始人Henry。“放开那些对科技创业公司创始人的刻板印象,他一定会让你印象深刻的。”Tim笃定的说。 再次借用好奇心日报引用的芭芭拉·布拉德利·哈格蒂的原话,她在《重新设想生活》(Life Reimagined) 中这样写道:“人在四五十岁时,可能会出现短暂的停滞,或是转变,但这种转变可以是振奋人心的,而不是骇人听闻的。” 祝福Tim,也祝贺永洪科技又得一员实力与经验兼具的顶级管理人才。 来自:永洪科技 链接:http://www.yonghongtech.com/html/news/company/2016/0613/549.html 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2016-06-14 14:31:00
“信仰是不是淡化了,思想是不是放松了,情趣是不是低级了,工作是不是松懈了,都能通过大数据找到蛛丝马迹。”2019年5月27日,刚回到北京的中国科学院计算技术研究所方金云博士,这样介绍他研发的系统。 过去五年,方金云一直低调地致力于一件事——与地方纪委合作打造大数据反腐系统,从碎片化的电子政务大数据中发现疑似腐败问题线索。 2019年5月初,随着一则“大数据反腐系统在偏远地区因运行效率太高被关闭”的消息在网上流传,方金云无法再低调,他斥消息为不实报道。为了回应与澄清,当时正在沈阳出差的方金云还发了条朋友圈:“大数据监督平台已经成为不能腐的利器,沈阳纪委监委走在前面……” 这一面向纪检监察系统的试验始于湖南省麻阳县,目前已在全国三十多个县(区、市)应用,方金云相信,这个数字还会增长:“最近想做的单位特别多,很多地方纪委给我们打电话。” 1. 缘起 村干部腐败惊动中纪委 麻阳苗族自治县位于湖南怀化市西北部,是省级深度贫困县。一次偶然的机会,让这个有着40万人口的小县成了大数据反腐的源头。 湖南怀化麻阳苗族自治县谭家寨乡楠木桥村便民服务站,摆放着一台“互联网+监督”终端机器。 湖南怀化麻阳苗族自治县谭家寨乡楠木桥村便民服务站,摆放着一台“互联网+监督”终端机器。 2015年6月,麻阳县一名村干部的腐败问题经群众举报后惊动了中纪委。在中纪委直接督办下,湖南省、怀化市、麻阳县三级纪委成立了专案组,对谷达坡乡白羊村村委会主任段国文展开调查,发现在担任村委会主任职务期间,段国文伙同村支书侵吞扶贫资金,向危房改造户索取所谓押金。该案最终导致25名涉案责任人被处分,包括7名科级干部。 “这件事情出来后,大家都感觉脸上无光。”麻阳县纪委书记易勇曾向媒体表示,当时怀化市领导要求麻阳县想办法,把麻阳的纪检工作搞上去。 2019年5月12日,怀化市纪检系统副处级干部李明(化名)向南方周末记者回忆,因为查办段国文案的过程非常曲折,怀化市、麻阳县纪委的干部们开始讨论,能不能建立一个数据库,录入包括村干部在内的国家公职人员信息,“一旦这些人享受了什么(不应享受的)东西,比如扶贫资金,后台就能直接体现,相当于亮红灯报警”。 在技术公司的协助下,麻阳县纪委打造了“互联网+监督”大数据平台,2016年1月起正式运营,主要目的是监督民生资金去向,防治基层“雁过拔毛”式腐败,李明深度参与了相关的论证工作。 根据公开资料,麻阳县监督平台的核心部分由两个数据库组成,一个是人员信息库,内有八万多条数据,包括公职人员及亲属关系、买房购车人员、门面业主等,另一个是民生资金信息库,麻阳有107项民生资金(如民政局发放的低保、住建局发放的农村危房改造补贴),每一笔的发放时间、金额、对象都被记录在信息库里。 两个数据库碰撞对比,就能发现许多疑点:有的人有房有车却还在享受廉租房补贴,有的人既拿国家工资,又领取贫困人员才能享受的危房改造补助……发现这些疑点后,平台会自动报警,成为纪委追查的线索。 中科院计算所曾一度参与麻阳县的系统设计,后来负责该系统在怀化市的推广。“运用的是数据互斥规则。”方金云解释,民生资金政策规定了很多限制条件,而违规发放则意味着有限制条件被突破,“就像开宝马车的人不能领城市低保,购车和城市低保是互斥关系,两个名单的交集应为空,如果实际非空,非空集合就是涉嫌违规领取低保的疑似问题线索。” 方金云本人多年从事海量空间信息处理技术研究。 尝试与地方纪委合作后,方金云发现,和自己过去的研究相比,大数据反腐“用于数据处理的技术都是一样的,但在算法和解决问题的模型上有实质性的不同”。他开始将越来越多的精力投入其中。 “我们切入纪委,是因为纪委有比较强的获取数据的能力。”方金云说,十八大后反腐工作日益深入,开始有地方纪委人士苦恼于人手不足、查办案件手段有限,于是向中科院计算所寻求技术支持,其中就包括管辖麻阳的怀化。 2. 推广 主动交代处理从轻 “我们多年想办的事,麻阳办成了,此经验值得推广。麻阳能办成,其他县也能办,关键是领导要有这个意识。”2016年,湖南省委书记杜家毫对麻阳的探索作出了批示,之后湖南在全省推广大数据反腐。 许多地方纪委开始到怀化市和麻阳县学习经验,他们都关心一个问题——大数据一下发现了许多腐败问题线索,纪委如何处理? “(麻阳)平台刚建立起来,初步运行时发现疑似问题线索上万条,带来的影响是巨大的。”李明向来取经的同行介绍,当时麻阳县发了一个通知,针对大数据反腐发现的疑似问题线索,如果相关人员主动向组织交代情况,可以从轻处理,“因为涉及面太广”。 对于一些历史遗留问题,比如哪家曾经多领了几千块公益建设补贴,只要交代清楚并退还钱款,就原则上不作违纪处理。一万多条疑似问题线索,最后以违规违法处分的,只有一千来条。 “我们的初衷不是查以前的旧账,而是给领导干部提个醒,上一个‘紧箍’。”李明表示,大数据反腐真正的目的在于预防腐败,“以前你利用政策打擦边球,现在你知道,我们有办法把网织得很密,用科技手段让你不敢腐”。 运行一段时间后,通过麻阳大数据反腐平台发现的问题数量已大幅下降。“公职人员心里有数了,不该享受的东西就不能争。”李明举例,他父母退休后在农村生活,前段时间村里河道涨水,父母主动提出不领水灾补贴,“他们知道,只要领了补贴,就能查到儿子的名字,儿子是在职的公职人员,那就可能有麻烦。” 为了打造大数据反腐平台,麻阳县前前后后已花了近300万元。县纪委觉得这笔钱花得值,相关人员2018年1月接受媒体采访时表示,平台已为麻阳县挽回损失高达5000万元。 2016年12月到麻阳县取经后,湖南常德市澧县也打造了一个大数据反腐平台,名为“澧州智慧监督云”。澧县纪监委委员刘长春告诉南方周末记者,澧县的平台建设费用不足100万,“目前可以说是县级平台中花费最少的,但还在继续进行后续研发”。 刘长春介绍,平台对全县四万多名党员和近1万名监察对象的基础信息进行了全方位收集,解决了日常监督像“大海捞针、盲人摸象”的尴尬局面,自2017年运行至今,平台通过数据碰撞对比,发现各类疑似问题线索9100条,涉及资金近2000万元,澧县纪委已责成相关单位清理核实各类违规问题3720条,立案查处334人,收缴违纪资金810万元,澄清不实线索932条。 “从程序设计和运算规则设置来看,只要相关录入数据真实、完整、及时,准确率是100%,不会出现误报的问题。”刘长春说,在处理数据的过程中,他们反倒发现一些部门存在行政审批程序倒置、信息登记管理不规范、村(居)集体组织上报数据不及时(如去世人员信息)、闭门造车数据不真实等问题,于是专门开发了数据校验功能,对数据的及时性、真实性和完整性进行分析预警。 3. 阻力 难在打破数据壁垒 推广大数据反腐的过程中,公职人员最担心会泄露个人信息。 “当时要我们填很多信息,包括父母的、兄弟姐妹的,大家有些疑虑。”怀化市靖州苗族侗族自治县一位处级干部告诉南方周末记者,县领导那时不断做工作,保证数据采集后是在一个封闭系统内运行,不对外公开,公务员们才安下心来。 2016年任湖南某县纪委书记的吴冬(化名)接到任务后,带头登记个人信息,“如果领导干部都不带头,其他人更担心”。 吴冬告诉南方周末记者,他当时提出,要对负责信息采集和管理的工作人员进行保密教育,“把这个放在第一步,谁泄露谁负责,他们都签了保密责任书”。 比起采集公职人员个人信息,更难的是要求不同政府部门共享数据,第一个吃螃蟹的麻阳县就遇到过数据壁垒。 “车管是一套系统,保密、不联外网,税务又是一套系统,工商、房产都是单独一套系统。”李明表示,对于大数据反腐,公务员的工作好做,老百姓也欢迎,最难的其实是说服政府部门开放数据。 “他们说,数据本来是在内网封闭存储的,现在如果给你们(纪委),以后泄露算谁的呢?”李明说,不愿开放数据的政府部门一方面害怕追责,另一方面也有特权思想,觉得交出数据就是交出权力。 麻阳县纪委只好把各部门召集在一起开会,统一思想,说搞大数据反腐“让百姓明白,让干部清白”,对维护基层公职人员的形象有好处,而且纪委只是使用信息,并不负责信息登记和审批,没有影响职能部门的任何权力。 得到麻阳县委明确支持后,纪委“先礼后兵”,对经多次督促仍不愿开放数据的部门提出“不换思想就换人”。 “大数据反腐,需要各个部门基础数据库的支撑与配合。”刘长春称,据统计,全国各级政府部门掌握着三千多个数据库、80%的社会信息数据,但是相互连通的数据库不到30%,“一部分职能部门打着‘保密’的幌子推脱,实质上是不愿‘晒’自身存在的突出问题”。 “杜家毫书记批示以后,(大数据反腐)推行起来就更有依据了,基本打破了数据壁垒。”李明称,目前怀化13个区县已全部建立大数据反腐平台,数据全部导入市一级“互联网+监督” 云计算 中心。 4. 升级 瞄向“唐僧肉” 不仅是湖南,贵州、江西等省份一些县(区、市)也进行了大数据反腐的探索,焦点集中在民生资金领域。 2017年12月,沈阳纪监委找到方金云的团队,提出一个特别的需求:除了民生资金,他们还希望围绕政府投资项目进行大数据监督,焦点在招投标和政府采购。 这与方金云的想法不谋而合。方金云做过一个分析,国库资金扣除“三公”消费、工资福利支出等项目后,剩余部分约10%作为民生资金拨付给老百姓,约90%是用于工程建设。“(政府投资项目)这一块才是大头,腐败高发,很多人想吃‘唐僧肉’。” 之前在为湖南宁乡打造大数据反腐平台时,方金云的团队也设计了围绕政府投资项目的监督系统。方金云原本对招投标一窍不通,也就无法有针对性地设计算法。于是,研究团队和负责招标的基层公务员开会,请教建筑公司的老板们,终于获知其中窍门。 例如,可以通过大 数据分析 寻找多次一起出现,甚至局域网地址都一致的招标单位和投标人,因为如果几家公司总是一起竞标,且总是其中一家中标,就有围标的可能。 但因为相关招投标数据归属于长沙市,其下辖的宁乡市纪委无法获取,所以这套系统在宁乡仅发挥了部分功能,缺失了招投标模块。 与沈阳市纪监委合作后,系统的政府投资项目监督功能得以补齐。“2016年以后的招投标数据我们全要过滤一遍。”方金云对南方周末记者表示。 在沈阳市纪监委的安排下,方金云团队的技术人员还与七八名被留置的官员做了访谈。据《新京报》报道,沈阳市纪监委的一名领导称之为“捉贼要向贼学习”。 一名被留置官员事无巨细地总结了招投标过程中的猫腻,包括监理公司替投标公司制作标书、评标专家分数作假等。技术人员将这些问题融入大数据反腐系统,通过对数百家公司、上万个标段的分析,找到了52家公司、69个标段的问题。 2018年末,沈阳市纪监委与中科院计算所联合建设的大数据监督技术实验室建成。2019年初,沈阳市纪监委开始向各政府部门讲解大数据反腐监督项目,截至目前听众超过3300人,其中不少是处级以上官员。 5. 未来 能否大面积推广? 2019年1月,“电子政务大数据关键技术及纪检监察应用”由中科院提名,申报国家科学技术进步二等奖,项目首席科学家正是方金云。 公示材料显示,该项目已在纪委反腐工作中全面应用三年以上,支撑了包括怀化、宁乡、沈阳、修水在内的30个不同类型县(区、市)的纪委业务系统信息化,实现了对所有国库支付资金、民生资金、扶贫资金、政府投资项目、小金库、加油卡等涉及民生领域的全覆盖,共发现问题线索三十一万余条,涉及金额八亿多,涉及人员五千多人,发现政策漏洞311处,制定政策文件298件。 方金云说,这些年他一直战战兢兢,“我们一直是在探索,没有谁说它百分百是对的,也没有谁说它百分百错”。 但方金云坚信自己走在正确的方向上。“数据就是权力的载体,各个部门的数据实际上就记录着它们权力运行的轨迹,(大数据反腐的)理论基础就在这儿。”方金云对南方周末记者说。 “在当今信息量‘爆棚’的时代,庞大的数据信息靠人工分析是不科学的,也是不现实的。”刘长春相信,大数据反腐目前只能算是摸着石头过河,刚刚起步,但在未来会成为一种趋势。 也有地方纪委人士担心,大数据反腐技术若要在全国大面积推广,将会遭遇强烈反弹,“毕竟触动了很多人的利益”。 方金云安慰他们,“对于过去一些腐败‘存量’,干部们提心吊胆,担心受到牵连,大数据扫过一遍以后,有问题的主动交代,从宽处理,干部们普遍感觉轻松了。”在方金云看来,大数据不仅监督干部,同时也保护干部。
来源:大数据中国
发布时间:2019-07-07 22:43:00
日前,以“智联万物”为主题的MWC19落下帷幕,5G在颁布牌照后,作为新一代信息技术它与产业的融合发展成为新的焦点,社会更加关注5G的应用进程和丰富的创新成果,包括5G移动通信在物联网、大数据、8K、“互联网+”、智能制造、无人驾驶等领域的融合应用方案等,引发广泛关注。 5G时代的大数据发展 5G是新一代信息通信基础设施的核心,比之4G拥有更高的速率、更大的容量和更低的时延,基于5G网络推进的生产基础设施和社会基础设施的数字化改造,正在使大数据、 云计算 、物联网等技术与应用从概念走向实际,从抽象走向具体。目前,已有越来越多的人认识到大数据对于当今社会发展的重要性。 一方面,全球范围内的互联网巨头纷纷建立自己的数据中心,对于数据的重视达到了前所未有的高度,另一方面,传统企业发展不断通过数字化手段谋求转型,产业互联网等概念正在被越来越多的传统企业接受,大数据应用已从互联网企业铺开影响着越来越多的传统行业。大数据在传统行业的应用过程中,产生了规模庞大的数据,也对数据时效性与传输速率提出了更高要求,5G的实现恰能弥补4G移动通信的不足,满足了大数据产业对于海量数据传输、存储、处理的需求。 全新的5G时代对大数据将产生深远影响。 首先是数据规模的急剧增长。5G使得单位面积的联网设备数量可以达到4G的100倍,海量物联网的感知层将产生海量的数据,同时,5G通过提升连接速率、降低时延,使数据采集会更加快捷方便,这些将极大驱动数据量的增长。据IDC研究报告表明,2020年全球新建和复制的信息量将超过 40ZB。 其次是数据维度的进一步丰富。从连接的类型看,目前的数据维度多为人和人的关联,5G带来物联网的发展,使得人和物、物和物之间的连接产生的数据类型进一步丰富,数据采集增加,如:联网汽车、可穿戴设备、无人机、机器人等。从连接的内容看,5G催生的车联网、智能制造、智慧能源、无线医疗、无线家庭娱乐、无人机等新型应用将创造新的丰富的数据维度,AR、VR、视频等非结构化数据的比例也将进一步提升。 第三是大数据处理平台性能的提升。随着数据体量、种类和形式的爆发增长,单一的大数据平台难以有效应对复杂、多样、海量的数据采集、处理的任务,海量、低时延、非结构化的数据特点将进一步促进数据处理和分析技术的进步。不论是混搭式的大数据处理平台,还是推动流式处理技术,都是为了进一步提高平台的数据处理能力。 第四是边缘计算的兴起。IDC报告数据显示,5G时代下将有45%的物联网数据将通过边缘计算进行存储、处理和分析,以此优化数据中心的工作流程。尽管边缘计算可以减缓部分负载压力,但物联网设备的不断增加的数据流入依然要求数据中心增加安全性和稳健性,完成数据中心的重塑。 最后是AI的赋能,AI离不开大数据,只有在数据足够多时才能训练出足够聪明的AI。自动驾驶公司通过购买、采集各种驾驶的、道路的、天气的、行人行为的数据,强化AI的处理能力,从而让自动驾驶成为可行。而要对大数据进行处理,则需要云服务,只有数据足够多、云服务器处理能力足够强,才能训练出足够好的AI。5G的作用不仅是让汽车获取自动驾驶的判断,还有将各种传感器、手机上收集的数据,快速发送到服务器,让服务器做更快速的判断。 大数据在应用场景的应用 借助于5G的高带宽、低时延和AI能力,大数据所承载的业务形式更加复杂多样,其商业价值将得到更多挖掘。在5G时代的应用场景中,每项垂直行业应用都与大数据有千丝万缕的关系,包括:AR/VR的实时计算机图像渲染和建模、车联网的远程驾驶、编队行驶和自动驾驶、智能控制的无线机器人云端控制、智慧能源的馈线自动化、无线医疗的远程诊断、无线家庭娱乐的超高清8K视频和云游戏、联网无人机的专业巡检和安防、社交网络的超高清/全景直播、个人AI辅助的智能头盔、智慧城市的AI视频监控等。 在刚落幕的MWC19上海世界移动大会期间,各参展商展出了5G战略涉及的各个领域,包括移动通信在物联网、大数据、8K、“互联网+”、智能制造、无人驾驶等领域的融合应用方案等,吸引了广泛关注。 l 华为:端到端5G系列产品和解决方案,以及如何从5G覆盖、建站、运营与业务发展上解决运营商实际问题;l 联想:全新的5G云集站、边缘云、5G PC以及5G手机等重点技术与产品,全新的5G时代用户终端:联想Z6 Pro 5G探索版;l vivo:发布旗下第一款商用5G手机:iQOO 5G,支持5G高速网络,实现云游戏、5G无线投屏和5G互传等多样的智慧生活场景;l 中国移动:将全面实施“5G+”计划,带来了国内首个8K超高清沉浸式影院;l OPPO:展示了一项“无网络通信技术”,实现3000米内的文字、语音传输、语音通话;…… 随着5G场景的丰富,对大数据对于场景的分析能力也提出了更高的要求。 如:准确定位对时延要求很高的游戏玩家对于营销就很重要,网络资费要素越多,意味着供给端的网络产品越多,大数据能发挥的空间就越大。简而言之,5G将带来的大数据的爆发性增长和行业应用的繁荣,不仅是大数据应用场景的爆发,也是大数据商业价值的进一步提升。 以广告行业数字营销为例,随着5G新商业应用升级,用户的媒体资源(高清视频、VR/AR等)将愈加丰富,依托于大数据的分析与应用能力,将能够具备面向行业开展广告业务的技术基础,比如在VoLTE通话中存在视频广告的可行等。随着5G基础大数据研究的加快,利用5G大数据加强客户的深度洞察(如:对视频等非结构数据的挖掘分析),最终赋能不同垂直领域的行业数据中台,更高的提升运营效能。 越走越近的5G时代新的连接时代,它和AI、大数据、云、IPv6、传感器等结合在一起,造就了下一个人与人、人与物、物与物更快速、更直接、更稳定、更立体的连接时代。在这个新的连接时代,物理世界被更多地数字化、AI的长足进步、产业与互联网能力的深度融合等都为大数据的发展与应用提供了重要条件。
来源:大数据中国
发布时间:2019-07-07 22:42:00
1月5日下午,济南市政府 数据开放平台 正式运行。作为全国首个以两办文件推进政府数据开放的城市,济南市政府数据开放平台首次开放就公开了53个部门的1010个 数据集 ,成为全国一次性开放单位最多、数据集最大的城市。 开放53个部门1010个数据集 作为学生家长,你想为孩子们选择政府批准的小饭桌吗?作为上班一族,你想找到合格的早餐便利店吗?作为购房者,你想得到使用公积金贷款的楼盘信息吗?作为企业经营者,你想了解合作伙伴的经营状态吗?作为一个创业者,你想免费获得唯一权威的政府数据吗……过去这些难寻的政府权威数据,1月5日起已经全面向社会开放。任何单位和个人均可在济南市政府数据开放平台www.jndata.gov.cn获取自己所需要的各类数据。 记者登录该平台发现,济南市政府数据开放平台首页即显示,共开放了53个部门、1010个数据集,这些数据都可以在“数据目录”一栏中查找到,“数据目录是主要面向市民的内容,API目录针对的主要是第三方开发者,与市民关系不大。”负责该平台开发的技术人员称。 这些公开的数据可按主题与相关部门分类。主题包括经济管理、商业贸易、财政、卫生健康等20个,点开每个主题后会有相应的数据名单,市民可以在注册登录后,点击“文件下载”下载不同格式的数据文件。也可直接点击53个政府部门的名称来查找所属该部门的数据名录。 “覆盖了绝大部分市直部门。”济南市经信委工作人员称。济南政府数据开放平台包括了各个政府部门、公用事业单位的权威数据,涵盖了政务、经济、政法、财政、健康、交通、环保、民政、文化、体育、教育、农业、水利、扶贫、旅游、社保、宗教、外事、测绘等全社会的方方面面。这些部门中目前公开数据集最多的是济南市经信委,共76个,其次是农业局和卫计委。按主题来分,公开数据超过百个的领域有综合政务、经济管理、城乡建设和环境保护、农业和水利方面。 小饭桌数据最热门,在册名单一目了然 在济南市政府数据开放平台上,最受市民关注的热门数据前五名分别是校外托管场所登记信息(小饭桌)、公积金缴存、提取业务经办网点、成品油零售经营信息、放心早餐地图和个体工商户企业设立登记信息,这些数据都与市民生活息息相关。其中小饭桌数据的下载量截止到5日下午5时已达1094次,超过公积金缴存、提取业务经办网点的一倍。 这份最热门的名录中罗列了417家济南市各区的托管中心、小饭桌,包括名称、登记号、地址、联系人、联系电话、所在辖区和星级等各项信息。“孩子开学时家长肯定会对比哪个小饭桌好和坏,而我们的数据平台上登记的都是在食药部门注册的小饭桌,是权威的内容,家长可以方便地从中选择适合自己的小饭桌,这从侧面也能鼓励其他小饭桌去相关部门登记注册,从而更有效率地提升政府治理水平。”济南市经信委工作人员称。 单位最多数据集最大,济南全国是首个 记者从济南市经信委了解到,济南市委、市政府高度重视政府数据开放工作,山东省委副书记、济南市委书记王文涛要求,开放为常态,不开放为例外,并以市委办公厅、市政府办公厅的名义印发了《关于推进公共信息资源向社会开放的通知》(济厅字〔2016〕42号),成为全国首个以两办文件推进政府数据开放的城市。 济南市政府数据开放平台首次开放,即成为全国一次性开放单位最多、数据集最大的城市。济南市经信委的工作人员介绍,济南市政府数据开放平台从2017年初开始建设,2017年7月开始试运行,“试运行期间我们分了两批开放数据,第一批包括20个政府部门、325项数据集,涉及到12345市民热线、不动产登记、健康医疗等领域,到第二批,我们向各个政府部门公布了《济南市2017年度公共信息资源开放清单(二期)》,督促大家将未开放的部门和数据陆续开放,进展十分顺利,结果超过原定计划的3倍以上。” 向第三方开发者开放,便民应用已达20多个 作为济南市政治经济社会活动中唯一权威的政府数据,济南市政府数据开放平台的数据向社会免费公开使用,但也可以进行二次加工,开展 大数据 领域的创新创业活动,“平台上的数据不仅是为方便市民生活,也可以应用到社会上。”济南市经信委工作人员说,数据即资源,从这些政府公开的数据中也可以分析出一些规律性的东西,比如做大 数据分析 的人员可以用这些数据做出模型,从而产生不一样的价值。 目前政府数据开放平台在国内的贵阳、广州、上海等地都已建立,“我们在做这个平台时也学习了他们的经验,全国做政府数据开放平台的模式大致相同,基本上其他平台有的东西我们都具备,与其他省市的平台相比,正式上线数据集就过千的,全国范围内济南是首家。另外面向第三方开发者的API目录也是济南政府数据开放平台的一个亮点,比如爱城市网等手机app应用厂商也需要政府数据,我们就为他们做了接口。”济南市政府数据开放平台的技术人员称,目前已有20多家机关、企事业单位及个人利用该数据开发了一批方便市民的信息化应用项目,如爱城市网、公积金、公交369等。 济南市经信委表示,作为济南新型智慧城市建设的重要内容,济南市政府数据开放平台还将进一步加 大数据开放 力度, 功能方面也会进一步优化,未来还会组织开展大数据创新创业大赛,向社会各界推广使用该平台的数据,挖掘数据价值,让数据资源成为济南发展的最新动能。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-01-06 20:18:00
近日,美少女偶像组合SNH48通过微博宣布其已和美国著名个性化 人工智能 公司ObEN签订协议,ObEN将使用 PAI 公链为超人气少女们打造专属的PAI应用,围绕SNH48少女偶像制作虚拟 人工智能 形象。 她们的虚拟形象都将运行在PAI区块链上,使用区块链技术来验证,使每个人的人工智能是归属她们自己的。粉丝可以使用PAI跟美少女偶像们的人工智能进行互动,跟她们跳舞唱歌吃饭,也将可以用PAI币购买演唱会门票,周边等产品。 虚拟世界里的人工智能偶像不仅完美还原少女们的真实形象,更能和粉丝们随时进行唱歌跳舞等精彩互动,跨越了时空的限制。这将是世界上第一次由偶像团体推出明星人工智能,这可以最大限度的发挥ObEN-PAI链在粉丝经济中的巨大的价值。 终于,山寨组合走在了十一区原创的前面。 本文为专栏文章,来自:数据猿,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49620.html 。
来源:数据分析网
发布时间:2017-12-27 10:03:00
7月1日,北京市自动驾驶测试管理联席小组发布了首批T4级别自动驾驶测试牌照,总计5张,百度全部收入囊中,成为中国第一家、也是唯一获得此级别牌照的企业。据了解,T4牌照是目前全国最高技术等级、最高标准、测试场景最难的开放道路测试资格认证。 百度获得5张北京首批T4测试牌照 T4是迄今北京市颁发的最高级别自动驾驶测试牌照,获得T4牌照意味着自动驾驶车辆具备了在复杂城市道路自动驾驶的能力,其复杂程度远超T3所需应对的道路。与T3相比,T4北京市自动驾驶高技术水平的体现,是北京市务实推进自动驾驶的核心举措,也是对行业安全性设置不同门槛的重要方式。 即便是同样的专项测试项目,T4比T3也增加了场景复杂度。T4还增加了面向运行测试的专项内容,为探索产业运行测试做准备。T4技术标准要求能够通过隧道、学校等区域,应对行人违章通行、施工路段绕行等复杂场景,车辆还要准确识别多种交通要素如潮汐车道、可变导向车道、路口左转待转、临时红绿灯等特殊交通标志、标线和信号灯,并可以正确实现无障碍通行。车辆还要具备超车能力,并具备坡路行驶,具备坡道停车和起步能力,误差要严格小于15cm。不仅如此,在停车入库和侧方停车等泊车能力也需进行考核,车辆需要应对车库内行人和障碍物识别等细节场景。 百度Apollo路测车队 T4牌照同样是最难获得的自动驾驶牌照,对技术要求非常高,获取牌照的考核流程也相当严苛,需经过多个环节的考核。 首先,自动驾驶车辆需在北京目前面积最大、测试级别最高、测试场景最丰富的国家智能汽车与智慧交通示范区(京冀)亦庄自动驾驶测试场进行不少于5000公里的测试,该测试场包括高速路、快速路、城市道路、乡村道路等多种场景,可以覆盖京翼地区85%以上的城市交通场景。 其次,车辆需要100%通过102项场景覆盖度测试,比T3级别测试增加了19项高难度的复杂场景测试。然后,车辆需通过T4级别能力评估测试,在随机选定的T4级别考试路线上,车辆必须一次性完成所有评估内容的测试,任意一项失败则为整体评估不通过。 之后,车辆的表现要通过专家组评审,对企业的技术水平、质量保证和测试体系、安全管理规范和执行、事故处置及应对等综合能力进行评估。最终,通过北京市自动驾驶测试管理联席工作小组联席会审议,T4级别自动驾驶牌照才得以发放。 目前北京市已成为全国自动驾驶道路测试里程、开放测试道路、覆盖场景综合能力最强的城市。 6月28日,北京市交通委、经信局、交管局发布的《北京市自动驾驶车辆测试道路管理办法(试行)》成为全国首个区域性测试道路管理办法。北京市正在通过一揽子创新举措,包括即将开放的亦庄全区域自动驾驶测试区、正在建设的100平方公里海淀区自动驾驶示范区和顺义100多公里测试示范区等,构建区域性、完整性的测试路网,为载人测试做好扎实准备,进一步推动全市自动驾驶发展迈向更深层次。北京市为自动驾驶和智慧交通行业快速发展打造的领先政策法规及基础设施创新环境,不仅强化了自动驾驶领域的创新创业,而且加速了技术迭代和产业升级的速度,成为国内外的领先标杆。 2018年北京市自动驾驶车辆道路测试b'g 值得一提的是,根据《2018年北京市自动驾驶车辆道路测试报告》数据显示,百度Apollo以路测车辆数最多、路测里程最多、场景覆盖最全等多维度全面领先,测试里程占总测试里程91%,是第二名的10倍以上。 自动驾驶的发展不能一蹴而就,百度是国内最早布局自动驾驶的企业,目前在全国范围内获得共计百余张自动驾驶测试牌照,是国内获得牌照最多的企业。而此次获得全国最高技术等级、最高标准、测试场景最难的T4牌照,不仅是百度 Apollo 领先的自动驾驶实力与技术水平的体现,更意味着百度已经具备规模化测试能力,为 Robotaxi 等需要城市复杂道路自动驾驶能力的项目落地做足了准备,让百度 Apollo 在自动驾驶领域继续保持第一身位。 在7月3日举办的第三届百度AI开发者大会上,百度将公布更多自动驾驶新进展。
来源:大数据中国
发布时间:2019-07-07 22:37:00
7月2日,由深圳市工业和信息化局指导,深圳市信息行业协会联合华为、联通、富士康、深信服、腾讯等单位共同发起的深圳工业互联网联盟正式成立。 记者从召开的深圳市工业互联网大会上获悉,该联盟是一家跨行业、开放性、非营利性的社会组织,旨在促进相关主体之间的交流和深度合作,联合开展工业互联网技术、标准和产业研究,共同探索深圳工业互联网的新模式和新机制,为打造深圳制造强市和网络强市提供创新动力。 中国信息通信研究院副院长余晓晖认为,通过新一代信息技术和工业互联网技术满足市场需求,是当下世界工业发展趋势。而通过硬件互联、软件共享和数据集成,达到市场互联、设备互联和资源互联,便可最终实现工业、科技、知识和人才的互联。 深圳市副市长王立新表示,工业互联网已上升为国家战略,深圳作为制造业大市和国家软件名城,工业互联网发展基础优势明显,发展潜力巨大。目前,深圳工业互联网发展已初见成效,2018年深圳市政府制定《深圳市工业互联网发展行动计划(2018-2020年)》和《深圳市关于加快工业互联网发展的若干措施》。工业互联网平台和解决方案商发展迅速,服务体系逐步完善,工业企业信息化建设不断加强,应用标杆不断显现。 以富士康为例,通过推进工业互联网应用实践,富士康生产效率提高了30%,库存周期降低15%,2019年被世界经济论坛评为制造业领域“灯塔工厂”。 下一步,深圳市将重点做好人才培养、平台培育、标杆推广、服务体系建设、财政扶持等工作,开创深圳工业互联网发展新局面。 当天,深圳市工信局授予了华为、富士康等11家企业为深圳市工业互联网应用标杆。 搜索 复制
来源:大数据中国
发布时间:2019-07-06 20:55:00
12月21日主论坛现场 2017年12月20日-22日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的第十二届中国IDC产业年度大典在北京国家会议中心盛大召开。来自IBM、华为、微软、腾讯云、万国数据、世纪互联、德利迅达、华云数据、中国移动、京东云、赞普科技、英特尔、中国电信、中国联通、电子城集团、西部数据、奥飞数据、创旗、浩云网络、有孚网络、卫达安全等数百家企业、千余人代表参与盛会,其中,近50家企业分获本次会议30余项大奖,并有百余家媒体到场支持。 12月21日,大会主论坛上,中国信息通信研究院党委书记、副院长李勇到场致开幕词,IBM、万国数据、微软、华云、华为、腾讯云、世纪互联、天津赞普、京东云、兴业数金等十余家企业高层就IDC产业发展现状与趋势展开深入讨论。 中国信息通信研究院党委书记、副院长 李勇 针对信息技术发展日新月异,高速移动互联网快速发展,全球数据爆发增长、海量集聚等IDC产业现状,李勇提出三点建议, 一是推动产业优化,促进数据中心协同发展;二是发挥关键基础设施作用,助力国家 大数据 战略加快建设数字中国;三是进一步促进市场开放机制,加快”标准”建设与落地。 IBM 大中华区云计算事业部CTO陈国豪 主题演讲环节,IBM 大中华区云计算事业部CTO陈国豪发表题为《重塑多云价值》的主题演讲,他表示,企业对于云计算的期望不只在于降低成本,提高效率,还要能够支持业务创新。针对客户体验和服务创新的业务需求,IBM通过多云整合各种业务数据,结合认知计算发掘数据价值,构建支持业务创新的云平台。目前IBM已打造出数字化转型CCTV、全台首位云端 AI 金融顾问玉山银行、智能酒庄E&J Winery 酒庄、全球远程医疗服务Doctome等标杆案例。 万国数据服务有限公司云服务事业部副总裁高勇 人工智能 、大数据等新应用场景的出现,使得数据中心发展呈现高密度计算、高密度网络连接、高密度数据交互等特点。在这种态势之下,万国数据服务有限公司云服务事业部副总裁高勇表示:“目前万国数据专注于在一线城市提供高可用数据中心逐步扩大至全国省会城市,未来覆盖更广泛的国内城市。到2018年底,将增至约30座;3年内,增至50座左右”。扩大基础设施覆盖面积,万国数据还推出包含云托付混合云产品的CloudMiX™创新数据解决方案、跨地域网络解决方案、软件定义网络数据中心集群,以带动传统企业机构技术架构的全面转型。 微软大中华区营运暨营销事业群总经理康容 2017年混合云成为继公有云、私有云之后又一云服务商必争之地,11月,微软宣布推出Azure Stack混合云解决方案,微软大中华区营运暨营销事业群总经理康容以《Microsoft Azure Stack 助您实现混合云战略》为题解读微软混合云战略。他指出,Azure Stack通过通用的身份认证、集成的管理与安全、一致的数据平台、统一的开发和DevOps推出了真正一致的混合云平台。Azure Stack的目标是,Azure 认证的应用程序和服务同样支持 Azure Stack,用户在 Azure 和 Azure Stack 上能够按需使用一致的工具和技术。他强调,Azure和Azure Stack有三大混合云使用场景:一是,边界和离线场景下的解决方案;二是,符合各项规定的云应用程序;三是,涵盖云端与本地的现代应用。 华云数据集团研发总监李德才 近年来,IDC行业正在面临发展过热、成本升高、转型迫切等问题,在这样的现状下,数据中心云化成为必然趋势。会上,华云数据集团研发总监李德才分享《云+时代给IDC行业所带来的变革与新机会》为题的演讲。他表示,顺应IDC模式的演进,托管云将是IDC企业切入云计算市场最佳模式。对此, 2017年11月,华云面向合作伙伴推出CloudIDC™云代理平台,该平台从上到下由云服务、微服务、控制台服务、使用者角色组成。李德才介绍,华云还为IDC转云客户搭建IDC云联盟,并推出多种IDC转云合作模式。 华为中国区网络能源总工张广河 在会议现场,华为中国区网络能源总工张广河做题为《数字新时代智能新DC——数据中心的智能化演进》的分享,他从智能数据中心面临的行业历史机遇以及华为智能数据中心创新实践两方面进行解读。“数据中心行业正在从架构到部件全面智能化,智能运维正在成为数据中心绿色高效、业务运行、安全可靠的核心”,张广河表示。一直以来,华为从“ipower、icooling、imanager“三方面实践数据中心的智能化。在ipower方面,已实现供电链路E2E主动预防式实时监测;在icooling方面,华为智能数据中心有较为成功的冷冻站精细化能效控制实践;在imanager方面,已实现业务驱动的流程自动化,即智能巡检。 科智咨询(IDC圈研究中心)高级分析师王若冰 “正如腾冲-黑河相连的胡焕庸线把中国国土划分成两个迥然不同的自然和人文地域一样,胡焕庸线同样也可以划分出冬冷西热的IDC分布格局” ,科智咨询(IDC圈研究中心)高级分析师王若冰以《从供到需——中国IDC产业的发展环境探讨》为题,详细介绍了中国IDC行业的供需现状。王若冰介绍,科智咨询分析数据显示,2019年中国IDC市场将达到近1900亿的市场规模,除既有业务量持续增长外,人工智能、虚拟现实、智慧城市、智能穿戴以及5G的商用,都将成为IDC市场爆发的新增量。目前,供应侧普遍布局胡焕庸线以东,西北西南地区的充足资源如要利用起来需具备三大驱动力:一是行业需求,二是网络建设,三是人才储备。加之政策利好、技术迭代,西北本南地区应能在未来提供更大更多的市场空间。 腾讯云华北区渠道总监高吉蒙 合作共赢是云服务商构建生态的重要一环,腾讯云华北区渠道总监高吉蒙就“IDC合作创新”问题,做题为《基于腾讯云的IDC合作创新》的演讲。他介绍,在IDC合作创新方面,腾讯云最新推出“腾讯云精品店”,精品店深度集成腾讯云资源+合作伙伴方案,是云市场的升级版。合作内容涉及安全类产品、存储类产品、网络类产品、计算类产品4大部分。据了解该产品的合作是腾讯云合作伙伴生态建设的重要部分,相关数据显示,腾讯云合作伙伴从腾讯云业务获得的整体收入相比2016年激增10.9倍、合作伙伴数量增长16.1倍。 世纪互联集团副总裁华北区总经理刘丰 世纪互联集团副总裁华北区总经理刘丰以《高能数据中心,创造客户价值》为题,分享了他对“高能数据中心”的一些观点和看法。刘丰指出,现阶段,集中式计算和分布式计算迭代演进,AI、AR、IOT对计算密度、网络延迟提出了更高要求,数据中心正在向高密高电发展,数据中心建设已进入高能时代。他表示,新时代下,世纪互联将从5方面发力,一是,夯实“大底盘”,强劲硬实力;二是,定制机房,支持头部客户业务;三是,跨界合作,未来运营机柜数量可达 10万;四是,技术领先,升级数据中心运维能力;五是,绿色节能,利用IOT和OI降低PUE。 天津赞普科技股份有限公司数据中心运营支持中心总经理郭效真 海量数据存储、资源按需供应以及成本控制等市场需求,使得云计算成为推动数据中心变革的必然之选。天津赞普科技股份有限公司数据中心运营支持中心总经理郭效真做题为《云计算驱动下数据中心的变革》的演讲,他表示,企业对数据的管理经历了自建数据中心—托管数据中心—混合云数据中心—云数据中心四个阶段,且目前正在经历第4个阶段。“数据中心的未来,云计算的特性决定将由第三方中立数据中心提供按需服务,带来前所未有的商业机会和商业模式的变革。”郭效真强调。在演讲的最后,其就天津赞普数据中心高可用、高灵活、高电力、多线BGP网络、企业级合规机房、一站式管理服务等优势进行了详细介绍。 京东云首席架构师李道兵 云是什么?《云就是新IDC》,这正是京东云首席架构师李道兵的演讲主题。他认为,云带来的第一波革命是利用率和采购效率的革命,这波革命以虚拟机和云存储技术为代表。云带来的第二波革命则是行业演进的革命,这伴随着专业中间件供应商的崛起,伴随着机器学习、大 数据分析 、容器技术等新技术的涌现。“当出现一个新技术时,云会成为一个天然的承载平台”,李道兵如是说,“在集成商时代,市场碎片化,集成成本高,集成商的技术演进缓慢、客户也难以得到物美价廉的产品,但我们看到在越来越多的行业,SaaS 逐步替代掉传统的定制化软件。” 云成为信息获取、存储、处理、传递的中心节点,是新时代企业的基石。 兴业数金总裁助理李山河 随着市场金融改革的不断深化和云计算技术的不断成熟与完善,云计算在金融行业正在发挥越来越重要的作用。作为主论坛嘉宾分享的压轴场,兴业数金总裁助理李山河带来《云化未来——金融行业云的实践》的演讲。李山河认为,市场需求的转变、技术的飞速发展以及监管要求的变革成为金融上云的三大力量。虽然金融业上云需求旺盛,但仍然面临资金投入不足、科技能力薄弱、风险管理能力薄弱、业务创新能力不足等问题,因此专业的金融行业云是中小银行上云理想选择。随即,李山河介绍了兴业数金在金融云基础设施层(IaaS)、平台层(SaaS)、应用层(SaaS)以及综合业务(XaaS)四大方面的金融云实践经验。目前,兴业数金已助力204家中小银行快速发展,正在从前端、中间层、后端三个方向构建金融行业云云端共赢生态。 会上,中国IDC产业年度大典特色活动之一“第二届攻城狮IDC运维知识大赛”举行颁奖典礼。通过海选、预赛、决赛三轮的选拔,经大赛裁判团最终裁决,第二届攻城狮IDC运维大赛易建科技队获得冠军,第二名团队是中移铁通队,第三名是中联利信队,第四名队伍是尚航科技队。 本次大会的成功举办也得到了众多合作伙伴的强力支持,他们分别是: 附(IDCC2017获奖企业及名单): 上午第一轮颁奖: 2017年度中国IDC产业最具影响力企业奖 万国数据服务有限公司 2017年度中国IDC产业最具影响力企业奖 北京德利迅达科技有限公司 2017年度中国IDC产业最具影响力企业奖 福建省数字福建云计算运营有限公司 2017年度中国IDC产业最具影响力企业奖 科华恒盛 云集团 2017年度中国IDC产业最具影响力企业奖 上海数据港股份有限公司 2017年度中国IDC产业最具影响力企业奖 上海有孚网络股份有限公司 2017年度中国IDC产业最具影响力企业奖 无锡华云数据技术服务有限公司 2017年度中国IDC产业优质服务奖 无锡华云数据技术服务有限公司 2017年度中国IDC产业优质服务奖 中企网络通信技术有限公司 2017年度中国IDC产业优秀第三方数据中心奖 万国数据服务有限公司 2017年度中国IDC产业优秀第三方数据中心奖 北京德利迅达科技有限公司 2017年度中国IDC产业优秀第三方数据中心奖 福建省数字福建云计算运营有限公司 2017年度中国IDC产业优秀云服务商 中企网络通信技术有限公司 2017年度数据中心最佳节能技术奖 华为技术有限公司 上午第二轮颁奖 2017年度中国IDC产业优质服务奖 北京互联通网络科技有限公司 2017年度中国IDC产业优质服务奖 杭州网银互联科技股份有限公司 2017年度中国IDC产业优质服务奖 广州尚航信息科技股份有限公司 2017年度中国IDC产业优质服务奖 名气通电讯有限公司 2017年度中国IDC产业优秀第三方数据中心奖 天津赞普科技股份有限公司 2017年度中国IDC产业优秀第三方数据中心奖 上海斐讯数据通信技术有限公司 2017年度中国IDC产业优秀云平台奖 微软(中国)有限公司 2017年度中国IDC产业优秀云平台奖 IBM (China) Limited 2017年度中国IDC产业优秀云平台奖 腾讯云计算(北京)有限责任公司 下午第一轮颁奖 2017云计算产业先锋奖—有孚云 上海有孚网络股份有限公司 2017最佳海外服务商 广东奥飞数据科技股份有限公司 2017优质服务基础运营商 中国联合网络通信有限公司广东省分公司 2017优质服务基础运营商 中国电信股份有限公司北京分公司 2017中国IDC领军企业奖 北京世纪互联宽带数据中心有限公司 2017优秀数据中心园区生态建设服务商 电子城(天津)投资开发有限公司 2017云化解决方案最佳合作伙伴 海南易建科技股份有限公司 2017海外IDC优秀服务商奖 IKGlobal 2017优秀企业服务伙伴 上海创旗天下科技股份有限公司 2017优秀数据中心综合服务商 杭州世导信息技术有限公司 2017最具投资价值合作伙伴 北京中嘉和信通信技术有限公司 2017最佳定制数据中心奖 秦淮数据有限公司 下午第二轮颁奖 2017中国IDC产业最具成长力企业 江苏恒云太信息科技有限公司 2017数据中心存储技术创新企业奖 西部数据公司 2017卓越运营数据中心基础运营商奖 中国移动通信集团内蒙古有限公司 2017云计算中心优秀运营服务单位奖 中国移动通信集团四川有限公司省重要客户中心 2017运营创新基础运营商 中国移动通信集团黑龙江有限公司 2017年一体化与模块化方案创新奖 中国工商银行股份有限公司 2017金融科技优秀数据中心奖 企商在线(北京)网络股份有限公司 2017中国IDC产业杰出贡献奖 秦淮数据有限公司 2017IDC产业创新数据中心奖 京东集团华东数据中心 2017最具影响力IDC新晋企业 广东浩云长盛网络股份有限公司 2017优秀混合云服务商 厦门靠谱云股份有限公司 据了解,第十二届中国IDC产业年度大典预计总参会人次8000+,主论坛、分论坛演讲主题结合当下云计算、大数据、人工智能热点,受到与会者的一致好评。从1到N,作为一年一度的产业盛会,IDCC2017以“IDC”行业为核心,助力行业实现向“N“发展的飞跃。 12月22日,将会有《数据中心技术创新论坛》、《金融科技高峰论坛暨〈管理体系在银行业数据中心的创新与实践〉首发仪式》、《IDC及云计算国际合作论坛》、《安全运维论坛》、《云计算市场监管政策及技术培训》四大分论坛进一步讨论IDC行业发展方向,精彩不断,不容错过! 本文由 IDCC 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/49623.html 。
来源:数据分析网
发布时间:2017-12-25 22:12:00
第四届世界互联网大会近日在乌镇举办,东湖 大数据 交易中心总经理、中润普达集团CEO杜小军受邀参加,并在大会上展示了自主研发的基于场景矩阵、分词矩阵和规则矩阵的中文大数据动态平衡模型计算理论和技术。 (杜小军讲解中文认知计算核心技术) 目前,大数据的应用领域越来越广泛,但在大数据洪流中,80%的数据是非结构化的,能够准确理解这类数据内容的目前只有人脑,特别是中文大数据。但人脑在大数据洪流面前早已不堪重负,还缺少专门的机器设备。 由于中文语言的复杂性,所以开发中文自然语言识别与认知软件的难度系数要比开发英文的更高。中文的语义识别与认知技术的突破成为中国 人工智能 产业发展最为关键的难点技术领域。 杜小军指出,中润普达以“让机器像人类一样思考”作为技术理论支点,通过中文自然语言处理(NLP),让计算机在中文大数据中快速提取关键信息并自主学习,以自然的方式与人互动交流,同时进行推理、分析、对比、归纳、总结所有类型的数据,形成可视化呈现模式,用最直观的方式揭示认知计算后的数据含义。 据介绍,中润普达作为综合型大数据 人工智能 公司,开发并拥有自主知识产权和专利技术的中文大数据认知矩阵(信源矩阵、分词矩阵和规则矩阵)计算和中文大数据动态平衡模型计算技术,其核心技术领先同行业水平。 目前,中润普达已经完成了全产业链布局,形成集大数据交易与流通、数据资源的场景设置和应用、智慧政务与 商业智能 可视化分析平台、云上融媒中央厨房系统、数据采集和数据智能引擎、非标资产的报价与评估系统等于一体的业务矩阵。其中基于大数据的全媒体融合解决方案、基于大数据的产业金融平台解决方案、新一代大 数据可视化 云服务平台等成为行业应用模式微创新的重要案例。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2017-12-07 05:00:00
在远程生物特征识别领域,面部识别是应用最为广泛的技术,但它也存在一定的局限性:面部识别往往需要良好的正面视角,这在实际应用中(尤其在无人机上)难以获得。同时,被探测者也很容易通过粘胡子、戴墨镜或者头巾等方式进行伪装。 另一项远程生物识别技术是步态分析,它通过一个人走路的方式来识别身份。目前,这种方法已经被五角大楼用于识别ISIS恐怖分子。不过,与面部识别一样,步态也可以发生改变或进行伪装。 于是,为了更精准地识别目标,美国特种部队要求五角大楼开发更精确的远程识别技术。这时,五角大楼将目光投向了人的心脏。研究人员开发了一款远程心跳识别设备,可以通过心跳特征来识别人的身份。 200米远程识别 五角大楼开发的这款设备名为Jetson。它可以在200米外捕捉到独特的心脏信号。 Jetson使用了激光振动仪(laser vibrometry)来检测由心跳引起的肌肤表层运动,然后运用算法从激光信号中提取心脏信号。 激光振动仪是一种用于表面非接触振动测量的科学仪器。仪器发射的激光束直接对准待测的表面,通过反射的激光束随表面运动的频移,可以提取出待测表面的振幅和频率。 不过,Jetson目前的使用还是有限制条件的。为了获得较好的感应信号,Jetson发出的激光信号点需要在目标上停留30秒左右,因此这项设备只对静止的人有效。此外,激光信号可以穿透衬衣和夹克,但不适用于厚衣服(例如冬袄)。 五角大楼反恐技术支持办公室的Steward Remaly告诉MIT Technology Review,在良好的条件下,Jetson的准确率可以达到95%以上,并且其准确率仍在进一步提高。在实践中,Jetson可能会与面部识别等其他识别方法协同使用。 比人脸识别强大 除了人脸、指纹、虹膜等已经得到广泛应用的生物识别技术,近年来的一系列研究发现,由于心电图特征主要取决于心脏和身体的解剖学结构,每个人在心电图(ECG)上的心跳特征也具有唯一性,可以作为识别个体的要素。在近期的一项研究中,加州大学伯克利分校的Nikita Samarin和爱丁堡大学的Donald Sannella就在55名自愿者中验证了心电图验证身份的稳定性:ECG识别的准确率超过了97%。 不过,心电生物识别技术也面临着一些挑战。Nikita Samarin和Sannella就指出,由于人的心脏及身体结构会随时间发生缓慢的变化,心电生物测定能力会随着时间的推移而“退化”。在上段研究中,采样4个月后,ECG识别的准确率就下降至90%。因此,使用者必须对目前人群定期进行心电图数据采样,以抵抗正常的生理变化。而且,目前还没有用于心电生物特征研究的标准化数据集。 对于五角大楼的Jetson而言,它目前也缺乏一个心脏信号数据库。不过,这一问题正在得到解决。美国驻伊拉克和阿富汗的武装部队会定期收集生物特征数据,而心脏数据也将被添加到该数据库中。 即便在缺乏数据的情况下,Jetson当前依然能够发挥作用。例如,当他们在人群中监测到一位在安装简易爆炸装置的恐怖分子时,即使此人的姓名和面容未知,此后也可以通过心脏信号确定这个人的身份。 除了五角大楼使用的Jetson,纽约州立大学布法罗分校华人科学家许文曜团队研制出一种利用雷达远距离扫描,分析心脏的结构及跳动特征的身份识别系统,扫描距离为30米。许文曜认为心脏识别比面部识别更有效:“与人脸相比,心脏生物测量学更加稳定,准确率可以达到98%以上。” 目前,基于心跳识别的安全认证已被用于商业用途。 Nymi是一家专门从事生物特征认证的公司,它提供一种腕带,可以将使用者的心电图作为指纹识别的替代品。NASA也开发了一项新技术,可以根据一个人的心电图信号来验证身份,但这两种方法都需要直接接触受试者的皮肤。 来自B-Secur的心电图生物特征识别方案有望在2020年的车型中得到应用,用于驾驶员身份验证和驾驶状态监控。 隐患 尽管心跳信号识别技术得到了验证,它仍面临着与任何生物识别安全系统相同的挑战——它们收集的数据可能成为犯罪分子有兴趣窃取的目标。而且,一旦投入使用,生物识别数据不易撤销,因为它们追踪了个体的持久生理或行为特征。 因此,在保护这些有价值的数据方面,政府和科技公司还需制定一套更严密、更先进、能够让公众信服的数据保护策略,以防止数据的滥用与窃取。 当生物识别技术成为智能认证时代不可避免的基础设施时,公众也需要让自己适应网络安全带来的好处,以及所伴随的风险。 搜索 复制
来源:大数据中国
发布时间:2019-07-06 20:51:00
摘要:三斤别逗了~ “天增岁月人增肉,每逢春节胖三斤。”春节的假期早已结束,有多少人面对飙升的体重悔不当初。想不想知道这个春节有多少人和你一样长胖了猜一猜那个省份的人最在乎长胖 春节期间,各种美食横行, 想要控制食欲真的很难啊!有木有!! 过年这几天,你在家的状态一定是这个样子的: “每逢佳节胖三斤,吃的是饭,长的是肉,流的是泪。”不管嘴上有没有承认,数据早已暴露了一切。小新在各 大数据 平台搜索“每逢佳节胖三斤”、“减肥”等关键词,搜索指数在年后都有一个明显的变化。 最近一个月百度指数变化曲线 最近一个月360指数变化曲线 从以上搜索指数变化曲线可以看到,自2月1日进入农历小年之后,大家对“每逢佳节胖三斤”的调侃和对“减肥”的关注都有明显上升。其中,“每逢佳节胖三斤”作为一个“时令性”调侃话题,随着春节的远去热度逐渐消退。 截至2月18日,在新媒体指数(www.gsdata.cn)搜索“过年”“长胖”关键词,有三篇10万+文章。小新在对所有相关文章标题进行词频分析之后发现,“秘籍”“变瘦”“漂亮”等最为醒目。看来如何把春节期间鼓起的肚腩和大了一圈的腮帮减下去,成了大家尤为关注的地方。 在对春节后微博关注减肥的人群进行画像之后发现,19-24岁人群占比最高,达到42.7%,其次是25-34岁,占比30.3%。相比之下,年轻人对胖瘦及自己的形象更为关注。 在这样一个以瘦为美,人人追求骨感的年代,减肥成了女人永恒的事业。每个女人,不论年龄大小、高矮胖瘦,嘴上时刻都念叨着“我要减肥!!”。不出意外,根据微博指数显示,春节后微博关注减肥的人群中,女性数量远远高于男性,占比70%。 微博指数还显示,摩羯座最关注减肥,占比11.15%,比最低的金牛座高出3.76个百分点。这也是个比较有意思的现象,难道是因为摩羯座的人多闷骚,所以更关注自己的体型吗 据360指数显示,广东人对“每逢佳节胖三斤”这一话题关注度最高,远远高于排名之后的江苏、上海。从整体来看,南方人对这一话题的关注度也高于北方,排名前五的都是南方省份。 爱美追求美是人类的天性,但“胖瘦”何种才是美,却不是人类生下来就已经决定的,很大一部分是由后天生活的社会环境所决定。 在当今以瘦为美的大环境下,胖可能会给人对自己没有要求,懒惰、身体不健康的感觉,再加上手机、互联网、电视等媒体的普及,让人们接触外界的信息渠道更加便捷广泛,而大牌时装设计师,娱乐明星等这些经常出现在各种媒体上的人群,引导时尚潮流的“领军人物”,对瘦的偏爱与追求,建立了以瘦为美得标准,影响着世界的审美。较胖的体型在客观条件上就已经被限制了对时尚对美追求的权利,胖,从某种程度上也意味着被时尚淘汰! 昨日相信不少网友肯定被“200斤俄罗斯妹子,狂甩100斤肉变网红”的消息刷屏了,微博话题“胖妹闭关3年变女神”截止今日16时,阅读量已过5128.6万,有2.1万网友加入了讨论。 网友评论: 春节过后,不少网友惊奇的发现“钱包瘦了,人胖了”。胖在春节过后,就成了众网友比较关心的话题。微信公号“新浪娱乐”年后发文《李湘的胖瘦真是全民的关注点!不过李湘放话减二十斤没问题… 》,去年年末李湘就曾放话要减掉20斤,可从江苏卫视今年跨年春晚上,穿着“抢眼”的红裙子的李湘貌似并没有瘦下来。而2月17日节后,李湘发微博称“假期结束,开始工作”,并配了图。但网友的评论明显又跑偏了,多数评论都和胖瘦有关,看来李湘的胖瘦可是牵动着千万网友的心啊! 李湘微博下网友的评论 最后,小新想说的是,假期吃胖都不是胖。只要调整好作息时间,多吃清淡食物、蔬菜水果,多喝粥类,减少蛋白质摄入量,加强锻炼,在一两周内就会瘦回去的。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2016-02-22 23:21:00
摘要: 存储服务商 ClearSky 提出一个相当吸引人的方案,用来降低数据存储花费和提升速度,并因此获得 2700 万美金 B 轮融资,该轮融资由 Polaris Partners 领投,Akamai Technologies 进行战略跟投。 存储服务商ClearSky 提出一个相当吸引人的方案,用来降低数据存储花费和提升速度,并因此获得 2700 万美金 B 轮融资,该轮融资由 Polaris Partners 领投,Akamai Technologies 进行战略跟投。先前投资的 General Catalyst 和 Highland Capital Partners 继续参与融资。目前公司已经融得 3900 万美元。 从八月份开始,ClearSky 旨在为客户提供多层次、全方位的混合型数据管理方案。详细来说,由安装在用户数据中心的工具(AWS 或者 Azure) 管理最重要的热点数据,而次级重要数据存储于 120 英里内的服务设施中,最终使用亚马逊 S3 存储器管理不常使用的冷数据。该方式通过对数据的分级处理,降低了数据存储成本,提高了数据的提取速度。其关键在于通过软件和算法,根据用户需求和使用策略在不同层级中实现数据的自动迁移。同时,ClearSky 也开始着手其他的数据管理任务,包括数据重复删除,备份和失误恢复。 Rubin 说,接下来几年 ,ClearSky 的用户将成为新式数据存储的早期使用者,他们试图使用新方式管理数据。她将 ClearSky 与 Pure Storage 等其他新式存储服务公司区别开来,理由是 ClearSky 提供重度的数据存储和商业管理解决方案,能使用户实现小白办公。 尽管没有提到目前客户规模,Rubin 表示早期客户正在成为他们的付费用户,并将于不久后公布具体数字。ClearSky 总部在波士顿,目前已经在波士顿、费城和拉斯维加斯建立了分支机构。公司有 40 名员工,新一轮融资将被用来增加员工数量以及在全球拓展业务。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2015-11-07 20:04:00
6月6日,工信部向中国电信、中国移动、中国联通、中国广电发放5G商用牌照,这意味着酝酿多年的中国5G商用大幕正式拉开。时下,5G的讨论正热,有关5G的商业应用在四处萌芽。在物流领域,机器分拣应用、信息协同、快递面单加密、开放的数据平台等正带动整个物流业向智能化发展。那么5G来临后,将会引发物流业的巨变吗?   在专家看来,5G首先带来的是物联网技术质的飞跃,将会推动物流行业实现基于“物联网人工智能”的智慧物流模式转型,车、货、仓真正实现互联互通互动,物流的智能化将加速实现。对于业界来说,5G会带来新的技术角逐,既是机遇亦是挑战。   5G将会如何改变物流业   5G,是第五代移动通信技术的全称,也被认为是万物互联的开端。相较于4G而言,5G的理论下行速度为10Gb/s,能达到4G速度的百倍。“高速率、大容量、低时延”,这正是5G的三个特点。采访的多位业内人士认为,5G不止给物流业带来速度的变化,它更是具有重塑、推动行业快速变革的潜质。   “如果说4G改变了生活,5G则将改变世界。因为4G在带宽、时延和接入特性上仍然不能完全适应物联网、人工智能等热点技术,而5G的到来则会克服4G的诸多不足,给物流等领域带来革命性的变革。”圆通副总裁相峰说。   苏宁物流研究院副院长栾学锋表示,低延时的网络传输技术,让物流运作相关的信息更迅捷地触达设备端、作业端、管理端,让端到端无缝连接。物联网技术的大跨越将改变原本物流的信息都是碎片化的弊端,更加全面的环境信息被获取,形成了更具有应用价值的“数据链”。并且,人工智能在物流领域有了更多的切入点,真正让技术赋能物流产业。   中国物流学会特约研究员杨达卿认为,5G至少会给行业带来三方面的变化:一是设备和设施的智能化应用的普及,无人车、无人机、仓储机器人等更多地应用,把人从低端劳动中释放出来;二是人与车、货、仓的互联互通互动,物联网和AI技术将让车、货、仓拟人化并与人沟通联动,实现更高效的互动;三是服务的动态化、透明化和智能化,比如在供应链金融服务中,过去做静态的仓单质押,但5G时代可对一些高附加值商品实现在途运单质押等。   推动物流智能化加速到来   5G可以说是物联网达成万物互联目标的点金石。此前多数物流企业通过以无人机、无人车、无人仓、人机交互等为代表的智能物流技术上的布局,为5G时代物流智能化发展打下了基础,也提供了想象空间。从应用场景的角度来看,5G技术在智能物流园区、自动分拣、冷链、蜂窝物联网、无人机配送方面,都可能带来变化。   以菜鸟为例,去年菜鸟将物联网战略定义为物流智能化发展的关键。菜鸟首席架构师许俊说,5G有助于加速自动化仓储、物流自动驾驶的布局和发展。“由于4G速率有限,行业内通常使用WiFi网络调度机器人,但WiFi网络覆盖范围小,需要频繁切换网络,存在网络不稳定以及网络延时等问题,影响机器人运行效率,5G时代这些问题将得到解决,仓储、分拨中心的运营更为稳定和高效。此外,菜鸟将加速物流无人车规模化应用。”   相峰认为,5G在新一代物流行业中也有一些特殊的场景,例如增强现实技术实现的场景,包括协助员工完成分拣、协助快递员识别门牌号;在冷链供应的物流体系中,节点可以通过5G连接远程云物流架构实现温度调控和物品跟踪。   对于从业者来说,栾学锋认为,海量物联网、增强型户外无线宽带等网络技术的实现,进一步丰富和深化车联网的应用,对于货车行驶安全性及驾驶人员的舒适性都将带来大幅提升。苏宁物流方面进一步认为,运用5G、 区块链 、物联网技术,我们可以轻松地掌控全链路的动作和工序,通过场景互联打造智慧园区、无人仓库、无人运输、“最后一公里”无人配送,以及冷链物流等专业的细分物流领域。   不仅是对行业、从业者带来改变,在许俊看来,5G还可以为消费者带来更好的物流体验,“譬如在目前,我们能够通过人工智能技术去预测包裹的轨迹。在5G时代,消费者或许可以实时视频去追踪自己的包裹。”   业界积极布局 既是机遇也是挑战   5G对于物流来说,意义不言而喻。纵观技术行业的发展,作为底层基础技术都是优先被变革的,并且这种变革是不可逆的。技术变革是产业变革的原动力,新技术的产生必然推动社会不断地进步,5G作为新的改变产业格局的突破性技术,也将推动物流产业向前发展。   根据中国信息通信研究院预测,按照2020年5G正式商用算起,预计2020—2025年期间,中国5G发展将直接带动经济总产出10.6万亿元,直接创造经济增加值3.3万亿元,创造直接就业岗位达310万个。   显然,5G会带来新的技术角逐,多数企业认为这既是机遇也是挑战。采访了解,目前业界也在积极行动。阿里巴巴旗下物流平台菜鸟与中国联通、圆通速递联合打造“5G快递分拨中心”,据称建成后将大幅提高包裹自动分拣效率和稳定性;顺丰在研究机器视觉,包括冷链可视化在5G下的创新应用;德邦携手广东联通成立快递物流界5G联合创新实验室,将在干线物联网、“最后一公里”物联网、冷链物流等领域进行研究。   “虽然5G并不会马上到来,但是我认为至少在目前这个阶段,我们所做的一些创新要基于5G去思考,最基本的就是要为5G发展预留空间,一旦5G时代到来,设备要能够接入。”许俊说。   相峰认为,5G来临后 数据安全 也必须重视起来,5G因为具有高带宽特性,使得区块链能够更为高效地完成秘钥计算和数据处理,和上游的电商平台的安全方案一起维护物流体系的安全,能够使得物流企业和消费用户以及电商企业安心运转。   “5G带来的是向数字化物流和供应链服务的全面换道,但是技术适应对很多人来说却是个渐进过程。在这个过程中人才战是关键,这既包括熟练应用适应新技术的新物流人,也包括对传统人力队伍的能力升级及重塑。”在杨达卿看来,5G来临后,对人才的储备提出了新的要求。
来源:大数据中国
发布时间:2019-06-18 21:58:00
近年来,随着各大主流车企在智能网联汽车上的投入和布局,自动驾驶正加速向产业化方向靠拢。在日前举办的2019年世界交通运输大会上,东南大学特聘教授、中国公路学会自动驾驶委员会主任冉斌表示,车路协同技术有望让大规模自动驾驶提前10年至15年到来。   “自动驾驶汽车涉及人和车、车和车、车和路之间的配合。过去10年我们都在谈智能汽车,它需要搭载更全面、更灵敏的感应器和智能设备,要在短期内实现大规模部署是比较难的。”冉斌表示,考虑到道路智能化,把智能设备安置在道路上,通过通信网络,感知到的数据可以共享给周边更多车辆,这样将大幅减少设备需求数量、降低成本,使车路更好地协同。   过去几年,在特斯拉试验自动驾驶技术时,系统因无法辨别前方白色车辆和天空的区别,或是没有避让突然出现的车辆等情况而造成事故。冉斌认为,如果有智能道路的话,就可以避免这样的事故。   “自动驾驶要实现落地,一定不能忽视‘车路协同’这个关键点。”在冉斌看来,车路协同自动驾驶系统包含“三个聪明”:一是聪明的路,二是聪明的车,三是两者合二为一的聪明系统。   那么,聪明的车路协同自动驾驶系统会是什么样?冉斌提出了车辆自动化、道路智能化和网络互联化三位一体的自动驾驶发展技术路线。   试想一下,在行驶途中,路告诉车“实时路况”,车告诉路“经历了什么”,实现人、车、路的信息交互,这会让驾驶员在行驶中既安全也高效,还将促进智能交通及智慧城市的发展。   冉斌告诉经济日报记者,车路协同的自动驾驶系统将经历4个开发阶段:一是信息交互,道路可以在汽车还没有达到路口前就告知相关的路面信息;二是感知、预测和决策协同,帮助汽车做出决策,尤其是在复杂的环境当中;三是控制协同,形成智能道路和智能汽车的共同决策,未来可以运用在公路、城市道路与普通轿车和大巴车上;四是先进的车路一体化或者车路协同,迈向纵深探索。   “在这一过程中,车辆制造商不能仅是单纯造车,它需要考虑整个车路协同系统,道路建设方也不能只考虑路的因素,必须统筹规划车和路两类因素。”冉斌说,未来车路协同自动驾驶的责任主体不仅仅是车和路,随着车路协同内涵的不断丰富,其责任主体会越来越多。   事实上,国内诸多科技巨头已经纷纷开始着手探索车路协同领域。2018年底,百度宣布正式开源“Apollo”车路协同方案,向业界开放其在车路协同领域的技术和服务,让自动驾驶进入“聪明的车”与“智能的路”相互协同的新阶段,全面构筑“人—车—路”全域数据感知的智能交通系统,至今已拥有120多家合作伙伴;无独有偶,阿里巴巴获颁杭州首张无人驾驶路测牌照,并宣布升级汽车战略:由车向路延展,利用车路协同技术打造全新的“智能高速公路”,将率先于杭绍甬高速上作出探索。   “智能汽车、智能道路和智能系统——我们的目标是把它们结合在一起,推动一体化发展,有望在2035年建成以人、车、路、云为基础的智能网联交通系统并全面铺行。”冉斌说,随着5G商用牌照的正式发放,实现车路协同自动驾驶系统的脚步还会更快。
来源:大数据中国
发布时间:2019-06-18 21:55:00
摘要:前几天, Excel 2016悄悄更新了一个功能:将工作簿上载到Power BI 但这新功能并不显眼,藏在【发布】里: 然而,按照微软的一贯风格,功能隐藏越深,装逼效果越佳。你看“ Power Bi ”本身用拼音念起来就很牛逼的样子!下面一起来看看怎么玩! BI其实是Business Intelligence的缩写,意思是 商业智能 ,分开读,别念歪哈~ Power BI是微软官方推出的可视化数据探索和交互式报告工具。说人话,就是一款能把丑逼静态数据瞬间变成屌炸动态报表的神器。 针对不同的使用场景,这个工具有在线版/桌面版/移动版,而Excel 2016连接的就是在线版。 也就是说,现在我们可以把Excel中的数据一键导入到Power BI中。然后通过简单的图表配置,生成一份超高颜值的报表: 这种动态的数据报表在商业场景很常见,通常用来给客户/老板看各种关键数据指标以及总体情况,一览无余,所以被形象地被称为仪表盘(Dashboard)。 但这并不意味着我们普通用户不能玩,下面教大家把这个逼装起来。 如果你电脑上还没有Excel 2016,,大家可以先下载一个Power BI桌面版试玩,官网上就有免费下载链接: https://powerbi.microsoft.com/en-us/desktop/ 下载安装后打开,你会发现Power BI长得有点像PPT和Excel生的儿子。 上方工具栏主要用于数据编辑,右侧是图表工具栏,配置好的图表会放在画布上。熟悉界面后,我们可以开搞了。 【第1步】:把数据导入Power BI。 本案例我准备了一组销售数据,记录了3个推销员2016年每天的销售情况。 打开Power BI,点击左上方的【获取数据源】,导入上面的Excel表格。 上传成功后,右侧的图表配置栏会自动读取Excel表格的所有字段,卧槽,这不就是数据透视表么! 【第2步】:对数据进行可视化处理 只需要通过勾选/拖拽字段,就能配置图表。比如我勾选【推销员】和【销售金额】字段,再选择一个合适的图表类型,就能自动生成图表! 接下来,我想看全年每个月的销售概况,只需要勾选【日期】和【销售金额】字段,就能生成一个图表。但此时的横坐标是以年为单位,只有一根柱子。 怎么办这时只需要我们点击左上角的往下深化,就能把数据进行细分:年》季度》月份。 完整的操作如下,细分完后把图表拉伸至合适大小。 同理,我可以把我想看的其他数据也一起配置到画布上,然后加上标题,调整一下颜色,搞定!! 你以为这就完了好玩的才刚开始呢: *自动筛选功能 各个图表中的数据互相关联,互相约束。比如:我想看其中一个推销员的数据,点击饼图中的一部分,其余图表会自动筛选出相应的数据! * 缩放功能 点击图表右上角,还可以放大其中图表进行细看。 * 超屌的扩展图表库 有同学抱怨,Power BI提供的图表类型不够多。那你就错了!在官网中其实还隐藏着一个巨大的扩充图表库,大家感受一下: 选择自己喜欢的类型,下载并导入到Power BI中,就能轻松应用到报表中。简单到哭! 比如,我刚导入了一个气泡图扩充包,然后选中其中一个图表,直接修改图表类型就能秒用!! 就这样,我们有了一份帅气的数据报表了! 我仿佛看到了老板眼角的泪光… 【第3步】:发布动态报表 报表设计完后,直接点击发布即可。还没注册的同学需要用工作邮箱或者学校邮箱注册一个账号。 发布后,你在任何地方登录Power BI都能查看或修改这份报表!你还可以生成一个链接,把报表发给客户。 在任何终端,打开链接就能看到你的报表!! 整个流程,就是这!么!简!单! 以上只讲了Power BI万分之一的功能,如果你想深入研究这款产品,推荐一些资源给大家,所有网站都打包在文末,大家自行领取。 【1】Power BI的youtube频道 在这里你能获取最新的产品信息,例如:更新预告,操作教程,发布会回顾,高层八卦等等等等… 微软在3月份还举办了一次数字营销峰会,频道上更新了30多个演讲视频,保证你高潮~ 【2】设计师团队的Dribbble主页: Power BI有一个很屌的设计团队,而且他们经常会在dribbble上分享相关主题的设计作品。 各种抽象的可视化图形,看着就是享受~~ 【3】竞争对手Tableau Tableau是一枚相当成熟的可视化产品,功能上和Power BI不相伯仲。 Tableau很重视微软这款产品,在Google搜索Power BI的时候,Tableau居然出现在第一位,这广告打得……关于Tableau这个神器,咱有缘再聊。 作者:Simon_阿文 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2016-04-10 14:50:00
 IBM日前宣布推出AutoAI,这是IBM Watson Studio上又一全新功能,旨在帮助企业实现人工智能设计、优化和管理等环节的自动化。如此,数据科学家们便可以腾出更多时间投入到机器学习模型的设计、测试和部署等工作上来。   尽管人们已经意识到人工智能在商业中越来越高的战略价值,但大多数组织还仍在努力应对基础信息架构方面的挑战。寻找、收集和整理零散、孤立的数据,并将这些数据准备好用作分析与机器学习,这些繁琐的工作往往减慢了人工智能的开发。Forrester近期发表的一篇报告中称,60%的受访者表示,管理数据质量是实现人工智能所面临的最大挑战之一,另有44%的受访者将这一挑战归结为数据的准备。   Watson Studio全新AutoAI功能与Watson Machine Learning相结合,将能够帮助企业加速并实现人工智能生命周期中各个步骤的自动化,从而解决上述挑战。   全新AutoAI功能专门为加速企业人工智能开发而设计,使那些极其耗时的数据准备和预处理环节实现自动化,如模型开发、功能工程。目前,企业已可在基于IBM云的Watson Studio上使用此功能。AutoAI的推出是为了使用户能够利用超参数优化功能,更轻松地构建数据科学和人工智能模型。AutoAI还包含一套强大的企业级数据科学模型集,帮助用户快速扩展机器学习实验并部署。
来源:大数据中国
发布时间:2019-06-18 21:54:00
前言 | 儿童节来临,小学生放假,游戏市场迎来盛(Zai)会(Nan)。曾经有人戏言,中国只剩腾讯、网易和其他三大游戏公司。《阴阳师》曾经长时间霸占iOS中国区畅销榜的榜首;而如今《王者荣耀》已是腾讯手里的一张SSR。 ImageDT结合图像识别与 大数据 ,获取《王者荣耀》和《阴阳师》游戏玩家的微博声量和游戏截图,为您揭开两大现象级手游的角力之幕。 数据显示,《王者荣耀》的微博总声量(图片和文字)是《阴阳师》的1.6倍,互动量为2.4倍。曾在20天创造千万下载量的《阴阳师》,已被《王者荣耀》甩在身后,其中不乏小学生的“神助攻”! 晒图分析:玩家们都在晒什么? ImageDT通过图像识别技术,在微博全网扫描《王者荣耀》和《阴阳师》的游戏截图,结合玩家的评论,探知玩家晒图的分布和动机。 王者荣耀 玩家最爱晒【资料】、【胜利】及【失败】的游戏截图。玩家通过资料场景,分享历史战绩,游戏段位最受玩家关注;对于胜利画面,玩家比较倾向记录胜利时的各种第一次;而分享游戏失败画面,经常是因为挂机狗、猪队友,不吐不快。 阴阳师 玩家最爱分享的游戏场景是【获得式神】、【式神录】及【对战】。抽取SSR这种稀有奖励,会刺激玩家截图分享。分享截图式神录,主要为碎片交易、账号交易。至于对战画面,虽然阴阳师本质上是养成游戏,PVP斗技依旧是玩家游戏乐趣的重要来源。与人斗,其乐无穷。而式神是阴阳师游戏的核心,对战阵容是玩家关注热点。 王者荣耀的完胜之道:社交、成就感、低门槛 从玩家晒图以及讨论的声量和互动量来看,王者荣耀逐渐远超阴阳师。从晒图的内容来看,两个游戏各有其吸引玩家的特点。是什么让王者荣耀的游戏在社交网络上拥有较大的活跃度?小编带你一探究竟。 1. 王者荣耀社交属性更强,多人即时对战吸引分享 王者荣耀整体的互动情况更好,有互动的微博达63%,分享游戏截图的玩家达54%。而阴阳师有互动的微博仅有50%。 王者荣耀是一款多人在线联机竞技游戏,跨区、跨操作系统的模式让玩家能同场竞技,随时一起开黑。QQ和微信打通玩家朋友圈,王者荣耀的玩家更倾向自发分享游戏截图展示战绩,也更容易引起互动。 而在阴阳师中,大区和服务器不同的玩家不能在一起游戏,很难满足线下的社交场景,互动情况一般。阴阳师更善于利用奖励刺激玩家在社交媒体分享游戏信息。如分享特典皮肤获得勾玉、分享式神图鉴获得蓝符、分享亲友系统获得勾玉等。 (左:整体词云,中:文本声量词云,右:图片声量词云) 2.王者荣耀的游戏成就感更强,战绩分享刺激虚荣心 王者荣耀的核心在联合玩家进行对战,击杀敌人,获得胜利。不同的英雄不同的玩法,但英雄并不能在游戏中起到决定性的作用。游戏节奏快,随时随地开黑,十五分钟一盘,更符合现代人碎片化的时间安排。50%的胜率意味着总会有玩家获得了即时游戏成就感。在上述游戏场景分析中也可以看出,历史战绩、胜利和失败都是玩家的战绩分享。 式神是阴阳师游戏的核心,所有的玩法系统都是为养成式神服务。阴阳师通过PVE碾压式的体验和明显的实力分层,放大玩家的自我成就感,触发玩家的上进心理。但要成为高端玩家,需要付出更多的时间,全靠“肝”,门槛更高。通常情况下,阴阳师需要100个小时以上的持续游戏时间,才可以体验到实力碾压感。因此,阴阳师才这么多账号交易信息。 3.王者荣耀操作门槛低,受众广,小学生玩家成热门槽点 王者荣耀的核心在联合玩家进行对战,手游简化了游戏操作。但是遇到太多小学生引发玩家神吐槽。虽然阴阳师主打剧情和画风,但分享王者荣耀游戏信息的女玩家比阴阳师还多。因而在微博上有两大调侃: 我是一名三年级小学生,如果不让我上热评,我就下载王者荣耀 王者荣耀是女大学生和小学生的战斗 连小学生都能玩,这也在侧面说明王者荣耀是低门槛、易操作、适合全年龄段的手游。 而阴阳师的式神必须通过时间和金钱的养成,前期投入的门槛存在,导致新玩家无法和老玩家进行公平竞赛,降低新用户留存率。 4. 必杀技 王者荣耀借力鹿晗,在鹿晗生日时宣布其代言人身份,成功为王者荣耀炒了一波热度,吸引新粉。且这很有可能带来更多女玩家。 阴阳师依托于完整的故事背景,画风精美,出现大量同人创作,带来较高互动量。与肯德基的跨界营销套餐,也吸引了很多玩家拍照分享。 结语:王者荣耀无论在社交属性、游戏成就感和准入门槛的表现都优于阴阳师,最直接的体现就是玩家更愿意自发分享王者荣耀游戏信息,并产生互动。 社交属性更强、操作简化、节奏快、碎片化、对战、普适性更强的手游更容易获得玩家青睐。 数据说明:2017年4月1日~2017年4月30日,微博全网数据,去水军,图片中包含游戏截图、或文字提及“王者荣耀”/“阴阳师”。 本文由ImageDT图匠数据投稿,点击链接(http://q.imagedt.com/o/1205),查看王者荣耀视觉声量 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2017-06-08 11:05:00
机器学习、大数据以及自动化正在彻底改变全球工业体系,能源行业自然也不例外。各类创新成果推动着技术进步、带来了经济效率的提升、创造着智能化程度更高的业务运营模式,同时为基础设施提供了更强的弹性水平。正因为如此,世界各地的企业与机构才积极将先进技术——特别是人工智能,视为首要关注重点。 就能源行业来说,诸多企业正在以多种方式实施大数据与AI技术,且行业的整体积极性也正在快速增长。预计到2022年,石油与天然气行业的AI软件市场总额将达到惊人的28.5亿美元。由此带来的预测分析能力将可监控长达数英里的地下管道,而机器学习技术则可以帮助化石燃料企业以更低的成本高效进行钻探,从而透彻了解深埋于地表之下的地质构造。新的“智能”电网也在采用机器学习技术实现计算机、自动化与传感器装置的集成,从而以实时监测甚至预测能源需求的快速变化。 >>> 全球范围的技术竞争 今年2月,美国发布了《美国人工智能倡议》,致力于促进跨行业、学术界以及其它非联邦实体的联邦政府支出与资源分配,从而实现AI的技术性突破,维持美国在人工智能技术领域的主导地位。 今年5月,美国能源部长里克-佩里宣布,能源部(简称DOE)正在与克雷以及AMD公司合作构建Frontier,其中包含三台新的机器。这些机器将提升美国的AI技术水平。Frontier被视为世界上最快的计算机,其速度水平约为当前超级计算机的50倍。 而在这一方面,中国也很早就加入了AI竞争的战团,并在一部分指标当中领先于美国。 2017年,中国发布了《新一代人工智能发展规划》,其中概述了AI发展的具体研发资金与目标,希望推动中国在2030年成为全球AI技术的领导者,并借此为国家经济贡献约1500亿美元。虽然美国在大多数AI相关指标当中占主导地位,但中国在启动股权融资以及数据收集方面则处于明显优势。此外,在全球前20所AI研究排名最高的大学当中,中国拥有17所。 ▲ 美国与中国之间的AI技术竞赛正在快速升温 >>> AI正重塑能源行业 人工智能在能源领域的应用正在激增。比如,埃克森美孚下辖子公司XTO Energy正在与微软方面合作,利用机器学习、商务智能应用以及云技术从其160万英亩油田当中收集数据。这些实时数据将能够改善钻井及用于监测的基础设施的泄漏情况和维修条件。 这样的合作关系也使得XTO成为云技术应用规模最大的石油与天然气企业。据估计,微软公司的技术实施有望到2025年帮助XTO方面将石油产量提升至每天5万桶。 除此之外,AI还有助于提高能源基础设施的安全性。太平洋天然气与电力公司已经着手采用机器学习技术,用以应对因气候变化而加剧的加利福尼亚州野火问题。事实上,部分野火事故甚至完全属于自发燃起,并造成数十亿美元的损失。加州电力公司目前尝试利用无人机检查其输电塔,而后通过AI将图像转换为数据点——目前其能够采集的数据点已经高达10亿个。将这些数据输入算法之后,算法即可确定该公司应该将资源集中在哪里,以降低发生潜在野火的风险。 ▲2018年5月18日,在雪佛龙公司位于杰克/圣路易斯的主控室中,监测人员正在观察远离美国路易斯安那州海岸的、位于墨西哥湾的Malo深水石油钻井平台的海上作业工人。行业高管们纷纷表示,新技术、大数据以及智能化程度更高的设计相结合,终将结束规模海底石油开采所带来的高昂开支。 与此同时,智能能源系统将越来越多地允许客户利用可再生能源为其家庭及企业供电。可再生能源在本质上拥有间歇性属性,因为其主要来自太阳辐射、云层覆盖、风以及海浪等。现代技术能够帮助公共事业企业通过智能电网改变这些稳定性较差的能源的流动方式,而且智能化程度越高,效果也就越好。随着能源存储能力的提升,企业能够将更多剩余的电能输送至公共事业级电池当中——包括锂离子电池以及氢燃料电池等等。 >>> AI技术并不完美 虽然AI技术能够为我们的经济做出巨大的贡献,但同时也可能带来非常可怕的风险。计算机与机器的实际效果受到程序设计水平的限制,而这类设计工作完全由人类完成,因此设备就如同开发它们的人类一样远称不上完美。与此同时,数字化与互连性的增强则提升了设备受到操纵甚至造成破坏的可能性。我们对于大数据以及机器学习技术的依赖性越强,用户面临的网络安全风险也就越可怕——电网与其它公共事业企业已经在着手解决这个问题。而颇具讽刺意味的是,他们在解决此类问题时也通常需要借助人工智能的力量。 因此,全球政府与各监管机构必须建立适当的政策性机制,用以解决技术应用规模化所带来的具体问题以及风险。比如,最近美国会见了经济合作与发展组织(简称经合组织)各成员国,希望确定在国际上使用人工智能技术时所应遵循的原则与准则。这无疑标志着各国政府向负责任的AI实施迈出的重要一步。 随着AI技术战争的不断升温,企业与消费者也将受益于更加安全、更加清洁、更加便宜以及更加高效的能源。而让这场技术竞赛也才刚刚开始。
来源:大数据中国
发布时间:2019-06-18 21:51:00
杰和科技将携其自主研发的多媒体信息发布管理系统GDSM、GPU虚拟化解决方案以及下一代桌面云解决方案亮相2019中国(北京)国际大数据产业博览会,展位号A17-A18。 本届展会将于6月28-30日在北京亦创国际会展中心举行,展会主题是“倡导绿色高效节能安全数据中心、迎接大数据时代的数据中心变革、引领数据中心行业健康稳步发展”。杰和科技在IOT领域有着深厚的技术积累和行业经验,聚焦新零售、智慧教育与医疗、企业及公共服务、工业自动化,致力于成为全球物联网、人工智能产品设备及解决方案的领航者。 GDSM多媒体信息发布管理系统 智慧零售是时下最热门话题之一。智慧零售就是运用互联网、物联网、数据中心、AI人工智能等技术优化店铺与用户间的关系,提供更优化的服务与体验。杰和GDSM是杰和科技自主研发的一款同时支持本地化和网络化部署的多媒体信息发布管理软件,该系统通过对前端设备、云端资源、播放内容的集中控制和统一管理实现软硬件一站式部署。 杰和GDSM凭借其精简的系统架构、多样化的前端设备、高度集成的软件功能以及先进的AI视讯和大 数据分析 能力,可轻易整合到不同类型的智能零售设备中去。利用杰和GDSM,可有效的帮助系统集成商降低系统成本、缩短研发/交付周期,提升运营管理效率,轻松应对物联网时代的机遇与挑战。 下一代桌面云解决方案,高效灵活易部署 杰和与战略合作伙伴共同搭建的下一代桌面云解决方案,帮助企业快速部署业务的管理网络,实现终端和数据集中化管理、简化运维管理工作、安全稳定的应用环境,提供操作体验及软硬件兼容性媲美PC的更安全、更高效的云桌面,满足随时随地办公的灵活性需求,广泛应用于政府、教育、金融、运营商及科研院所等行业。 GPU虚拟化解决方案—云端的图形工作站 该方案基于超融合基础架构,采用杰和4U 8GPU服务器作为GPU云主机,通过桌面传输协议将云主机画面传送到客户端显示,而所有计算与存储资源都集中在GPU云主机上,操作和显示都在本地进行。GPU云作为新一代企业级生产力工具,在满足重度的图形渲染和数值计算的同时,在IT管理模式也进行了升级,如数据防泄密、弹性资源配置、管理效率提升、工作方式更敏捷等。该方案适用于测绘、勘探、建筑、设计、制造、影视、动画等行业。
来源:大数据中国
发布时间:2019-06-18 21:47:00
MemSQL是一家以其同名内存 数据库 的实时功能而闻名的公司,今天,它宣布在D轮融资中获得了3000万美元,此次融资也将该公司的总体融资额提升到了1.1亿美元。本轮融资由GV和Glynn Capital领投,现有投资者Accell、Caffeinated Capital、Data Collective和IA Ventures也参与了投资。 MemSQL数据库提供分布式关系数据库,该数据库使用标准的SQL驱动和查询进行事务和分析。它的特点是其数据采集技术的集成,它允许用户每天将数百万事件推送到服务中,而用户也可以实时查询记录。该公司最近表示,它的工具可以在拥有12台服务器的集群上提供每秒超过1万亿行的扫描速度。 该数据库可用于大型公共云和本地部署。 MemSQL最近宣布,即使在竞争激烈的市场上有很多老牌企业、初创公司甚至开源项目,其第四季度商业预订数同比增长200%,这通常也是投资者喜欢看到的增长率。目前MemSQL用户包括Uber、Akamai、Pinterest、Dell EMC和Comcast。 “通过提供能够以独特的速度和规模实现运营分析的数据库,MemSQL已经获得了强大的企业影响力,使客户能够创建动态的智能应用,”GV的一般合伙人Adam Ghobarah在今天的公告中表示。“随着企业客户群的不断增长,该公司已经取得了显著的成功,我们很高兴能够继续进行投资。” 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-05-16 19:54:00
全新AutoAI功能将通过自动化和加速时间密集型数据流程,加速人工智能开发,同时解放数据科学家,使他们能够更加专注于机器学习 IBM (NYSE: IBM)今日宣布推出AutoAI,这是IBM Watson Studio上又一全新功能,旨在帮助企业实现人工智能设计、优化和管理等环节的自动化。如此,数据科学家们便可以腾出更多时间投入到机器学习模型的设计、测试和部署等工作上来。 尽管人们已经意识到人工智能在商业中越来越高的战略价值,但大多数组织还仍在努力应对基础信息架构方面的挑战。寻找、收集和整理零散、孤立的数据,并将这些数据准备好用作分析与机器学习,这些繁琐的工作往往减慢了人工智能的开发。Forrester近期发表的一篇报告中称,60%的受访者表示,管理数据质量是实现人工智能所面临的最大挑战之一,另有44%的受访者将这一挑战归结为数据的准备。 对于没有数据科学家的企业来说,人工智能项目面临着更大的挑战。IBM商业价值研究院在一项题为《向企业级人工智能的转变》(Shifting Toward Enterprise-Grade AI)的研究中指出,63%的受访者表示,缺乏适当的技术、技能是企业实施人工智能所面临的主要挑战。 Watson Studio 全新 AutoAI 功能与 WatsonMachine Learning相结合,将能够帮助企业加速并实现人工智能生命周期中各个步骤的自动化,从而解决上述挑战。 全新AutoAI功能专门为加速企业人工智能开发而设计,使那些极其耗时的数据准备和预处理环节实现自动化,例如模型开发、功能工程等。目前,企业已可以在基于IBM云的Watson Studio上使用此功能。AutoAI的推出是为了使用户能够利用超参数(hyperparameter)优化功能,更轻松地构建数据科学和人工智能模型。此外,AutoAI还包含一套强大的企业级数据科学模型集,如梯度增强树(gradient boosted trees)等,帮助用户快速扩展机器学习实验并完成部署。 IBM大数据与人工智能业务总经理Rob Thomas表示:“IBM始终与客户保持密切合作,为他们规划通往人工智能的路径,而许多客户面临的首要挑战之一便是数据准备,这是人工智能的基础步骤。我们已经发现,对于一些成熟企业而言,数据基础架构的复杂性让人望而生畏,而对于那些几乎没有或根本没有技术资源的企业来说,这种复杂性更是根本无法驾驭的。我们为Watson Studio提供的自动化功能旨在简化流程,帮助客户更快地构建机器学习模型和实验。” AutoAI系列还包括IBM Neural Networks Synthesis(NeuNetS),这一技术于去年秋天首次亮相,目前在Watson Studio项目中处于公测阶段。这一技术能够使用户通过人工智能自动合成定制化的神经网络,快速跟踪深度学习模型的开发。NeuNetS使用户能够在优化速度和精度方面进行选择,并实时观察模型的构建并进行自我训练。 Watson Studio AutoAI利用IBM研究院开发的关键技术,基于IBM多年来一直在开发和提供的诸多自动化功能,为包括IBM Watson Assistant,IBM Watson Discovery 与IBM Watson Machine Learning在内的各种解决方案都提供了不同程度的自动化,加快并简化了极其耗时的任务与环节,使客户能够更快地专注于具有更高价值的工作。 【关于IBM】 IBM(国际商业机器公司)总部位于纽约州阿蒙克市,1911年创立于美国,是全球最大的信息技术和业务解决方案公司。作为全球 IT 产业唯一一家百年企业,IBM 致力于科技和商业创新。2016年初,IBM 正式宣布将转型成为一家认知解决方案和云平台公司,持续借助创新、数据和专业的能力助力商业和社会发展。
来源:大数据中国
发布时间:2019-06-17 15:08:00
近年来,全球IDC市场处于快速发展的阶段,据中国IDC圈科智咨询发布《2017-2018中国IDC产业研究报告》中显示,2017年全球IDC市场达到535亿美元,增速为17.9%. 全球IDC市场格局初步成型,海内外服务商都意欲在业务快速增长地区寻找新商机。 欧洲区业务增速放缓 并购成为行业主流 从目前的市场总量进行分析,美国、欧洲占据了全球IDC市场规模的50%以上。 随着 云计算 、 大数据 的快速发展,带动了数据中心行业的发展。与此同时,欧洲地区数据中心发展速度开始逐渐放缓,主要的发展形式以并购和交易为主。 据IDC记者了解,2017年IDC行业并购事件多余前两年的总和,这个趋势在未来几年仍将持续。持此之外,全球IDC的服务商投资规模将持续加大。2017年全球IDC投资规模突破了2200亿,包括技术驱动的力量、市场整合、市场投资等方面。 东南亚IDC市场缘何快速发展? 众所周知,近年来亚太地区的IDC行业发展迅速,亚洲地区成为了数据中心发展的重点。2014年开始,技术驱动创新,使得各种新兴的技术领域快速发展,带动了数据的存储规模,计算能力和网络流量的大幅增长,这也是推动亚太地区这个新一代技术进入加速期的重要原因。 相比于欧美国家,亚太地区属于发展中国家聚集地,发展IDC业务的成本会大幅降低,主要体现在人员成本、电力成本、土地成本;其次,国家政策的支持,随着我国”一带一路”政策的实施,加快了我国互联网企业的向毗邻国出海的布局,同时企业业务出海后会产生了大量的数据,这也是加快亚太地区IDC行业的快速发展的一个原因。最后,IDC行业发展对于网络要求甚高,亚太地区拥有丰富的海底光缆及路上光纤,能够提供IDC 业务所需要的网络,并且目前亚太地区的5G发展处于领先地位。 在2018亚太数据中心峰会上,Indosat Singapore Pte. Ltd Jessie Yan Yang表示,新加坡作为国际网络连接的重要节点,成为了亚太地区IDC行业发展的关键所在,为了保证国际出口的稳定和冗余性,Indosat在印度与新加坡之间投建了6条海缆来保证国际业务运转。 Jessie Yan Yang指出,印尼数据中心的需求达到每年20%以上增长率,Indosat在去年在印尼投资建设20多家机房,覆盖印尼目前所有的主流的城市,包括雅加达、巴厘岛等。目前在雅加达Indosat已经投建4个机房,其实有两个原因:第一点是印尼是地震多发的国家,雅加达的地址环境相对较为优良。二是和政府政策有关,印尼政府多年前颁发了银行针对金融系统的政策,金融系统在印尼有两个节点,主节点和备灾节点。目前印尼所有的大型银行和金融系统都在雅加达的备灾中心存储。 随后,中国IDC圈总经理黄超在会上分享了2017年数据中心市场情况。他表示,2017年全球IDC市场规模为534.7亿,增速是18.3%.亚洲地区继续在各区域中保持领先,整体增长速度超过30%,其中以中国、印度及东南亚国家为代表的IDC市场增长最为显著;其次,从美国市场看,美国市场主要的特征是并购,2017年,美国市场有将近200亿市场的规模并购的事件。 “一带一路”政策 推动我国IDC企业出海 随着我国”一带一路”政策的快速实施,我国企业面向国际市场迎来了更为广阔的市场空间和发展机遇。而与此同时,国际巨头面对庞大的国内市场也已经跃跃欲试。 深圳市经贸信息委副处长汪炳炎在2018亚太数据中心峰会上表示,为贯彻落实国家 大数据 战略,紧抓云计算、大数据发展重要机遇,未来深圳市将从以下三方面进行开展工作:一是积极落实网络强国和互联网+战略,以产业跨界和融合智能发展为主攻方向,加快构建泛在高效信息网络,推动信息核心产业跨越发展,打造新一代信息技术和互联网产业的融合、共生和信息产业集群;二是创新大 数据挖掘 分析和应用,提升社会治理精细化水平,促进民生服务普惠化,实现城市精细化管理;三是加强产学研合作,鼓励高校科研院校和企业联合培养云计算、大数据相关人才,加强学校教育与产业发展的有效衔接。 中国信通院产业与规划研究所副主任高级工程师胡海波则表示,中国IDC市场快速发展,已成为全球范围内增长最为强劲的地区。 中国的云服务和数据中心准入涉及的法律法规包括以下部分:一是《中华人民共和国电信条例》和《电信业务经营许可管理办法》,要求云服务是应该持证经营;二是市场准入在技术的要求和市场的服务规范,2012年552号文以及2017年32号文,清理整顿的规范要求;三是云服务方面,包括《关于规范云服务市场经营行为的通知》和《关于规范云服务促进产业健康发展通知》等。 其次,针对我国IDC企业出海路线,及相关国家的优势,来自英国RETN公司陈昱认为,我国”一带一路”政策的提出,加快了我国IDC企业的快速出海,其中路线包括从俄罗斯、乌克兰、白俄罗斯到欧洲。俄罗斯毗邻中国,是我国企业发展IDC业务主要的海外地区。其中,由于俄罗斯地广人稀,是数据中心发展需要大规模的土地,其次,俄罗斯在气候方面十分适宜,降低了数据中心空调系统的运维成本。 综述 随着云计算、大数据、 人工智能 行业的快速发展,数据中心未来还将持续增长,并且伴随着企业对于数据的存储和处理的要求越来越高,数据中心向着规模化和集中化发展。我国加大了对IDC行业的规范与整顿,国外企业落户中国势必成为未来的一个发展点,未来将会以何种形式落户中国,我们将持续关注。 本文由 中国IDC圈 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/52422.html 。
来源:数据分析网
发布时间:2018-05-16 10:50:07