科技资讯_数据资讯

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行

阿里暂停投资印度：马云曾被传唤

NVIDIA RTX 30大量细节官宣！12针供电没那么神秘

大疆发布第四代手机云台DJI OM 4：巧妙磁吸、只需899元

百度网盘迎来劲敌，阿里推出“阿里云网盘”App

拯救Ps菜鸟！后期修图最难搞定的问题这个AI只用了几秒钟

从太空看深圳特区：40年沧桑巨变

阿里与国家电网入局！中国广电网络股份公司出资情况公开

丹麦电信计划9月7日启动5G商用已升级2650个站点

B站Q2净收入26.2亿元同比增长70% 月活用户1.72亿

1000亿美元！马斯克身家创纪录，今年大涨3倍

Salesforce斥资157亿美元收购大数据公司Tableau，大数据企业成资本关注焦点

6月11日消息，据外媒报道，美国当地时间周一，客户关系管理(CRM) 软件服务提供商Salesforce.com同意斥资157亿美元收购大数据公司Tableau Software，这增加了该公司与微软争夺更大市场份额的能力，帮助企业利用分析和可视化数据工具瞄准客户。数据分析业务正迅速成为新的战场，科技巨头Alphabet旗下子公司谷歌和亚马逊都在努力扩大市场影响力，并与微软和Tableau等老牌公司展开竞争。威德布什证券公司（Wedbush Securities）分析师史蒂夫·柯尼格(Steve Koenig)说：“这笔交易对软件行业来说是一次变革，也是这家云计算巨头为提升其分析产品份额所采取的、最引人注目的举措。” Salesforce的客户关系管理软件将受益于Tableau的大数据分析，后者可以揭示隐藏的模式、未知的相关性、市场趋势和客户偏好。Tableau的软件用于创建交互式、可视化的仪表板和图形，企业、大学和政府使用这些资源来分析从企业财务数据到棒球统计数据等各种数据。收购Tableau是Salesforce有史以来最大的一笔交易，几天前谷歌曾斥资26亿美元收购大数据分析公司Looker。2018年时，Salesforce也曾斥资59亿美元资金收购美国软件制造商MuleSoft。早在2016年，就有媒体报道称，在一份泄露的Salesforce潜在收购目标名单中，总部位于西雅图的Tableau就是其中之一。当时，Tableau正在与一家投资银行合作，探讨出售事宜。Tableau拥有86000多家客户，包括美国无线运营商Verizon和流媒体服务提供商Netflix等科技巨头。柯尼格说：“这次收购加速了Salesforce的Customer 360计划路线图，这有助于公司全面了解他们的客户，并更广泛地了解他们的分析计划。” 在这笔以股票交换为主的交易中，Tableau的股东将以每股Tableau股票兑换1.103股Salesforce股票。截至上周五收盘时，Salesforce报价的估值为每股177.88美元，当时溢价为42%。Tableau股价跃升了38%，触及173.09美元的创纪录高位，而Salesforce的股价在午后交易中下跌近6%。 Monness，Crespi，Hardt&Co分析师布莱恩·怀特(Brian White)表示，鉴于Salesforce对订阅和云服务等主要技术趋势的资本化，他认为股价下跌将是短暂的。这笔交易预计将在第三季度完成，之后Tableau将在首席执行官亚当·塞利普斯基(AdamSelipsky)及其目前的领导团队的领导下独立运营。 Salesforce表示，这笔交易可能使其2020年的收入增加4亿美元，但调整后的每股收益将减少0.37美元，至每股0.39美元。Salesforce目前预计2020年调整后的每股收益将在2.51美元至2.53美元之间。来自Refinitiv的IBES数据显示，分析师原本预计每股收益为2.9美元。美银美林和高盛分别充当Salesforce与Tableau的财务顾问。近期，大数据企业似乎又成为市场和资本关注的焦点。就在4天之前，Alphabet旗下谷歌公司宣布，将以26亿美元的价格收购非上市的大数据分析公司Looker，这是谷歌云计算业务新任首席执行官托马斯·邱瑞安(ThomasKurian)实施的首次重大收购。据国外媒体报道，按出租基础设施和其他计算工具给企业所得收入计算，谷歌云在全球范围内排名第三，仅次于亚马逊和微软。但据云计算行业分析师称，在谷歌的云计算产品中，用于管理大型数据的工具BigQuery一直是吸引客户的亮点之一。邱瑞安在接受路透社采访时表示，他正在寻找填补谷歌云空白的机会，加倍投资大数据分析是很有意义的。Looker和谷歌云计算业务部门有着相似的企业文化，拥有Blue Apron Holdings和赫斯特通信公司（Hearst Communications）等350多家共同客户。邱瑞安表示：“当我们考虑如何扩大我们的投资组合时，(数据和分析)是我们有实力的一部分。此次收购Looker公司目的是补充和完善我们的数据分析基础。” 这笔交易还反映出，在竞争对手专注于开发通用工具的环境下，邱瑞安计划通过专业软件赢得客户。 Looker公司总部位于加州圣克鲁斯，成立于2012年，目前雇佣了约800名员工，该公司在历史上累计筹集了2.81亿美元的风险资本，去年最近一轮融资中的估值为16亿美元。该公司开发的的工具能让分析师和其他工作人员定义项目（如营收或高价值客户等）计算，然后无需编写复杂脚本就能把数据趋势可视化，其竞争对手包括Tableau和微软Power BI等。分析人士说，Looker是云计算时代开发最好的商业智能工具之一，它将从谷歌丰富的资源中获益。美国投资研究公司Cowen估计，Looker公司2019年的收入将达到1.4亿美元左右。邱瑞安表示，谷歌云计算业务整合Looker将带来新的功能，但并未详细说明。收购交易完成后，Looker首席执行官弗兰克·宾(FrankBien)预计将留在谷歌，向邱瑞安汇报工作。两家公司表示，预计美国政府今年将批准这笔交易，这是谷歌自2014年以32亿美元收购智能家居产品公司Nest以来最大的一笔并购交易。在此之前，谷歌兄弟业务、Alphabet下属的私募股权投资业务CapitalG曾对Looker进行投资。

来源：大数据中国

发布时间：2019-06-15 21:54:00

AI真的能拯救Facebook吗？ | 数据分析网首页分类阅读行业资讯大数据统计学数据分析数

文章来源| AI 前线公众号（ID：ai-front），转载请联系公众号负责人取得授权在上个月的两次国会会议上，首席执行官马克扎克伯格在解释公司如何改善其平台监管时引用了 AI 一词超过 30 次。负责履行这些承诺的人——首席技术官 Mike Schroepfer 在 Facebook 年度开发者大会上的主题演讲和采访中也提到了这个主题。 Schroepfer 告诉成千上万的开发者和记者，” 人工智能是我们维持社区安全的最佳工具。“在听证会之后，批评人士指责扎克伯格把人工智能推出来误导人们，公司的问题仅仅是技术问题。Schroepfer 承认 Facebook 犯了错误。但他表示，对于月用户达 20 亿的 Facebook 而言，人工智能是解决这些问题的唯一方法。即使公司可以负担得起雇佣人类检查每一篇文章，但这不是公司想要的解决办法。Schroepfer 说道：“如果我告诉你，你所有的文章在发布之前都有人读过，也许你会改变要发布的内容。” Facebook 已经使用自动化技术来监控其平台，并取得了不错的效果。例如，自 2011 年以来，该公司已经使用了一种名为 PhotoDNA 的工具，该工具最初由微软开发，用于检测儿童色情内容。Schroepfer 表示，该公司的算法在不断改善，足以标记出不想让其在平台上出现的图像。首先是裸露和色情图片，Schroepfer 将其描述为“光谱更容易识别的一部分”。接下来是描述“血腥和图像暴力”的照片和视频，如 Isis 斩首视频，这些图像很难从像素级别与正常图像区分开来。我们现在对这些图像的处理效率更高，”Schroepfer 说道。但困难仍然存在。Schroepfer 表示，Facebook 近几个月来一直在投入资金解决选举信息真实性、虚假广告和虚假新闻等问题。“公平地说，在过去的几个月里，我们已经将公司的所有资源聚焦到了这些问题上，”他说道。扎克伯格本周早些时候表示，他预计将花三年时间建立更好的系统来捕捉不合理的内容。此外，Facebook 的 AI 安全网计划还面临着机器阅读的问题，而不是视觉。那些用来打击因为 2016 年俄罗斯大选被推上风头浪尖的假新闻、骚扰等问题的软件需要了解人们在说什么。尽管 Facebook 的网络搜索和自动翻译很成功，软件仍然无法了解语言的细微差别和语境。在周三的主题演讲中，Facebook 的机器学习和人工智能总监 Srinivas Narayanan 用“Look at that pig!（看那只猪！）”这个语句来解释这个挑战的难度何在。这句话出现在一只宠物猪的评论中可能会很受欢迎，但在用来评论一张婚礼照片可就不好了。 Facebook 公布了一些读取算法的进展。该公司周三表示，自去年年底一个可以发现人们伤害自己迹象的系统部署以来，已经有 1000 多人拨打了急救电话。语言算法帮助 Facebook 在今年第一季度删除了近 200 万条与恐怖分子有关的内容。 Schroepfer 表示，Facebook 还通过训练软件生成虚假数据来改善欺凌检测系统。经过对抗训练，侮辱性语言识别和拦截的效率越来越高。这使 Facebook 成为使用合成或伪造数据来训练机器学习系统的众多公司之一。 Facebook 面临的另一个障碍：其他语言。Facebook 的语言技术在英语中效果最好，这不仅是因为 Facebook 是一家美国公司，还因为该技术通常使用从英特网占主导地位的互联网上获取的文本进行训练。Facebook 数据显示，该平台超过一半的用户不会说英语。“这是一个巨大的问题，”Schroepfer 说道。 Facebook 在世界某些地区占主导地位，因此语言成为一个至关重要的问题。Facebook 承认，缺乏缅语内容审核人员，是没有避免这场危机的原因之一。 Facebook 正在开发一个名为 MUSE 的项目，有望以不同的语言开发同一种语言技术，而不需要大量新的训练数据。在这个方法实施之前，Facebook 通过手机新数据加速系统的方法将 AI 系统扩展到新的语言。在某些情况或地点，数据传输很慢。暴露出一个问题，即 Facebook 没有选择在所有地方建立相同的语言资源。执行官 Tessa Lyons-Laing 在周二举行的 Facebook 会议上宣布遏制虚假消息传播时说道，机器学习软件正在学习标记经过等组织手动标记过的虚假内容，但该技术只有在 Facebook 与当地的事实核查小组建立联系，并且已经建立好数据收集情况下才会起作用。 Schroepfer 表示，找到一种不必依靠人力投入就能完成工作的方法是他推进人工智能的主要策略之一。周三，Facebook 的研究人员展示了用数十亿个 Instagram 主题标签作为免费的数据源来进行图像识别的方法，并创造了新纪录。Facebook 面临的很多最棘手的问题，都无法将人为判断排除在外。 Schroepfer 说道：“当决定事物好坏的时候，人工智能并不能替代人类。” “当人类做出决定后，人工智能是一个很好的执行规则的工具。” 原文链接： https://www.wired.com/story/how-artificial-intelligence-canand-cantfix-facebook/ 本文为专栏文章，来自：AI前线，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/52186.html 。

来源：数据分析网

发布时间：2018-05-13 12:04:00

研究 | 制造业数字化转型的难点与对策

随着新一代科技革命和产业变革潮涌，越来越多的国家把发展数字经济作为推动经济增长的重要途径。其中，积极促进新一代信息技术和制造业深度融合，大力发展先进制造和智能制造，是各国普遍采取的重要举措。我国制造业规模庞大、体系完备，但大而不强问题突出。尤其是传统制造业，自主创新能力不强，生产管理效率较低。在我国制造业低成本优势逐步减弱的背景下，必须着力提高产品品质和生产管理效率，重塑竞争优势，数字化转型正是提升制造业竞争力的重要途径。当前，需更好顺应数字经济发展趋势，解决好制造业数字化转型进程中的难点问题，切实推动制造业高质量发展。我国制造业数字化水平显著提升数字经济是继农业经济、工业经济之后新的经济形态，它以数据资源为重要生产要素，以数字化转型为重要推动力。目前，越来越多的国家把发展数字经济作为推动经济增长的重要途径，大力推动新一代信息技术和制造业深度融合、大力发展先进制造和智能制造。数字化转型也是我国制造业提高产品质量和生产管理效率的重要途径。虽然我国制造业发展取得了长足进步，但现实地看，大部分制造业企业仍处于较低发展阶段。在此基础上的制造业数字化转型，既包括企业进行信息化（数字化）改造，也包括少数已经有基础有实力的企业将大数据、人工智能等技术深度应用于供应、制造、销售、服务等环节，进入网络化、智能化发展阶段。近年来，为促进包括传统制造业在内的制造业转型升级，我国不断完善制度环境，出台了一系列战略规划和政策措施，推动我国制造业数字化水平不断提升，处在产业发展前沿的工业互联网应用也在不断拓展。国务院印发《关于深化制造业与互联网融合发展的指导意见》等，对制造业数字化转型进行了全面部署；工业和信息化部、财政部等部门相继印发《智能制造发展规划（2016-2020年）》《工业互联网发展行动计划（2018-2020年）》等，明确了制造业数字化转型的具体目标和重点任务。这些文件就技术研发、成果应用、重点领域突破以及金融、财税、人才、基础设施、质量基础、信息安全、服务平台等方面给出了支持政策与措施，发挥了卓有成效的推动和促进作用。与此同时，我国信息化、工业化发展水平也持续上升，但数字化转型仍需加力。工业和信息化部发布的《中国两化融合发展数据地图（2017）》显示，研发、制造、营销等环节的数字化指标值较高，集成互联、智能协同指标值较低，说明制造业数字化改造进展较快，但在网络化、智能化方面的数字化转型进展依然较慢。值得关注的是，我国工业互联网应用规模正在迅速扩大。工业互联网是制造业数字化转型的前沿技术应用，发展工业互联网已经成为各主要工业强国抢占制造业竞争制高点的共同选择。工业互联网技术主要应用在产品开发、生产管理、产品服务等环节。工业互联网的主要应用模式和场景可归纳为以下四类：一是智能产品开发与大规模个性化定制；二是智能化生产和管理；三是智能化售后服务；四是产业链协同。在产品开发和服务环节应用工业互联网技术的企业，一般致力于开发智能产品，提供智能增值服务；在生产管理环节应用工业互联网技术的企业，一般主攻发展数字工厂、智能工厂。从调研情况看，我国在产品和服务环节应用工业互联网技术的企业，远远多于在生产管理环节应用工业互联网技术的企业。还要看到，工业互联网平台为制造业数字化转型提供了服务和支撑。工业互联网平台可以分为通用平台、行业平台、专业平台，它们都可以直接为用户提供服务，但更多的情况是：通用平台为行业平台提供服务，行业平台为专业平台提供服务，专业平台为用户提供服务。目前，我国已有一批工业互联网平台实现了规模化商用。数字化转型面临诸多难点尽管我国制造业数字化转型已经取得了一定成效，但阻碍行业发展的难点问题依然不少。一是缺乏权威的数据标准。制造业企业每天产生和利用大量数据，比如，经营管理数据、设备运行数据、外部市场数据等。但是，工业设备种类繁多、应用场景较为复杂，不同环境有不同的工业协议，数据格式差异较大，不统一标准就难以兼容，也难以转化为有用的资源。目前，我国已有全国信息技术标准化技术委员会、智能制造综合标准化工作组、工业互联网产业联盟等多个从事相关标准研发的机构，制定了《国家智能制造标准体系建设指南（2018年版）》《工业互联网标准体系框架（版本1.0）》等文件，但具体标准的研制和推广工作刚刚启动，市场接受度还不够高。二是数据安全有待保障。工业数据的安全要求远高于消费数据。工业数据涵盖设备、产品、运营、用户等多个方面，在采集、存储和应用过程中一旦泄露，会给企业和用户带来严重的安全隐患。数据如果被篡改，可能导致生产过程发生混乱，甚至会威胁城市安全、人身安全、关键基础设施安全乃至国家安全。目前，各种信息窃取、篡改手段层出不穷，单纯依靠技术难以确保数据安全，相关惩罚措施亦不到位，不能给数据窃取、篡改者足够的威慑。三是数据开放与共享水平尚需提高。随着数字经济发展，企业对外部数据的需求呈现不断上升的趋势，包括产业链上下游企业信息、政府监管信息、公民基础信息等，将这些数据资源进行有效整合才能产生应用价值，但前提是这些数据能够被获得。目前，政府、事业单位等公共部门的数据仍处于内部整合阶段，对社会公开尚需时日。在社会数据方面，对哪些数据可以采集并独享、哪些数据能采集但必须共享、哪些数据不能采集还缺乏详细规定。四是核心关键技术能力不足，信息基础设施和制造业数字化转型的基础相对薄弱。当前，关键工业软件、底层操作系统、嵌入式芯片、开发工具等技术领域基本被国外垄断；我国能够生产的工业传感器与控制产品大多集中在低端市场；控制系统、平台数据采集开发工具等领域的专利多为外围应用类，缺少核心专利。此外，虽然我国信息基础设施供给能力显著增强，但发展不平衡矛盾依然突出。以上这些都在一定程度上制约了制造业数字化转型的进程。推动转型需进一步改善发展环境数字化转型是制造业自身发展的现实需要，这一进程中遭遇的多数问题应由市场解决，市场也有能力解决。但是，发展环境的改善需要政府的积极推动，在这方面要更好发挥政府作用。完善支持鼓励政策，促进制造业数字化改造。通过技术改造贷款贴息、搬迁补助、职工安置补助、加速折旧、产业引导基金投资等方式支持和鼓励企业进行数字化改造；通过政府购买服务等方式鼓励中小企业与服务平台合作，引导中小企业通过“上云”提升数字化水平；通过试点示范，培育工业互联网平台，鼓励、支持优势企业提高工业互联网应用水平，推广网络化协同制造、服务型制造、大规模个性化定制等新模式、新业态。推动工业数据标准制定与应用，促进数据的开放共享。引导行业组织、企业研究制定工业数据的行业标准、团体标准、企业标准。梳理现有国家标准，适时将成熟的行业标准、团体标准上升为国家标准。加强标准体系与认证认可、检验检测体系的衔接，促进标准应用。加快公共数据开放进程，促进数据资源的高效利用。建立健全社会数据采集、存储、交易等制度，保障数据有序、规范应用。加强数据安全保护体系建设。强化工业数据和个人信息保护，明确数据在使用、流通过程中的提供者和使用者的安全保护责任与义务；加强数据安全检查、监督执法，提高惩罚力度，增强威慑力；严厉打击不正当竞争和违法行为，如虚假信息诈骗、倒卖个人信息等，引导、推动行业协会等社会组织加强自律。加强核心技术攻关，夯实技术基础。加大对通信、网络、人工智能、核心器件、基础软件等领域的技术研发资助力度，加强底层操作系统、嵌入式芯片、人机交互、工业大数据、核心工业软件、工业传感器等核心技术攻关。增加企业牵头的科研项目数量。完善政府采购制度，加大采购力度，从需求侧拉动技术发展，帮助新技术、新产品进入市场。围绕制造业数字化转型要求，增强信息基础设施支撑能力。适应数字经济发展对信息基础设施的要求，现有信息基础设施仍需加强普遍服务。与此同时，数字工厂、智能工厂对信息基础设施的要求远高于消费互联网，基于明确需求和应用场景的5G建设在工业领域可以适当加快。加强国际合作，提升国际影响力。当前，美国、德国正在合作探讨工业互联网参考架构（IIRA）和工业4.0参考架构模型（RAMI4.0）的一致性，最终有可能形成统一的架构。我国应发挥产业门类齐全、市场规模大、数据资源丰富等优势，谋求与其他国家的深入合作，并引导行业组织在国际合作方面进一步发挥作用。统筹规划，与再就业培训、社会保障体系有机结合。制造业数字化转型将大幅提高企业的智能化水平、减少普通就业机会。同时，旧有的知识、技能不能适应数字工厂、智能工厂要求的劳动者也难以适应数字化的服务业的要求。对于可能出现的新情况，相关部门需及早谋划、做好预案，通过技能培训、提供公益性岗位等化解就业压力，同时切实发挥社会保障体系的作用。

来源：大数据中国

发布时间：2019-06-15 21:52:00

商业数据分析服务商 ThoughtSpot 获 1.45 亿美元融资，下一步是 IPO | 数据分析网首页分类阅�

美国时间 5 月 8 日， 36 氪之前报道过的商业分析软件服务商 ThoughtSpot 宣布，获得 1.45 亿美元的 D 轮融资，本轮参投的包括新加入的 Sapphire Ventures，以及现有投资者 Lightspeed Ventures、Khosla Ventures、General Catalyst 和澳大利亚政府未来基金。本轮过后，ThoughtSpot 获得的融资总额达到 3.06 亿美元。根据风投数据平台 PitchBook 的信息，ThoughtSpot 本轮估值为 9.5 亿美元。据路透社报道，本轮融资是 ThoughtSpot 预计的两倍多，可能是上市前最后一轮融资，将会在两年内进行 IPO。 ThoughtSpot 想为企业提供使用门槛较低的大数据分析服务，让不懂技术的业务人员较快上手，致力于成为商业分析领域的 Google。为此，提供了名为 SpotIQ 的引擎，收费最低 7 万美元每年，同样的业务由人工处理则需要约 10-1500 万美元每年，使用软件更能节省成本。本轮资金将被用于雇佣更多员工，继续开拓北美、欧洲以及亚太市场。目前，Thoughtspot 软件支持英语、日语及德语，计划开放西班牙语、法语、葡萄牙语以及简体中文。公司现有 3 个研发中心，分别位于印度班加罗尔、西雅图以及达拉斯，新的资金也将投入这些研发中心，加强软件性能。目前，Thoughtspot 仍未能盈利。对此，创始人兼CEO Ajeet Singh 解释道，公司正在用融资来发展业务，“并不想建立一个盈利的估值 1000 万美元的公司”，而是希望 “以后能盈利”。近日上市的云存储企业 Dropbox 也是处于亏损状态，Dropbox 的策略是免费增长模式，想自下而上、从个人到企业提高付费比例。同样，Thoughtspot 也想先获得用户，培养好用户习惯之后，再发展更多付费业务。根据 International Data 的研究，到 2020 年，全球大数据和商业分析市场将超过 2030 亿美元。Thoughtspot 面临的行业竞争也十分激烈，微软、亚马逊这样的巨头都在提供商业分析服务，可视化数据分析巨头Tableau software 也占据着大量份额。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-10 12:24:00

成果概览 | 联合国发布世界数字经济报告发布

北京时间6月10日晚，联合国以全球直播的方式，发布《数字相互依存的时代——联合国数字合作高级别小组报告》，这一报告由马云与梅琳达·盖茨担任联合主席的联合国数字合作高级别小组提出，被视为引领全球数字经济未来发展的纲领性报告。这也是马云作为联合国数字合作高级别小组联合主席近一年后，该小组抛出的第一份重磅报告。该报告强调，数字经济给全球带来的机遇大于风险，倡议各方秉承以人为本的普惠思维，重构治理方式，建立更适应数字时代的发展机制。报告发布时，联合国秘书长古特雷斯和马云，梅琳达·盖茨进行了现场对话。古特雷斯对报告给予了高度评价，他认为这份报告为全世界在这方面的讨论提供了很好的基础。 “2020年是联合国成立75周年，我希望这份报告能奠定我们明年和未来讨论的基础。”古特雷斯说，他将向联合国193个成员国介绍这份报告。而联合国数字合作高级别小组，也被古特雷斯高度称赞，他说道：“我相信联合国还从没有过这么多元、富有智慧和全身心投入的小组。” 据了解，联合国数字合作高级别小组共有20名成员，除了马云和梅琳达·盖茨两位联合主席，还包括全球网络空间稳定委员会主席玛丽娜·卡尤兰德，挪威、瑞士、阿联酋和博茨瓦纳等国的四位部长，以及图灵奖得主、“互联网之父” 温顿·瑟夫，诺贝尓经济学奖得主让·梯若尔等。 “令人印象深刻的是，通常当我们有一群很有智慧的人时，就很难有一个很有智慧的团队。但事实是，你们不仅是一群很有智慧的人，也是一个很有智慧的团队。因为你们产出了一份非常完整、富有洞见的报告。关切的广泛性和呈现的整体思想，给我留下了非常深刻的印象。这还是一份非常谦逊的报告，来自一群如此杰出的人士。”古特雷斯说。古特雷斯对《报告》乃至联合国数字合作小组的积极评价，凸显出联合国对数字经济的高度重视。显而易见，数字经济报告是关于全球数字经济发展的一份重磅文件，联合国选择在此时发布这一报告，有着深刻的现实背景和中长期意义。数字经济与全球化浪潮息息相关。随着国际形势的新变化，全球化正在遭遇新的考验，因而，捍卫全球化和多边机制，成为联合国在当下的一项紧迫任务。而今天的数字经济，实际上正是全球化的最佳代表，它把不同经济体，不同个体深度连接在一起。正如报告所指出的“数字化使人类的相互依存性不断加强”，从这个意义上，不断加强和巩固数字经济，也是对全球化的有力支撑。除此之外，数字经济天然具有普惠的特征。《报告》援引的案例指出，数字技术正在帮助妇女、青年、乡村地区人群等群体更好地实现可持续发展，超过1000万的中小企业和个人卖家在淘宝上销售，近一半的淘宝店主是女性，每年新开店的淘宝店主平均年龄只有26岁。金融科技的普惠性更带来实实在在的红利，蚂蚁金服旗下的网商银行成立三年多已经服务了1500多万小微商家。作为联合国数字合作高级别小组的联合主席，马云对数字经济的普惠性有深刻的洞察，马云说：“在卢旺达，农民用手机可以把咖啡卖到中国东南亚。如果现在人民没有互联网，比当初没有电还严重。全球化没有错，但普惠不够。” 马云指出，现在互联网能够帮助很多小企业、年轻人和女性，而数字经济报告也支持同样的看法，并建议将更多中小企业、妇女、青年、乡村居民等多元化群体纳入全球数字治理的体系。联合国如此重视数字经济的普惠性，原因不难理解，数字技术在对普通人尤其是相对弱势群体的赋能效应，正契合联合国以人为本和实现人类繁荣的宗旨。再者，数字经济需要新的全球制度框架。客观来说，全球无论是各国的法律法规，跨国的治理机制，乃至于数字技术的全面普及，数字技术普及相关的教育革新，和全球数字经济强劲的发展需求相较，都还处在相对滞后的状态。要想让数字经济最大限度地发挥增长引擎、全球化驱动力和普惠加速器的功能，就必须从源头上制定一系列鼓励数字经济发展的行之有效的措施。而联合国出台数字经济报告，将发挥全球政策倡议的功能。值得关注的是，全球数字经济发展还面临着不少挑战和质疑，一些人对数字经济持怀疑态度，主张对数字经济进行过于严苛的监管。联合国在此时公布《报告》，显然是向全球发出明确信号，全球都应该为数字经济提供包容性成长的政策环境。

来源：大数据中国

发布时间：2019-06-15 21:36:00

机器人视觉系统组成及定位算法（难得的好资料）

机器人研究的核心就是：导航定位、路径规划、避障、多传感器融合。定位技术有几种，不关心，只关心视觉的。视觉技术用到“眼睛”可以分为：单目，双目，多目、RGB-D，后三种可以使图像有深度，这些眼睛亦可称为VO（视觉里程计：单目or立体），维基百科给出的介绍：在机器人和计算机视觉问题中，视觉里程计就是一个通过分析处理相关图像序列来确定机器人的位置和姿态。当今,由于数字图像处理和计算机视觉技术的迅速发展,越来越多的研究者采用摄像机作为全自主用移动机器人的感知传感器。这主要是因为原来的超声或红外传感器感知信息量有限,鲁棒性差,而视觉系统则可以弥补这些缺点。而现实世界是三维的，而投射于摄像镜头（CCD/CMOS）上的图像则是二维的，视觉处理的最终目的就是要从感知到的二维图像中提取有关的三维世界信息。系统基本组成： CCD、PCI、PC及其外设等。 CCD/CMOS 一行硅成像元素，在一个衬底上配置光敏元件和电荷转移器件，通过电荷的依次转移，将多个象素的视频信号分时、顺序地取出来，如面阵CCD传感器采集的图像的分辨率可以从32×32到1024×1024像素等。视频数字信号处理器图像信号一般是二维信号，一幅图像通常由512×512个像素组成(当然有时也有256×256，或者1024×1024个像素)，每个像素有256级灰度，或者是3×8bit，红黄兰16M种颜色，一幅图像就有256KB或者768KB(对于彩色)个数据。为了完成视觉处理的传感、预处理、分割、描述、识别和解释，上述前几项主要完成的数学运算可归纳为： (1)点处理常用于对比度增强、密度非线性较正、阈值处理、伪彩色处理等。每个像素的输入数据经过一定关系映射成像素的输出数据，例如对数变换可实现暗区对比度扩张。 (2)二维卷积的运算常用于图像平滑、尖锐化、轮廓增强、空间滤波、标准模板匹配计算等。若用M×M卷积核矩阵对整幅图像进行卷积时，要得到每个像素的输出结果就需要作M2次乘法和(M2-1)次加法，由于图像像素一般很多，即使用较小的卷积和，也需要进行大量的乘加运算和访问存储器。 (3)二维正交变换常用二维正交变换有FFT、Walsh、Haar和K-L变换等，常用于图像增强、复原、二维滤波、数据压缩等。 (4)坐标变换常用于图像的放大缩小、旋转、移动、配准、几何校正和由摄影值重建图像等。 (5)统计量计算如计算密度直方图分布、平均值和协方差矩阵等。在进行直方图均衡器化、面积计算、分类和K-L变换时，常常要进行这些统计量计算。视觉导航定位系统的工作原理简单说来就是对机器人周边的环境进行光学处理，先用摄像头进行图像信息采集，将采集的信息进行压缩，然后将它反馈到一个由神经网络和统计学方法构成的学习子系统，再由学习子系统将采集到的图像信息和机器人的实际位置联系起来，完成机器人的自主导航定位功能。 1）摄像头标定算法： 2D-3D映射求参。传统摄像机标定主要有 Faugeras 标定法、Tscai 两步法、直接线性变换方法、张正友平面标定法和 Weng迭代法。自标定包括基于 Kruppa 方程自标定法、分层逐步自标定法、基于绝对二次曲面的自标定法和 Pollefeys 的模约束法。视觉标定有马颂德的三正交平移法、李华的平面正交标定法和 Hartley 旋转求内参数标定法。 2）机器视觉与图像处理： a.预处理：灰化、降噪、滤波、二值化、边缘检测。。。 b.特征提取：特征空间到参数空间映射。算法有HOUGH、SIFT、SURF。 c.图像分割：RGB-HIS。 d.图像描述识别 3）定位算法：基于滤波器的定位算法主要有KF、SEIF、PF、EKF、UKF等。也可以使用单目视觉和里程计融合的方法。以里程计读数作为辅助信息,利用三角法计算特征点在当前机器人坐标系中的坐标位置,这里的三维坐标计算需要在延迟一个时间步的基础上进行。根据特征点在当前摄像头坐标系中的三维坐标以及它在地图中的世界坐标,来估计摄像头在世界坐标系中的位姿。这种降低了传感器成本,消除了里程计的累积误差,使得定位的结果更加精确。此外,相对于立体视觉中摄像机间的标定,这种方法只需对摄像机内参数进行标定,提高了系统的效率。定位算法基本过程：简单的算法过程，可基于OpenCV进行简单实现。输入通过摄像头获取的视频流（主要为灰度图像，stereo VO中图像既可以是彩色的，也可以是灰度的），记录摄像头在t和t+1时刻获得的图像为It和It+1，相机的内参,通过相机标定获得，可以通过matlab或者opencv计算为固定量。输出计算每一帧相机的位置+姿态基本过程 ● 获得图像It,It+1 ● 对获得图像进行畸变处理 ● 通过FAST算法对图像It进行特征检测，通过KLT算法跟踪这些特征到图像It+1中，如果跟踪特征有所丢失，特征数小于某个阈值，则重新进行特征检测 ● 通过带RANSAC的5点算法来估计两幅图像的本质矩阵 ● 通过计算的本质矩阵进行估计R,t ● 对尺度信息进行估计，最终确定旋转矩阵和平移向量

来源：大数据中国

发布时间：2019-06-15 21:34:00

林丽：宝洁IT 20年，从商业流程、模式到文化的数字化变革

6 月13日，Morketing创始人兼CEO曾巧女士受邀参加了宝洁中国在广州举办的主题为“新时代，新宝洁”的《2019宝洁之家》活动。会上，宝洁大中华区首席信息官（CIO）林丽（Jerry Lin）女士演讲分享了宝洁从商业流程到商业模式的数字化转型。以下为演讲实录，经Morketing整理：我在IT界从业时间已超过23年。最早主要做网络方面工作，之后很多年，从事供应链管理跟零售IT解决方案。最近几年，我一直做的是营销解决方案相关工作，这个过程中我发现大数据变得越来越重要，在2016年的时候我和业内两个CIO（壳牌中国零售CIO徐斌、GE发电服务中国及亚太区CIO王晓冬）共同写了一本叫作《大数据管理》的书，主要是讲如何用大数据帮传统企业做商业变革。很荣幸，我服务宝洁22年中去过很多不同的国家。我在澳洲、日本和美国都工作过几年，其中一半以上的时间都是在管理亚太区和全球IT解决方案。从去年年初开始，我来到中国接手CIO工作，开始重点打造中国的数字化业务进程。借此，我想谈一谈我在宝洁的20多年中，看到的那些翻天覆地的IT变化。宝洁IT变迁史：4个阶段第一个阶段是电子办公。在二十几年前，IT的角色更多是体现在电子办公。很多时候我们在帮助业务人员能够有很好的计算机使用，接通网络，使用email，使用简单的电子化审批流程等。在二十多年前，宝洁公司销售人员能用移动电脑去跑店铺，这件看似简单的事情都非常值得骄傲。但很快，这就无法满足我们的业务需求。第二个阶段是生意流程管理。主要是如何利用系统帮我们管理产品的生产、运输跟订单的处理和交付、端到端的物流管理，包括怎么收钱、付钱，我们的资产、现金等整个财务的管理，最终使我们的生意管理能够更有序、有效。第三个阶段是生意流程变革。在过去的五六年中，IT的角色发生了很大的变化，主要着重于两个方面：一个是生意流程的变革；另一个是消费者体验的提升。第四个阶段是生意模式变革。 IT环节会接触到公司的方方面面，从公司的研发、生产、分销、销售、市场营销和消费者接触，没有任何一个环节是不需要IT的，涉及到了整个公司的方方面面。在去年，宝洁专门成立了一个叫“宝洁科技创新”的新公司，专注于打造公司的数字变革。在这个过程中，我们团队的人数翻了一倍，预计在三年内投资3亿人民币的计划，在刚刚过去一年多，我们也已经花完了一半。未来，我们将继续培养、储备数字化人才，并继续在数字化变革方面加大投资力度。在推进这一数字化的变革中，我们的中国领导团队提出了一个愿景—— 做中国最好的数字变革和大数据实体公司。在此愿景下，数字化变革已经成为我们公司非常重要的品牌建设跟生意增长的抓手。接下来我就着重从流程变革、模式变革、企业文化变革三大块为大家一一详细解读。流程变革：让生意变得更好商业流程的变革分为3个阶段：第一个阶段是数字化。通过把线下资料线上化，让以往的纸质版文件、Excel表中记录的办公信息都转变为公司系统中的数字化资产，完成数据资产的原始积累。第二个阶段是流程优化。通过数据分析和建模的方式，提升流程设计和决策能力，并最终达到我们所期望的最佳结果。第三个阶段是自动化。通过机器让我们的决策和流程更加自动化。在这个过程中，我们主要着重于两种类型的流程：首先是劳动密集型流程。在快消品行业，订单处理、客户服务、店内执行都是需要大量人工去做重复性的工作，这就使得我们有了非常多的机会实现流程的优化和自动化；其次是高度复杂性流程。人脑能处理的信息量非常有限，当我们需要考虑多方因素，甚至是基于海量数据做出精准决策时，人脑就不得不借助人工智能（AI）机器学习的能力了。对于宝洁来说，广告采购计划、运输计划、供给需求计划、店内运营计划等一系列计划都非常复杂。我们只有借助机器学习的能力才能把这些工作做到最好。用3个例子来做进一步说明：第一个例子是门店拜访。我们有大量的人员是做门店拜访工作，他们每到一家门店，首先会查看货架上有什么产品，需要补什么货，货架是否按我们原本的设计在摆放。光这些“数货架”的工作就要平均花掉他们两个小时左右的时间，然后才知道自己接下来应该要做什么。而这项工作在我们宝洁看来，完全是一项可以被技术优化的工作。于是，我们就在今年推出了一个智能解决方案，只要门店拜访人员把拍下的货架照片传到云端服务器，我们就可以在10秒钟之内告诉他需要补什么货，货架是否需要改变，极大地提升了工作效率，节省下来的时间也就可以让工作人员跑更多的店。这就是用人工智能的方式解决了劳动密集型的工作问题。第二个例子是消费者热线。消费者客服机器人能够通过语音的方式跟消费者互动，解决很多问题，尤其是员工下班以后，消费者热线电话的工作处理。第三个例子是广告采买。宝洁每年都会推出大量的广告，如何让广告的采买更具有效性，如何最优化地购买广告资源，对于我们来说非常重要，但与此同时，这也是一项非常具有难度跟挑战的复杂性工作。假如洗化品类有一笔广告预算，从广告形式上我们会考虑视频广告、社交广告、电商广告、电梯广告等，到底哪些形式最有效，花多少钱最合适。如果选择视频广告，又会考虑爱奇艺、优酷、腾讯视频等平台哪家适合我们。从地域考虑的话，广州、北京、湖南等地区又应该投多少钱、多少人，以及什么人群，投多少美妆人群、多少关注健康的人群、投多少次，我们至少需要考虑二三十个投放参数。从这宝洁目前总体的广告购买量来看，一个月我们就有2000到2000万个投放参数的组合。如何从2000万个组合中找出最佳的预算分配和购买方式，依靠人工是无法做到的。于是我们就引入了优秀的数学科学家为我们做了大量的机器学习和建模的工作，最后，成功地预测出了这2000多个组合中哪一种组合是最优的，大大优化了我们媒体购买的效率。在宝洁今年的数字化工作进程中，类似的复杂性案例我们还有很多，比如如何分配车辆，走哪一条高速公路运输最好，怎样装载货物才是最优等一系列复杂的问题，人工智能都可以很好地优化工作。模式变革：让生意模式发生改变商业模式的变革我们主要看3个方向：第一个是新品和服务。如何通过人工智能技术和大数据的能力帮助我们做出更好、更符合消费者的新品。希望宝洁公司能从一家只提供产品的公司逐渐转为一家提供服务的公司。比如，我们为消费者提供了皮肤检测跟健康检测服务，另外，我们也布局了AIoT的产品；第二个是新渠道。我们如何才能找到消费者跟品牌之间新的互动方式。比如，在今年1月份拉斯拉斯维加斯的CES上，我们就展出了一个叫Girl Box（女生盒子）的创新产品，它是利用工智能和电子支付的技术，在女生洗手间里提供我们的护舒宝产品。这不仅解决了消费者痛点，也在品牌跟消费者之间建立起了新的触点。这样一个新的服务体验跟消费者互动的方式，不但为消费者带来了新的尝试机会，也为其提供了新的购买渠道。第三个是新供应链。希望通过数字和智能的方式，让宝洁从一家传统的制造型企业逐渐转型为一家在新时代下能跟消费者有更多互动，可以给消费者更多服务体验，以及弹性供应链能力更强的新型公司。在变革过程中，我们非常注重数字化营销的升级，并一直致力于研究如何通过大数据洞察的方式驱动品牌的建设跟创新，如何跟消费者建立全渠道的1—1关系，如何做更精准的营销和互动。两个例子说明：第一个是数字化。宝洁每天跟中国的消费者通过广告、社交媒体、产品等方式有超过1亿次的接触。我们如何让这些接触全部数字化，加深对每一位消费者的了解，进而提供给每一个消费者更好的服务跟更个性化的内容，也能够让他跟品牌越走越近，当然，这个背后最考验我们的还是大量的技术和数字平台的投入，把消费者每一个触点都连接起来。第二个是智能化。针对所有品类的产品，我们将逐渐用人工智能做更多的测试和推荐工作。比如，消费者通常在买护肤品的时候，有个很大的痛点就是不知道自己的皮肤有什么问题，也不知道在众多的品牌中该用哪个产品。所以在线下柜台，我们每年都会更新皮肤测试和推荐分析的设备和技术，但是现在越来越多的人其实是在线上买东西。那如何能让线上买化妆品的人也能够体会到同样的测试跟推荐服务，就是我们一直想要解决的问题。于是，宝洁就推出了一个叫“肌龄测测” 的黑科技。通过大量对精密面部区域的研究跟全球大数据的积累，我们用深度学习的算法用一张照片就可以对皮肤做一次分析。首先它会给你的皮肤估算一个年龄，然后跟自己的真实年龄做一下对比；第二它会告诉你皮肤的哪些区域会有什么样的问题。那通过这样的分析，它就可以给你推荐最适合你皮肤的产品以及使用的方法，大大解决了消费者痛点，并提升了品牌跟消费者的互动满意度。企业文化变革：新时代人才要具备DQ 企业的数字化变革，其核心还是在人，只有人才可以真正把技术落地并创造价值。企业数字化的文化变革是最为重要的一环，这就需要我们公司的每一位员工都去拥抱数字化文化，驱动数字化的进程。这不是说只是公司哪个部门的事，或只是IT部门或Marketing部门的事，这是公司每一个部门的人都需要一起来推动的事。之前，我们说怎么界定一个团队的领导是否好，哪些人能够合格地领导团队，很多时候我们都在他的IQ（智商）跟EQ（情商），现在我们提出来，在领导团队的评估中，DQ（数商）也是一个非常重要的指标。所以，在这个新时代中，领导一定要有DQ才能够带领我们全体员工一起在数字化进程中做出巨大的突破。我相信在宝洁，我们的领导团队都有非常高的智商、情商和数商，一定会带领宝洁阔步向前，在新的数字化时代下依然能够引领业界。

来源：大数据中国

发布时间：2019-06-15 19:47:00

结合AI让系统自主编程，Gamalon获英特尔领投的2000万美元A轮融资 | 数据分析网首页分类阅�

数据通常被成为“新一代货币”，因为它能带来大量宝贵的信息，从而为公司创造价值。但是如果过滤其中的噪声，并将非结构化数据进行整理，是一个难题。而自动化和人工智能就能在这方面起作用。马赛诸萨州创企Gamalon专注于自然语言处理的机器学习系统，这种技术能处理数十亿条内部的信息，并提供个人回复，将想法和情感反馈给人。今日这家公司宣布获2000万美元A轮融资，领投方为Intel Capital，参投方包括.406 Ventures、Omidyar Technology Ventures、Boston Seed Capital、Felicis Ventures和Rivas Capital。 Gamalon创建于2013年，之前它一共获得了1200万美元融资。本轮融资后，公司表示会投资研究开发，并加大针对企业的销售和营销力度。 Gamalon想要解决的问题就是：公司搜集的大多数数据都不是存在于整齐、标号行列的电子表格内。这些数据包括电子邮件通讯、调查报告、反馈表哥、电话转写、产品回复等。它们存在的形式多种多样，因此想要靠人力将这些数据转换成有意义、可操作的见解，就非常困难。另外语言是复杂且存在细微差别的——几个词语可以表达好多种意思。许多外部的机器人客服工具也在努力理解客户的情感和提问。但Gamalon想要从循规蹈矩的、依赖常规训练的机器学习系统和深度学习技巧，跨越到“将想法教给计算机”。也就是我们所说的非监督学习。 Gamalon的平台能为其他公司提供“精准、可编辑、可解释的”处理能力，帮助处理内部的客户信息和其他形式的非结构化数据。公司表示自己的平台已经能够处理自然语言，并解释它背后的意思。“我们创造了一种人工智能模型，你只需要直接和它对话，Gamalon就能明白你想要表达的意思，接着它就会自动生成一个新的模型用以处理其他新的输入和信息。”公司的一位发言人告诉外媒。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-09 16:10:00

智博会盛大开幕：智慧城市生长力频获“点赞”

６月１４日，２０１９（第五届）中国智慧城市博览会在北京展览馆正式召开，锐捷网络受邀参加并展出了以“成长力”为主题的智慧城市全系列解决方案，吸引众多业内专家、各级领导参观咨询。图／智博会现场　嘉宾排队参观锐捷网络展台新型智慧城市：回归与理性２０１９年是智慧城市理念进入中国的第１１年，目前这套以信息技术为基础的城市发展战略已经从最初的探索，逐步进入适配城市经济发展的落地阶段。为此，锐捷网络提出了当下国内智慧城市发展容易被忽略的三个关键问题，即万物互联带来的泛载接入挑战、数据融合带来的运营管理挑战，以及开放生态带来的安全管控挑战。锐捷网络政府行业总经理李晓丽谈到：“之前我们的智慧城市发展集中在应用这个层面上，希望尽快让城市居民感受到数字科技为生活带来的便利。而近几年随着大量智慧城市项目的落地，基础网络是否足够承载当下以及未来智慧城市发展就成了大家最关心的问题。” “智慧”与城市经济共同发展在本次智慧城市博览会上，锐捷网络整体展出了针对智慧城市配合城市经济发展的“四网一端两平台”互动连接解决方案。图／锐捷智慧城市构架图 “四网”即全面覆盖城市的无线网、万物互联的物联感知网、可靠连接的移动互联网、可管可控的有线政务网。这样的设计不仅能够把城市生活的日常网络需求进行满足，还能针对性的让城市管理、跨领域的终端数据接入等复杂体系变成可管可控可视的发展体系。 “一端”为云桌面，以不改变办公ＰＣ使用习惯为前提，网络云桌面可以让政务办公终端做到统一管理、高效运维，并且具备超过ＰＣ的专业软件适配性，以及政府数据不落地，以此来确保业务高持续性与数据安全保障。 “两平台”则是更加针对目前智慧城市发展中出现问题的“ＩＴ运维”与“信息安全”的ＩＴ资源运营服务平台与动态安全防护平台。看不懂的数据如何辅助城市管理决策？目前锐捷网络的解决方案正在服务超过５０００个政府单位，并通过实地探索客户业务场景提出“跨越ＩＴ专业数据与实际业务管理鸿沟”的愿景。通过本次展出的ＩＴ资源运营服务平台，操作人员可以直观的看到信息化全局，并细节把握每个信息节点的状况。图／ＲＩＩＬ－ＢＭＣ　综合业务管理中心操作界面同时这样的平台设计也可以最大化节省运维成本，平台可以实现实时了解城市ＩＴ资源的“体征”状态，从监测、预警、分析、服务、评价的闭环管理，解决城市基础设施“建了多少不知道，用的怎样不清楚，问题在哪难定位，谁来负责说不清”的老大难问题。 “军团作战”拱卫智慧城市安全城市管理信息的集中让政府部门数据中心成为了不法黑客严重的“高价值目标”，为此被动、静态的防御已经难当保护政府业务数据安全重任。为此，锐捷网络提出了“动态安全防护平台”，把传统信息安全“墙＋观测”的模式转化为了一个相互支援的“动态安全军团”。该体系在实际应用过程中能够为使用者提供不单依赖于“特征”的成长型安全防护体系，并在日常业务进行中大幅度提高整网“免疫力”。作为中国数据通信解决方案提供商，锐捷网络凭借在政府行业的１０年深耕，已经在全国３２个省实现方案落地，服务政府机构５０００余家，未来锐捷网络将秉持场景创新理念，继续致力于助推我国智慧城市向更高阶段发展。

来源：大数据中国

发布时间：2019-06-14 19:27:00

房地产大数据服务商云房数据获2000万元融资，达晨创投领投 | 数据分析网首页分类阅读 �

今日，房地产大数据服务商云房数据首次对外公布已于2016年年底完成2000万元A轮融资，由达晨创投领投。公开资料显示，2013年9月，云房数据从仁达评估独立，正式成立北京云房数据技术有限责任公司。云房数据的创始人兼董事长为闫旭东，是中国人民大学公共管理学院MPA兼职教授。团队由房产评估专家、房产估价师、软件工程师、数据分析师、市场研究等人员共同构建，公司拥有员工180余人。据介绍，云房数据作为独立的第三方房地产数据公司，以多维度房地产动态和静态数据为基础，通过大数据算法建立房地产数据生态圈，为地产、金融、地税、评估行业等多项纵深服务领域提供数据及系统集成服务，致力成为国内最大的房地产数据的平台级服务商。云房数据目前的客户案例包括：银行、信贷等金融机构对抵押房产的评估；为房地产开发商提供楼盘数据系统，辅助投前交易决策；二手房交易平台上的定价；以及输出给第三方评估机构使用。值得一提的是税务场景，国家正在推进房产税的实施，对于房屋最低价格需要有评定，云房现在经已服务包括北京以及其他7个省会城市等10余个大中城市地税局30+税务项目, 独家协助财政部、税务总局进行房地产税税率税负测算。截至2018年3月，云房数据的应用城市达到了309个，并且覆盖了32万+宗土地交易数据、11000万+条二手房交易数据和7850万+套租赁房源交易数据。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-08 17:17:00

全球AI芯片公司排名出炉，中兴最近如何了？ | 数据分析网首页分类阅读行业资讯大数�

市场研究顾问公司Compass Intelligence日前发布了其关于 AI 芯片最新调研报告，报告指出，在全球前15大人工智能 (AI)芯片企业排名表中，NVIDIA英伟达成为当仁不让的领头羊，其后依次为Intel英特尔和IBM。而国产厂商华为凭借麒麟海思处理器也成功进军榜单，占据了第12名的排位。据悉，这份报告总计对100多家公司进行评估，最终名单包括24家排名最高的公司。研究结果显示，过去三年，各大公司藉由收购AI及AI新创企业，已经总共在研发、投资AI领域超过600亿美元。目前，AI新创公司就有约1700家，业界对于AI芯片组需求正逐渐扩大。据了解，AI芯片组包括提供AI芯片组的软、硬件的公司，AI芯片组产品包括：中央处理器，图像处理器，神经网络处理器，专用集成电路，现场可编程门数组，精简指令集计算器(RISC)处理器，加速器;还有一些芯片组针对边缘处理或设备、一些针对云计算中使用的服务器、以及一些针对机器视觉和自动车辆平台。这份榜单的详细排名如下： 1、NVIDIA英伟达 2、Intel英特尔 3、IBM 4、Google 5、苹果 6、AMD 7、ARM 8、高通 9、三星 10、NXP恩智浦 11、Broadcom博通 12、华为 13、Synopsys 14、MediaTek联发科 15、Imagination 16、Marvell 17、Xilinx 18、CEVA 19、Cadence 20、Rockchip 21、Verisilcon 22、General Vision 23、Cambricon 24、Horizon Robotics 据国外媒体报道，华尔街日报周五援引知情人士的话称，上层支持的中国集成电路投资基金正在为中国半导体产业的发展筹集约3000亿元人民币（合474亿美元）的新基金。该杂志援引一位消息人士的话说，这笔资金将用于提高中国设计和制造先进微处理器和图形处理单元等能力。上周，中国工业和信息化部新闻发言人兼总工程师陈因表示，该基金欢迎外商投资。昨天晚些时候，大唐电信科技股份有限公司对外正式发出公告，他们将与高通、建广等设立合资公司的方案，已经被批准通过。 2017年5月，ST大唐董事会批准，同意公司全资子公司联芯科技有限公司以下属全资子公司全部股权作为出资，参与设立中外合资企业瓴盛科技（贵州）有限公司。对于这次的合作，高通主要提供技术，而他们也希望接着这个合作，能够成功抢下中低端处理器市场，这之前可是联发科、展讯的主要发力范围。对此，大唐电信副总裁、联芯科技总经理钱国良曾对外表示，此次多方资源整合成立合资公司，将融合高通和联芯双方的先进技术，依托双方市场客户资源与本地化的技术服务能力，聚焦移动通信应用。合资公司初期计划定位在中低端领域，主攻100美元左右的全球化市场。另外，联发科昨日晚间对凤凰网科技确认，目前公司已经获得了与中兴通讯开展业务的出口许可，其对中兴通讯的出货没有进一步限制，现在双方的业务往来如常。以下是中兴通讯内部信主要内容：《坚定信心力争更短时间解决问题》在4月16日获悉美国对公司激活拒绝令后，作为在中国成长起来的全球化企业，公司始终与国家战略保持一致，坚持在中国政府的指导下积极行动，推进问题尽快解决。同时，自事件发生以来，公司积极与美国政府相关部门沟通。公司已正式向BIS提交了关于暂停执行拒绝令的申请，并根据BIS指引提交了补充材料。公司不会放弃通过沟通对话解决问题的努力，也会运用一切法律允许的手段维护自身的合法权益。公司始终把合规作为企业发展的战略基石。在获悉拒绝令的第一时间，公司下达了在激活拒绝令情况下要遵循的行为准则，严格执行EAR管控，要求全体员工牢牢守住合规底线。公司认真反思、吸取教训，加强合规内控，践行全球一流出口管制合规企业的标准。公司一直坚持核心技术自主创新，强化研发投入。2017年研发投入居国内A股上市科技公司首位。公司一季度报告显示，在未考虑拒绝令的影响下，公司实现营业收入288.80亿元人民币，同比增长12.18%，净利润16.87亿元人民币，同比增长39.01%。事件发生后，公司近八万名员工坚守岗位，以实际行动表达对公司的最大支持。同时，遍布全球范围的客户、合作伙伴、供应商等也以不同的方式表达对公司目前所处困境的理解和支持。这些都是我们坚定信念、尽最大努力解除危机的信心源泉。公司将继续保持与各方紧密沟通，尽最大努力在更短时间内解决问题。路再长也有终点，夜再长也有尽头，让我们坚定信心、满怀希望迎接黎明的到来！本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-07 08:53:00

5G，打开巨大发展空间

近日，我国正式发放5G牌照。工业和信息化部批准中国电信、中国移动、中国联通、中国广电经营“第五代数字蜂窝移动通信业务”，这意味着这四家运营商可以正式建设并运营5G网络，标志着中国通信行业进入了5G时代。中国也由此成为全球最早将5G商用服务落地的国家之一。　　5G看起来只是通信技术的又一代演进，但人们对它的期待比以往任何一次技术更新换代都要强烈。1G打电话，2G发短信，3G看图片、听音乐，4G在线直播……每一代通信技术都在前一代的基础上不断演进，但5G并不是在4G基础上的简单改变，5G打破了信息传输的空间限制，能够实现的应用场景不受想象力限制。用手机下载一部1G大小的电影只需要3秒，这种比4G快100倍的上网速度仅仅是5G“大宽带”特点的体现。　　依靠更高速率、更大连接、更低时延的特性，5G不仅解决人与人的通信问题，而且能实现人与物、物与物的万物互联。在5G网络中，虚拟现实、增强现实、8K高清视频，以及无人驾驶、远程医疗、智能家居等，将真正走向成熟应用。人们相信，作为全面构筑经济社会数字化转型的关键基础设施，5G将推动传统行业转型、数字经济创新，成为未来十年乃至更长时间内的发展新引擎，更好地支撑和服务数字中国建设，促进经济社会发展。　　在全球各国加速5G商用的趋势下，5G在中国的落地水到渠成。中国通信行业引领全球的技术积累促成了这种水到渠成。截至2018年12月28日，中国5G专利申请数量全球第一，处于全球公认的领先梯队。从1G落后、2G追随、3G突破、4G同步，到如今5G领先，中国通信技术行业的进步成为中国科技发展的一个缩影。就在5G领域，中国企业已埋头进行了近10年的创新布局和持续投入；它并非一蹴而就，而是源于几十年的追赶和全球化历练。正是在领先技术的支持下，加上全球最大的用户规模、巨大的4G网络、丰富的移动互联网应用等明显优势，5G牌照的发放可谓瓜熟蒂落。人们对此也有足够的信心：2019年作为中国5G商用元年，将成为5G应用的良好开端。　　让5G发挥好新引擎动力，关键要做大做强产业，发挥产业支撑作用。有报告预测，到2025年，5G将带动我国直接和间接总经济产出35.4万亿元，拉动300万个新增就业。如何将美好前景变为现实？如同工信部负责人所说，企业要以市场和业务为导向，积极推进5G融合应用和创新发展，聚焦工业互联网、物联网、车联网等领域，为更多的垂直行业赋能赋智，促进各行各业数字化、网络化、智能化发展。此外，面对旺盛的5G行业应用需求及5G商业合作模式的改变，需要包括运营商、设备厂商以及终端厂商在内的产业链每一环进行深入协作和沟通，优化网络体验，构建健康、完整的产业生态。　　5G标准是全球业界共同制定的国际标准，5G技术是全人类倾注心血和资源的创新之作。就像中国企业的5G技术服务全球一样，中国的5G牌照发放，既让国内亿万消费者共享5G发展成果，也是外资企业参与中国5G市场、分享中国发展成果的机会，进而共同致力于将科技造就的美好生活赋予全世界所有人。（记者薛军）

来源：大数据中国

发布时间：2019-06-14 19:21:00

Facebook 开源 AI 围棋源代码，击败职业棋手只需一块GPU | 数据分析网首页分类阅读行业资�

雷锋网 AI 科技评论消息：5 月 2 日，Facebook AI Research（FAIR）官网博客中宣布开源其 AI 围棋机器人 ELF OpenGo（包括源代码和一个训练好的模型），该机器人是基于 ELF 平台研发而成，曾击败了 4 位世界排名前 30 的围棋棋手。据雷锋网了解，该工作主要是受启于 DeepMind 的工作。今年早些时候 FAIR 启动了该项工作，期望基于其进行强化学习研究而开发的可扩展、轻量级框架（Extensible Lightweight Framework，ELF）再现 AlphaGo Zero 最近的结果。其目的则是创建一个开源实现的系统，该系统能够自学围棋进而达到人类职业棋手的水平或更高水平；同时他们也希望通过发布的代码和模型，激励更多的人去思考这项技术新的应用和研究方向。据这个项目的负责人田渊栋介绍，他们用了两千块 GPU 训练该模型，约两到三周后得到当前版本的围棋 AI模型，该模型基本上超过了强职业棋手的水平。ELF OpenGo 在与世界排名前 30 的四位职业围棋棋手（金志锡，申真谞，朴永训及崔哲瀚）的对弈中，OpenGo 以 14：0 的成绩赢得了所有的比赛；在比赛中OpenGo使用单块 GPU 每步50秒的搜索时间（每步搜索 8 万个局面），而人类棋手可以有任意长时间的思考。另外，ELF OpenGo 在与目前公开可用的、最强的围棋机器人 LeelaZero 的对一种，后者采用了除ponder外的缺省配置，以及公开权重（192×15， 158603eb , Apr. 25, 2018），结果 OpenGo 赢得了全部 200 场比赛。田渊栋博士随后在知乎上发表的一篇感想文章中提到，OpenGo 这个项目「不是为了做最好的围棋程序，不是说要打败谁」。之所以做这个项目有三个目的： (1) AlphaGoZero/AlphaZero 算法很有意思，我们想知道为什么它有效果，是怎么会有效果的，是不是如同宣传的那样是百试百灵的通用算法，是不是只要堆机器，强人工智能马上就来了？还是说其实这个算法有什么问题和弱点？DeepMind 不开源也不透露细节，文章里面一些地方也没有写得很清楚。我之前写过 Blog 讨论过，但是没有第一手经验总不是很踏实。所以本着研究目的，我们需要复现一下，先有复现，才有创新，这个是做研究的习惯。 (2) 今年年初我重写了 ELF 的核心代码，另外也加了分布式训练，需要找个具体应用来测试一下。站在这个角度上，AlphaGoZero/AlphaZero 是个完美的选择，再说之前也有 DarkForest 的代码和围棋程序的经验，所以把它们拼起来不用花太多力气。 (3) 不管是通用算法还是分布式平台，都可以用来干很多别的事情，不一定是围棋，不一定是游戏。如果我们去看 ELF OpenGo 的代码，会发现其实很大一部分和围棋一点关系也没有，完全适用于其它方向的工作。而围棋对我们来说，只是一个把算法和平台做好的手段。在这一点上，花点时间把围棋做好是值得的。田渊栋博士表示，随着今天 ELF OpenGo 的发布，这三个目的都已达到。当然，他们更希望的是能够借此机会推广一下 ELF 平台和 PyTorch 深度学习框架，让更多的人使用和完善它。代码见： https://github.com/pytorch/ELF 模型见： https://github.com/pytorch/ELF/releases 英文 blog 见： https://research.fb.com/facebook-open-sources-elf-opengo/ ELF 平台 ELF 平台是一个可扩展、轻量级且非常灵活的游戏研究平台，尤其适用于实时战略（RTS）游戏的研究，于 2016 年 6 月首次发布。在 C++端，ELF 与 C++线程同时托管多个游戏；而在 Python 端，ELF 可以一次返回一批游戏状态，这使得其对现代的强化学习非常友好。相比之下，其他平台（例如 OpenAI Gym）则只是使用一个 Python 界面封装一个单一的游戏，这种情况使得并发游戏（许多现代的强化学习算法都有此要求）的执行就变得比较复杂。 ELF 具有以下特征：端到端： ELF 为游戏研究提供了端到端的解决方案。它提供微型实时策略游戏环境、并行模拟、直观的 API、基于 Web 的可视化，并且还具有由 Pytorch 授权的强化学习后端，资源需求最少。可扩展性：任何具有 C / C ++接口的游戏都可以通过编写一个简单的包装器插入到这个框架中。轻量级： ELF 运行速度非常快，开销很小。在一台 MacBook Pro 上，基于 RTS 引擎构建的简单游戏（MiniRTS）使用 ELF 平台，能够单核每秒运行 40K 帧；而只使用 6 块 CPU+1 块 GPU 从零开始训练 MiniRTS，也只需要六天。灵活性：环境和参与者之间的配对非常灵活。例如单个 agent 与单个环境（例如 Vanilla A3C）、多个 agent 与单个环境（Self-play/MCTS），或者单个 agent 与多个环境（BatchA3C、GA3C）等。而且，任何构建在 RTS 引擎之上的游戏都可以完全访问其内部表示和动态。随着这次 OpenGo 的开源，FAIR 也对 ELF 平台进行了改进，升级了更高效、更友好的 API 以及支持对数千台计算机进行分布式计算的框架。作为 PyTorch 的一部分，ELF 能够是研究人员能轻松地尝试不同的强化学习思想，并进行快速、灵活的实验。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-06 08:59:00

央行：要加快建立覆盖全社会的征信系统 | 数据分析网首页分类阅读行业资讯大数据统

日前，2018年人民银行征信工作会议在深圳召开。会议坚持以习近平新时代中国特色社会主义思想和党的十九大精神为指导，深入贯彻落实中央经济工作会议、全国金融工作会议和人民银行工作会议精神，总结2017年征信工作，分析当前的新形势新任务，部署2018年征信工作。人民银行党委委员、副行长陈雨露出席会议并讲话。会议充分肯定了2017年征信工作取得的成绩。过去一年，人民银行征信系统加强我国征信业发展顶层设计，实施“政府+市场”双轮驱动征信发展模式，批设首家市场化个人征信机构，牢牢守住征信信息安全防控底线，加快推进二代征信系统建设，进一步规范信用评级市场管理，持续扩展社会信用体系建设和信用文化教育影响面，党风廉政和征信干部队伍建设取得新进展。会议强调，2018年征信工作要坚持问题导向和目标导向相结合，紧扣经济高质量发展、社会主要矛盾转化与打赢防范化解重大风险攻坚战与征信业发展的内在联系，牢牢把握征信事业发展方向，开创征信管理履职新作为新气象。一是要持之以恒抓好征信信息风险防范工作，以零容忍态度严肃查处征信领域违法违规行为，更好维护人民群众合法权益。二是要加快建立覆盖全社会的征信系统，积极构建互联网信用体系，合理引导市场化机构规范发展。三是要更好发挥征信业“信号灯”和“安全阀”的作用，为防范化解金融风险提供有力支撑。四是要树立行为监管的理念，培育恪尽职守、敢于严管的监管文化，进一步提升征信监管效能。五是要认真贯彻落实全面从严治党要求，狠抓党风廉政和队伍建设，加强工作本领和履职能力建设。人民银行上海总部、各分行、营业管理部、省会（首府）城市中心支行、副省级城市中心支行、各分行营业管理部分管征信工作的负责同志，人民银行征信管理局、征信中心负责同志以及有关司局代表参加了会议。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-03 09:00:00

工信部副部长陈肇雄：将从四方面推动大数据发展 | 数据分析网首页分类阅读行业资讯 �

北京4月23日讯 4月23日，在“ 数字中国建设峰会”的“ 大数据分论坛”上，工信部副部长陈肇雄表示，接下来将从四个方面推动大数据发展。一是推动大数据创新发展，支持前沿技术创新，加快关键产品研发；二是推动大数据融合发展，深挖融合潜力，加快工业互联网、工业大数据建设，培育数据驱动发展新模式、新业态；三是激发市场活力，鼓励建立大数据公共服务平台；四是推动大数据安全发展、强化保障能力，加强大数据安防产品开发，维护数据的可靠性。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-01 15:47:00

乘“云”而上绽放“数据之光”

在国家大数据（贵州）综合试验区展示中心展厅内，一条由3200块LED屏幕组成的“飘带”浮在上空。图为参观者正在观看屏幕播放的演示视频。欧东衢摄国家大数据（贵州）综合试验区展示中心外景，圆形LED屏组成的“数据之眼”格外引人注目。石照昌摄在2019中国国际大数据产业博览会上，小观众正在参观华为自主研发的5G基站芯片组。欧东衢摄 “食安云”大数据溯源平台、远程医疗大数据监管平台、精准扶贫大数据支撑平台……“大数据”这个科技感十足的词，对贵州人来说已经习以为常。算上刚刚闭幕的2019中国国际大数据产业博览会，数博会在贵州连续举办了五届。作为全国首个大数据综合试验区，贵州以促进区域性大数据基础设施的整合和数据资源的汇聚应用为目标，不断发挥示范带动作用。如今，在大数据、“智能 ”的滚滚洪流中，各种思维、理念、技术、模式创新日新月异，数字经济正深刻地改变着人类的生产和生活方式。大数据如何服务民生，又怎样改变人们的生活？近日，记者赶赴位于贵阳市高新区长岭南路的国家大数据（贵州）综合试验区展示中心，探访贵州大数据在民生领域的最新实践。创新发展 “数”说未来来到国家大数据（贵州）综合试验区展示中心跟前，外墙上一只由圆形LED屏构成的“数据之眼”吸引了记者的注意。随着“眼睛”眨动，因大数据蝶变的贵州、中国数谷与美国硅谷对话、数字经济对生活的改变等精彩场景接连切换。同行的贵阳市高新区纪工委副书记、监察室主任卢健全告诉记者，展示中心在5月底刚建成开馆，“数据之眼”寓意世界将从这里看到不一样的贵州，而贵州也将通过“数据之眼”放眼全球。展厅入口处有一面体感交互磁力点阵翻转屏，由近6.6万个小圆盘组成。经过记者体验，这面“墙”可以通过红外线捕捉，实时显现参观者的动作，形成数据人影，趣味十足。走进5000平方米的展厅，一条由3200块LED屏幕组成的“飘带”浮在上空，播放着贵州大数据发展掠影。33根高18米的LED立柱立在展厅的中枢环廊中，宛如瀑布飞流直下，与“中国数谷”的总设计理念遥相呼应。记者了解到，整个展厅分为“数字中国·贵州方案展区”“数化万物·智在融合展区”“云上筑梦·躬身耕耘展区”“未来已来展区”和“智慧体验厅”五个展区。各展区以可见、可触、可应用的形式，借助先进的数字技术和多媒体展示手段，多途径、浸入式提升观众的体验感、互动感。各个板块自然连接，数字中国建设过程中的“贵州智慧”“贵州方案”得到全方位展现。在展示中心工作人员肖庚的讲解下，大数据与贵州之间的故事娓娓道来。 “贵州地处西南内陆腹地，地质板块结构稳定，受地震、台风等灾害影响小，而且气候凉爽、电价便宜。这些对建设数据中心来说是得天独厚的巨大优势。”肖庚介绍，传统数据中心耗电量巨大，而其中70%的电量被用于空调散热。近年来，三大电信运营商、华为、腾讯、苹果等业界巨头均在此布局数据中心建设。以“藏在山洞里”的腾讯贵安七星数据中心为例，总面积超过3万平方米的隧洞将变身“天然空调”，帮助5万台服务器降低能耗。贵州曾是我国贫困问题最突出的省份之一，经济发展受到很多客观条件限制。然而，面对技术革命和产业变革的大潮，贵州果断抢抓机遇，在国内率先规模化发展大数据这个战略性新兴产业，不仅形成了行业集聚效应，更借此促进地区的长远、持续和平衡发展。 2015年6月，习近平总书记在贵阳市大数据广场听取贵州大数据产业发展、规划和实际应用情况介绍，并对当地干部说：“我听懂了，贵州发展大数据确实有道理。” 回望5年来的发展，贵州深挖大数据“钻石矿”，推动大数据与实体经济、农业、服务业、民生、生态服务、乡村振兴之间的深度融合。中国信息通信研究院《中国数字经济发展与就业白皮书（2019）》显示，2018年贵州数字经济增速超过20%，数字经济吸纳劳动力增速达18.1%，两项指标均名列全国第一。民有所需 “数”有所为与改善民生和便民服务紧密结合，是贵州大数据应用的一个鲜明特点。 “货车司机最怕返程空跑。以前要到处找货、碰运气，现在只需要查询‘货车帮’APP，就可以在全国各地找货。”肖庚调出满帮集团的后台页面，一条条货运需求滚动显示在大屏幕上。如今，满帮依托大数据提升车货匹配技术，搭建了国内最大的公路货运信息平台。平台认证司机、货主总用户量已经突破810万，业务覆盖全国339个城市，年度撮合成交规模达7000亿元。紧接着展示的，是食品安全领域的“食安云”平台。点击“食安追溯”，1275个贵州绿色农产品产品溯源、仓储物流台账、样品检验报告等尽在眼前。指着屏幕上不停跳动的数据，肖庚介绍：“学生今天吃了哪些食品，明天该吃什么，食品由哪里生产，谁进行配送、检测、加工，都一目了然，有效降低了食堂管理不规范、资金使用不合理、食品安全隐患等问题。” 记者在演示中看到，从农产品企业到加工企业、农贸市场，再到超市、餐饮、食堂，“食安云”构建了全链条智慧监管体系。远程医疗大数据监管平台、精准扶贫大数据支撑平台、贵州电商云、公共资源交易互联互通服务平台……在一个个展台面前，记者真切感受到大数据在贵州的应用之广、成效之实。 “这是我们贵州覆盖最广、体验最好的政务民生平台。”肖庚将记者拉到“民生风景带”可交互模型面前——一个巨大化的手机屏幕，上面写着“云上贵州多彩宝”。在贵州，水电燃气缴费、医院挂号预约、交通违章处理、查询社保公积金、代开发票……群众生活中几乎所有能想到的民生服务事项，都能在这个APP里完成。 “我们通过整合云上贵州移动服务平台和多彩宝益民服务平台业务功能，推进全省政务民生服务资源汇聚、数据共享和流程再造，这也是贵州政务民生服务大数据‘聚通用’取得的成果。”肖庚说，“云上贵州多彩宝”不仅能一网通办，还支持智能导办、智能问答等功能，实现“服务到家、服务上手”。记者从“云上贵州多彩宝”数据云图中看到，该应用累计用户量超过200万，6月24日当天截至下午4点的实时办理量已突破2.8万件，其中电费充值就有3153笔。肖庚告诉记者，该平台交易总额已超过14亿元，平台服务范围正由中心城市向县、区以及乡镇基层延伸。相关部门还借此建设了智能化分析利用平台，积极开展全省及区域、行业、系统的大数据分析，为政府科学决策提供支撑。所有展区里，智慧体验厅是最“留人”的区域。“刷脸”进入家庭物联网体验区，万物互联的智慧生活来到眼前：一键切换灯光、窗帘、空调等场景；智能魔镜不仅能播报天气、新闻等信息，还能看微信、听音乐、学做菜；卧室的高清电子屏幕窗户，让你决定窗外的风景。 “大数据描绘的美好生活在这里清晰可见。”肖庚的话，引起了记者一行人的共鸣。智慧融合 “数”化万物如今的贵州正在实施“万企融合”大行动，推动大数据与工业、农业、服务业深度融合。当传统行业遇上大数据，会发生怎样的“化学反应”？离开国家大数据（贵州）综合试验区展示中心，贵阳市高新区大数据发展办公室工作人员姜启东带记者来到金阳知识产业园，走访这里的大数据企业。今年5月，南方部分地区的汛期提前到来。贵州东方世纪科技有限公司专门组成了20多人的值班团队，实时监控汛情数据。工作人员李宏告诉记者，他们是一家专注于气象水利大数据防洪减灾服务的企业。 “现在已进入主汛期。我们的‘东方祥云’山洪快速预警云平台通过收集、处理公开的全球卫星遥感等数据，并依靠自主研发的洪水预报模型，对洪涝灾害进行72小时趋势预报。”李宏说。在“东方祥云”系统大屏上，实时显示着全国多地近期降雨量分布等数据。山洪防治是一个世界性难题。研发工程师刘浪沙介绍，由于山洪陡涨陡落、灾害发生快，传统方法运用传感器监测水库、河流的水量、水位等信息，只能做到逐小时预警，“预报”往往成了“后报”。而“东方祥云”的数据主要来自卫星遥感，可对全国境内257万个计算节点每15分钟预警一次，大大拓宽了山洪预警预见期。刘浪沙调出的系统历史数据显示，此前端午小长假期间，贵阳市部分地区出现了强降雨，他们将100多份暴雨、洪水预警简报提前发送给相关部门。 “在去年台风‘山竹’登陆之际，‘东方祥云’提前3小时15分钟预报了某地会发生28年一遇的大洪水，避免了可能发生的重大人员伤亡。”公司董事长李胜回忆。应用不止在贵州。据介绍，“东方祥云”已为广西、广东等多地提供洪水预警服务，未来还将提供雨雪冰冻、滑坡、泥石流等其他灾害预测预报，将大数据应用到农业、旅游、交通、保险等行业服务中。在另一家企业贵州力创科技发展有限公司，记者见到了大数据解决民生难题的又一实例。 “由于终端硬件故障或通信运营商网络不稳定等原因，导致相关企业无法通过物联网正常读取居民用水、用电、用气数据，要查明故障去维修又费时费力，给群众生活造成了不便。”力创科技副总裁兰海翔说，他们借助大数据分析技术开发了物联网卡综合管理平台，从综合故障快速定位、网络服务质量分析、售中售后服务支撑三方面帮助通信运营商、水、电、气等企业处理问题。兰海翔介绍，原有故障处理平均时长8小时，通过物联网卡综合管理平台只需要2小时，而且有多种定位算法加持，故障定位准确率达到94.5%；原本需要4人维修的故障，现在减少为1人，人工效率也大幅提升。完成采访后，记者一行沿着长岭南路沿线离开。姜启东说，这里是贵阳市正在打造的“数博大道”——一条聚集大数据与实体经济深度融合展示和合作交流区功能的产业大道，包含多个智慧项目，未来将成为“中国数谷”的核心区和“永不落幕的数博会”。　　根据《贵州省服务业创新发展实施方案（2018-2025年）》，到2020年，贵州将基本建成我国南方重要的数据加工及分析产业基地、国家重要的数据交换交易中心；到2025年，大数据及相关产业产值突破万亿元，成为全国具有重要影响力的大数据创新中心。

来源：大数据中国

发布时间：2019-07-03 22:19:00

不断迭代，“大数据+人工智能+区块链+保险”，新保险生态圈渐现 | 数据分析网首页分类

2016年，保险业经历了金融科技带来的巨大变革，74%的保险业受访者将保险科技视为颠覆性因素。2017年，保险从“互联网保险”时代跨入“保险科技”时代，大数据、人工智能、区块链不断注入保险行业，技术的不断迭代，保险产品呈现出更加智能化的态势。保险科技成为投资人追捧的一股热潮。从国内看，2017年中国保险科技行业共发生43起融资，总额达16.08亿元人民币（未包含上市企业）。 2017年12月路比车险获得华登国际投资的A+轮融资；2018年1月彩虹无线获得远毅资本、东风资产投资的B轮融资；2018年4月4日，互联网保险产品及服务提供商灵犀金融获得数亿元C轮融资。资本的不断追捧，保险科技创业公司也如雨后春笋般渐渐破土而出。据了解，目前国内保险科技创业公司已超过200余家。保险科技的四大模式据了解，保险科技公司可分为以下几类：一是互联网保险公司；二是经纪人展业工具；三是场景端和第三方技术公司；四是直接服务用户的各类保险平台。互联网保险公司互联网保险，指实现保险信息咨询、保险计划书设计、投保、交费、核保、承保、保单信息查询、保全变更、续期交费、理赔和给付等保险全过程的网络化。互联网保险公司中，康泰在线、众安保险、安心保险、易安保险、保险盒子、卓铭保险是代表性公司。经纪人展业工具保险经纪人展业是指由保险经纪人基于投保人的利益，代投保人参与保险合同的订立过程，为投保人提供服务的展业方式。保险经纪人代投保人签订保险合同，必须事前取得投保人的特别授权。由于保险经纪人的活动客观上起到了为保险公司推销保险单的作用，所以通常向保险公司收取佣金。在经纪人展业工具中，保险师、腾保保险、宝宝网、最惠保、e家保险、超级圆桌是代表性公司。其中，保险师在2017年12月已获得新浪等投资的数千万元b轮融资。 2B平台在2b中，有场景端和赋能保险公司两大部分。场景端里，分为场景定制和企业雇员险。场景定制的代表性公司是保准牛、悟空保、量子保，其中量子保已于2017年8月获得由昆仲资本、线性资本等投资的a轮融资；企业雇员保险的代表性公司有豆包网和保险极客。在赋能保险公司里，分为车联网技术服务、理赔管理等。车联网技术服务的代表性公司有四叶草、彩虹无线、路比车险、评驾科技，其中彩虹无线已于2018年1月获得远毅资本、东风资产投资的b轮融资；理赔管理的代表性公司有和金在线、金科玉律、栈略数据等。 2C平台在2c平台中，分为六大部分，有综合销售平台、比价销售平台、管理型总代理、网络互助平台、保单管理、智能投保。其中，综合销售平台中，意时网、慧择网、新一站是代表性公司；在比价销售平台中，车车车险、唯数、车险无忧是代表性公司；在管理型总代理平台中，大特保、悟空保、小雨伞是代表性公司；在网络互助平台中，水滴互助、同心互助、17互助是代表性公司；在保单管理平台中，保险袋袋、豆芽金服是代表性公司；在智能投保中，蜗牛保险、全牛小保镖是代表性公司。大数据、人工智能、区块链让保险更精准、更安全、更便利大数据、人工智能、区块链技术已经慢慢融入保险科技这个行业，在大数据的运用上，如量子保、车车赚、七炅信息科技、天启智创、一同保大象保险等；在人工智能的运用上，如保挣科技、灵智优诺、族谱科技、普强科技等；在区块链的运用上，如海星区块链、水滴互助、小i宝、轻信科技、人人互助等。大数据、人工智能、区块链带给了保险科技新的生命。大数据大数据定位用户，定制新型险种各细分领域的垂直型平台可以提供不同人群的行为数据、信用数据等相关数据，互联网保险平台通过与这些平台合作，获得大量数据，从而通过数据分析直接定制针对这些人群的保险产品，产生一个以往不曾出现过的新型定制险种。大象保险是面向c端用户，基于云计算和大数据，提供在线保险解决方案的互联网平台；56是社保数据驱动的互联网物流保险平台，为物流行业提供基于大数据精准定价的物流保险服务。大数据分析用户，完成对现有险种的优化传统保险最大的问题是无法精准地触达客户，没办法清晰地抓到用户需求。大数据可以分析用户的需求，以满足用户更多、更丰富的需求。运用大数据分析用户，完成对现有险种优化的代表性公司是一同保、百分点科技。泰康在线针对登陆泰康在线自有平台的用户进行追踪分析，一旦有用户进入，后台捕捉到该用户的行为，通过对用户行为数据的分析得到销售线索推送给坐席人员，从而对有需要帮助的用户进行更有针对性地服务。一同保，是依托人工智能、大数据、区块链等技术，提供社保+商保+互助计划的商业模式，专注于为企业和个人提供社保服务和定制化的商业保险服务。一同保于2015年8月成立，2017年7月获得pre-a轮融资；百分点科技是大数据技术与应用服务商，其核心产品包括技术层的大数据操作系统，以及应用层的推荐引擎、分析引擎和营销引擎，百分点科技于2009年7月成立，2015年9月获得由光大集团投资的4亿元d轮融资。人工智能人工智能助力反保险欺诈据FBI官网统计数据显示，全球范围内保险欺诈造成的损失达到400亿美元。人工智能算法可以有效地识别出数据中的某些模式，并形成一定的规则和框架，欺诈性案子在人工智能技术的监控下就无所遁形。此外，机器学习模型可以自动的去评估损失程度，并且基于传感器、图片、历史数据，预估维修的成本会是多少。七炅信息科技是利用大数据车险产品服务提供商，对与车险理赔相关的纬度进行分析，并提供完整的评估方案、产品定制、营销方案和反欺诈工具，也为保险公司提供定制保费的参考依据，七炅信息科技于2017年3月获得由合力投资、华创资本投资的800万元天使轮融资。人工智能评估并降低客户风险人工智能技术可以对风险进行更加科学的评估，并将风险在未来降低到最小程度，减少保险企业和公司的成本。狐狸金服是互联网金融服务提供商，通过大数据、量化金融模型以及智能算法等技，为用户个性化定制收益与风险匹配投资组合产品。狐狸金服于2016年10月成立，目前尚未获投。人工智能打造智能沟通工具数字战略用于提升保险行业客户体验已在业界有共识。根据PWC 2020 digitial insurer报告，提升用户体验最被关注的三个方面：Accessibility可获得、Tailor to customer needs量身定制、content explanation内容阐释，而这些也都可以借用智能沟通工具获得一定程度改善。泰康在线的智能保险机器人“TKer” 提供证件扫描服务，便于保户直接投保，还可进行人脸识别以及语音交互功能为保户提供查询保单的服务。区块链欺诈识别和风险防范通过将保险索赔置于不可更改的总帐下，区块链有助于消除保险业中常见的欺诈源。据了解，在美国，保险业每年为了防范欺诈所投入的费用约为400亿美元（不包括健康险）。保险欺诈不仅使保险公司蒙受损失，还会使美国普通家庭每年多承担400-700美元的保费支出。区块链技术能使各保险公司更好地合作对抗保险欺诈。在分布式账本上，保险公司可将交易永久记录，并通过严格控制访问权限来保证其安全性。而将索赔信息记录存储到分布式共享总账上，有助于加强各保险公司合作，识别出整个保险体系中可疑的欺诈行为。 Kasko2go是基于区块链技术的汽车保险公司，致力于反欺诈技术研究。2017年6月成立，目前未融资。精准营销和核保区块链即使可以将保险链条中各渠道的数据整合，用于提升保险公司核实能力，降低其被骗保的风险。同时分析的数据信息可同步帮助互联网金融和消费金融公司导流获客。小i宝是一家金融大数据公司，主要是利用大数据技术帮助企业推广营销、利用区块链技术增强保险公司核保把关能力，降低赔付率。小i宝于2017年10月成立，2017年11月获得100万元种子轮融资。随着大数据、人工智能、区块链技术的发展，技术不断注入保险中，比如，大数据定位用户，定制新型险种；人工智能评估并降低客户风险，区块链欺诈识别和风险防范等。保险越来越朝着智能化、人性化的方向发展。资本的不断角逐，保险科技这块肥沃的土壤正在慢慢被开垦。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-04-27 11:59:00

全球首家！西班牙BBVA银行使用区块链技术发放贷款 | 数据分析网首页分类阅读行业资讯

雷锋网消息，据英国《金融时报》报道，西班牙毕尔巴鄂比斯开银行（亦称西班牙对外银行，Banco Bilbao Vizcaya Argentaria，BBVA）成为全球第一家使用区块链技术发放贷款的银行。这家西班牙跨国银行表示，从谈判条款到签署协议，整个贷款流程都通过区块链的分布式账本技术向银行和贷款方通报了进展情况。报道称，使用区块链技术让贷款流程“从几天缩短到几个小时”，7500万欧元的贷款就完成了。BBVA称这一过程是“分布式账本技术开发的重大进展”。他补充说，除了与西班牙电信公司Indra完成的试点项目之外，该银行还有几笔交易正在进行中。Indra将自己形容为区块链应用的“先锋”。 Indra金融服务总监Borja Ochoa表示，区块链“注定将成为改变我们与产品和金融服务互动方式的技术之一”，该试点“巩固了BBVA和Indra在实际领域的领导地位区块链技术的应用“。区块链被视为银行最有前途的金融科技主题之一，在支付，清算和结算，贸易融资，身份认证和贷款方面具有广泛的应用。区块链优于现有流程的主要优势在于，它能够通过使更改和更新立即显示给所有各方来加快和简化复杂的交易。现在，一个基于区块链的单一系统的维护成本比无数系统银行用于交易的成本更低。在贷款市场，区块链在企业和银团贷款方面的潜力高于消费者贷款，因为企业和银团贷款比较复杂，需要更广泛的人群获取记录，而不是通常涉及消费者贷款的单一借款人。雷锋网了解到，对于其试点项目，BBVA在谈判和完成过程中使用了私链，然后在以太坊的公链上注册完成的合同。 BBVA负责企业和投资银行业务的全球融资主管Ricardo Laiseca说：“BBVA将其客户纳入项目流程中，如需求定义，开发和实施。“通过这种方式，BBVA不仅为客户提供最好的金融解决方案，而且还提供先进的技术和创新能力。” 该银行及其七十一岁的执行主席FranciscoGonzález一直热心采用新技术和商业模式，并投资了包括英国Atom Bank和德国fintech solarisBank在内的多家新企业。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-04-27 09:57:06

GBASE进入GARTNER DMSA魔力象限前瞻性领跑中国厂商 | 数据分析网首页分类阅读行业资讯大�

近日， Gartner发布了2018年版“分析型数据管理解决方案魔力象限”（简称DMSA）。GBase南大通用成功进入该象限，并在前瞻性方面领先阿里云与华为。 GBase进入“特定领域者”象限分析型数据管理解决方案（DMSA）被定义为“支持和管理一个或多个文件管理系统（通常是数据库）中数据的完整软件系统。” Gartner并没有忽视一个事实：尽管在大多数企业组织中，传统的数据仓库使用场合仍是分析工具的基础，然而，企业组织对于管理来自多个不同地方的数据越来越感兴趣。因此，DMSA应满足四大使用场合，即传统数据仓库、实时数据仓库、与上下文无关的数据仓库以及逻辑数据仓库。去年出现在象限中的EnterpriseDB与MongoDB皆因为支持场景较少的原因而在2018年出局。在该象限中，横轴代表着前瞻性(Completeness of Vision)，包括厂商或供应商提供的产品底层技术基础的能力、市场领导能力、创新能力和外部投资等等;纵轴代表着执行能力(Ability to Execute)，包括产品的使用难度、市场服务的完善程度和技术支持能力、管理团队的经验和能力等。根据这两种能力的高低，划分为四个象限，从左下角到右下角顺时针分别为：特定领域者、挑战者、有远见者和领导者。 GBase位于“特定领域者”象限，在执行力方面低于华为与阿里云，在前瞻性方面则优于中国厂商。 Gartner在报告指出，GBase的优势主要体现在三个方面： 1、在中国市场取得巨大成功并在全球市场初露头角：GBase在中国大型客户市场取得了强劲的业绩，在金融和电信领域部署了PB级的数据仓库。同时，GBase在南美，非洲，东欧和北美的电信行业初露头角。 2、客户忠诚度高：GBase在客户持久性调查中得分很高。参考客户中，有超过90％的人表示他们打算在未来12个月内向GBase购买额外的许可证，甚至更多的人表示他们会向其他人推荐GBase。 3、逻辑数据仓库愿景：通过GBase UP，GBase旨在为逻辑数据仓库提供产品支持。中国供应商的崛起今年，共有22家厂商被选入魔力象限。其中，亚太地区入围的三家全部来自中国，包括GBase、阿里云和华为，这也是该象限首次有三家中国厂商进入。除了Micro Focus和SAP两家欧洲公司外，其余17家均为美国公司。中国的数据库已经成功进入国际视野，这表明了以GBase等为代表的国产数据库产品成熟度、稳定性、服务支持能力、研发前瞻性等指标均已达到国际水平，并处于亚太地区领先地位。 Gartner用“中国供应商的崛起”来形容中国厂商的表现：“中国的DMSAs市场非常庞大，一些中国供应商已经取得了显著的成功，他们正在考虑开拓国际市场。” GBase前瞻性领先此次入选的三家中国厂商中，GBase是唯一的独立软件供应商，专注于数据库产品和大数据平台的研发、创新。GBase引领了中国厂商的前瞻性，这得益于GBase自主研发的GBase 8a MPP分析型数据库以及一系列具有鲜明特点与优势的解决方案。 GBase 8a是大数据时代成熟的分析型数据库，用于满足数据密集型行业日益增大的数据查询、数据统计、数据分析、数据挖掘和数据备份等需求，可用做数据仓库系统、BI系统和决策支持系统的承载数据库。作为一款成熟的数据库，GBase 8a MPP Cluster已经为超过200个用户部署了100+ PB上线数据量以及3000+ 个节点，成功支撑了国家人社部、海关总署、中国人民银行、中国农业银行、国家电网、中国移动等各行各业用户的核心业务系统，并得到用户的认可。强调“自服务”的新一代商业分析平台——数据观就采用了GBase 8a MPP作为底层架构，为浦发银行、阳光保险等企业提供商业分析解决方案。数据观消除了数据分析过程中的一切技术门槛，满足业务人员脱离IT瓶颈、自助分析的需求，结合GBase 8a强大的数据处理性能，帮助企业实现全员数据驱动的愿景。除此之外，GBase品牌在各方面都抢占“第一”：GBase 8a Cluster是国内第一款分布式并行数据库集群；GBase 8t是国内第一款与世界技术同级的国产事务型通用数据库系统；GBase BI 是国内可视化商业智能的领先产品；GBase 8d 是国内第一品牌的目录服务器；GBase 8s 是国内第一款采用硬件加密技术获得国家密码管理局资质的安全数据库；GBase 8m 是国内第一事务处理性能的数据库。而支持辑数据仓库的GBase UP融合大数据平台，可以为企业提供易配置、低门槛、全数据、超融合、开放的一站式大数据解决方案，是企业大数据落地实施的最佳平台。本文为专栏文章，来自：数据观，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/50398.html 。

来源：数据分析网

发布时间：2018-03-14 00:14:00

首款基于龙芯的国产域名服务器发布

我国是世界上互联网用户和访问量最大的国家，而域名系统是互联网的根基。近日，由中科院孵化的高科技机构在北京发布了第一款基于龙芯芯片的国产域名服务器，软硬件均实现了国产化。这是我国在互联网底层技术创新的又一个新成果。首款基于龙芯的国产域名服务器发布，搭配“红枫系统”2.0版域名国家工程研究中心发布的这款基于龙芯芯片的国产域名服务器，是我国在互联网底层技术中硬件和软件联合创新的成果。龙芯芯片之前已经在北斗卫星导航系统等领域实现应用。域名管理软件“红枫系统”2.0版，在多项重要指标上达到了国际领先水平，并全面适配国产芯片。域名国家工程研究中心主任毛伟：整个设备是我们完全能够拥有自主知识产权的一个设备。在整个网络解析效率、智能线路等方面，跟国外同类设备相比的话，有很大提升。我国解决互联网底层技术“卡脖子”问题又进一步据介绍，这款国产域名服务器加强了互联网域名根服务能力，从技术上突破了全球13个根服务器的数量限制。这意味着我国在解决互联网底层技术“卡脖子”的问题上又进了一步。根域名服务器的作用是解析DNS(域名系统)，而所谓的“DNS”，好比邮政编码。投递员(根域名服务器)通过邮政编码(DNS)，能快速分拣信件，投递到各地分局。在正常情况下，根域名服务器解析DNS是准确无误的。2019年6月，中国工信部批复同意中国互联网络信息中心设立域名根服务器及管理机构。目前全球13台主要的根服务器中美国控制的有10台，欧洲2台，位于英国和瑞典，亚洲1台位于日本。域名国家工程研究中心主任毛伟：互联网的域名系统就是我们互联网的一个基础入口，我们中国不能够只是有所谓的应用创新和模式创新。如果没有基础技术，我们整个互联网建设就像建设在沙滩上一样，它是不稳固的。如果我们不能把这个很好地解决掉的话，整个网络的安全、网络的稳定运行就无从谈起。研发芯片，是一个漫长而又艰难的过程。作为中科院孵化的高科技企业，龙芯中科经过十九年的技术积累和市场探索，逐步实现了龙芯CPU的产业化，终结了中国计算机产业的“无芯”历史。国产芯片龙芯3号专家认为，此次推出的首款搭载国产龙芯芯片的域名服务器，是信息化建设注重底层技术创新的体现，它将从底层保护我国互联网安全。芯片的技术含量非常高，我国的芯片制作水平不高，导致芯片大多靠进口，所以我们受制于此，不过只要有需求，我们中国人就一定能克服重重困难。这让我想起了华为事件。好在任正非能够未雨绸缪，最近我国芯片领域的好消息不断。这也正说明，我国的芯片制作水平正迎头赶上国外的技术水平。

来源：大数据中国

发布时间：2019-07-02 22:31:00

主成分分析方法概念和基本性质 | 数据分析网首页分类阅读行业资讯大数据统计学数�

科学研究所涉及的课题往往比较复杂，是因为影响客观事物的因素多，需要考察的变量多。比如说，对于糖尿病、动脉硬化等疾病，其病因是多种多样的，收集的资料中包含的信息是丰富多彩的。然而，重叠的、低质量的信息越多，越不利于医生作出诊断。在大部分实际问题中，变量之间是有一定的相关性的，人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。1933年,Hotelling提出的主成分分析 (PrincipalComponent Analysis)方法正是实现这一目的的有效途径之一。何为主成分？简而言之，主成分实际上就是由原变量X1～Xm线性组合出来的ｍ个互不相关、且未丢失任何信息的新变量，也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标，并给综合指标所蕴藏的信息以恰当解释，以便更深刻地揭示事物内在的规律。主成分分析的基本条件与主成分的基本性质设相关矩阵为R以及与之同阶的单位矩阵为I、原始变量的个数为ｍ，则R就是ｍ阶方阵,特征值为λ，求各特征值λi的过程就是求解下列特征方程:｜R-λI｜=0，此方程的左边展开后实际上是一个λ的ｍ阶多项式，其解由大到小依次排列为λ1≥λ2≥…≥λm>０。主成分分析的基本条件与主成分的基本性质可概述如下: ①各主成分之间互不相关，若原变量服从正态，则各主成分之间互相独立; ②全部ｍ个主成分所反映的ｎ例样品的总信息，等于ｍ个原变量的总信息。信息量的多少，用变量的方差来度量。若将ｍ个原变量标准化后，每个变量的方差都为１，故方差之和为ｍ，此时，求得的ｍ个主成分的方差之和也为ｍ; ③各主成分的作用大小是∶Z1≥Z2≥…≥Zm; ④第ｉ个主成分的贡献率是(λi／ｍ)×100％; ⑤前P个主成分的累计贡献率是((∑Ｐi＝1λi)／ｍ)×100％。在应用时,一般取累计贡献率为70～85％或以上所对应的前P个主成分即可。在资料所含的变量个数、样品数及累计贡献率固定的前提下，P／ｍ的比值越小，则说明此资料用主成分分析越合适。 ⑥r(Zi,xj)=cij，说明第i个主成分Zi与第j个标准化变量xj之间的相关系数就是表达式(3)中的系数cij; ⑦∑ｍj＝1r2(Zi，xj)＝λi，说明第ｉ个主成分Zi与ｍ个标准化变量中的每一个变量之间的相关系数的平和为由大到小排列后的第ｉ个特征值λi; ⑧∑ｍi＝1r2(Zi，xj)=１,说明ｍ个主成分分别与第ｊ个标准化变量的相关系数的平和为１，即每１个标准化变量的信息由全部主成分完全包含。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2015-11-21 01:33:00

2019营销科技领航者峰会9月举办，MarTech释疑企业增长四大难题

已经连续举办了十届的2019年营销科技领航者峰会将于今年9月6日正式亮相，本次峰会将以“金网奖，RUNNING！”为主题，聚焦Martech理念的趋势.洞察、智能.获客、转化.零售、数据.运营四大内容板块，邀请重磅嘉宾分享干货，全面释疑数字经济背景下企业增长四大难题。该峰会由中国互联网协会网络营销工作委员会主办，金网汇、tectec承办，将汇聚阿里妈妈、百度、360公司、搜狗、美团点评、快手等主流互联网头部企业，以及方太、荣耀、蒙牛、周生生、洽洽食品、3M、青岛啤酒等知名品牌主，通过主题演讲、思维碰撞，共同推动MarTech在中国的落地与应用，为转型期的企业奉上满满的干货。四大内容板块干货，释疑企业增长难题 2019年营销科技领航者峰会设立“起、承、转、合”四大内容板块，分别对应趋势.洞察、智能.获客、转化.零售、数据.运营四个维度，全面围绕着企业数字化升级中碰到的痛点展开，为品牌主解疑答惑。趋势.洞察：让不确定变为可知在“趋势.洞察”板块中，将会围绕MarTech理念及未来趋势，解决企业碰到的认知难题，比如“数字化转轨阶段，传统模式难以为继，企业对未知不确定性的恐惧和迷茫？”；“市场饱和，竞争加剧，竞争力变弱，企业如何保持业务增长？”；“消费升级，下沉市场，用户行为难以把握，新老品牌如何打造？”…..这些问题都能在峰会现场得到答案。智能.获客：探究数据驱动、智能化之道 MarTech作为一种为营销服务的效率工具，在曾经以流量为王的时代，并没有得到企业的重视，直到进入互联网下半场后的今天，企业开始思考如何提升效率，如何提升ROI，以数据驱动为核心的Martech一下子吸引了诸多目光。在本届峰会的“智能.获客”环节中，同样直击企业痛点，比如“流量和用户成本抬高，场景多样化，如何高效触达和获取用户？”，“如何在信息流、短视频等流量池里找到新商机”等，峰会通过大咖经验分享的方式，探究数据驱动、智能化、多场景获客等一系列热门话题。转化.零售：除了销量还有用户思维从2015年开始，传统消费品牌遭遇线下渠道收紧的困境，不少眼光敏锐的新兴消费品牌积极布局线上销售渠道，利用数据化助力企业转型，并取得初步成效。但在品牌完成数字化升级，精准定位目标用户之后，如何与与客户建立长久的合作关系，是消费品企业一直在尝试解决的问题。本届峰会的第三大内容板块聚焦“转化.零售”主题，帮助品牌主扭转传统思维观念，探讨“转化的不仅仅是销量，用户沉淀、运营有没有方法”、“直播、视频，线上线下协同，新零售的正确打开姿势是什么？”等系列前瞻议题。数据.运营：打开私域流量运营的黑匣子 2019年，互联网及营销行业出现了一个新概念——“私域流量”，所谓“私域”则是品牌主或个人自主拥有的流量及用户池，不仅能随时触达、分层精细化运营，还能进一步拉近品牌与用户的关系，建立信任度，提升NPS净推荐值。然而“私域流量该怎么运营”，“企业如何通过用户运营，转变为数字化的品牌？”在企业发展中，营销、运营、销售等部门谁来主导？…..这些疑问将在“数据.运营”内容板块中展开深度讨论。以MarTech名义，发现业务增长新路径用户的进化，品牌的升级，技术的革命，零售的重定义……当下是一场数字经济、数字商业的革命，而数据驱动的主线贯穿其中，不仅提升了用户体验，更深刻地影响了营销推广、用户运营、供应链改造、生产体系等全链各个环节。MarTech就是这场数据驱动变革的关键力量。 MarTech是指导品牌完成数字化升级的方法，实现了从流量运营到用户运营的转变，从策略、内容创意到零售转化、用户精细化运营的全链路的覆盖，打通了营销、销售、运营、服务等多部门的界限，帮助企业完成品牌的重构与业务增长。当前，越来越多的企业碰到了业务增长的瓶颈，本届营销科技领航者峰会将邀请MarTech领域的知名大佬、引领品牌，分享最新的实战应用与案例，让更多企业能够以数据驱动的力量，发现转型升级下的业务增长新方法、新模式，让用户、流量的运营思维真正落到实处，并推动企业的业务增长。

来源：大数据中国

发布时间：2019-07-02 22:24:05

炒股魅力：数据分析侠变身“赚钱机器” | 数据分析网首页分类阅读行业资讯大数据统

摘要：曾经有这么一群人，他们每天早上8点打开软件，调试着各种交易工具，确保每天能够正常运行。9点开盘了，静静的看着交易软件的自动买入卖出。中午吃个饭，下午继续这样的工作。晚上想一想算法模型，思考一下人生，再算一下当日的最新净值。他们是可能改变华尔街研究员的一类人，被戏称为疯狂的赚钱机器。我们如今生活在一个数据爆炸的世界里。百度每天响应超过60亿次的搜索请求，日处理数据超过100PB，相当于6000多座中国国家图书馆的书籍信息量总和。新浪微博每天都会发布上亿条微博。在荒无人烟的郊外，暗藏着无数大公司的信息存储中心，24小时夜以继日地运转着。克托·迈尔-舍恩伯格在《大数据时代》一书中认为，大数据的核心就是预测，即只要数据丰富到一定程度，就可预测事情发生的可能性。例如，“从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性”，或者通过一个人穿过马路的速度，预测车子何时应该减速从而让他及时穿过马路。那么，如果把这种预测能力应用在股票投资上，又会如何？目前，美国已经有许多对冲基金采用大数据技术进行投资，并且收获甚丰。中国的中证广发百度百发100指数基金（下称百发100），上线四个多月以来已上涨68%。和传统量化投资类似，大数据投资也是依靠模型，但模型里的数据变量几何倍地增加了，在原有的金融结构化数据基础上，增加了社交言论、地理信息、卫星监测等非结构化数据，并且将这些非结构化数据进行量化，从而让模型可以吸收。由于大数据模型对成本要求极高，业内人士认为，大数据将成为共享平台化的服务，数据和技术相当于食材和锅，基金经理和分析师可以通过平台制作自己的策略。不要小看大数据的本领，正是这项刚刚兴起的技术已经创造了无数“未卜先知”的奇迹。 2014年，百度用大数据技术预测命中了全国18卷中12卷高考作文题目，被网友称为“神预测”。百度公司人士表示，在这个大数据池中，包含互联网积累的用户数据、历年的命题数据以及教育机构对出题方向作出的判断。在2014年巴西世界杯比赛中，Google亦通过大数据技术成功预测了16强和8强名单。从当年英格兰报社的信鸽、费城股票交易所的信号灯到报纸电话，再到如今的互联网、云计算、大数据，前沿技术迅速在投资领域落地。在股票策略中，大数据日益崭露头角。做股票投资策略，需要的大数据可以分为结构化数据和非结构化数据。结构化数据，简单说就是“一堆数字”，通常包括传统量化分析中常用的CPI、PMI、市值、交易量等专业信息；非结构化数据就是社交文字、地理位置、用户行为等“还没有进行量化的信息”。量化非结构化就是用深度模型替代简单线性模型的过程，其中所涉及的技术包括自然语言处理、语音识别、图像识别等。金融大数据平台-通联数据CEO王政表示，通联数据采用的非结构化数据可以分为三类：第一类和人相关，包括社交言论、消费、去过的地点等；第二类与物相关，如通过正在行驶的船只和货车判断物联网情况；第三类则是卫星监测的环境信息，包括汽车流、港口装载量、新的建筑开工等情况。卫星监测信息在美国已被投入使用，2014年Google斥资5亿美元收购了卫星公司Skybox，从而可以获得实施卫星监测信息。结构化和非结构化数据也常常相互转化。“结构化和非结构化数据可以形象理解成把所有数据装在一个篮子里，根据应用策略不同相互转化。例如，在搜索频率调查中，用户搜索就是结构化数据；在金融策略分析中，用户搜索就是非结构化数据。”百度公司人士表示。华尔街拿着丰厚薪水的分析师们还不知道，自己的雇主已经将大量资本投向了取代自己的机器。 2014年11月23日，高盛向Kensho公司投资1500万美元，以支持该公司的大数据平台建设。该平台很像iPhone里的Siri，可以快速整合海量数据进行分析，并且回答投资者提出的各种金融问题，例如“下月有飓风，将对美国建材板块造成什么影响？” 在Kensho处理的信息中，有80%是“非结构化”数据，例如政策文件、自然事件、地理环境、科技创新等。这类信息通常是电脑和模型难以消化的。因此，Kensho的CEO Daniel Nadler认为，华尔街过去是基于20%的信息做出100%的决策。既然说到高盛，顺便提一下，这家华尔街老牌投行如今对大数据可谓青睐有加。除了Kensho，高盛还和Fortress信贷集团在两年前投资了8000万美元给小额融资平台On Deck Capital。这家公司的核心竞争力也是大数据，它利用大数据对中小企业进行分析，从而选出值得投资的企业并以很快的速度为之提供短期贷款。上述诸多非结构化数据，归根结底是为了获得一个信息：市场情绪。在采访中，2013年诺贝尔经济学奖得主罗伯特席勒的观点被无数采访对象引述。可以说，大数据策略投资的创业者们无一不是席勒的信奉者。席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中，主要参考三个变量：投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应（市场情绪）。他认为，市场本身带有主观判断因素，投资者情绪会影响投资行为，而投资行为直接影响资产价格。然而，在大数据技术诞生之前，市场情绪始终无法进行量化。回顾人类股票投资发展史，其实就是将影响股价的因子不断量化的过程。上世纪70年代以前，股票投资是一种定性的分析，没有数据应用，而是一门主观的艺术。随着电脑的普及，很多人开始研究驱动股价变化的规律，把传统基本面研究方法用模型代替，市盈率、市净率的概念诞生，量化投资由此兴起。量化投资技术的兴起也带动了一批华尔街大鳄的诞生。例如，巴克莱全球投资者（BGI）在上世纪70年代就以其超越同行的电脑模型成为全球最大的基金管理公司；进入80年代，另一家基金公司文艺复兴（Renaissance）年均回报率在扣除管理费和投资收益分成等费用后仍高达34%，堪称当时最佳的对冲基金，之后十多年该基金资产亦十分稳定。 “从主观判断到量化投资，是从艺术转为科学的过程。”王政表示，上世纪70年代以前一个基本面研究员只能关注20只到50只股票，覆盖面很有限。有了量化模型就可以覆盖所有股票，这就是一个大的飞跃。此外，随着计算机处理能力的发展，信息的用量也有一个飞跃变化。过去看三个指标就够了，现在看的指标越来越多，做出的预测越来越准确。随着21世纪的到来，量化投资又遇到了新的瓶颈，就是同质化竞争。各家机构的量化模型越来越趋同，导致投资结果同涨同跌。“能否在看到报表数据之前，用更大的数据寻找规律？”这是大数据策略创业者们试图解决的问题。于是，量化投资的多米诺骨牌终于触碰到了席勒理论的第三层变量——市场情绪。计算机通过分析新闻、研究报告、社交信息、搜索行为等，借助自然语言处理方法，提取有用的信息；而借助机器学习智能分析，过去量化投资只能覆盖几十个策略，大数据投资则可以覆盖成千上万个策略。基于互联网搜索数据和社交行为的经济预测研究，已逐渐成为一个新的学术热点，并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上，研究发现搜索数据可有效预测未来股市活跃度（以交易量指标衡量）及股价走势的变化。海外就有学术研究指出，公司的名称或者相关关键词的搜索量，与该公司的股票交易量正相关。德国科学家Tobias Preis就进行了如此研究：Tobias利用谷歌搜索引擎和谷歌趋势（Google Trends），以美国标普500指数的500只股票为其样本，以2004年至2010年为观察区间，发现谷歌趋势数据的公司名称搜索量和对应股票的交易量，在每周一次的时间尺度上有高度关联性。也就是说，当某个公司名称在谷歌的搜索量活动增加时，无论股票的价格是上涨或者下跌，股票成交量与搜索量增加；反之亦然，搜索量下降，股票成交量下降。以标普500指数的样本股为基础，依据上述策略构建的模拟投资组合在六年的时间内获得了高达329%的累计收益。在美国市场上，还有多家私募对冲基金利用Twitter和Facebook的社交数据作为反映投资者情绪和市场趋势的因子，构建对冲投资策略。利用互联网大数据进行投资策略和工具的开发已经成为世界金融投资领域的新热点。保罗·霍丁管理的对冲基金Derwent成立于2011年5月，注册在开曼群岛，初始规模约为4000万美元， 2013年投资收益高达23.77%。该基金的投资标的包括流动性较好的股票及股票指数产品。通联数据董事长肖风在《投资革命》中写道，Derwent的投资策略是通过实时跟踪Twitter用户的情绪，以此感知市场参与者的“贪婪与恐惧”，从而判断市场涨跌来获利。在Derwent的网页上可以看到这样一句话：“用实时的社交媒体解码暗藏的交易机会。”保罗·霍丁在基金宣传册中表示：“多年以来，投资者已经普遍接受一种观点，即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。这是第四维。Derwent就是要通过即时关注Twitter中的公众情绪，指导投资。” 另一家位于美国加州的对冲基金MarketPsych与汤普森·路透合作提供了分布在119个国家不低于18864项独立指数，比如每分钟更新的心情状态（包括乐观、忧郁、快乐、害怕、生气，甚至还包括创新、诉讼及冲突情况等），而这些指数都是通过分析Twitter的数据文本，作为股市投资的信号。此类基金还在不断涌现。金融危机后，几个台湾年轻人在波士顿组建了一家名为FlyBerry的对冲基金，口号是“Modeling the World（把世界建模）”。它的投资理念全部依托大数据技术，通过监测市场舆论和行为，对投资做出秒速判断。关于社交媒体信息的量化应用，在股票投资之外的领域也很常见：Twitter自己也十分注重信息的开发挖掘，它与DataSift和Gnip两家公司达成了一项出售数据访问权限的协议，销售人们的想法、情绪和沟通数据，从而作为顾客的反馈意见汇总后对商业营销活动的效果进行判断。从事类似工作的公司还有DMetics，它通过对人们的购物行为进行分析，寻找影响消费者最终选择的细微原因。回到股票世界，利用社交媒体信息做投资的公司还有StockTwits。打开这家网站，首先映入眼帘的宣传语是“看看投资者和交易员此刻正如何讨论你的股票”。正如其名，这家网站相当于“股票界的Twitter”，主要面向分析师、媒体和投资者。它通过机器和人工相结合的手段，将关于股票和市场的信息整理为140字以内的短消息供用户参考。此外，StockTwits还整合了社交功能，并作为插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台，让人们可以轻易分享投资信息。另一家公司Market Prophit也很有趣。这家网站的宣传语是“从社交媒体噪音中提炼市场信号”。和StockTwits相比，Market Prophit更加注重大数据的应用。它采用了先进的语义分析法，可以将Twitter里的金融对话量化为“-1（极度看空）”到“1（极度看多）”之间的投资建议。网站还根据语义量化，每天公布前十名和后十名的股票热度榜单。网站还设计了“热度地图”功能，根据投资者情绪和意见，按照不同板块，将板块内的个股按照颜色深浅进行标注，谁涨谁跌一目了然。尽管大数据策略投资在美国貌似炙手可热，但事实上，其应用尚仅限于中小型对冲基金和创业平台公司。大数据策略投资第一次被大规模应用，应归于中国的百发100。百度金融中心相关负责人表示，与欧美等成熟资本市场主要由理性机构投资者构成相比，东亚尤其是中国的股票类证券投资市场仍以散户为主，因此市场受投资者情绪和宏观政策性因素影响很大。而个人投资者行为可以更多地反映在互联网用户行为大数据上，从而为有效地预测市场情绪和趋势提供了可能。这也就是中国国内公募基金在应用互联网大数据投资方面比海外市场并不落后、甚至领先的原因。百发100指数由百度、中证指数公司、广发基金联合研发推出，于2014年7月8日正式对市场发布，实盘运行以来一路上涨，涨幅超过60%。跟踪该指数的指数基金规模上限为30亿份，2014年9月17日正式获批，10月20日发行时一度创下26小时疯卖18亿份的“神话”。外界都知道百发100是依托大数据的指数基金，但其背后的细节鲜为人知。百发100数据层面的分析分为两个层面，即数据工厂的数据归集和数据处理系统的数据分析。其中数据工厂负责大数据的收集分析，例如将来源于互联网的非结构化数据进行指标化、产品化等数据量化过程；数据处理系统，可以在数据工厂递交的大数据中寻找相互统计关联，提取有效信息，最终应用于策略投资。 “其实百发100是在传统量化投资技术上融合了基于互联网大数据的市场走势和投资情绪判断。”业内人士概括道。和传统量化投资类似，百发100对样本股的甄选要考虑财务因子、基本面因子和动量因子，包括净资产收益率（ROE）、资产收益率（ROA）、每股收益增长率（EPS）、流动负债比率、企业价值倍数（EV/EBITDA）、净利润同比增长率、股权集中度、自由流通市值以及最近一个月的个股价格收益率和波动率等。此外，市场走势和投资情绪是在传统量化策略基础上的创新产物，也是百发100的核心竞争力。接近百度的人士称，市场情绪因子对百发100基金起决定性作用。百度金融中心相关负责人是罗伯特席勒观点的支持者。他认为，投资者行为和情绪对资产价格、市场走势有着巨大的影响。因此“通过互联网用户行为大数据反映的投资市场情绪、宏观经济预期和走势，成为百发100指数模型引入大数据因子的重点”。传统量化投资主要着眼点在于对专业化金融市场基本面和交易数据的应用。但在百度金融中心相关业务负责人看来，无论是来源于专业金融市场的结构化数据，还是来源于互联网的非结构化数据，都是可以利用的数据资源。因此，前文所述的市场情绪数据，包括来源于互联网的用户行为、搜索量、市场舆情、宏观基本面预期等等，都被百度“变废为宝”，从而通过互联网找到投资者参与特征，选出投资者关注度较高的股票。 “与同期沪深300指数的表现相较，百发100更能在股票市场振荡时期、行业轮动剧烈时期、基本面不明朗时期抓住市场热点、了解投资者情绪、抗击投资波动风险。”百度金融中心相关负责人表示。百发100选取的100只样本股更换频率是一个月，调整时间为每月第三周的周五。业内人士指出，百发100指数的月收益率与中证100、沪深300、中证500的相关性依次提升，说明其投资风格偏向中小盘。但事实并非如此。从样本股的构成来说，以某一期样本股为例，样本股总市值6700亿元，占A股市值4.7%。样本股的构成上，中小板21只，创业板4只，其余75只样本股均为大盘股。由此可见，百发100还是偏向大盘为主、反映主流市场走势。样本股每个月的改变比例都不同，最极端的时候曾经有60%进行了换仓。用大数据预测热点变化，市场热点往往更迭很快；但同时也要考虑交易成本。两方面考虑，百度最后测算认为一个月换一次仓位为最佳。样本股对百发100而言是核心机密——据说“全世界只有基金经理和指数编制机构负责人两个人知道”——都是由机器决定后，基金经理分配给不同的交易员建仓买入。基金经理也没有改变样本股的权利。展望未来，百度金融中心相关负责人踌躇满志，“百发100指数及基金的推出，只是我们的开端和尝试，未来将形成多样化、系列投资产品。” 除了百发100，目前市场上打着大数据旗帜的基金还有2014年9月推出的南方-新浪I100和I300指数基金。南方-新浪I100和I300是由南方基金、新浪财经和深圳证券信息公司三方联合编制的。和百发100类似，也是按照财务因子和市场情绪因子进行模型打分，按照分值将前100和前300名股票构成样本股。推出至今，这两个指数基金分别上涨了10%左右。正如百发100的市场情绪因子来自百度，南方-新浪I100和I300的市场情绪因子全部来自新浪平台。其中包括用户在新浪财经对行情的访问热度、对股票的搜索热度；用户在新浪财经对股票相关新闻的浏览热度；股票相关微博的多空分析数据等。此外，阿里巴巴旗下的天弘基金也有意在大数据策略上做文章。据了解，天弘基金将和阿里巴巴合作，推出大数据基金产品，最早将于2015年初问世。天弘基金机构产品部总经理刘燕曾对媒体表示，“在传统的调研上，大数据将贡献于基础资产的研究，而以往过度依赖线下研究报告。大数据将视野拓展至了线上的数据分析，给基金经理选股带来新的逻辑。” 在BAT三巨头中，腾讯其实是最早推出指数基金的。腾讯与中证指数公司、济安金信公司合作开发的“中证腾安价值100指数”早在2013年5月就发布了，号称是国内第一家由互联网媒体与专业机构编制发布的A股指数。不过，业内人士表示，有关指数并没有真正应用大数据技术。虽然腾讯旗下的微信是目前最热的社交平台，蕴藏了大量的社交数据，但腾讯未来怎么开发，目前还并不清晰。中欧商学院副教授陈威如在其《平台战略》一书中提到，21世纪将成为一道分水岭，人类商业行为将全面普及平台模式，大数据金融也不例外。然而，由于大数据模型对成本要求极高，就好比不可能每家公司都搭建自己的云计算系统一样，让每家机构自己建设大数据模型，从数据来源和处理技术方面看都是不现实的。业内人士认为，大数据未来必将成为平台化的服务。目前，阿里、百度等企业都表示下一步方向是平台化。蚂蚁金服所致力搭建的平台，一方面包括招财宝一类的金融产品平台，另一方面包括云计算、大数据服务平台。蚂蚁金服人士说，“我们很清楚自己的优势不是金融，而是包括电商、云计算、大数据等技术。蚂蚁金服希望用这些技术搭建一个基础平台，把这些能力开放出去，供金融机构使用。” 百度亦是如此。接近百度的人士称，未来是否向平台化发展，目前还在讨论中，但可以确定的是，“百度不是金融机构，目的不是发产品，百发100的意义在于打造影响力，而非经济效益。” 当BAT还在摸索前行时，已有嗅觉灵敏者抢占了先机，那就是通联数据。通联数据股份公司（DataYes）由曾任博时基金副董事长肖风带队创建、万向集团投资成立，总部位于上海，公司愿景是“让投资更容易，用金融服务云平台提升投资管理效率和投研能力”。该平台7月上线公测，目前已拥有130多家机构客户，逾万名个人投资者。通联数据目前有四个主要平台，分别是通联智能投资研究平台、通联金融大数据服务平台、通联多资产投资管理平台和金融移动办公平台。通联智能投资研究平台包括雅典娜-智能事件研究、策略研究、智能研报三款产品，可以对基于自然语言的智能事件进行策略分析，实时跟踪市场热点，捕捉市场情绪。可以说，和百发100类似，其核心技术在于将互联网非结构化数据的量化使用。通联金融大数据服务平台更侧重于专业金融数据的分析整理。它可以提供公司基本面数据、国内外主要证券、期货交易所的行情数据、公司公告数据、公关经济、行业动态的结构化数据、金融新闻和舆情的非结构化数据等。假如将上述两个平台比作“收割机”，通联多资产投资管理平台就是“厨房”。在这个“厨房”里，可以进行全球跨资产的投资组合管理方案、订单管理方案、资产证券化定价分析方案等。通联数据可以按照主题热点或者自定义关键字进行分析，构建知识图谱，将相关的新闻和股票提取做成简洁的分析框架。例如用户对特斯拉感兴趣，就可以通过主题热点看到和特斯拉相关的公司，并判断这个概念是否值得投资。“过去这个搜集过程要花费几天时间，现在只需要几分钟就可以完成。”王政表示。 “通联数据就好比一家餐馆，我们把所有原料搜集来、清洗好、准备好，同时准备了一个锅，也就是大数据存储平台。研究员和基金经理像厨师一样，用原料、工具去‘烹制’自己的策略。”王政形容道。大数据在平台上扮演的角色，就是寻找关联关系。人类总是习惯首先构建因果关系，继而去倒推和佐证。机器学习则不然，它可以在海量数据中查获超越人类想象的关联关系。正如维克托`迈尔-舍恩伯格在《大数据时代》中所提到的，社会需要放弃它对因果关系的渴求，而仅需关注相互关系。例如，美国超市沃尔玛通过大数据分析，发现飓风用品和蛋挞摆在一起可以提高销量，并由此创造了颇大的经济效益。如果没有大数据技术，谁能将这毫无关联的两件商品联系在一起？通联数据通过机器学习，也能找到传统量化策略无法发现的市场联系。其中包括各家公司之间的资本关系、产品关系、竞争关系、上下游关系，也包括人与人之间的关系，例如管理团队和其他公司有没有关联，是否牵扯合作等。未来量化研究员是否将成为一个被淘汰的职业？目前研究员的主要工作就是收集整理数据，变成投资决策，而之后这个工作将更多由机器完成。 “当初医疗科技发展时，人们也认为医生会被淘汰，但其实并不会。同理，研究员也会一直存在，但他们会更注重深入分析和调研，初级的数据搜集可以交给机器完成。”王政表示。但当未来大数据平台并广泛应用后，是否会迅速挤压套利空间？这也是一个问题。本文为专栏文章，来自：数据分析侠，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/4857.html 。

来源：数据分析网

发布时间：2015-12-19 23:24:00

数博会亮相2019世界移动大会

6月26日，2019世界移动大会（上海）在上海新国际博览中心开幕，贵阳市作为固定参展方亮相并开展了中国国际大数据产业博览会展示及推介活动。本次大会为期三天，由全球移动通信系统协会主办，聚焦人工智能、5G、信息安全、数字健康、颠覆性创新、沉浸式内容、工业 4.0、美好未来等主题。会议期间，数博会组委会在新国际博览中心N1展馆设置展区，紧扣大会及行业热点，以图文、视音频等形式展示了2019数博会成果和全市近年来推进大数据产业创新发展方面的新举措、新作为、新应用，如贵阳在物联网、5G通信、网络安全等方面的积极部署，以及贵州“一云一网一平台”、贵阳大数据交易所商业模式、满帮集团“公路干线智慧物流交易一站式综合服务——满运宝”等大数据实践，吸引众多专业参展者驻足询问。 2020数博会的招商招展推介活动，也在本次展会期间有序进行。 2019世界移动大会（上海）负责人将与贵阳参展团就充分利用两个国际盛会的办会优势共赢发展进行交流，全方位探讨下一步深度合作。数博会执委会、贵阳市大数据局、贵阳大数据博览会有限公司、北京市贸促会、贵阳块数据城市建设有限公司等，也将参加部分重要论坛和展区观摩，开展专业学习和洽谈交流。世界移动大会（上海）是亚太地区最具规模和影响力的年度移动通信行业盛会之一，2015年以来，贵阳已连续五年参展，旨在借鉴先进办会经验，扩大数博会“朋友圈”，吸引更多国内外优质展商和专业观众共赴贵阳大数据盛宴。

来源：大数据中国

发布时间：2019-06-30 22:10:00

4个小例子告诉你：如何成为一名数据极客 | 数据分析网首页分类阅读行业资讯大数据 �

对于数据岗位的员工，互联网公司颇有些不同的称谓，像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等，每一种之间的技能差距简直是风马牛不相及。但我觉得，数据岗位的需求千变万化，真正能通过数据解决问题的人，不仅要通晓两到三种岗位的技能，而且要深刻理解数据方法论，能将数据玩弄于鼓掌之中，这种人我称之为数据极客。好比武侠小说中的绝顶高手，杀人已不需要用剑，剑意就能杀人于无形。数据极客都需要具备哪些能力？懂数据的人会怎么去思考和解决问题？我想举我自身遇到的4个小例子来说明。懂得创造数据在大部分人的常识里，数据是客观存在的，既不会递增，也不会消减。所有当他们绘制报表、展开分析、构建模型时，很容易遭遇的瓶颈是没有数据，俗话说，巧妇难为无米之炊。真实的状况却是：数据是无穷无尽的，哪怕有时我们与数据之间的距离很远，就像远在天边的繁星，「手可摘星辰」只是一个传说，但经过大气层的折射我们却能时刻感受到它们的光辉。不仅光会折射，数据同样也会折射。举一个小例子：实习生Q跑来问我：「Boss赶着要大厅发言的数据去对付投资人，但是后台碍于发言的数据量级太大，一直都没有保存，无论数据库还是日志系统都没有记录。」我想了一下，问：「客户端进入大厅页面的事件一直都有监控，可以用那个数据替代吗？」「但是这个数据并不精确，因为进入大厅的并不完全转化为发言。」「是的，虽然不十分精确，但可以暂时用这个数据近似。然后，好友添加的数据一定程度也能反映大厅发言的热度，因为之前的统计显示，70%的好友关系产生来自于大厅。哦，对了，你有没有关注大厅界面的发送按钮的事件统计？这会是一个更为精确的替代数据。」这就是一个数据有无到有被创造出来的例子。虽然原始数据没有保存，但是数据极客的任务就是通过其他可能被获取的数据逼近原始数据，从而还原一个较为真实的状况。如果没有数据能够成为一个罢工的借口，那么我相信恐怕90%的数据极客都得失业了。但反过来，如果不是对业务对数据的采集都了如指掌，同样没办法快速实现这种变数据的戏法。数据是立体的 20世纪初，毕加索兴起了立体主义的绘画潮流，追求以许多组合的碎片形态去描写对象物，并将其置于同一个画面之中，物体的各个角度交错叠放创造出了一个多维的迷人空间。这和理想的数据展示多么相似：客观存在的问题经过多维度的数据解读，被展现在一个二维的平面上，让读者即便只站在一个角度，也能看到这个问题在所有角度上的表现。再举一个小例子（是的，这个例子完全与数据岗位无关，是一个来自客户端工程师的困扰）： W是U公司负责海外业务的安卓工程师，最近盯的是视频播放的项目，有次闲聊的时候说起，最近做了好几个底层库的性能优化，但从指标上看却没有明显提升，每次向老大汇报的时候总是心虚。「性能优化的指标是怎么统计的？」「海外业务的网络状况普遍不好，所以我们最关注的是视频页面的加载时间，统计的是从页面打开到视频完全加载的时间差，取所有用户的均值。」「这个指标似乎不那么全面，如果一个用户等待的时间过长，他有可能提前关闭页面，是否有统计过关闭页面的数据？还有，看过这个时间差的分布状况么？如果性能优化有针对一些特殊的客户端（比如型号、CPU、内存），有没有看过特殊客户端下的指标有没有提升？」我默想W的下次汇报一定会大肆耀武扬威一番，嘿嘿。这就是数据的魔力所在。通过层层剖析，始终能找到与问题相关的有区分度的数据，再通过数据的变化去定位到问题的发生原因或者发展趋势，给出不容置疑的结论。所以，在解决任何问题之前（也不限于数据岗位），你都必须先构建起一套立体化的数据监控体系，来强有力的印证你的方案是有效的。厌恶抽样无论是做推荐系统、精准营销还是反欺诈，都会遇到一个现实的问题：如何检测一个模型的实际效果？在观察指标之余，抽取一小部分的标记用户，观察他们的行为模式，人为去验证这个模型的准确率，是一个必要的环节。但是抽样如果用得泛滥了，就不是补药而是毒药了。再举个小例子： G是团队的新人，有阵子我看他没日没夜的加班，忍不住过问了几句，看是不是最近业务上碰到了什么瓶颈。一问下来有点啼笑皆非：原来G正在负责一个反欺诈模型的建设，需要一些黑标签，他从所有用户中抽取了好几个特征用户群，然后从每个用户群中再抽样一批用户，通过日志观察是否有欺诈行为，这么一来就耗掉了两天的时间。抽样是一种从局部看整体的方法，在抽样之上，你还要有对整体的把控。比如像G的做法就不符合数据极客的行为指南，既然可以通过日志观察到用户的行为特征，你就应该先把这种行为特征转化为可用的统计指标（比如识别欺诈，完全可以用收益相关的指标），再计算这几个用户群的均值特征，这样对比下来一目了然，而且省时省力。善用工具感谢谷歌创造了这个时代最廉价的数据核武器 – Hadoop（当然，如果Spark的bug再少一些，我会考虑把AMPLab放到谷歌的前面），数据的规模对大部分企业而言已经是一个无需顾虑的问题。但是数据极客不会满足于会用工具的层次，理解工具的原理，灵活的使用工具，使工具变得更加顺手，才能真正达到「善」用工具的境界。再举一个小例子： Z博士刚毕业不久，一腔热血要把高大上的机器学习算法用到我们的推荐系统上，但是第一次的运算结果居然要8个小时才能跑完，远远达不到产品团队的更新要求。于是老大鼓动我去协助Z提升整个环节的效率，我们一起在白板上梳理了整个计算的流程，我发现有好几处都是浪费资源降低效率的做法：原始数据由单机做一次处理再上传到Hadoop、多个MapReduce其实可以合并为一个、甚至Hadoop的参数也可以根据机器的性能稍做调整：加大节点数、加大Map和Reduce环节的可用内存、添加压缩以减少节点间传输的时间。稍作改造，运算时间便只剩下了原来的四分之一。说到这里，你也许会觉得数据极客也没什么巧妙，他们的方法论，和一切工作的方法论没什么不同，都会要多用脑子、多用工具、多种角度看待问题。既然如此，我可要恭喜你，你已经完全懂得了数据的妙用，而我一直以为，懂点数据，会对人的工作和生活大有助益。来源：微信公众号码农咖啡馆(微信ID：codingcoffee) 本文已获得作者授权链接：http://guoze.me/2015/12/12/data-geek/ 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2015-12-12 12:12:00

2019比特网AI智榜评选正式开启

利用机器学习，流媒体服务平台可以向用户推荐他要看的电影，发送他可能很快就会在线下单的商品，它还能帮着识别照片中的人物甚至花草。没错，这些都是AI。现如今，随着AI的点滴渗入，人们也已经不再毫无察觉了。从研发到实战，最近两年人工智能越来越多地出现在我们身边，诸多革命性技术也随之喷涌而出。寻找人工智能技术的推动者，成为了我们新的目标。2019年，比特网将结合专家及媒体资源，针对人工智能技术、产品及解决方案进行评选，寻觅出行业内最具亮点的技术推动者。此次评选共设人物、品牌、产品与解决方案四大类奖项，每个大类都有更精细分类，例如：创新解决方案、优秀解决方案等等。由主办方比特网发布通知及申报表（可在大会网站下载），在全国范围内征集2018-2019年对行业发展做出突出贡献的人物、企业、产品和解决方案候选材料。收到企业申报的材料后，将在大会专题网站向公众传播。所有申报方案都通过大会官方网站公布的电子邮箱，提交电子文档。通过企业自荐、专家推荐以及网友推荐等各种方式，广泛地征集候选对象。

来源：大数据中国

发布时间：2019-06-30 22:08:00

软通智慧：深入参与ITSS标准建设助力城市数字化创新发展

6月29日，首届信息技术服务业高质量发展论坛暨ITSS体系建设十年大会在第23届中国国际软件博览会上顺利举办，软通智慧董事长尹洪涛作为信息技术服务分技术委员会(ITSS分委会)秘书长主持了ITSS经验分享和成果发布会。湖南省政协副主席、ITSS分委会主任委员张大方，工信部信软司副司长董大健，北京市经信局副巡视员、ITSS分委会副主任委员姜广智，以及国家市场监管总局、湖南省政协、江苏省工信厅等领导出席，中科院何积丰院士、北航计算机学院吕卫峰院长等行业专家分别做了精彩演讲。湖南省政协副主席、ITSS分委会主任委员张大方工信部信软司副司长董大健北京市经信局副巡视员、ITSS分委会副主任委员姜广智北航计算机学院院长吕卫锋软通智慧董事长、ITSS分委会秘书长尹洪涛 ITSS分委会秘书长尹洪涛表示，ITSS是指导信息技术服务的方法论，2019年恰逢ITSS建设十周年，经过十年的发展，ITSS体系不断结合技术变革以及产业发展现状和趋势，与时俱进、升级迭代，已形成了4.0+标准体系，为IT服务生命全周期提供了一整套可遵循、可度量的实施标准，强化了国家战略和市场需求。智慧城市作为信息技术跨领域、跨层级、跨部门的技术集成者和各类数字资源的有序融合者，已经成为成为ITSS标准体系中新的重点领域。在当前智慧城市进入快车道发展的大背景下，对城市建设中的实际问题发挥着引导、规范、统筹等重要作用。软通智慧在2016年就通过了ITSS运维信息技术服务标准认证，在软件与信息技术服务、创新与数字化转型服务以及数字化运营服务等领域形成了众多的成果。作为智慧城市的先行者和领导者，软通智慧始终以“城市数字化、智慧化”为核心提供一体化设计、建设、运营服务，不断利用数字孪生、5G、物联网等高精尖技术深化智慧城市的内涵。高质量的设计理念、高质量的技术水平、高质量的运维服务助推软通智慧在170多个城市落地智慧城市应用，成为城市数字化转型首选服务商和最可信赖的伙伴。未来，软通智慧将持续深入参与智慧城市的标准体系建设，构建产业平台和资源平台，通过理念创新、技术创新、服务创新、模式创新，助力城市、产业和行业的数字化升级。

来源：大数据中国

发布时间：2019-06-30 22:04:00

冷静看待人工智能，企业如何从人工智能产业中受益？ | 数据分析网首页分类阅读行业�

王煜全在得到《全球创新260讲》中连续多期谈人工智能，笔者也很感兴趣，特将其要点及自己的体会整合成一篇文章，一共六个观点，希望于你有益。 1、人工智能风口已过一说人工智能，你肯定会说了，人工智能时未来的巨大的风口，这还用你说呀？但如果连杨澜都说了，而且还出了本《人工智能真的来了》的书，那我想跟你说的恰恰是连杨澜都说了的科技领域，还能是风口吗？这里没有鄙视的意思，而是为了说明人工智能创业期已经过了，现在进入了应用期，企业应该走上舞台。 2、人工智能的三个特点第一：计算能力逐渐不再是优势过去，当你要提供人工智能能力，最起码要有很强大的财力支持，因为你要买很多 GPU ，搭建一个GPU计算平台，但是，现在全球的这些大的IT企业，依托于云计算，纷纷把自己的计算能力放到网上，而且开放出来，只要你能够接入互联网，就能享受到谷歌、Facebook等这样的公司提供的最强大的计算能力IDE支持。这是王煜全的观点，我觉得还是要打个问号？传统的大型企业是否有必要搞一套针对人工智能的基础设施，的确是值得思考的问题，但在数据安全性等系列问题没解决之前，很难有哪个企业愿意把自己的数据放到外部平台，在相当长的时间内，人工智能的计算能力对很多企业仍会是个瓶颈。第二：自主研究算法不再有必要本来人工智能算法就是开源的，而且随着它的迅速的扩散，变得越来越开源，越来越通用，比如说，谷歌就开源了自己的人工智能开发系统，叫tensorflow，这样就造成很多不懂人工智能算法的人，也可以调用人工智能的复杂的处理方法去做人工智能的开发。这个和我们以前说的互联网一样，大量的原来需要有专业技能才能实现的开发，这个门槛降得越来越低，可以被越来越多的普通人所掌握。这一轮人工智能很重要的特点，就是几乎所有的IT巨头，都纷纷全力参与，而且策略都差不多，都把重兵投入到人工智能开放平台的开发建设，无论是百度的大脑深度学习平台，还是腾讯开放平台提供的7项AI服务，或是科大讯飞的语音云，如果你有应用机会，千万别费劲做谷歌这种平台搭建的事儿，也别费劲做DeepMind这种底层技术开发的事儿，直接使用它们的成果做你的应用开发就好了。第三：数据成为差异化竞争力最后一项，始终还是个门槛，就是数据，当算法和算力都不再是门槛，唯有数据是门槛的时候，有数据的人才有竞争优势，而懂人工智能却没有数据的人，就不再有竞争优势了，这能解释诸如李飞飞、吴恩达到企业的原因。有数据的企业需要用更开放的心态成就有人工智能梦想的各类企业或个人，这是很大的数据变现机会。 3、人工智能不存在需不需要的问题人工智能将逐步像基础IT那么成为企业的标配，你不掌握，你的竞争对手掌握，你就有劣势了，所以，不是因为要取得竞争优势而掌握人工智能，而是因为不要被人家落下，不要被竞争对手超越，你也被迫要掌握人工智能，这个理念跟以前把人工智能当奢侈品的态度完全不同。那么，现在要不要投入？这一点其实很有争议，笔者以前也是会左右摇摆，但有一点是肯定的，人工智能不像传统IT基础设施那样简单的可以买到，特别需要末雨绸缪，对于有数据的企业尤其如此。 4、人工智能的使用不是所见即所得人工智能的使用方法确实和传统的IT的使用不太一样，传统的IT很简单，买来用就好，相当于你买一个电脑回家使用就好，但是，人工智能现在确实也能够你买来就使用，但是买来就用的效果不是最佳的。因为，我们说现在人工智能的原理不是传统的IT原理，以前IT，只要有明确的操作方法就可以一步步搞定了，但人工智能不一样，它是一个黑盒子，你无法明确定义一步步的操作，而是需要定义明确的好坏标准，然后让人工智能自我迭代训练，只要你的好坏判断足够好，经过一段时间，人工智能就能发挥价值。所以，你要看看你的行业领域里面是否有足够的数据，这个数据操作以后是否有人能够做出明确的好坏判断，而且，是否有大量的重复劳动，如果有，那就是人工智能发挥的好场所。这的确是当前很多企业搞人工智能面临的困境，一是没有数据，二是没有可用的场景，三是很难给出验证标准，李飞飞搞了个有标识的图片库，就是为了创造一个验证库。 5、人工智能呼唤产业革命的崛起人工智能首先是场科技革命，这一轮的突破由于很多人30多年的持续贡献，以AlphaGo为代表的深度学习经过各方面的调整，基本达到了它的最优输出，具备了使用的条件，这一轮的人工智能革命已经基本成熟。但要知道，一个伟大的科技突破刚刚出现的时候，它的表现并不令人满意，除了大家难以接受以外，往往自己也有很多改进之处，比如说，我们熟知的瓦特其实并不是蒸汽机的发明人，而是那个使得蒸汽机能够达到大规模运用水平的改进者。我们把这样的科技革命和应用成熟的关系，比作坦克和闪电战，坦克是英国人发明的，而把坦克的能力发挥到淋漓尽致的闪电战打法却是德国人发明的，在科技领域，我们往往会重视发明家，而忽略了发明闪电战的战略家，他们往往是把科学革命的价值真正实现出来，也就是真正造福社会，推动了社会进步的人，他们多半是企业家，这就是为什么我们常说 “掌握先进科技的企业家才是这个社会的最先进生产力”。所以，不用瞻前顾后，就像《IT不再重要》这本书里面的观点，互联网来了以后，每个公司早晚都要用，早用了还有点优势，不用去讨论未来如何，关键是你现在能不能把人工智能用到自己的领域里。什么，你说企业没场景，的确，大家都说没场景，但从无到有才显英雄本色，科技的红利没那么容易抓。 6、开发人工智能应用的方向选择前面说了，根据人工智能的特点，选择的应用要求一是在某个领域有沉淀的数据，而且这个数据具有专有性，能够形成壁垒，二是有明确的判断结果好坏的方法，诸如图像识别都有明确的清晰的客观的结果，这个时候你不需要专门的行业专家，但如果你的领域没有清晰的客观标准，你就要问自己是否有这个领域的专家参与，帮你来确定结果的好坏，帮你来训练。其实这个特性跟机器学习等没有区别，诸如运营商等具有明显行业特性企业的人工智能，无论在市场、网络、政企、客服哪个方面，大多是需要企业的专家深度参与才能建立起自己独特的人工智能，未来人工智能的应用壁垒一定就是行业数据+行业知识。这里特别提到了一些结果明确的人工智能的应用方向，包括医学影像、商品推荐、广告服务、金融投资、法律文档等，当然，很多时候还取决于我们能不能为人工智能找到更多的应用空间，这依赖于企业的创新力，这儿有个案例：日本有这样一个人，它是汽车嵌入式系统的设计师，它父母在经营一个黄瓜农场，外行人不知道，种黄瓜最困难的其实不是种植和采收，因为这些工作相对来说都标准化了，最困难的是黄瓜的分拣，就是黄瓜熟了以后大小不一，成熟度不一，如何把它们按等级分拣出来，这个以前都需要靠人工，耗时耗力，而且成本比较大，在黄瓜收获的旺季里，他的母亲每天要花费超过8小时来进行黄瓜的分拣工作。所以，这位汽车嵌入式系统的设计师就基于TF系统开发了一个基于视觉识别的人工智能系统，具体地说，就是给不同的黄瓜牌照，让人工智能学习长成什么样的黄瓜应该分到哪一级，然后再流水线上做自动分拣，大大提升了分拣的效率，让父母能够轻松的经营农场。团队曾经将地铁用户识别的问题转化为一个图像识别问题，虽然准确率有限，也算是利用人工智能工具的有益探索，原来笔者对人工智能在传统行业能否落地打着大大的问号，但现在觉得还是要去探索实践，不尝试根本不知道怎么玩。王煜全说得更直白，人工智能是个几乎万能的工具，关键是你能不能熟悉运用它的技巧，为它找到在你的领域里的运用空间。本文为专栏文章，来自：傅一平，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/56012.html 。

来源：数据分析网

发布时间：2018-04-24 23:05:00

到2030年两千万机器人上岗

英国智库牛津经济咨询社26日发表一份研究报告，预测到2030年，机器人将取代全球2000多万个制造业就业岗位，促进整体经济产出，同时加剧社会不平等。这一预测强调，自动化和机器人会产生经济效益，大量取代低技能岗位，致社会和经济压力增大。报告说，随着计算机视觉、语音识别技术发展和机器学习能力提高，机器人已在制造业领域取代超过100万个就业岗位，正进一步走向服务业。不少分析师认为，自动化设备虽然正在部分取代人类劳动力，同时也为社会创造更多就业机会。但是，自动化趋势造就的技术鸿沟近年让许多普通工人面临下岗危险。 “机器人化”潮流最终或许会促进生产力和经济发展，但它催生的新产业和新岗位实际与它所取代的数量大致相当。研究报告的作者认为，低技能领域的失业人数将是高技术领域的两倍，如从事仓储类等一些高度重复性工作的工人将最先失业。机器人会在零售、医疗、酒店、运输、建筑业和农业等行业扮演越来越重要的角色。而一些需要爱心、创意和社交智能的职业今后许多年或将仍由人类占据。研究人员认为，自动化发展促进生产力提高，使全球经济不到2030年便能受惠于“机器人红利”，效益可达5万亿美元。但自动化发展会在不同国家和地区呈现不同态势。研究人员建议，比起试图放慢机器人技术发展的步伐，人们的关注点更应放在如何利用自动化所获红利帮助落后地区，为应对今后的剧变做好准备。 “自动化会加剧发达经济体中的两极分化，这种趋势会在自动化广泛运用于服务业时更加明显。”报告说，“准备和应对自动化带来的社会影响，将是今后十年人类面临的决定性挑战。”

来源：大数据中国

发布时间：2019-06-30 22:03:00

人工智能大热，这5个抢手的大数据趋势你知道吗？ | 数据分析网首页分类阅读行业资讯

随着大数据和人工智能的广泛应用，这些新兴技术的庞大影响力遍及全球经济，如今的投资者和企业家们迫切希望在2018年取得这些创新成果，正在开始确定将要定义这些技术创新的主要趋势。那么，当今的人工智能和大数据热潮背后的推动力究竟是什么呢？渴望投资于这一现象的投资者能做出什么样的准备呢？事实证明，到目前为止，界定人工智能革命的许多力量仍然在起作用，并将继续定义人工智能在2018年如何影响市场。通过了解和熟悉这五大新兴趋势，企业和业界人士将在新的一年即将到来之际，充分利用和发挥大数据和基于人工智能的解决方案的作用。 1、更多关注零售在最近的大数据和人工智能的应用热潮中，几乎没有哪个领域像人工智能这样可以让企业受益。无论是沃尔玛还是当地的母婴店，各地的企业似乎都在利用这些技术来降低管理费用，同时扩大业务范围。例如，客服人员可能会被人工智能助理彻底取代，但更重要的是，零售商可以通过人工智能跟踪他们的库存，而消费者的兴趣很快就会发生革命性的变化。随着越来越多的零售商将大数据和人工智能应用到他们的商业模式中，预计这个行业现在可以利用人力和机器的力量来获得更多的利润。此外，由于更多的企业加入并将其应用于自己的业务中，人工智能可能会继续得到更多的投资。 2、暗数据的新纪元随着大数据的增长，利用暗数据获得商业成功的机会也将随之增加。所谓的暗数据就是企业正常商业活动期间搜集，处理，存储的数据。但这些数据通常无法用于诸如分析，商业关系或者是直接变现获利等目的。对于并不熟悉人工智能和数据管理领域的许多人来说，这种数据不断被证明是有用的。暗数据可能难以让人理解，但随着越来越多的企业投资人工智能，这些迷惑可能就会消散，并导致人们对正在进行的数据革命的热情更高。 3、人工智能和云计算的结合随着越来越多的企业采用人工智能解决方案以应对其业务困境，其中许多公司将寻求加强其IT基础设施，并将业务转向云端。随着大数据应用者的规模越来越大，人工智能越来越成为一种主流，随之而来的数据需求将给企业的本地服务器带来更大的负担，这意味着他们需要在别处满足他们的数据需求。云计算非常适合帮助满足和管理这些不断增长的需求，因为内部部署的服务器和数据管理对于企业来说变得过于混乱并且成本高昂。 4、更加智能的市场营销市场营销是利用大数据的力量革命化的关键领域之一，通过梳理大量的数据，企业能够比以往任何时候都更准确地针对特定的消费者，将广告和交易直接发送到潜在消费者的邮箱或家门口。随着越来越多的公司试图利用自动算法来分类数据以找到潜在的客户，人工智能领域将受益于行业投资的增加。而实时定位可以为正确使用的公司带来20%以上的销售机会，这意味着采用人工智能可以获得十分丰厚的利润。 5、聊天机器人应用越来越广泛大数据和人工智能在全球范围内得到日益广泛的应用，在所有的创新中，很少有像聊天机器人这样的应用让消费者赞叹。 Facebook，Skype和Slack等公司都在其服务中添加了聊天机器人，他们对消费者来说非常有趣，包括法律帮助热线，技术创新让聊天机器人越来越智能。这意味着它们可以为人们解析法规，通过有效的诊断来指导患者。如果大数据继续以目前的高速度增长，那么预计在日前使用的社交媒体平台上将会有应用更广泛的聊天机器人。这可能比人们想像得还要快，这些由人工智能技术驱动的机器人可能会更加有效地与人们聊天，人们甚至可能无法判断是否正在与另一个人交谈。大数据和人工智能经常受到新闻界的批评，在许多好莱坞大片中也有一些不合时宜的末日情景。然而事实是，人工智能和驱动其发展的大数据革命正在使人们的世界变得更加美好，而那些投资这些新兴技术的企业和个人现在正在为自己的业务发展而努力。在这个世界上，几乎没有东西是确定的，但是如果有一件事是肯定的，那就是大数据和人工智能将会得到更多的应用和发展。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2017-12-15 22:45:00

对于人工智能，不妨先用起来

虽然人工智能开始作诗、绘画、写小说，但整体而言，人工智能技术仍然处于弱人工智能阶段，离人类智慧仍有相当大的差距。未来，人工智能在文艺领域能否有高水平发挥，有待时间检验。　　 2015年国务院将人工智能列为“互联网＋”领域重点发展的目标任务；2016年“十三五”规划纲要提出重点突破人工智能技术；2017年全国两会上，人工智能首次被写入政府工作报告。在过去五六年时间里，人工智能话题持续升温，到今天已经成为横跨各行各业的热点议题。随着相关讨论的不断深入，人工智能能否介入到文艺创作，怎样介入到文艺创作，也开始被不断聚焦。谷歌、IBM、微软等国外科技巨头，先后利用人工智能技术推出了诗歌、小说、音乐、绘画等多个传统艺术门类的作品，引起广泛关注的同时，也让相关讨论呈现两极化。支持人工智能的观点乐观地认为，人工智能技术将很快进入具有自主意识的强人工智能阶段，在文艺创作领域将能像人一样发挥作用；而反对人工智能的声音则认为，人工智能距离拥有人的独立意识，还有相当大的距离，尤其是在高雅艺术领域，人工智能进行自主创作为时尚早。在这些截然相反观点的背后，不仅存在着多重误读，也混淆、掩盖了人工智能在当前文艺创作中的实际角色和真正问题。所以若想避免抽象、夸张和物化地讨论人工智能问题，我们首先要厘清对于人工智能认知上的结构性错位，不能将通俗文艺和高雅艺术混为一谈，并忽视其中的跨媒介、融媒介现象和人工智能对于我国文化产业转型升级的重要意义等关键问题。弱人工智能具有广泛应用前景虽然人工智能已经介入很多领域，但不同领域的人工智能并不一样，甚至存在极大差别。业界通常把人工智能按照先进程度，分为三种：弱人工智能，强人工智能，超级人工智能。弱人工智能只能在特定领域、既定规则中，表现出强大的智能，例如AlphaGo。而强人工智能不受领域、规则限制，具有人类同样的创造力和想象力。超级人工智能呢？就是远远超越人类的智能。当前，相关企业出于企业公关、引导舆论、拉高估值等目的，肆意夸大人工智能还远不具备的功能，并有意掩盖其背后的技术瓶颈和巨额能耗等现阶段无法跨越的问题。但对人工智能持激烈批评态度的相关观点，却在指出人工智能在现阶段水平不足的同时，也将相关讨论进一步抽象化，以尚未兑现的强人工智能的标准，来否定现阶段弱人工智能的广阔应用现实，这样可能会错失真正深入到人工智能在当下具体应用现场的可能。就文艺创作而言，虽然人工智能开始作诗、绘画、写小说，但整体而言，现阶段人工智能无论如何也无法像人类一样创作出《红楼梦》《命运交响曲》这样伟大的文艺作品，将来人工智能在文艺领域能否有高水平发挥，也有待时间检验。不管对人工智能从事文艺创作的前景看不看好，我们都不能否认和忽略人工智能在通俗文艺领域不断展开的现实应用和广阔的发展前景。比如，在网络游戏等文创产品的开发中，人工智能已经被大量运用。正如“阿尔法狗”之父、DeepMind公司CEO哈萨比斯所言，“游戏是测试AI（人工智能）算法的完美平台”。伴随着技术的发展，人工智能已开始参与游戏设计。例如，英伟达正基于机器学习与神经网络技术研发多种游戏开发工具，其功能包括利用照片自动生成材质、将低像素图片还原到较高清晰度等。当前，我国正在大力发展文化产业，人工智能对于我国的文化产业有着至关重要的价值和意义。比如，在工业艺术设计领域，人工智能技术已经被应用到纺织业中，它能够瞬间设计出数以十亿种类的图案和纹样，而这些靠人力是无法完成的。因此，我们不能因相关技术尚未达到强人工智能阶段，就忽视和排斥对弱人工智能的应用。助力文化产业转型升级新世纪以来，我国文化产业意义上的通俗文艺，取得了爆炸式发展。电视领域早在2007年即实现了电视剧产量、电视剧播出量、电视剧观众三个“世界第一”。电影领域在2010年票房突破百亿元人民币之后，经过近十年的发展，也有望在明年登顶世界第一。不仅传统媒介形态下的通俗文艺取得长足进展，互联网、移动互联网等新兴媒介形态下的通俗文艺，也自21世纪伊始不断狂飙突进。2018年，我国游戏市场实际销售收入达2144.4亿元人民币，占全球游戏市场的23.6%，这已相当于全球电影票房的总和。我国自主研发的网络游戏，海外市场实际销售收入达95.9亿美元，直逼我国国内电影票房的总和，占我国文化产品和服务进出口总额的近8%。而我国网络游戏所在的网络文艺行业，市场规模更是达5000多亿元，在我国文化产业中占比17%左右。如果说在未来，文化产业将成为持续拉动国民经济增长的支柱性产业，那么以网络文艺为先锋的通俗文艺领域，则是我国文化产业中当之无愧的生力军。然而，在从电视、电影到网络游戏等不同媒介形态的通俗文艺实现跨越式增长的同时，相关领域的文艺创作却仍然处在松散、分散的“小作坊”阶段，与现代文化工业的高度综合、集成特征有着相当大的距离。在这个意义上，人工智能的意义就被凸显出来，因为其背后直接映射出我国文化产业转型升级的关键问题。以网络游戏领域为例，尽管我国网络游戏行业在体量上已达到世界第一，但对于网络游戏最为关键的游戏引擎，我们至今依然受制于人，因为仅仅通过商业并购并不能实现真正的独立自主。如何补齐游戏引擎的短板？人工智能的落地应用，对于游戏引擎的开发具有最为直接的技术影响，弱人工智能在这一领域的应用程度，直接影响着我国能否推出具有真正自主知识产权的游戏引擎。人工智能对于文化产业的意义由此显现出来。这一重大意义并不局限在网络游戏一个领域。以刚刚摘得我国电影史总票房第三的《复仇者联盟4》为例，所谓的漫威宇宙、DC宇宙之所以能够在2008年以后快速崛起，突出的视觉特效是其获得成功的关键一环，而相应的特效正是来自世界先进的游戏公司在人工智能应用中长期的技术积淀。在横跨电视、电影、网络游戏、网络文艺等不同媒介形态下的通俗文艺领域的文艺创作，大范围应用人工智能，对于提升我国现代文化工业的综合集成能力、综合加工能力等具有关键作用，甚至会直接左右着我国文化产业的跨媒介发展格局。警惕繁荣背后的行业泡沫改革开放以来，我国对外开放程度不断加深，文化产业新世纪以来指数式的增长，为不断生成具有全球普遍性价值的我国通俗文艺经验，提供了坚实的生长土壤。特别是以移动互联网为表征的人类历史上前所未有的媒介迭代浪潮，带动了我国各个领域文化经验的发展和更新。我国本土的通俗文艺，已经逐步挣脱出二战后诞生于北美、西欧的种种观念、概念。弱人工智能在跨媒介、融媒介的通俗文艺领域，若能得到稳妥扎实地广泛应用，对阐释当代中国经验，讲述中国故事，提升我国文化软实力，自然可以起到前所未有的媒介杠杆效应。然而，我们对此也要保持足够的清醒和充分的警惕，移动互联网所起到的史无前例的媒介杠杆效应，并不只是单纯的技术飞跃，而是和金融杠杆紧紧绑定在一起。新世纪第二个十年以来，从物联网、云计算、大数据到人工智能，一方面这是以移动互联网为表征的媒介迭代浪潮的内在逻辑和发展趋势使然，另一方面也不可避免地造成一轮又一轮的炒作和投机。众所周知，20世纪90年代末到21世纪初，上一轮互联网泡沫的形成、发展与破灭，同样经历了热点概念的提出、炒作和蒸发的类似阶段特征。从2015年到今天，人工智能在我国受到全民关注后，已走过近五年历程。目前，全球人工智能70%的投融资都集中在我国，这既为我国人工智能事业的发展带来千载难逢的历史机遇，同时也带来了巨大的潜在风险。以史为鉴，媒介杠杆和金融杠杆相叠加，其排山倒海般的综合放大效应，是正向还是负向，取决于二者之间是否可以保持有机的动态平衡。也就是说，我国的人工智能行业如果不能创造与现有估值相匹配的经济价值，一旦金融杠杆断裂，就势必会带来难以预料和想象的多米诺骨牌效应，不仅行业本身将受到重创，对于文艺创作等人工智能的诸多具体应用领域，对于我国文化产业的转型升级和我国文化的“走出去”工作，都将带来长期的不利影响。为促进新一代人工智能健康发展，加强人工智能法律、伦理、社会问题研究，积极推动人工智能全球治理，国家新一代人工智能治理专业委员会在最近发布了《新一代人工智能治理原则——发展负责任的人工智能》，进一步提出了我国人工智能治理的框架和行动指南。未来，对于人工智能的持续治理，将长期考验着我国治理能力、治理体系现代化的程度、水平，因此我们必须具备纵深的历史视野。就文艺创作而言，弱人工智能在通俗文艺领域的实际应用，能否在我国文化产业已经呈现出高度跨媒介、融媒介特征的体系和架构中真正落地、生根，更是关乎着丰富人民群众精神文化生活，增强人民群众文化获得感的诸多需求。

来源：大数据中国

发布时间：2019-07-15 22:46:00

代表“中国速度”的6家国家超算中心，你了解吗？

如今，中国超级计算机研制、创新、应用发展已经走过40年。而刚刚过去的十年，是中国超级计算机技术创新与超级计算应用创新深度融合、迈向新阶段的十年。超级计算机(Super computer)是指能够执行一般个人电脑无法处理的大量资料与高速运算的电脑，多用于国家高科技领域和尖端技术研究。超级计算机主要特点包括：极大的数据存储容量和极快速的数据处理速度，一个国家的高性能的超级计算机，是国家科技发展水平和综合国力的重要标志。从2009年起，中国已先后在天津、深圳、济南、长沙、广州、无锡建成6家国家级超算中心，现在就来了解一下。国家超级计算天津中心国家超级计算天津中心是由科技部于2009年5月批准成立的首家国家级超级计算中心，由天津滨海新区和国防科技大学共同建设，国家超算天津中心不但部署着我国首台千万亿次超算“天河一号”，而且这里还肩负着我国新一代百亿亿次超算“天河三号”研发的重任。国家超级计算天津中心构建有超算中心、云计算中心、电子政务中心、大数据和人工智能研发环境，是我国目前应用范围最广、研发能力最强的超级计算中心，为全国的科研院所、大学、重点企业提供了广泛的高性能计算、云计算、大数据、人工智能等高端信息技术服务。 ↑↑点击图片查看完整视频↑↑ 目前“天河一号”已构建起石油勘探数据处理、动漫与影视特效渲染、生物基因数据处理、高端装备制造设计与仿真、地理信息处理、云计算等应用基础平台，吸引了石油勘探、影视特效制作和云计算等一批企业落户在国家超级计算天津中心附近，形成产业聚集效应。此外，“天河一号”结合天津及周边地区产业需求，探索建立3D虚拟港口显示监控、智慧城市智能交通系统、政府集中电子政务信息系统以及对各区县和功能区的高端产业支持等。今年7月份，在天津滨海新区举行的“纪念中国超级计算事业发展四十年暨国家超级计算天津中心成立十周年”活动上，国防科大副校长黎湘表示，围绕超级计算技术创新成果转化，天津逐步建立起从高性能芯片、自主操作系统、高性能服务器、数据库等较为完善的自主信息产业，成为高端信息技术创新、转化和引领的示范基地。国家超级计算深圳中心国家超级计算深圳中心于2009年11月16日正式启动建设，并在2011年建成并投入运行。国家超级计算深圳中心(深圳云计算中心)配置国产曙光6000超级计算机系统，该系统在2010年5月经世界超级计算机组织实测确认，运算速度达每秒1271万亿次(峰值3000万亿次)，排名世界第二，该系统于2011年11月16日投入运行。据了解，国家超级计算深圳中心有完备的基础设施、高性能计算服务、云计算服务、IDC服务以及鹏云公共服务平台。在承担国家重点任务的同时，该中心以鹏云公共服务平台为主体，重点打造“五云一单一店”(政务云、教育云、健康云、工业云、测试云以及电子账单和云计算应用商店)，其中教育云覆盖了深圳10个区的各个中小学校，用户达35万人；健康云对接了75家公立医院，电子病历超过98万份，单月预约挂号量超过32万人次，累计放号1600万人次。据介绍，该中心现已成为全球唯一向社会提供高性能计算、云计算和IDC等多元化业务服务的超算中心。国家超级计算深圳中心的计算资源被广泛应用于气象预报、科研、基因测序、工业仿真等关键领域，不仅使预报高级别台风预警信号的时间从“提前2个小时”提升至“提前10多分钟”，助力深圳成为行车平均速度最快的一线城市，还成为华大基因、华强动漫、大疆创新等深圳创新标杆企业的动力引擎，堪称粤港澳大湾区的科技创新“加速器”。据了解，由国家超级计算深圳中心所承担的国家发改委云计算重点示范工程项目，也是国内第一个超级计算云平台——深圳市城市公共服务云平台即将启动运行。国家超级计算长沙中心国家超级计算长沙中心于2010年10月由科技部批准组建，成为继天津和深圳之后获批建设的第三家国家级超级计算中心。 2014年11月，国家超级计算长沙中心在湖南大学正式运营。国家超级计算长沙中心采用主机采用国防科技大学“天河”超级计算设备，全系统峰值计算性能1372万亿次，全系统内存容量106TB，磁盘总容量1.43PB；围绕人工智能和大数据等新兴领域，建有“天河﹒天马”高性能集群系统，系统计算峰值能力超10PFlops (CPU +GPU)。湖南师范大学数学与计算机科学学院计算系主任刘宏曾接受媒体采访时介绍，“天河一号”每秒40GB通信带宽，相当于1秒钟内下载5部高清电影；从仿真设计、医药研发到台风预报、能源勘测，它都有用武之地。 2019年6月13日，第10届“国际空间轨道优化大赛(简称GTOC)”成绩揭晓，由国家超级计算长沙中心“天河一号”超级计算机提供计算支撑的国防科技大学与西安卫星测控中心组成的联队(NUDT&XSCC)最终以3101分的优异成绩夺得冠军，这是中国代表队在该项赛事中首次夺冠，打破了欧美参赛队对该赛事冠军的垄断，同时也为中国赢得了下届GTOC的主办权! 自2011年试运行以来，国家超级计算长沙中心已经为气象、国土、水利、卫生、交通等公共服务部门提供了高性能的计算平台服务，主要用户达40余家，涉及科学研究、公共服务、工业产业和文化产业等领域，主机系统平均利用率处于国内超算中心的中上水平。国家超级计算济南中心国家超级计算济南中心于2011年10月27日在济南正式揭牌，该中心由山东省科学院建设、运营和维护。国家超级计算济南中心建有中国首台全部采用国产CPU和系统软件构建的千万亿次计算机系统，标志着中国成为继美国、日本之后能够采用自主CPU构建千万亿次计算机的国家。 2011年10月，经国家权威机构测试，国家超级计算济南中心的神威蓝光超级计算机系统持续性能为0.796PFlops(PetaFlops，千万亿次浮点运算/秒)，LINPACK效率为74.4%，性能功耗比超过741MFlops/W(百万次浮点运算/秒·瓦)，组装密度和性能功耗比居世界先进水平，系统综合水平处于当今世界先进行列，实现了国家大型关键信息基础设施核心技术的“自主可控”目标。自成立以来，国家超级计算济南中心在海洋科学、信息安全、电子政务、气候气象、工业设计、生物信息、航空航天、智慧城市及科学计算等领域已形成一系列重大应用，产生一批世界领先的科技成果，发展省内外用户单位四百多家，提供5000多批次的计算和模拟仿真服务，超级计算机资源平均利用率在70%以上，为国家经济建设、国防安全和社会经济发展贡献力量。 2018年8月，神威E级超算原型机在国家超级计算济南中心完成部署。2019年5月，国家超级计算济南中心科技园启用暨战略合作签约活动在济南举行，这一国际首个超级计算科技园区宣告开园启用。国家超级计算广州中心 2014年6月29日，国家超级计算广州中心应用推广大会在广州召开，科学技术部副部长曹健林向广州超级计算中心授予了“国家超级计算广州中心”和“中国(广州)计算科学服务中心”牌匾，这标志着广州跻身国家级超级计算中心行列。国家超级计算广州中心业务主机——“天河二号”超级计算机系统是国家十二五863计划重大项目的标志性成果。自2013年研制成功以来，“天河二号”以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次、能效比每瓦特19亿次双精度浮点运算的超强性能，在超级计算机500强排行榜上连续六次排名世界第一，成为世界超算史上第一台连续六次夺冠的超级计算机，打破超算领域世界纪录；同时在更能代表实际应用性能的HPCG排行榜上获得了自该榜单设立以来的“五连冠”。 ↑↑点击图片查看完整视频↑↑ 自2013年成立以来，国家超级计算广州中心与一批企事业单位在气象预报、新能源、新材料、生物医药、节能环保、新文化产业方面展开深入合作。例如，广州市气象局与国家超级计算广州中心合作搭建的基于“天河二号”的3公里、1公里分辨率气象预报系统已上线开始业务运行，在我国率先实现超算技术在民间气象预报行业的应用，显著提高了广州市气象局精细化数值预报系统的计算时效：华南3km数值模式系统(空间网格数913′513′65，预报时效72小时)的计算时间从114分钟缩短到56分钟；广东省1km精细化数值模式系统(空间网格数1201′901′65，预报时效6小时)实现了逐12分钟的滚动订正预报。广州市气象台副台长廖菲接受采访时表示，国家超级计算广州中心为提升气象预测运算速度，为突发性强天气的预警预报提供了重要的预报技术支撑。在生物医药业领域，“天河二号”上开展了面向埃博拉病毒和寨卡的虚拟药物筛选，一天内可以完成世界上已知结构的4200万小分子化合物的筛选工作，这是国际上目前最快的已知化合物筛选，为针对未知突发性病毒的快速虚拟药物筛选提供了有效手段。国家超级计算无锡中心 2016年6月20日，江苏省科技厅联合无锡市政府在无锡举行“神威·太湖之光”超级计算机新闻发布活动，同时启动国家超级计算无锡中心。国家超级计算无锡中心由清华大学管理运营，其核心设备——“神威·太湖之光”是世界上首台峰值运算性能超过每秒十亿亿次浮点运算能力的超级计算机，该运算系统全面采用了由国家高性能集成电路设计中心通过自主核心技术研制的国产“申威26010”众核处理器。值得一提的是，“神威·太湖之光”是我国第一台全部采用国产处理器构建的世界排名第一的超级计算机。 ↑↑点击图片查看完整视频↑↑ 在2016年全球超级计算大会上，基于“神威·太湖之光”的“千万核可扩展全球大气动力学全隐式模拟”应用项目获得国际高性能计算应用领域最高奖——“戈登贝尔奖”。据了解，这是我国超算应用团队近30年来首次获得这一有着“超算应用诺奖”之称的全球最高奖。在2017年11月举行的全球超级计算大会上，由清华大学地球系统科学系80后副教授付昊桓带领团队完成的“非线性大地震模拟”，获得国际高性能计算应用领域最高奖“戈登·贝尔”奖。这是基于“神威·太湖之光”超级计算机的应用第二次拿下该奖。同时，“神威·太湖之光”超级计算机以每秒12.5亿亿次的峰值计算能力以及每秒9.3亿亿次的持续计算能力，再次斩获全球超级计算机排名榜单TOP500第一名。国家超级计算无锡中心依托“神威·太湖之光”计算机系统，面向生物医药、海洋科学、油气勘探、气候气象、金融分析、信息安全、工业设计、动漫渲染等领域提供计算和技术支持服务，为我国科技创新和经济发展提供平台支撑。 “超级计算机已成为体现国家创新能力的国之利器。”科技部高新司副司长梅建平在7月份天津滨海新区举行的“纪念中国超级计算事业发展四十年暨国家超级计算天津中心成立十周年”活动上表示，下一步中国将研究建设完善国家超算基础设施，从全国一盘棋来设计和整体布局，支持在重点区域建设国家级超算中心，“希望这些超算中心连接起来，成为真正的国家超算网络，形成全国超算资源共享的新格局。” 据了解，国家超级计算郑州中心近期获得科技部批复筹建，成为中国第七个国家级超算中心，这也是科技部出台认定管理办法后批复筹建的首家国家超级计算中心。

来源：大数据中国

发布时间：2019-07-15 22:44:00

AI服务不是噱头，但也不是全部

随着人工智能技术的迅猛发展，近年来，人工智能扮演了不可或缺的一个角色，人们生活出现巨大的蝶变，相比早有的AI自助服务系统，全智能的AI服务已开始潜入人们的生活。有人认为全职的AI服务目前虽还未普及，但是各类“无人”化服务产品逐渐涌现，加之各大企业的纷纷加入，其发展前景不可估量;但是，当面临全是机器人，无任何人类服务员的场景时，不少人表达了不一样的看法，他们认为机器人应该是解放人类，避免做一些危险或者极其枯燥的工作，而不是完全代替，“无人”时代难以长久立足。 AI服务绝不是噱头从无人超市到无人餐厅再到无人酒店，人工智能的发展远超人们的想象。早在2015年，日本长崎开业的海茵娜(Henn-na)酒店，被吉尼斯世界纪录认证为世界上第一家拥有机器人的酒店。该酒店拥有具有人类外表，并能使用眼神甚至肢体语言交流的机器人服务员，在当时引起了各界的关注。日本海茵娜(Henn-na)酒店这些机器人都会讲一口流利的中文、日语、韩语和英语。为客人办理入住、搬运行李、泡咖啡、清理房间以及提供洗衣服务等入住酒店的服务工作均由它们代为效劳，整个酒店除这些AI服务员外只有十个人工服务员，他们的职责仅为及时维修出问题的机器人。日本海茵娜(Henn-na)酒店内的恐龙服务机器人三年后，阿里巴巴首家无人酒店“FlyZoo”也正式开业了。据悉，这是全球第一家支持“全场景刷脸”住宿的酒店，科幻电影的场景在此真实再现。在这里，整栋楼没有一个人工服务员，取而代之的是各种形式的AI服务员(系统)，从入住到退房离开全程均依靠人工智能完成。没有大堂、没有经理，甚至连打扫卫生的阿姨都没有，有任何需要都通过人工智能解决，实现真正的“无人”。但无人酒店并不是阿里巴巴对“无人”的首次尝试，早在2017年10月，马云的无人餐厅就已经亮相，没有纸质菜单、没有点餐员、没有收银员，顾客吃完饭就可直接走人，支付宝会在后台进行结账。说起无人餐厅，海底捞也有一定的发言权。海底捞斥资1.5亿打造的“无人餐厅”，店里没有洗菜工、没有配菜员、没有传菜员，就连表演拉面的小哥和美甲擦鞋的服务员都不见了，往日穿梭忙碌的服务员，完全被机器臂和机器人所取代。据悉，这家人工智能取代人工服务员的海底捞其成本降了4成。随着大数据、物联网、云计算等新兴技术的新起，“无人”化的商业模式逐渐进入人们的生活，催生出了一种新业态，各式各类的“无人”化商业形式不断出现，加之各企业纷纷踏足，“无人”化的服务模式似乎成为一个新商机。除上面提到的外，目前市面上还有无人货架、无人书店、无人加油站等“无人”化服务，而室外的劳动也开始由AI进行服务，从京东研究的无人快递车，到饿了么外卖机器人，AI服务的商业模式似乎已经开始了一场颠覆革命。在这个懒人经济的消费时代，让科技服务于人，是科技与人类共同进步的表现。“无人”化服务模式便是人工智能发展的一个应用，促进了驾驶、家居、人际交互、制造、交通等多个领域与AI的融合发展，自诞生以来受到广泛好评，但是笔者认为完全没有人工服务员的“无人”化服务模式不可能长久生存，因为AI服务绝不会是全部。 AI服务绝不是全部 AI服务的确具有不可估量的发展趋势，尽管“无人酒店”“无人超市”等商业模式逐渐兴起，但是，AI服务绝不能成为人们生活服务的全部，因为如果只有AI服务的的话，世界将是冰冷的、没有色彩的。前面提到的日本长崎海茵娜酒店，一度拥有243个机器人员工宣传高效服务的海茵娜酒店，今年年初却宣布将裁掉半数机器人员工。原因是这些AI机器人过于敏感：负责接待的“恐龙机器人”总是不合时宜地突然冒出一句“欢迎光临”，把胆小的孩子吓哭;看上去呆萌的房间管家常在夜间吵醒客人;酒店客服不能完成复印客人护照的操作;行李机器人只能搬运四分之一房间的行李，而且下雨下雪时就基本瘫痪......无人酒店似乎迎来了新一轮的难题。在电影《太空旅客》中有这样的情节，男主人公在飞船前往太空殖民地家园2号的120年旅途中，不小心提前从冷冻睡眠中醒来，发现自己有可能要在这艘全是AI服务的巨船上独自度过89年，害怕孤独生活的他唤醒了一名女乘客...... 人与机器人最大的区别在于人有温度、有情感、有七情六欲。在一个无人工服务的环境下，大部分人的心境其实是难以愉悦的，人类是群居动物，需要同类的相伴，而“无人”化服务却略显冰凉。不仅如此，AI服务有其自有的一个系统模式，该模式由人类对其进行预设。一旦遇到需要紧急处理的情况时，AI服务通过数据分析对该情况做出理想化判断。但是太过理智的AI判断通常与人类情感思维下所做的选择相差甚别，常出现与人类意愿相矛盾的情况，显得十分不合情理。吴京在《流浪地球》所扮演的角色刘培强就在是否用自己生命的代价去拯救地球时与国际空间站的AI系统产生分歧，最后他选择将AI系统人为破坏，按照自己的意愿拯救了地球。虽然这些是电影中的情景，但是与现实生活极为相似。 AI服务确实给人们带来了很多的便利，使其享受到了人工智能发展的红利，但是它绝不会是全部，AI服务应该以“智能”的存在，而不是“全能”。试想一下，当你每天二十四小时做的每件事都和AI服务一起完成，本就善于“与时俱进”的人类，应该担心自己有一天是否变得像机器人一样，机器人的思维、机器人的处理方式、甚至是机器人的生活方式等等，而不是像之前那样担忧机器人是否会越来越像人，超越人类等。如“世界互联网之父”凯文·凯利在《失控》中所说：机械与生命体之间的重叠在一年年增加，人造物表现得越来越像生命体，生命体变得越来越工程化。当人类已经逐渐向自己所创造出来的东西靠近时，我们还能说是在享受其红利吗?答案显然是否定的。因此，人类既然利用其聪慧的大脑创造出了AI服务，那么就将其进行合理利用，让生活变得更加智能，而不是“无人”。

来源：大数据中国

发布时间：2019-07-15 22:41:00

AI医疗图谱——浅述AI在医疗界的新发展 | 数据分析网首页分类阅读行业资讯大数据统�

摘要：有人将大数据时代称为第四次工业革命。这场革命的发生可能没有任何公告，但负责跟踪、处理与阐释大数据的AI已经潜入了我们的生活，并且变更了我们的生活方式。想想我们的智慧车载系统，谷歌搜索，亚马逊的建议，苹果手机上的“Hi, Siri”，微软的小冰……虽然表现方式各不相同，但关键词就是三个：准！易！快！如果这些应用到医疗保健，又该如何呢？主文：提起AI医疗，人们不外乎想起这些问题：AI医生们可以帮助人们预防疾病吗？可以判断我们的病情吗？甚至，AI们会在手术台上对我们进行“切割”吗？这听起来似幻想，想起来又觉得颇为真实，毕竟电影里面展现未来的时候从来都不吝啬使用这些画面。事实上是，实验室里头每天都发生着我们看不见也想不到的变化，成功了就是真的，失败了也暂时一笑而过吧。但那些已经上市或即将上市的“医疗AI”们已经足够震撼我们。其实，除了我们熟知的那些早早进入AI领域的超级公司们——IBM、戴尔、苹果、惠普，日立数据系统，Luminoso，Alchemy API，数字推理，Highspot，Lumiata，Sentient Technologies，Enterra，IPSoft和Next IT等等，还有很多初创企业如雨后春笋般出现在AI医疗市场当中。CB Insights去年年末绘制了一张“AI医疗图谱”，我们除了能够看到这些公司的名称，还能看到他们所致力的领域——也就是AI“医生”们现在究竟能做些什么：病人数据与风险分析医学影像与诊断生活方式管理与检测营养学急诊室与手术住院护理和医院管理心理健康药物发现视觉辅助可穿戴设备抛开一些“锦上添花”的功能不说，接下来，我们将介绍一些真正能够改变我们医疗进程的AI进步。 Streams——医疗记录挖掘：人工智能在医疗保健中最明显的应用是数据管理。收集数据、存储数据、治理数据、最后，追踪其来源——这是革新现存医疗系统的首要步骤。医疗数据中往往能够挖掘出很多信息，可以在病患发生之前就展开预防与救治。Google下属的人工智能公司DeepMind就研发了一款名为 Streams 的应用程序，用来帮助医生检测患者是否患有急性肾损伤，并及时通知医生对存在发病危险的患者进行救治。这款应用将帮助护士节省每天两个小时的时间。遗憾的是，这类应用往往面对一个挑战，即——医疗数据属于患者隐私，应当被严格保密。即使DeepMind所使用的患者数据是从英国的国民医保署（NHS）下设的信托基金会 Royal Free Trust 合作所获得的，还是受到了英国信息委员办公室的警告，称其违反了隐私保护法。为了继续推行Streams的研发与应用，DeepMind与Royal Free Trust承诺将改变数据处理方式。医疗数据挖掘类的AI应用们开发之路任重道远。 IBM Watson——设计治疗计划： IBM的Watson推出了一个为肿瘤医生设计的专项计划，叫做“Watson for Oncology”，可以为医生提供循证治疗方案。利用先进的数据库与数据处理能力，WFO可以分析来自于临床笔记与医学报告中的结构化数据与非结构化数据，包括病患背景、治疗意义等，为医生帮助病人选择个性化治疗途径提供至关重要的依据。此外，WFO还可以通过将患者信息与临床专业知识、外部研究数据等相结合，推出最适合患者的潜在治疗计划，为肿瘤患者尽快打开“生命通道”。 IBM还有另外一个算法，叫做“Medical Sieve“，这是一个非常具有野心的长期探索项目，想要利用分析、推理能力和广泛临床知识打造一个“认知助手”，帮助放射学和心脏病学医生快速作出临床决策。“认知健康助理”能够分析放射学图像，更快、并且更可靠地发现问题、检测问题。目标是让放射科的医生从今之后只看一眼报告，就能得出最准确的医学结论。 Babylon——在线医疗顾问：在西方，及时就医是一个比较困难的事情。有一个段子是这样说的：Michael感冒了，预约了自己的医生。等医生有时间问诊的时候，Michael的感冒已经好了。还有另外一个段子，结构差不多，结尾差很多：Michael发烧了，预约了自己的医生。等医生有时间问诊的时候，Michael已经发展成肺炎死掉了。英国的在线医疗咨询及保健服务提供商Babylon今年发布了一个“AI医学顾问”app，基于个人的病史和医学知识提供就医服务。用户可以把自己的症状汇报给这个AI，然后它会利用语音识别在数据库中检索病症。再结合患者的病史以及当前情况，建议患者采取合适的行动。还会提醒患者吃药，并跟踪了解药后的反应。通过这样的解决方案，诊断病人的效率可以提升若干倍，而医生检查室前的等待时间可能会大幅下降。 Molly——世界第一个虚拟护士有些慢性疾病的患者在两次就医之间也非常需要科学照料。Molly就是一家名为Sense.ly的初创公司研发出的AI护士，利用机器学习、医疗传感、远程医疗、语音识别、增强现实等技术，可以为慢性病患者在就医之间提供定制化的病情监控及照料服务。哦对了，她还有一张和善的笑脸，声音也非常好听。病人应该会很喜欢得到她的照料。另外一个类似的app叫做“AiCure”，由国立卫生研究院研发。使用患者的智能手机摄像头以及AI，可以自动确认患者是否遵医嘱服药。特别适合那些倾向于违反医生咨询意见的患者和临床试验参与者使用。 Human Longevity—— 精准医疗： AI的真正优势在于它的严密以及速度。这在《模仿游戏》中图灵机最终打败enigma就已经有所展现。基因作为人类的最大密码，也将受到人工智能的“破解”。 “深度基因学”旨在识别遗传信息和医疗记录中的巨大数据集里隐藏的模式，寻找突变与疾病之间的关系。他们正在发明新一代的计算技术，可以告诉医生当DNA被遗传变异改变时，细胞会发生什么改变。同时，“人类基因组计划”创始人之一克雷格·文特（Craig Venter）正在研究一种可以根据DNA设计患者身体特征的算法。凭借他最新的“人类长寿”企业，可以为患者提供完整的基因组测序，并配有全身扫描和非常详细的体检。整个过程可以在早期发现癌症或血管疾病。除了上述这些技术，还有一些AI被应用在医疗体系分析、药物研发等细分领域之中。但是，这些虽然正在“发生”，但也未必真正“发生”，如果我们不能消除对人工智能的偏见与恐惧，坚信它们会比人类大脑更强大、并且一定会产生“控制人类”的想法，那么最终我们可能会终止对AI的研究。为了充分拥抱AI在医疗的发展，Medical Futurist（医疗未来学家）网站认为人类需要做好以下准备工作： 1、制定适用于整个医疗行业和强制性的道德标准 2、AI技术应逐步发展，给人类时间预测出其缺陷 3、医学专业人士应尽快获取关于AI在医疗环境中如何工作的基本知识，以了解这些解决方案是如何在日常工作中帮助他们的； 4、患者应尽快习惯人工智能并发现它们的好处。 5、致力于人工智能解决方案的公司（如IBM），应更多地向公众传播在医学中使用AI的潜在优势和风险。 6、医疗机构的决策者应采取一切必要措施，以衡量系统的成功和效果。推动企业提供价格实惠的AI解决方案也是至关重要的，因为这是将科幻小说中的承诺变为现实、将AI变成21世纪听诊器的唯一途径。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2017-10-27 07:00:00

Python 数据科学入门 | 数据分析网首页分类阅读行业资讯大数据统计学数据分析数据挖

Python 在数据科学领域越来越流行了。它的流行不无道理。 Python 容易学，有超强数据科学库，并且和 Hadoop 以及 Spark 等数据库和工具整合得非常好。Python 可以从头至尾完成一个数据科学项目，无论是读取数据、分析数据、数据可视化还是用机器学习来做预测都可以。本文介绍如何用Python 上手数据科学。如果想要了解更多内容请访问 Dataquest ，那里有使用 Python 完成数据科学任务的深入讲解。本文使用的是关于2016 美国总统大选政治资助的数据集（链接在此）。文件是 csv 格式，每行代表对一个候选人的一次捐赠。这个数据集有几列比较值得一提，比如： cand_nm – 接受捐赠的候选人姓名 contbr_nm – 捐赠人姓名 contbr_state – 捐赠人所在州 contbr_employer – 捐赠人所在公司 contbr_occupation – 捐赠人职业 contb_receipt_amount – 捐赠数额（美元） contb_receipt_dt – 收到捐款的日期安装 Python 要分析这些数据，首先要安装 Python。利用 Anaconda 这个工具来安装 Python 是非常简单的。Anaconda 在安装 Python 的同时还会安装一些流行的数据分析库。点击这里下载 Anaconda。建议安装最新的 Python 3.5 版本。这个链接里介绍了一些 Python 2 与 Python 3 的对比。 Anaconda 会自动安装一些这篇文章会用到的库，包括 Jupyter 、 Pandas 、 scikit-learn 和 matplotlib 。 Jupyter 入门都安装好之后可以启动 Jupyter notebook （原名 IPython notebook）。Jupyter notebook 是个强有力的数据分析工具。它能够帮助快速查看数据、将结果可视化以及把结果分享给他人。谷歌、IBM、微软的数据科学家都用它来分析数据以及组内协作。在命令行里输入 ipython notebook 来运行 Jupyter。如果遇到问题可以去它的官方文档里查找答案。启动后会出现一个可以查看文件的浏览器界面，在这个页面上可以创建新的 notebook。请创建一个叫 Python 3 的 notebook，一会儿的数据分析中会用到它。如果刚才的安装还没成功，这篇文章也许有帮助。 Notebook 工作区块每个 Jupyter notebook 都包含多个区块（cell），区块可以运行代码也可以只包含文档。每个 notebook 开始时都自带一个区块，如有需要可以自行增加多个区块，比如： In[]: Python 1 2 3 4 # 代码区块示例。产生的输出会在下方显示。 print(10) b = 10 In[]: Python 1 2 3 4 # 可以建立多个区块，每个代码区块可以根据分析的需求跑任意次 # Jupyter notebook 中一个很赞的功能是每个区块跑出来的结果会被缓存起来，这样一个区块可以利用另一个区块跑出来的结果。 print(b * 10) 如果想要了解更多关于 Jupyter 的知识请阅读作者提供的更深入的教程。 Pandas 入门 Pandas 是 Python 上的一个数据分析库。它能读取包括 csv 在内的不同格式的数据，分析数据也很有效。可以通过下面的代码来读取数据： In[2]: Python 1 2 3 import pandas as pd donations = pd.read_csv(“political_donations.csv”) In[3]: 1 donations.shape Out[3]: 1 (384885, 18) In[4]: Python 1 donations.head(2) Out[4]: 续上表上面的区块用 import pandas as pd 这个语句导入了 Pandas 库，然后用 read_csv() 这个函数把 political_donations.csv 这个文件读入了变量 donations 中。变量 donations 现在就是一个 Pandas DataFrame 。Pandas DataFrame 可以被看做是加强版的矩阵，它自带数据分析函数，并且允许不同的列包含不同的数据类型。可以通过变量 donations 的 shape 属性来打印它多少行多少列。每个区块的最后一行语句或变量都会自动显示，这个功能超赞！下一个区块用了 DataFrames 的 head() 函数打印出了变量 donations 的头两行，这样就能看里面的数据了。如想更深入地了解 Pandas 请参阅作者提供的课程。每个候选人收到的捐款总额使用Pandas 中的 groupby() 函数能计算出每个候选人的整体统计数据。根据变量 cand_nm （候选人姓名）来把变量 donations 分成不同的子集就可以针对每个候选人分别统计数据。首先要算的是捐款总额。把候选人的 contb_receipt_amount 这一列加起来就可以得到收到的捐款总额了。 In[14]: Python 1 donations.groupby(“cand_nm”).sum().sort(“contb_receipt_amt”) Out[14]: contb_receipt_amt file_num cand_nm Pataki, George E. 365090.98 234695430 Webb, James Henry Jr. 398717.25 709419893 Lessig, Lawrence 621494.50 1378488449 Santorum, Richard J. 781401.03 822086638 Trump, Donald J. 1009730.97 2357347570 Jindal, Bobby 1013918.12 584896776 Perry, James R. (Rick) 1120362.59 925732125 Huckabee, Mike 1895549.15 2700810255 O’Malley, Martin Joseph 2921991.65 2664148850 Graham, Lindsey O. 2932402.63 3131180533 Kasich, John R. 3734242.12 2669944682 Christie, Christopher J. 3976329.13 2421473376 Paul, Rand 4376828.14 16056604577 Fiorina, Carly 4505707.06 12599637777 Walker, Scott 4654810.30 5636746962 Sanders, Bernard 9018526.00 71139864714 Rubio, Marco 10746283.24 22730139555 Carson, Benjamin S. 11746359.74 75613624360 Cruz, Rafael Edward ‘Ted’ 17008622.17 69375616591 Bush, Jeb 23243472.85 14946097673 Clinton, Hillary Rodham 61726374.09 86560202290 上面的代码首先用 donations.groupby("cand_nm") 根据 cand_nm 把 donations 分成了不同的组。这个语句返回的是 GroupBy 对象，GroupBy 类型自带一些专门用来整合数据的函数。其中就包含 sum() 函数，在这个问题中可以用来计算每组中每一列中数据的和。 Pandas 在读取数据的时候就会自动识别每一列的数据类型，在进行求和时只会针对数字类型的列来操作。这样就得到了一个包含每个候选人 contb_receipt_amt 列中所有数字之和及 file_num 列中所有数字之和的 DataFrame。最后使用 DataFrames 中的 sort() 函数将 contb_receipt_amt 的和从小到大排序。这样就得到了每个候选人收到的捐款总额。将捐款总额可视化 Python 中最主要的可视化包就是 matplotlib ，可以用它来画图。Jupyter notebook 能够在浏览器中直接渲染 matplotlib 的图表。这个功能需要通过激活 matplotlib 的 inline 模式来开启。可以利用 Jupyter magics 中的命令来激活它就能直接在 notebook 中看图表了。 Magics 就是以 % 或者 %% 开头的、能改变 Jupyter notebook 本身的命令。它们是为了让能够通过命令行改变 Jupyter 的设置，同时尽量不与 Python 代码混淆而存在的。要想在浏览器里直接看 matplotlib 的图表，需要在代码区块里运行 %matplotlib inline 。更多关于用 Jupyter 画图的内容可以在此阅读。用下面的代码来导入 matplotlib 库并且开启 inline 模式： In[15]: Python 1 2 3 import matplotlib.pyplot as plt %matplotlib inline Pandas 中的 DataFrames 自带对可视化的支持，调用 plot() 函数就可以生成 matplotlib 图表。这么用一般会比调用 matplotlib 更方便快捷。先给之前的 DataFrame 赋值给一个变量 total_donations，再利用 indexing 来选择 DataFrame 中的一列： contb_receipt_amt 。这样就生成了一个 Pandas 中的 Series 类型的变量。 Pandas 中的 Series 和 DataFrames 包含的函数都差不多，但是 Series 只能存一维数据，比如单一行或者单一列。调用 Series 的 plot() 函数就生成了一个显示每个候选人收到的捐款总额的柱状图。 In[16]: Python 1 total_donations = donations.groupby(“cand_nm”).sum().sort(“contb_receipt_amt”) In[20]: Python 1 total_donations[“contb_receipt_amt”].plot(kind=”bar”) Out[20]: 1 如果想深入学习 matplotlib, 可以学习作者提供的课程。计算捐款平均值已经学会算捐款总额啦，再想算捐款平均值超级容易。直接用求平均值的 mean() 函数来替换求和用的 sum() 函数就得了。 In[22]: Python 1 2 avg_donations = donations.groupby(“cand_nm”).mean().sort(“contb_receipt_amt”) avg_donations[“contb_receipt_amt”].plot(kind=”bar”) Out[22]: 1 预测捐款数目下面来写个简单的根据一个人所在的州（ contbr_st ）、职业（ contbr_occupation ）及支持的候选人（ cand_nm ）来预测捐款数额的简单算法吧。首先用这几列及要预测的 contb_receipt_amt 列来另外创建一个 Dataframe。 In[41]: Python 1 pdonations = donations[[“contbr_st”, “contbr_occupation”, “cand_nm”, “contb_receipt_amt”]] 下面来看看变量 pdonations 里每一列的数据类型。Pandas 读取 csv 文件时会自动给每列赋予数据类型。只有数值型（numeric）的列才能用来做预测。 In[42]: Python 1 pdonations.dtypes Out[42]: 1 2 3 4 5 contbr_st object contbr_occupation object cand_nm object contb_receipt_amtfloat64 dtype: object 倒霉的是想要用的列都是 object 型的（都是字符串）。这是因为它们都是分类数据（categorical data）。每列中有几个可能的值，但这些选项是用文本来表示的而不是用数值型代码来表示的。可以先把每列都转换成分类型（ categorical ），然后再转换成数值型。这里有关于分类型数据的更多介绍。本质上就是分类型数据在后台给一列中每个不同的值赋予了一个不同的数值型代号。可以将一列种的值都换成这些代号，这样一列就完全被转换成数值型的了。 In[43]: Python 1 2 pdonations[“contbr_st”] = pdonations[“contbr_st”].astype(‘category’) pdonations[“contbr_st”] = pdonations[“contbr_st”].cat.codes In[44]: Python 1 pdonations[“contbr_st”] Out[44]: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 0 1 1 1 2 1 3 2 4 2 5 2 7 2 8 2 9 2 102 112 122 132 142 … 38487075 38487175 38487275 38487375 38487475 38487575 38487675 38487775 38487875 38487975 38488175 38488275 38488377 38488477 Name: contbr_st, Length: 384885, dtype: int8 可以看到 contbr_st 列已经被转换成数值型的了。下面对 contbr_occupation 及 cand_nm 两列也进行同样的操作。 In[]: Python 1 2 3 for column in [“contbr_st”, “contbr_occupation”, “cand_nm”]: pdonations[column] = pdonations[column].astype(‘category’) pdonations[column] = pdonations[column].cat.codes 训练集和测试集的拆分接下来的预测步骤中可以利用到 Python 中最主要的机器学习包 scikit-learn 。首先要把数据拆分成两个部分。一部分用于训练算法，称为训练集；另一部分用于评估模型的效果，称为测试集。这样做是为了避免过拟合（ overfitting ）产生的有误导性的结果。用 train_test_split() 这个函数可以将 pdonations 拆分成一个训练集和一个测试集。 In[48]: Python 1 2 3 from sklearn.cross_validation import train_test_split train, test, y_train, y_test = train_test_split(pdonations[[“contbr_st”, “contbr_occupation”, “cand_nm”]], pdonations[“contb_receipt_amt”], test_size=0.33, random_state=1) 上面的代码将训练算法需要用的列及结果列（contb_receipt_amt）中的值分成了训练集和测试集。测试集中包含33%的数据。每行数据被随机分配到训练集中或者测试集中。拟合模型下面会使用随机森林（ random forest ）算法来做预测。随机森林是一个效果比较好并且适用于很多问题的算法，在 scikit-learn 包中是通过 RandomForestRegressor 类来实现的。使用这个类训练模型及用模型做预测都很简单。首先用 train 和 y_train 来训练模型： In[52]: Python 1 2 3 4 5 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(n_estimators=100, min_samples_leaf=10) model.fit(train, y_train) Out[52]: Python 1 2 3 4 5 RandomForestRegressor(bootstrap=True, compute_importances=None, criterion=’mse’, max_depth=None, max_features=’auto’, max_leaf_nodes=None, min_density=None, min_samples_leaf=10, min_samples_split=2, n_estimators=100, n_jobs=1, oob_score=False, random_state=None, verbose=0) scikit-learn 包一个优点是里面所有算法都有一致的 API。训练一个线性规划（linear regression）模型和训练一个随机森林模型用的方法是一模一样的。有了合适的模型就可以用它来做预测了。预测及误差计算用 scikit-learn 包做预测也非常简单。直接把测试集传给训练好的模型就行了。 In[54]: Python 1 predictions = model.predict(test) 有了预测结果之后来算算误差值。误差能体现模型的效果，在调整模型时也能作为一个衡量标准。下面会用一个常见的误差标准，均方误差（ mean squared error ）。 In[57]: Python 1 2 3 4 from sklearn.metrics import mean_squared_error import math mean_squared_error(predictions, y_test) Out[57]: 1 756188.21680533944 如果想了解更多关于 scikit-learn 的知识可以阅读作者撰写的教程。接下来做点什么对误差求平方根得到的值和捐款额之间的关系更直观。如果不求平方根而只用平均方差（average squared error），那它就和上面用的数据没什么直接关系。无论怎么算目前的误差值都很大，有很多减小误差的方法，比如：利用上其他列中的数据看看是否对每个候选人训练一个模型效果会更好尝试用其他算法还有一些有意思的对数据的探索可以做，比如：找出每个州哪个候选人得到的捐款最多画出对每个候选人来说，来自哪种职业的人捐的钱最多的图根据候选人是民主党还是共和党划分，看看是否会有有意思的模式出现通过名字给数据添加性别，看看如果根据性别划分数据是否会显现出有意思的模式根据美国不同地区的捐款总额画一个热图（heatmap）想要深入了解本文讲解到的概念，请参阅作者提供的 Python 数据科学课程。本文由伯乐在线 – XiaoxiaoLi 翻译， sunshinebuel 校稿。英文出处： Vik Paruchuri 。本文链接：http://python.jobbole.com/85394/ 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-06-22 23:13:00

如何使用大数据提供优化的客户体验

大数据可能是帮助企业提供优化客户体验的主要工具。人们需要了解其工作原理和原因。业务成功始于客户体验，并以客户体验结束。根据最近的研究，90%的买家愿意花更多的钱来获得更好的客户体验。这就是为什么了解改进的体验对客户意味着什么如此重要的原因。随着分析技术的发展和普及，企业已经能够在社交媒体评论和反馈调查之外进行更深入的客户分析。利用各种来源的复杂数据集，企业能够在更清晰地了解客户行为的基础上获得更高的销售数字和改进的客户服务。事实证明，这种情报对于做出重大决策也至关重要，比如修改吸引客户的战略，甚至以产品为中心。考虑到这一点，以下五种以客户数据为导向的方法可以帮助企业提高客户的体验质量。 1.提高对目标受众的理解以前，企业严重依赖观察和直接参与来收集客户互动的数据。虽然这些信息在某些方面证明是有帮助的，但组织和汇总是一个挑战，因此提供了有限的见解。目前，企业可以审查个别客户的数千个数据点，以加强对最佳客户的理解。一个例子是使用大数据来区分千禧一代客户与老客户购买习惯。企业能够更好地理解为什么单个产品对一个年龄组比另一个年龄组更具吸引力。凭借这种洞察力，企业可以满足特定的子群体，以增加他们的客户群。 2.查看完整的客户旅程除了构建核心受众之外，大数据还有助于更全面地了解整个客户的历程。过去，组织只能依靠即时客户互动来研究客户行为和趋势。目前，大数据允许公司在交互之前、期间和之后跟踪客户行为。全球互联网事务是这个扩展视图的一个实例。企业能够查看客户在其网站上完成交易之前和之后访问了哪些网站。使用此信息，企业可以确定可能触发了客户选择在其他站点进行购买的原因。 3.定制客户体验企业能够使用大数据来满足个人买家的需求和愿望，而不是用一刀切的销售策略来对待每一位顾客。通过这种方法，企业可以扩大忠诚消费者的基础，从而推动长期业务增长。专家们一致认为，通过将客户保留率提高5%，各行各业的企业可以将利润增加25%。通过分析通过揭示过去买方行为所表明的客户偏好来增强保留增长。 4.提供多渠道支持企业可以通过amocrm等工具提供多渠道支持，将个性化服务提升到更高的层次。虽然有些客户喜欢通过电话支持与企业互动，但其他客户更喜欢实时聊天、社交媒体或电子邮件。企业必须了解如何满足个人客户的偏好，同时保持所有可能渠道的有效沟通。尽管客户有个人喜好，但无论企业客户是否使用某种方法，其使用的每种媒介都应在最高级别运行。否则，企业可能会牺牲新的机会。这就是大数据及其丰富的数据分析能够指导各种渠道改善客户服务功能的地方。 5.帮助客户节省时间节省时间对于客户来说是一件大事，这就是为什么许多客户经常放弃缺乏运营效率的品牌。大数据提供了无数的方法来帮助客户节省时间。假设客户更喜欢通过短信接收出站通信。人们正在谈论交付信息、独家优惠或即将举办的活动等更新。企业可以学习和跟踪这种首选模式。同时，客户将欣赏一致性，并且无需检查多种渠道以获取此类信息。当企业使用大数据来预测未来的服务，检测产品问题并在交付时进行实时跟踪时，客户将节省时间，而不必自己跟上这些细节。利用企业的大数据当企业战略性地使用大数据时，他们可以利用对客户行为的更好理解来完善客户体验。请记住，客户希望与企业有着很好的体验，并且不介意花更多费用购买它们。使用强大的大数据工具来确保满足这些需求。

来源：大数据中国

发布时间：2019-07-14 22:16:00

我国将加快提升计算能力“赋能”数字经济

记者近日从工信部获悉，我国将以应用为导向，突破大数据关键技术，特别是加快高性能计算、大数据计算系统等能力提升，提升数据分析处理和知识发现能力，用计算力“赋能”数字经济。信息技术的核心是数据，关键在于计算。我国一直积极推动计算力，特别是高性能计算研究与发展。不久前，国际组织“TOP500”编制的新一期全球超算500强榜单中，中国境内有200余台超算上榜。其中，联想制造并交付的超算达173台。当前，全社会信息化、智能化水平不断提升，人工智能、物联网等新一代技术和应用快速发展，海量的数据处理对计算能力提出更高、更迫切要求。 “计算机性能提升的速度永远不及需求的增加。”北京航空航天大学教授、联想首席科学家祝明发说，加快提升计算力，推动计算力共享，并“赋能”科研院所、行业、企业是当务之急。近日，联想宣布推出全新“深腾X9000”融合计算平台，旨在通过共享计算力等方式，构建开放融通的计算生态，推动企业智能化转型。工信部提出，继续强化大数据技术产品研发，鼓励企业发挥创新主体作用，突破面向大数据的新型计算、存储、传感等技术，加快产学研用资源联合，推动软硬件协同发展，让计算力向更多行业应用“赋能”。

来源：大数据中国

发布时间：2019-07-14 22:13:06

R语言词云终极解决方案—wordcloud2包 | 数据分析网首页分类阅读行业资讯大数据统计学

现在你也可以在 R语言中绘制多样的词云了。 wordcloud2 是基于 wordcloud2.js 封装的一个R包，使用HTML5的canvas绘制。浏览器的可视化具有动态和交互效果，相对于曾经的R包worldcoud， wordcloud2还支持任意形状的词云绘制，这也是我一直想要寻求的特性。安装&示例从github安装wordcloud2包: if (!require(devtools)) install.packages("devtools") devtools::install_github('lchiffon/wordcloud2') 包内含有两份data.frame格式的词频数据：英文版的 demoFreq 和中文版的 demoFreqC ，使用 wordcloud2 直接绘制即可。若需要绘制自己的词频数据，只需构造一个类似的数据框即可，第一列代表词语，第二列存贮相应的词频。 library(wordcloud2) wordcloud2(demoFreqC) wordcloud2(demoFreq) ## 一个粗糙的例子 # df = data.frame(letters, rpois(26, 20)) # wordcloud2(df) 定制颜色这里的颜色包括背景色和词语颜色，分别对应 backgroundColor 和 color 两个参数。这两个参数可以接受CSS认可的任意的参数值，如’red’,’blue’或者’rgb(0,0,0)’以及十六进制的’#ff2fe9’等。另外 color 参数有更多可接受的参数：内置的随机色生成方案: random-light 和 random-dark ，在javasript里定制了相应的随机函数 javasript回调函数: 用js撰写任意的颜色生成函数，如 js_color_fun = "function (word, weight) { return (weight > 2000) '#f02222' : '#c09292'; }" wordcloud2(demoFreqC, color = htmlwidgets::JS(js_color_fun), backgroundColor = 'black') 此处需要使用 htmlwidgets 的 JS 函数把字符形式的参数值解析成js函数。 R中的函数向量: js回调函数想必让很多纯R语言用户懵逼，最简单的方式是传入一个定制后的颜色向量。 wordcloud2(demoFreqC, color = ifelse(demoFreqC[, 2] > 2000, '#f02222', '#c09292') 这行代码R语言函数代替了js回调函数，效果相同。定制形状学会定义颜色可以让你的词云时黄时紫，却不能像马像牛又像羊。变形最简单的方式就是定义 shape 参数，如 wordcloud2(demoFreqC,shape='star') 。还支持’diamond’,’cardioid’等参数(都是在js脚本中预定义好的对应的函数)，更多请看函数帮助文档。内置的几个参数并不十分有趣，完全的自定义才亦可赛艇。 wordcloud2 允许你传入一张图片，把词云填充在图中的黑色区域。这样，找到一头牛和一匹马，你的云就可以变换了。 wordcloud2(demoFreqC, figPath='~/Desktop/niu.jpg') wordcloud2(demoFreqC, figPath='~/Desktop/ma.jpg') 代码中所需的图片都可以在上图截取，这里就不放了。另外，如果想画成字符形状，你可能需要先画出字符，再使用wordcloud2函数绘制。贴心的作者郎老师早已定制好了相应的接口 letterCloud 函数，试试运行 letterCloud(demoFreqC, word = 'R') 。该函数背后的逻辑如上所述，先画出图片再传入figPath参数。到这里，不禁想起cos一篇文章： showtext：字体，好玩的字体和好玩的图形，文中使用showtext包调用神奇的字体画出好玩的图形。此处也可以如法炮制，下载 wmpeople1.TTF 字体绘制出男人和女人的图案，再调用wordcloud2绘制相应形状的词云。 library(showtext) library(Cairo) link = "http://img.dafont.com/dl/f=wm_people_1"; download.file(link, "wmpeople1.zip", mode = "wb"); unzip("wmpeople1.zip"); font.add("wmpeople1", "wmpeople1.TTF"); plot_shape <- function(filename, char){ CairoPNG(filename, 500, 400) showtext.begin(); plot.new() offset = par(mar = par()$mar) op = par(mar = c(0,0,0,0)) text(0.6, 0.5, char, family='wmpeople1', cex=32) par(offset) showtext.end(); dev.off(); } plot_shape('female.png', 'u') plot_shape('male.png', 'p') 接下来在淘宝首页搜索’男’和’女’两个关键词。对搜索结果的网页做处理，分词和词频统计。计算TF-IDF指标并用词云展示。绘制词云的数据应当是长尾分布的，即大量低频词和少数高频词。高频词刻画特点，低频词填充剩余位置，达到醒目和美观的效果。因此处理过程中对TF-IDF为0或者缺失的值都填充为1，以便让这些低频词显示出来。 library(jiebaR) readChineseWords <- function (path) { # 读取网页或文件去除标点和英文 rawstring = readLines(path) rawstring = paste0(rawstring, collapse = ' ') s = gsub('w', '', rawstring, perl=TRUE) s = gsub('[[:punct:]]', ' ', s) return(s) } # 淘宝首页搜索'男'和'女'对应的网页链接 male_link = 'https://s.taobao.com/searchq=%E7%94%B7&search_type=item&sourceId=tb.index' female_link = 'https://s.taobao.com/searchq=%E5%A5%B3&search_type=item&sourceId=tb.index' male_str = readChineseWords(male_link) female_str = readChineseWords(female_link) # 分词 -> 计算tf-idf cc = worker() new_user_word(cc,'打底裤','ddk') male_words = cc[male_str] female_words = cc[female_str] idf = get_idf(list(male_words, female_words)) get_tf_idf <- function(words){ words_freq = table(words) df = data.frame(name=names(words_freq), freq=as.numeric(words_freq)) df = merge(df, idf, all.x = TRUE) wc_df = data.frame(words=df$name, freq=ceiling(df$count * df$freq * 10)) # 缺失和0值替换成1 wc_df$freq[wc_df$freq == 0 | is.na(wc_df$freq)] = 1 return(wc_df) } # 绘制词云 male_df = get_tf_idf(male_words) female_df = get_tf_idf(female_words) wordcloud2(male_df, figPath = 'male.png', backgroundColor = 'black', color = 'random-light') wordcloud2(female_df, figPath = 'female.png', backgroundColor = 'black', color = 'random-light') 男士的搜索结果主要是“海澜”，“健详”和“牧之逸”的品牌信息(后俩还真没听过…)，“棉质”和“衬衣”等，以及臭男人要“防臭”。右中图的“打底裤”，“防走光”和“防晒”，“防水”，主题十分明确，又是一年夏季，女孩的短裙飞扬在街上的每个角落，凉爽的同时也要注意防狼防天气。交互默认生成的词云是自带交互效果的。鼠标悬浮某个词上会显示相应的词频，这是内置的js回调函数效果。可以自编js函数覆盖，比如下边的代码传入一个空函数，画出的词云就没有交互效果了。 hoverFunction = htmlwidgets::JS("function hover() {}") wordcloud2(demoFreq,hoverFunction = hoverFunction) 这一部分就是纯粹的js了，有能力或有兴趣想要做些不一样效果的，可以瞅瞅源代码中的 hover.js 。结语最后，想要更多的细节调试可以参见 wordcloud2 作者的介绍以及 wordcloud2.js的API文档。感谢wordcloud2作者郎大为老师和wordcloud2.js的作者 timdream 。有兴趣和有能力的朋友可以读读源代码，开开脑洞做些改进，如提升下绘图速度(改进wordcloud2.js的算法)，组合多个词云等。作者：杜亚磊链接：http://yalei.name/ 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-06-18 01:25:00

现有数据中心是否满足5G需求

2019年是5G元年，随着各国运营商纷纷加快5G网络部署，5G商用已正式到来。 5G“超高代宽”、“超低时延”、“全连接覆盖”的网络特点开启了万物互联的智能世界，自动驾驶、远程医疗、工业互联网……一个个创新应用层出不凶，迅猛爆发。这些都对作为IT基础设施的数据中心提出了更高要求。5G应用的爆发和发展，需要适应5G网络特性的新数据中心作为承载的坚实底座。数据是一切的基础，传统数据中心在5G时代面临哪些挑战？ 1、数据量挑战。5G时代万物互联将有大量数据被制造，迎来数据量爆炸式增长。据预测，全球年新增数据量将从2019年的10ZB（1ZB=10亿TB=1万亿GB），单单中国产生的数据量就将达到8ZB。现有的数据中心网络以100GE为主，无法支撑5G时代数据洪水的挑战。 2、算力挑战。一方面数据量井喷对算力带来算力的稀缺。另一方面5G时代万物互联，自动驾驶要求低延时、智慧城市要求高带宽……诸多5G应用对数据处理能力的提出更高要求，算力需求更高。 3、智能化挑战。IT技术的发展贯穿了数据中心的发展与转型历史。近年来云计算的崛起构筑起现在的云数据中心模式。伴随5G与AI技术的发展，具备更强算算力处理更多数据量的数据中心需要智能化的运维管理，提升数据中心的资源利用率和管理维护效率，面向5G时代。总体来说，5G时代业务快速变化、应用场景要求高，对数据中心的高网络吞吐量、高并发计算与存储提出了很高的要求，如何利用智能化达到数据中心整体性能与成本最优，成为衡量 5G 时代数据中心竞争力的试金石。而要达到这一目标，既要从“全栈”视角去考虑数据中心的异构计算及能力、数据存储及处理能力、云服务能力及统一管理能力、AI 能力等如何充分协同来满足 5G 业务需求，也要从 “全生命周期”视角关注数据中心网络架构的演进与运营运维。数据中心48 从数据中心网络架构上看，5G时代，数据中心或许将从现有的“云+端”架构向“云+边+端”演变，实现以下改变： 1、边缘数据中心更接近应用端，下沉位置更深，时延进一步降低。 2、更容易开放API及本地计算能力，从而实现智能调配计算能力。如大量的内容及视频流量从核心走向小区，需要大量的CDN/边缘计算能力。 3、诸多5G应用场景，如自动驾驶、工业互联网等需要边缘数据中心作为支点更好的实现广泛覆盖。这样看起来，数据中心在5G时代会有三大变化——全智能化、分布式架构化及边缘计算能力增强，才能应对5G网络发展带来的挑战。

来源：大数据中国

发布时间：2019-07-12 20:27:00

R语言对回归模型进行回归诊断 | 数据分析网首页分类阅读行业资讯大数据统计学数据�

在 R语言中，对数据进行回归建模是一件很简单的事情，一个lm()函数就可以对数据进行建模了，但是建模了之后大部分人很可能忽略了一件事情就是，对回归模型进行诊断，判断这个模型到低是否模型的假定；如果不符合假定，模型得到的结果和现实中会有巨大的差距，甚至一些参数的检验因此失效。因为在对回归模型建模的时候我们使用了最小二乘法对模型参数的估计，什么是最小二乘法，通俗易懂的来说就是使得估计的因变量和样本的离差最小，说白了就是估计出来的值误差最小；但是在使用最小二乘法的前提是有几个假设的。这里我就引用《R语言实战》的内容了，在我大学中的《计量经济学》这本书讲的更为详细，不过这里主要是介绍使用R语言对模型进行回归诊断，所以我们就不说太详细了；假定正态性：对于固定的自变量值，因变量值成正态分布，也就是说因变量的是服从正态分布的独立性：Yi值之间相互独立，也就是说Yi之间不存在自相关线性：因变量和自变量是线性相关的，如果是非线性相关的话就不可以了同方差：因变量的方法不随着自变量的水平还不同而变化，也可称之为同方差为了方便大家使用和对照，这里就使用书上的例子给大家介绍了，在系统自带的安装包中women数据集，我们就想通过身高来预测一下体重；在做回归诊断之前我们得先建模；首先我们先看一下数据是长什么样子的，因为我们不能盲目的拿到数据后建模，一般稍微规范的点流程是先观察数据的分布情况，判断线性相关系数，然后在考虑是否建立回归模型，然后在进行回归诊断； R代码如下： data(‘women’) women 结果如下初步观察数据大概告诉我们体重就是跟随着身高增长而增长的，再通过画一下散点图观察。 R代码如下 plot(women) 然后我们在判断一下各个变量之间的线性相关系数，然后再考虑要不要建模 R代码如下 cor(women) 结果如下从相关系数的结果上看，身高和体重的相关程度高达0.9954，可以认为是完全有关系的。根据以上的判断我们认为可以建立模型去预测了，这时候我们使用LM()函数去建模，并通过summary函数去得到完整的结果。 R代码如下 model<-lm(weight~height,data=women) summary(model) 出现这个问号原因是由于电脑字符集问题；稍微解读一下这个结果，RESIDUALS是残差的五分位数，不知道五分位的可以百度一下，这里不多说，下面的结果height的回归系数是3.45，标准差是0.09114，T值为37.85，P值为1.09e-14,并显著通过假设检验，残差的标准差为1.525，可决系数为0.991,认为自变量可以解释总体方差的99.1%，调整后的可决系数为0.9903,这是剔除掉自变量的个数后的可决系数，这个比较有可比性，一般我都看这个调整后的可决系数。结果就解读那么多，因此得到的结果就是上面只是借用了一个小小例子来讲解了一下R语言做回归模型的过程，接下来我们将一下如何进行回归诊断，还是原来的那个模型，因为使用LM函数中会有一些对结果评价的内容，因此我们用PLOT函数将画出来； R代码如下 par(mfrow=c(2,2)) plot(model) 结果如下左上：代表的残差值和拟合值的拟合图，如果模型的因变量和自变量是线性相关的话，残差值和拟合值是没有任何关系的，他们的分布应该是也是在0左右随机分布，但是从结果上看，是一个曲线关系，这就有可能需要我们家一项非线性项进去了右上:代表正态QQ图，说白了就是标准化后的残差分布图，如果满足正态假定，那么点应该都在45度的直线上，若不是就违反了正态性假左下：位置尺度图，主要是检验是否同方差的假设，如果是同方差，周围的点应该随机分布右下：主要是影响点的分析，叫残差与杠杆图，鉴别离群值和高杠杆值和强影响点，说白了就是对模型影响大的点根据左上的图分布我们可以知道加个非线性项，R语言实战里面是加二次项，这里我取对数，主要是体现理解 R代码如下 model1<-lm(weight~height+log(height),data=women) plot(model1) summary(model1) 结果如下诊断图模型拟合结果图综合起来我们新模型貌似更优了；我就介绍到这里，具体大家可以看书籍参考文献本文为专栏文章，来自：天善智能，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/19281.html 。

来源：数据分析网

发布时间：2016-06-15 22:23:00

<上一页 7 8 9 10 11 12 13 14 15 16 17 下一页 >

咨询电话(周一至周五9：00-18：00)