数据专栏

智能大数据搬运工,你想要的我们都有

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

大数据 作为21世纪的“钻石矿”对于企业的重要性已经不言而喻,各个行业都在搭建自己的 大数据平台 ,构建技术能力,以期待优化生产流程、精准营销,帮助企业获得竞争优势。 然而,Gartner预测:到2018年,90%已经部署的数据湖将因为负荷过多为不确定用途而获取的信息资产,从而失去价值。数据收集和存储已经是可以广泛普及的成熟技术了,然而 数据分析 挖掘,真正助力商业模式的优化却依旧面临巨大的挑战。 在2016 Teradata 大数据 峰会上,连续16年蝉联Gartner数据分析方面排名第一的Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)接受了《哈佛商业评论》中文版的采访,分享了专注数据分析领域多年的行业洞见。 人物小传:辛儿伦(Aaron HSIN) Teradata天睿公司大中华区首席执行官、全球国际集团副总裁,于2010年3月上任,负责公司在中国大陆、台湾、香港、澳门等地区的业务。中国大数据专家委员会(BDECC)核心成员、中国云计算技术与产业联盟(CCCTIA) 委员会成员代表。此前,曾担任未来科技城信息化规划的特约顾问、任职微软公司大中华区企业及合作伙伴事业部总经理。 HBRC:数据分析领域在中国市场的发展如何? 辛儿伦: 30多年来,Teradata专注于数据及分析领域。记得我刚加入Teradata的时候,我们的客户群是三个行业,而今天,在中国有12大主流行业都是我们的客户,包括金融、通信、互联网、零售、汽车、石油石化、制造、保险等。 而且,数据分析需求已经不只是传统的业务部门的需求,还有像市场部门一些精确营销的需求,这是一个庞大的资源库和生态系统。现在许多客户的需求已经不仅只是把我们看作是乙方提供商,更多的是希望通过我们能够有跨领域、跨行业的大数据解决方案的应用。 近两年,我们新增的客户来自交通运输行业。我们合作的项目场景是从商业领域到物流领域等多个方面。铁路行业的数据量也是非常庞大,北京地铁,一天平均900万到1000万的人流量。北京地铁现有16条地铁线,每一条地铁线的资方是不同的。客户一张票,可能要转乘三到四条地铁线,这些资方都希望能更迅速的结算,而要做到这种几乎是每日式的结算,就需要非常精确和快速、实时或是准实时的 大数据分析 。有了这样一种能力,对他们资源的规划大有益处,比如可以通过人流量分析决定地铁检票口的数量和位置,对于不同位置的广告位也可以进行针对性的投放。 跨界融合是你们看到的一个主要趋势,有什么具体的案例么? 因为外部的项目是跨界的,所以内部给我们一个契机,让公司更多地进行内部跨团队、跨行业的碰撞、交流、协作。比如零售行业也想跟通信行业联系。目前已经上线的项目是西班牙电信Telefonica。他们和当地的零售集团合作,通过电信公司提供的地理位置数据、人流数据帮助自己开店选址。这一模式在中国也有合作,为此我们还专门开发了一个产品叫做选铺通。 我们在中国还有通信运营商和航空公司的合作。通信运营商有很多标签标识了这些客户是不是高价值客户,是不是商旅人士,是不是经常穿梭于某一些城市。因为你的开关机状态,地理位置信息会透漏。航空公司希望将两个数据关联起来,就可以知道那些客户的偏好和习惯,给他们精准地提供个性化的套餐服务或有针对性的服务。 哪些行业会最平坦快速地吸收大数据的改造?哪些行业不太适合? 过去几年,通信、互联网和金融行业想要获取大数据解决方案的需求最旺盛。汽车行业也渐渐开始有需求,包括驾驶行为怎么跟汽车保险公司合作等。 现在,我觉得十几、二十个行业都希望一起来勾画他们在大数据建设的能力,包括零售行业、制造行业等。他们想通过目前传感器技术的发展,机器生成的数据能够实时获取并快速分析,提供给产品设计部门进行改良、改造。 我觉得大数据能力的加载速度还是每个行业的信息化程度、对做数据驱动型企业的理解程度相关。通信行业天生就是一个大数据企业,因为它的数据最完整、最详细,而且存储周期最长。基础比较好,他们需要做的只是在大数据分析上花功夫,把数据价值释放出来。 金融行业也是一样,因为它的客户是与价值相关的,本身就要利用更多的大数据技术去抵御风险、实现监管、发现自己的潜在客户。这就又激发它创造更大的价值,创新商业模式。 而其他一些行业并不是不敏感,只是它们关注的方向不同。传统行业会更加专注具体的大数据分析出来的实际应用,比如医疗行业,病历一直是重要的医疗数据,在电子病历广泛应用前,这些数据一直是非结构化,信息很难产生联系和做分析。使用大数据技术解读电子数据,可以很快从电子病历中解析出每个人身体情况、病史,很好地优化了看病流程。 中国企业在进行培养大数据能力升级的时候所面临的最大的挑战是什么? 在中国,企业和政府单位都想拥有大数据治理、管理、分析的能力。但是我认为高管在做决策时,必须先搞清楚为什么要用大数据,搞清楚他们的企业想要达到的愿景是什么。 搞清楚为什么以后,看看具体落实的场景是什么。有了场景的规划,再进行排序,分析一下哪些场景是立即就可以给企业带来价值,哪些场景的价值会在长期。排序后,每一个场景所需要的解决方案不同。因此,企业可能需要的不是一个大数据解决方案,而是好几个解决方案的组合。 从供给面来看待这个企业的大数据能力,看看他能带来的价值。在这个大数据时代,以公司战略、业务战略、实现的具体业务、细致落地的场景这四个角度来优化企业的大数据能力建设过程会更好。 技术的转变是非常快的,开源技术这段时间比较热门,过几年也可能被新技术取代。这个世界变化非常快,而且是多维度的变动。因此企业要思考的非常清楚,不然很多的投资或当时的投入可能都要打水漂。 大数据分析指导决策对于服务团队行业理解力要求很高,Teradata在这一方法有什么经验? 我们公司的咨询服务团队里,有一个特别的团队叫做Industry Consultant,专门集合了一些对各个行业比较有了解的人才。但是,我们不可能完全取代客户对于行业的工作,我们与客户是一种合作、交流、讨论、相互学习。 我们有这样的团队,能够跟客户有共通的语言,理解客户希望通过大数据的分析达到什么样的业务增长和愿景。有一些热门的行业的人才是要去储备的,我们在雇佣人才时会看背景的,招募的都是非常优秀具有海外深造或相关行业的专业背景的人才。 来源:哈佛商业评论 齐菁|文 李全伟|编辑 齐菁是《哈佛商业评论》中文版新媒体编辑 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2016-10-01 10:48:00
6月6日,工信部正式向中国移动、中国电信、中国联通和中国广电发放5G商用牌照。至此,中国成为继韩国、美国、瑞士、英国之后,全球第五个开通5G服务的国家。 自2016年启动5G试验以来,短短两年时间,我国已经完成了5G关键技术验证、技术方案验证和系统组网验证三个阶段。对于5G商用落地,四大运营商早有准备。 部署5G,四大运营商各有侧重 四大运营商在5G商用牌照正式颁布之前早就启动了5G研发,围绕5G场景需求定义、核心技术研发、国际标准制定、产业生态构建、应用业务创新开展了大量的工作。 中国电信 自2017年底开展5G试验以来,中国电信联合国内外众多企业积极开展5G技术试验,如今中国电信已建成开通以SA为主,SA/NSA混合组网跨省跨域规模试验网,并在北京、上海、广州、深圳等17个城市开展5G创新示范试点。同时,中国电信联合各合作企业开展了多项5G应用创新实践。 2017年8月,中国电信在河北省雄安市雄县启动了5G创新示范网络。同时,发布了《中国电信5G创新示范网白皮书》,并称将以5G创新示范网为契机,力争2019年实现5G试商用,2020年实现规模商用。 2017年10月,中国电信率先开通了首个5G试验站。 2017年11月8日,中国电信在雄安新区开通第一个5G基站,率先在雄安建设了全国最大的5G试验网和创新示范网,重点推出包括基于5G的无人驾驶示范、5G网络环境下的移动远程医疗、5G支撑的城市级别物联网等5G应用。 2018年4月,中国电信、中兴通讯、百度在雄安新区完成了基于5G网络实况环境下的无人驾驶汽车测试,这是国内首个在5G网络环境下完成的无人驾驶试验。 2018年5月17日,全国首个“5G+8K”试验网在上海启动,中国电信上海公司联合产业链合作伙伴展开8K超高清视频业务试点,实现了国际上首个“5G+8K”外场演示。 2018年6月26日,中国电信在2018上海世界移动大会上发布《中国电信5G技术白皮书》,这是全球运营商首次发布全面阐述5G技术观点和总体策略的白皮书。 2018年9月,中国电信5G联合开放实验室建成首个运营商基于自主掌控开放平台的5G模型网,正式启动5G SA(独立组网)测试。 2018年9月4日,第一通5G SA电话从雄安新区拨出,这是业内首个基于开源技术、分层解耦全开放架构的5G技术验证,标志着5G SA标准步入实质产品落地。 2018年11月29日,中国电信携手中国联通在GSMA TSG终端工作组第34次会议发起的人工智能(AI)终端标准立项,获得大会正式通过。GSMA AI终端标准的成功立项,意味着AI终端标准和生态进一步国际化,而中国电信将与产业链一起构建共赢的5G+AI产业生态。 2019年1月,中国电信完成了首个基于虚拟机容器技术的5G SA核心网功能测试,并在2019年3月推出超过1200台的5G终端用于测试。 2019年1月31日下午,中国电信完成了央视春晚的5G网络VR现场连线直播,这是走过36年的央视春晚第一次实现VR超高清视频内容的5G传输。 2019年2月,中国电信联合华为在成都顺利完成首个5G IPRAN现网试点,实现现网IPRAN升级支持5G业务、新老设备混合组网等多种复杂场景验证,并针对SR/EVPN/IPv6等关键技术点以及新旧技术互通等场景进行试点,标志着5G承载已经初步具备商用能力。 2019年3月初,中国电信四川公司启动5G话音业务试点,并于3月12日在成都实验网率先拨通全国首例实验室内的5G通话。3月29日凌晨,中国电信四川公司率先完成了现网无线基站和核心网设备试点版本升级,本次通话还有一个特点,就是用户不换卡不换号就可以体验5G高速上网以及语音业务。 2019年4月,中国电信在5G模型网实现了业界首个基于5G独立组网(SA)的语音通话。实现本次通话的端到端5G网络是基于3GPP在12月发布的R15稳定版本,本次语音通话是通过5G SA手机打通的SA组网下的第一个高清语音电话。 2019年6月6日,中国电信获得工信部颁发的“第五代数字蜂窝移动通信业务”经营许可证。 中国移动 早在2012年,中国移动就启动5G研发,围绕5G场景需求定义、核心技术研发、国际标准制定、产业生态构建、应用业务创新开展了大量工作。 2016年2月,中国移动面向全球,联合首批11家合作伙伴,启动了中国移动5G联合创新中心,从此拉开了5G产业方面各方协同创新、共同发展的新篇章。 2017年2月,中国移动、华为、德电、大众联合发布了服务可保证的5G网络切片白皮书。 2017年6月,中国移动和中兴通讯在广州建立了中国首个5G预商用测试基站。 2017年11月,中国移动、高通和中兴通讯成功实现了全球首个基于3GPP Release 15标准的端到端5G新空口(5G NR)系统互通(IoDT)。 2017年11月,中国移动在2017中国移动全球合作伙伴大会上展示了全球首个基于国际统一标准的“5G新空口端到端互通”,该系统工作在3.5GHz频段、100MHz带宽, 下行峰值速率可达1.3Gbps以上。 2018年2月26日,中国移动正式公布了2018年5G规模实验计划——将在杭州、上海、广州、苏州、武汉五个城市开展外场测试,每个城市将建设超过100个5G基站;还将在北京、成都、深圳等12个城市进行5G业务和应用示范。 2018年2月27日,中国移动联合全球20家终端产业合作伙伴在GTI国际产业峰会共同启动“5G终端先行者计划”,旨在聚焦产业资源,推进5G终端产业的创新与成熟。 2018年12月8日,中国移动发布《5G终端产品白皮书》,联合多家合作伙伴发布5G试验型终端产品计划,明确5G终端技术要求,展现5G终端最新进展,推动5G产业端到端协同发展。 2018年12月14日,中国移动、高通和中兴通讯宣布,成功基于全球3GPP 5G新空口(5G NR)Release 15规范完成全球首个采用独立组网(SA)模式的5G新空口数据连接。 2019年1月30日,中国移动携手华为技术有限公司,联合国家电力投资集团有限公司在江西光伏电站完成全国首个基于5G网络的、多场景的智慧电厂端到端业务验证,打造无线、无人、互联、互动的智慧场站,这是5G技术在智慧能源行业应用的重要突破。 2019年2月,中国移动与中央广播电视总台及华为公司携手成功完成了春晚举办37年以来的首次5G网络4K超高清直播。 2019年3月16日,中国移动携手华为公司助力中国人民解放军总医院,成功完成了全国首例基于5G的远程人体手术——帕金森病“脑起搏器”植入手术。 2019年5月,中国移动、中央广播电视总台、华为在北京成功完成了业界首个基于真实5G端到端网络切片的4K视频直播验证,这是全球首个基于3GPP(第三代合作伙伴计划)标准的5G SA(独立组网)媒体直播切片。 2019年5月,中国移动与韩国电信公司(KT)联合演示了KT用户漫游到中国移动5G网络体验远程竞技游戏直播等业务,这是全球首个5G网络国际漫游演示。 2019年6月6日,工信部向中国移动通信集团有限公司颁发“第五代数字蜂窝移动通信业务”基础电信业务经营许可证,同时批准中国移动将包括语音、数据、移动物联网相关业务在内的全部“LTE/第四代数字蜂窝移动通信业务(LTE FDD)”经营范围扩大至全国。 2019年6月12日,中国移动终端公司发布中兴通讯5G终端(测试版)单一来源采购公告,共计4000台——中兴5G手机“A10pro 5G”2000台、中兴5G CPE终端2000台。此外,中移物联网有限公司“5G CPE终端F01X研发项目”近日开标,中兴通讯成为唯一一个中选候选人。 中国联通 中国联通已经获得了3500MHz——3600MHz共100MHz带宽的5G试验频率资源,这也是目前全球最主流的5G频段。频段的加持为中国联通在5G终端方面平添了天然的优势。 中国联通在5G商用前期部署方面,持续深入推进互联网化运营,构建5G业务生态,开发5G特色服务。 2018年1月,中国联通向工信部提交申请,在北京,天津,上海,深圳,杭州,南京和雄安开展5G测试。中国联通网络建设部副总经理马红兵透露,中国联通已在上海和深圳完成了现场建设。中国联通还测试了华为、中兴通讯和诺基亚原型5G实验室。 2018年8月,中国联通5G创新中心正式挂牌成立将在中国联通5G推进领导小组办公室和工作组的指导下,提前布局5G发展,推动5G在垂直行业的应用,同时加强与重点行业领军企业的合作,实现行业应用规模推广。 2018年9月19日,中国联通联合阿里云在2018杭州·云栖大会上完成了国内首次专业级5G+8K应用。 2018年9月27日,中国联通携手德勤中国,共同发布了《5G重塑行业应用白皮书》,从技术成熟度、商业场景、风险投资等多角度探索如何加快基于5G的创新行业应用。 2018年10月1日,在中国国际信息通信展览会期间,中国联通携手华为演绎了国内首例5G异地合奏音乐会。 2018年12月26日,中国联通发布了首个基于5G技术的智慧旅游系列应用,并在红旗渠景区成立了“文化旅游5G创新应用示范基地”。 2018年底,北京联通联合中国联通5G创新中心、北京首钢自动化信息技术有限公司及相关合作伙伴成立联合工作组,基于5G网络+业务结合的形式,深度打造“5G应用生态圈”,继在冬奥组委展示厅实现“5G+8K”视频回传国家速滑馆建设实况后,又在首钢展示厅成功呈现全球首次“5G+VR”冰球全景观赛。 2019年1月,一台特殊的手术在福州实施。这台手术的医生与“患者”(小猪)相隔50公里,通过中国联通搭建的5G网络环境,医生远程操控手术机器人,将小猪的肝小叶顺利切除。这是全球首例基于5G网络的远程动物手术。 2019年1月28日,中国联通联合中央广播电视总台、华为公司在吉林长春启动5G网络VR实时制作传输测试,为春晚长春分会场5G直播应用提供技术验证与准备。 2019年3月19日,上海联通联合产学研积极推进5G技术垂直行业研究的又一阶段性成果——全国首个5G高校建成启用暨举行了5G+人工智能联合创新实验室揭牌仪式在上海工程技术大学举行。 2019年两会期间,央视借助联通5G网络首次在人民大会堂北大厅的“部长通道”进行5G+VR直播。除此之外,两会会场区域、媒体展示厅、金色大厅两会新闻中心等区域均实现了5G全覆盖。 2019年4月23日,中国联通正式发布5G品牌“5G?”,发布“7+33+n”5G网络部署,即在北京、上海、广州、深圳、南京、杭州、雄安7个城市城区进行连续覆盖,在33个城市实现热点区域覆盖,在n个城市定制5G网中专网,搭建各种行业应用场景,这标志着中国联通的5G网络已经具备商用条件。 2019年4月24日,中国联通在“5G终端·产业合作与创新”主题论坛上发布了《中国联通5G行业终端总体技术要求白皮书》和《中国联通5G通用模组白皮书》,为产业链合作伙伴在5G行业终端产品研发与创新提供了指南。 2019年5月16日,中国联通、首都医科大学宣武医院与河北北方学院第一附属医院联合实现了基于5G技术的车载CT移动卒中单元的应用落地,这标志着全国第一个基于5G的移动卒中单元正式建成。 2019年5月22日,中国联通和腾讯公司在云南昆明腾讯全球数字生态大会文旅分论坛现场联合发布了《2019中国智慧文旅5G应用白皮书》。 2019年6月6日,工信部向中国联通颁发了基础电信业务经营许可证,批准中国联通经营“第五代数字蜂窝移动通信业务”。 中国广电 6月6日,工信部一举发放了4张5G商用牌照,第四张拥有者就是中国广电,为什么是中国广电呢?中国广电作为一个继联通、移动和电信之后的第四家5G通信运营商,具体有什么优势呢? 2016年,中宣部、财政部、国家新闻出版广电总局出台《关于加快推进全国有线电视网络整合发展的意见》,提出到“十三五”末期即2020年,基本完成全国有线电视网络整合。这次发牌,显然是中宣部、深改委推动广电“全国一张网”为5G牌照做好准备。 2018年9月10日,无线交互广播电视工作组在北京召开第一次总体组会议。无线交互广播电视工作组与北京市相关单位开展深入交流合作,确定将为2022年北京冬奥会提供基于5G/无线交互广播电视技术的超高清广播电视网服务,实现超高清内容回传、超高清电视广播和移动接收。 2018年12月28日,我国第一个基于5G技术的国家级新媒体平台在中央广播电视总台开建。当天,中央广播电视总台与中国移动、中国电信、中国联通及华为公司在北京共同签署合作建设5G新媒体平台框架协议。 2019年3月,中国广电分别与中国中信集团有限公司及阿里巴巴集团签署了战略合作框架协议,使有线电视网络“全国一网”融合发展向前迈进了重要一步。 2019年5月中旬,中央广播电视总台、中国移动与华为在北京成功完成了业界首个基于真实5G端到端网络切片的4K视频直播验证,这是全球首个基于3GPP(第三代合作伙伴计划)标准的5G SA(独立组网)媒体直播切片。 2019年6月6日,工信部按照法定程序,向中国广电发放了“第五代数字蜂窝移动通信业务”经营许可证。 5G新赛道,四大运营商纷纷表态 工信部发放5G商用牌照,打响了推动5G建设和服务的"发令枪",标志着我国正式进入5G时代。5G牌照发放之后,四大运营商又将如何进一步推进5G建设与发展呢? 根据运营商披露,中国移动2019年将建设3万至5万个5G基站;中国电信初期预计5G基站投入达到2万个;中国联通2019年将根据测试效果及设备成熟度,适度扩大试验规模。 目前,中国移动发起设立5G创新产业基金,总规模300亿元,首期100亿元已募集多家基金参与,聚焦重点应用领域,引导中频段5G产业生态加速成熟。中国联通设立百亿孵化基金,全力助力合作伙伴成为各个领域5G应用和数字化转型的领航者。中国广电将提供的智慧广电服务也能带给用户明显的5G体验,比如通过大屏终端,用户可以更好地体验AR、VR、高清直播等内容。 5G商用牌照颁布后,对于进一步推进我国5G产业发展,四大运营商纷纷表达了自己的决心。 中国电信已在北京、上海、重庆、广州等17个城市进行5G规模测试和应用示范,在此基础上,中国电信将进一步拓宽5G规模测试范围,将范围扩大到40个城市,并不断优化网络覆盖。 在资费方面,中国电信将视网络建设、产业链成熟度等情况适时推出具备5G特征且满足用户高流量、多层次需求的资费套餐。在终端方面,中国电信表示,除手机、数据卡终端外,还将进一步研发推广多种形态的5G泛智能终端。 获得5G业务经营许可后,中国移动将加快5G网络部署,打造全球规模最大的5G精品网络,大力推进“5G+”计划,今年9月底前在超过40个城市提供5G服务,客户“不换卡”“不换号”就可开通5G服务,后续将持续扩大服务范围,让广大客户方便、快捷地使用5G业务,享受5G新技术带来的福利。 在终端方面,中国移动启动“中国移动5G终端先行者计划”,联合产业推出了十余款5G手机和数据终端,预计年内将超过30款。 中国联通称,5G牌照发放后,将进一步面向公众开放5G体验,计划在40个试点城市的热点地区建设5G体验厅,组织“走进联通,体验5G”专项5G体验日活动;多城同步发起“5G看联通,5G在身边”5G体验周打卡活动,让5G体验走出营业厅,来到大众身边。 中国广电副总经理曾庆军在接受媒体采访时表示,工信部给中国广电颁发5G牌照,实际上这个牌照是颁发给全国有线电视行业和全国广电行业的,全国广电行业将利用这次契机建设一个高起点的现代传播网络,这个网络跟其他三个运营机构还是有所差别。 曾庆军谈到:“5G网络将是汇集广播电视现代通信和物联网服务的一个高起点、高技术的网络,使广大的用户能够真正体会到现代超高清电视、现代物联网带来的智慧广电服务,甚至是社会化的智慧城市服务,能够使中国的技术产业服务助推5G全面引领的态势。” 搜索 复制
来源:大数据中国
发布时间:2019-06-21 22:01:00
在 AI 方面取得成功的那1%的企业都是云公司。 AlphaGo只不过是运行一系列程序算法来模拟场景,从中找出最优解。它真的能取代人类吗? 在AI被广泛使用之前,需要先解决技能差距、工具繁多和基础设施这三个重要问题。 让那99%的企业都能使用,实现AI“民主化”,帮助那些远远比不上“ 谷歌 们”的公司利用AI。 原文翻译: 关于 人工智能 (AI)的报道和评论为数众多。有人说它能创造奇迹,也有人说它对人类构成威胁。但Databricks公司联合创始人兼CEO阿里·高德西(Ali Ghodsi)要大家保持克制。Databricks来自加州大学伯克利分校AMPLab实验室,致力于ApacheSpark。 高德西说,在Databricks为其500多位企业客户提供支持的用例中,73%是基于AI。这些公司很多都在努力利用AI。但同时也有众多夸张的故事,讲述AI将如何掌控世界,又有多么强大、多么危险。 “当我们和试图解决预测问题的财富2000强企业交流时,他们的说法和媒体的报道反差极大,”高德西说。 AI的1%问题 他说,大家都想涉足AI,承认其巨大潜力,如果你问首席信息官和C级高管,他们打算如何保持竞争力, 人工智能 的使用很可能在他们的最重要的五个事项之列。高德西指出,人们以为AI无处不在,但事实大相径庭。 AI实际上存在“1%问题”。只有谷歌、亚马逊等少数公司利用人工智能达成了他们的目标。这些科技巨头拥有数以万计的硅谷工程师,其中很多人拥有博士学位,或者本来是麻省理工、斯坦福和加州大学伯克利分校等顶尖学府的优秀教授,他们致力于解决范围很小、为数也不多的问题,比如实现汽车的自动驾驶,或者让人们点击更多的广告。高德西解释说,他们在所从事的有限领域里取得了很大成功,但其余“99%”的公司没有这些资源,发现自己试图解决的问题异常复杂,不知如何下手。 早期应用 Databricks发现,在AI的早期应用方面,工业IT和医疗行业是两个突出的例子。企业从传感器收集数据,然后输入Databricks,预测在某地发现石油的可能性,从而提高勘探效率,改善对环境的影响。在医疗行业,机构利用AI来帮助识别图像中的癌症肿瘤。但这两个行业不仅需要数据科学家和数据工程师,还需要研究相关学科的专家,而这些专家通常不太熟悉AI、数据库系统和数据仓库。 就利用AI识别肿瘤的例子而言,这种应用还远未实现安全自动化。高德西说,谷歌工程师能开发出区分猫和狗的AI技术,“就算搞错了,也只是让人好笑而已。那是猫,但长的像狗。”但在医疗领域,如果某人说这是癌症肿瘤,但实际上并不是,那问题就严重了。 如何扩大AI的使用 高德西说,有三个问题必须解决,才能在更多的公司中更广泛地使用AI。 · 技能差距——首先,需要领域专家。高德西说,比如识别癌症就需要医生,还有懂得利用机器学习软件来建立预测模型的数据科学家。此外还需要了解数据库和数据仓库的数据工程师,他们知道数据应该存储在哪里,如何解决 大数据 的多样性、速度和其他问题。在充满政治色彩、关系到管理和权力的氛围中,让所有这些不同的角色协同工作,这不是件容易的事。 · 工具繁多——高德西说,现在有太多的工具需要整合,其中很多都是开源的。这些工具涵盖数据清洗、摄取、安全、预测和监控。想要使所有这些开源工具协同工作,企业必须雇佣开发人员,成功地实现软件互操作,而这只是为了让软件协同工作。 · 基础设施——高德西眼中的第三个挑战是运营基础设施,确保所有机器和集群处于安全状态,数据以受控的方式流动,因为在受到严格监管的行业里,黑客入侵或信息泄露会使公司面临严重的后果。 云是关键 高德西说,在踏上AI之旅时,这些是需要尽早解决的三个问题。为了解决它们,需要工具来实现协作、系统整合以及通过云加强基础设施的一致性和可用性。 · 协作工具——拥有能够实现多角色协作的工具,这是解决技能差距的最好方法。高德西说,这非常重要。 · 技术整合——技术需要整合起来,更好地协同工作,这样才能清洗数据,把它转换成数学格式以用于预测,添加更多数据,建立预测模型,让软件自动运行。高德西说,能否添加更多数据以丰富原始数据集,这关系到预测的准确性。 · 云——高德西说,想要确保基础设施始终运行良好,云是很好的解决之道。云能带来自动化、外包和确保基础设施始终运行良好的能力。在AI方面取得成功的那1%的企业都是云公司。这也许是巧合,也许不是,但在AI方面真正取得成功的谷歌、Facebook、亚马逊和其他公司都是云公司。他说:“我们认为,重要的区别就在于此。” 什么是AI,什么不是AI 高德西说,在AI被广泛使用之前,还有很长的路要走,很多人担心AI将取代人类大脑,但目前最先进的AI研究志不在此;AI实际上是人脑的补充,帮助人类更好地完成富有挑战性的任务。 谷歌拥有世界各地所有网站的大量信息。它是AI,还是一个仅仅拥有很多信息的数据库?高德西说,我们可以把这视为一个哲学问题。但毫无疑问,AI使人类能够非常高效地查找信息,因为没人可以在自己的电脑上存储所有那些数据,并识别所需信息的来源。如果你有一幅地图,想找出两点之间的最近路线,软件可以很好地做到这一点。但高德西说,在需要创造力、并非超结构的事情上,AI进展甚微。 高德西说,谷歌的AlphaGo之所以能战胜人类围棋冠军,是因为它进行模拟的速度比人脑更快。但他说,如果你让AlphaGo回顾其胜利,指出使它在比赛中取胜的关键落子,它就无能为力了。而人类可以大谈特谈他们迂回曲折的决策过程。AlphaGo只不过是运行一系列程序算法来模拟场景,从中找出最优解。它真的能取代人类吗?显然不行。 结论 “我认为,从本质上来讲,AI对人类不是件坏事。”高德西说。他指出,AI没有减少可供人类使用的资源,比如食物、教育和医疗。 但他认为,在AI被广泛使用之前,需要先解决技能差距、工具繁多和基础设施这三个重要问题。 哪些基因引起某些疾病这样的问题实际上很难回答,但人人都说他们正在取得“巨大进展”。高德西说:“没人会说‘这相当困难,充满挑战性。’” 他指出,另一个问题在于,关于AI的过分宣传使人们误以为AI对人类构成迫在眉睫的威胁,忽视了它的巨大潜力。 高德西说,Databricks的目标是尽可能地简化这项技术,让那99%的企业都能使用,实现AI“民主化”,帮助那些远远比不上“谷歌们”的公司利用AI。 原文: Artificial Intelligence Has a 1% Problem 来源: http://www.dbta.com/Editorial/News-Flashes/Artificial-Intelligence-Has-a-1-percent-Problem-119827.aspx 本文为专栏文章,来自:车品觉,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/48325.html 。
来源:数据分析网
发布时间:2017-10-10 11:00:00
6月20日,“2019大数据创新应用与数字中国建设发展大会”在乌兰察布市开幕,本次大会以“实施国家大数据战略,加快数字中国建设”为主题,工信部等国家部委领导,中国工程院院士汪懋华、孙九林、王家耀、谭建荣、刘经南、何友、柴洪峰,华信研究院、国家地理空间信息中心等国家级资深专家,内蒙古自治区政协及相关厅局领导,乌兰察布市委领导及相关部门负责人出席大会。 软通智慧科技有限公司作为乌兰察布智慧城市建设的重要战略合作方,尹洪涛董事长应邀参加了本次盛会,在会上作了题为“新时代、新动能、新经济—当下智慧城市高质量发展的思考”的专题演讲,并作为“中国大数据百人会”理事长参加了揭牌仪式。 全国政协经济委员会副主任、工业和信息化部原副部长 刘利华 工业和信息化部信息化和软件服务业司副司长 李顺福 乌兰察布副市长 郭菁 “中国大数据百人会”揭牌仪式 软通智慧科技有限公司高级副总裁、首席公共事务官柏翔作为签约代表与乌兰察布市政府就智慧城市建设签署战略合作协议。 战略合作签约仪式 尹洪涛董事长提出“新时代、新动能、新经济”是保障智慧城市高质量发展的关键。 软通智慧科技有限公司董事长尹洪涛 新时代:智能空间的时代已经到来 城市的发展经历了从数字城市1.0到3.0的历程,人类数字化生活需求的激增,刺激着未来城市向以智能空间为典型特征的新发展阶段,在新的时代智能空间呈现了三大特征:一是智能空间以数字化、信息化的技术基础,实现个人便携设备与空间的无缝衔接;二是数字孪生存在的形式为用户与各种信息源进行交流提供了便利条件;三是全感体验的交互方式使得用户动作和目的被感知、被理解、被预测。 新动能:城市的智能数据资产 随着城市智能化水平的不断提高,积累了海量的政务数据、时空数据、人为数据、物联网数据、互联网数据,智能数字资产成为发展城市数字经济的核心生产要素,诱发产业数字化转型和城市数字化转型,提升城市竞争力。 新经济:注入城市发展新活力 数字经济成为全球经济新一轮的竞争焦点,建设数字国家成为全球共识。通过数字技术、ICT设备提升国家竞争力、创新力、生产力,迎接数字化浪潮,为ICT产业的发展带来了广阔的市场需求和产业机会。近年来AR/VR、 区块链 、人工智能是增速最快的领域,大约2/3的头显设备将在2023年被运送到商业领域。 软通智慧科技有限公司作为国内领先的新型智慧城市运营服务商,始终专注于利用大数据、 云计算 、物联网、人工智能、数字孪生等新兴技术,为城市数字化、智慧化提供一体化设计、建设、运营服务,已在中国超过170个城市完成智慧城市战略布局。 尹洪涛表示,软通智慧坚持“以人为本、数字城市即平台、立足城市、创新引领”的四大原则,通过打造城市数字中台,将前台、后台所有的应用连接起来,并将城市所有的资产数字化,构建数字孪生。通过融合城市的各种空间信息,对人、物、事件等要素数字化为物理对象,构建和智慧城市建设、规划等相关的虚拟模型展示,为各种业务应用按需求提供大数据和相关的记录、仿真、预测,通过构筑城市的数字映射,支撑城市运营,挖掘城市动态、高频数据商业价值,发展数字经济,提升城市治理水平。 未来,软通智慧也将立足乌兰察布的政策优势、产业优势,重点围绕数字城市建设开展技术与应用创新,将软通智慧在智慧城市领域深厚的运营经验融入到本地的政务服务、城市治理、公共安全、产业生态、数字民生等领域,加快乌兰察布新型智慧城市建设,打造乌兰察布数字经济新名片。 搜索 复制
来源:大数据中国
发布时间:2019-06-21 21:57:00
2019第二届上海人工智能大会暨第二届图像、视频处理与人工智能国际会议将于2019年8月24-25日在上海浦东隆重举行。本次大会由上海市人工智能学会作为指导单位,中国科学院上海高等研究院主办,上海城市公共安全中心承办,北京希幔传媒有限公司和国际数字经济文化联盟协办。本次大会汇聚了现今人工智能领域的顶尖科学家、知名教授以及多家人工智能企业创始人与高管,将给与会观众带来一场产学研领域融合,涵盖前沿科技与落地实践的饕餮盛宴。 智能时代,关注人工智能前沿科技发展 人工智能的发展,最早可以回溯到1946年世界第一台电子计算机ENIAC的诞生再到1950年著名的“图灵理论”,最后到1956年Dartmouth会议上“人工智能”被定义。若干年间,人工智能迎来了一个又一个发展黄金期。由1970年第一款感知神经网络软件和聊天软件被发明到1990年Hopfield神经网络和BP算法的提出再到2006年Hinton提出的深度学习技术以及图像语音识别领域的成功,使得世界从此进入了“智能+”时代。 人工智能未来的演进发展将分为计算智能、感知智能和认知智能,在此期间真正需要突破的是让计算机理解、思考、进行自我学习。通过深度神经网络、大数据和涟漪效应等一系列促进人工智能突破的成功因素,真正将人工智能发展成“利在当代,功在千秋”的学术和产业的领航者。 平台创新,聚焦人工智能产业实践落地 人工智能已经成为新一轮产业变革的核心驱动力,正在对世界经济、社会进步和人类生活产生极其深刻的影响。举办第二届上海人工智能大会,是继2018第一届上海人工智能大会之后搭建的又一人工智能技术及产业发展重要平台,也是推动互联网、大数据、人工智能和实体经济深度融合发展的重要举措。大会将聚焦图像、视频处理、机器学习、自然语言处理、智能制造、智慧教育、智慧医疗、智慧城市、5G、智能芯片等十余个人工智能及跨学科的重点领域,深入挖掘技术和产业相融合的奥秘,使大会始终保持领域多元化、观点多样化和信息多维化的态势,推进长三角地区人工智能产业领域的长足进步与发展。 汇聚一堂,引领人工智能专家浦江论道 本次大会邀请到人工智能领域最前沿专家和产业翘楚做主题报告,分享最新的研究成果与技术实践。嘉宾包括:加拿大工程院院士、蒙特利尔工学院教授、IEEE 院士 Mohamad Sawan;西安电子科技大学教授、IEEE 院士 焦李成;广东工业大学教授、IEEE 院士 马建国;香港科技大学教授、IEEE 院士 郭天佑;台湾科技大学教授、IEEE 院士 陈锡明;重庆邮电大学教授、长江学者 王国胤;同济大学教授、长江学者 李荣兴;上海交通大学特别研究员、斯坦福大学博士 Peter Bradley Shull;上海科技大学研究员 剑桥大学博士后 Andre Rosendo等十余位学界精英汇聚上海人工智能大会,分享学术界最前沿的人工智能技术科技。 除了学术大咖的主题演讲外,此次大会还邀请到知名的AI企业CEO、创始人和高管等进行行业实践的相关分享。演讲嘉宾包括:中科寒武纪CEO罗韬、百度AR/VR部门总监、百度研究院高级总监吴中勤、Ucloud高级副总裁陈晓建等对当下产业落地进行分享与讨论。 在人工智能高速发展的浪潮中,研究与应用应该达到协同发展。大会程序委员会主席苏锐丹博士表示,将通过每年上海人工智能大会的召开,有效推动人工智能科研和产业的发展,通过不断探寻智能技术边界,实现更多应用落地,让AI技术和我们的生活和工作相融合,让人工智能技术普惠世界,造福大众。 【关于2018第一届上海人工智能大会暨第一届图像、视频处理与人工智能国际会议】 2018年8月16-17日,2018上海人工智能大会暨第一届图像、视频处理与人工智能国际会议在上海浦东软件园的浦软大厦成功举办。本次会议由中国科学院上海高等研究院、上海浦东软件园和上海莘泽创业投资管理股份有限公司共同主办,由上海市科技创业中心、上海市浦东新区科技和经济委员会、上海市人工智能学会和上海科技企业孵化协会作为指导单位,由上海学米教育科技有限公司承办。会议吸引了来自国内外10余个国家和地区,其中包括来自英国帝国理工大学、英国剑桥大学、清华大学、香港大学、东京大学等世界一流学府的顶尖科学家;共计有100多家与会单位,500余名与会代表。 会议围绕“图像、视频处理与人工智能”这一主题进行了深入研讨,内容涵盖图像视频处理、机器学习、自然语言处理、人工智能、机器人等方面的国内外研究及应用情况:上海高等研究院封松林研究员、南方科技大学姚新教授(IEEE Fellow)、香港科技大学郭天佑教授(IEEE Fellow)、台湾科技大学陈锡明教授(IEEE Fellow)分别就各自的研究领域发表特邀报告。来自同济大学、香港中文大学、百度、新松机器人等共四十余位知名专家学者做出主题报告。 与此同时,中国中央电视台、上海浦东电视台、上海浦东政府网等主流媒体来到会议现场进行采访报道,阿里云对会议做出同步网络直播,同时又有包括机器之心、雷锋网等来自人工智能、大数据、 区块链 等领域50余家专业媒体对会议进行了报道宣传。 搜索 复制
来源:大数据中国
发布时间:2019-06-21 21:50:00
最近读了阿里的《 大数据 之路- 阿里巴巴 大数据实践》,对于其 机器学习 平台也蛮感兴趣,正好阿里出了本新书《解析阿里云机器学习平台》,顺便读了下,感触也不少,结合最近团队机器学习的一些思考,特别在此分享于你。 一、机器学习的门槛降得更低了 这本书的第一章是这么描述阿里云机器学习平台的,“阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离网预测、在线预测为一体的机器学习算法平台,用户通过拖曳可视化的操作组件来进行试验,使得没有机器学习背景的工程师也可以轻易上手玩转 数据挖掘 。” 这说得对也不对,对的是机器学习平台的易用性的确很重要,不对的是机器学习平台只解决功能性问题,数据挖掘其实大多时候是在做业务分析、处理数据和分析数据,而不是选择算法和跑通流程,再便捷的可视化平台对于降低机器学习的成本还是非常有限的,否则,要那么多数据建模师干嘛? 相对于SASS,SPSS等,阿里云机器学习平台在易用性、算法完整性及数据处理上是有其特点的,甚至是有一些优势的,因为它有MaxCompute平台的背书,笔者相信任何企业的业务人员只要懂点基本的数据概念,上手这个平台是非常容易的,体现了阿里云机器学习平台在企业级市场的雄心。 怎么个使用简便法呢?看下面一张示意图,任何的机器学习都采用简单的流程就可以描述出来,步骤清晰而简洁,大多非常雷同。 (1)离散值特征分析:就是分析离散变量与标签的关系,阿里云提供了很多变量分析方法,诸如直方图啥的 (2)拆分:就是将数据集拆分为训练和测试集 (3)随机森林:就是选择的算法,我看了下,包括逻辑回归、朴素贝叶斯、逻辑回归、GBDT、文本分析(比如LDA),协同过滤等大多算法,还支持TensorFlow,但只是打个包 (4)预测:就是用测试集数据进行验证 (5)评估:就是ROC,AUC诸如此类的传统评估方法 所有操作基本都是拖曳和配置,比较方便,对于不懂机器学习的人来讲,可以通过这个平台理解机器学习整体的流程,入门是相当的好,即使对于懂机器学习的人,也有助于开阔视野,加速自己的模型验证过程。 二、业务人员迎来新的机会 笔者以前提过,要做好数据挖掘,首先要有一定的业务积淀,这样做成的数据模型才可能有效, 数据挖掘中业务理解和数据准备占据70%以上的时间,外来和尚无法念好经往往不是算法不行,而是业务和数据理解力不行,因此,精通业务的人员其实至少已经是半个专业数据挖掘师了。 业务人员缺的倒是一些IT技能,以往这剩下的30%并不容易掌握,比如业务人员搞个逻辑回归可能还要学习一下语言,这个挑战还是比较大的,现在在这类易用的机器学习工具帮助下,他有可能基于丰富的业务经验让 数据分析 达到一个新的阶段。 当前在一些企业内部分业务人员已经开始自行进行取数,分析及挖掘了,但大多数企业仍然走的是取数流程或项目的方式,这个争议还是比较大的,但笔者相信,随着大数据应用的深入,由于其天生的创新性、迭代性的要求可能会引导业务人员逐步转型,或者组织上进行大的调整,比如数据挖掘师直接归属到业务部门。 IT人员则要专注于研发和改进诸如机器学习平台等中台类的工作,提升平台的体验,千方百计让业务人员用好这些平台,这也许是未来IT正确的姿势,也是双赢的局面。 现在很多企业的IT人员在从事数据挖掘、取数等工作,其处于IT,数据和业务的中间地带,从效率的角度讲,划到业务部门也未尝不可。 三、数据仓库建模师的机会 笔者相信未来这种易用型的机器学习平台将越来越多,意味着通用算法这部分技能行业门槛变得很低,仅仅懂几个算法的工程师在企业内的价值会贬值。 机器学习算法门槛的降低变相的提升了数据仓库建模师的价值,随着机器学习需求的增加,机器学习前期的数据理解、数据清洗和数据准备变得更为重要,谁能深入的理解业务,设计出好用的数据挖掘中台数据模型(这里的数据模型类似数据仓库建模),将极大降低数据挖掘的成本。 以前搞数据挖掘的数据中台其实笔者并不赞成,现在还是觉得有一定必要性了,一个当然是机器学习需求增长,数据中台的共享价值体现出来了,另一个则是当前的数据仓库模型并不能很好的支撑很多数据挖掘场景,团队的数据挖掘师各自为战,好的变量设计无法沉淀。 以下是阿里的关于电商购买预测中数据准备的一个案例,我觉得是需要有业务和数据经验的人体系化的去设计的,靠个人临时去准备一方面代价太大,另一方面也想不全面。 影响某个用户对某个品牌是否购买的特征有哪些呢? 首先是用户对品牌的关注,譬如:点击、发生过购买行为,收藏和假如过购物车,而在这些因素中,关注的行为离现在越近,即将购买的可能性就越大,所以我们会关注最近3天、最近一周、最近1个月、最近2个月、最近3个月和有记录的所有时间的情况,于是有了如下一些特征。 最近3天点击数、购买数、收藏数和加入购物车次数 最近1周点击数、购买数、收藏数和加入购物车次数 最近1个月点击数、购买数、收藏数和加入购物车次数 最近2个月点击数、购买数、收藏数和加入购物车次数 最近3个月点击数、购买数、收藏数和加入购物车次数 全部点击数、购买数、收藏数和加入购物车次数 有了关注时间段细分的关注次数还不够,还希望知道该数值的变化率,来刻画该关注的持续程度,我们还可以构造如下特征: 最近3天点击数变化率(最近3天点击数/最近4-6天点击数)、购买数变化率、收藏数变化率、加入购物车次数变化率 最近1周点击数变化率(最近1周点击数/上周点击数)、购买数变化率、收藏数变化率、加入购物车次数变化率 最近1月点击数变化率(最近1月点击数/上月点击数)、购买数变化率、收藏数变化率、加入购物车次数变化率 如果用户对该品牌曾有过购买行为,我们希望了解,通过多少次点击产生了一次购买,多少次收藏转化为一次购买,即购买转化率,构造特征如下: 最近3天点击转化率、收藏转化、加入购物车转化率 最近1周点击转化率、收藏转化、加入购物车转化率 最近1月点击转化率、收藏转化、加入购物车转化率 整体点击转化率、收藏转化、加入购物车转化率 其次,我们将注意力放在用户上,需要构造特征将用户的特点表现出来,重点是该用户对其关注的所有品牌的总体行为,用户最近对所有品牌的关注度,有如下特征: 最近3天点击数、购买数、收藏数和加入购物车次数 最近1周点击数、购买数、收藏数和加入购物车次数 最近1个月点击数、购买数、收藏数和加入购物车次数 最近2个月点击数、购买数、收藏数和加入购物车次数 最近3个月点击数、购买数、收藏数和加入购物车次数 全部点击数、购买数、收藏数和加入购物车次数 最近3天点击转化率、收藏转化、加入购物车转化率 最近1周点击转化率、收藏转化、加入购物车转化率 最近1月点击转化率、收藏转化、加入购物车转化率 整体点击转化率、收藏转化、加入购物车转化率 最后,单独看品牌这个因素的影响,有的热门品牌,关注度很高,而我们更关心其近期的情况,有如下特征。 最近3天被点击数、被购买数、被收藏数和被加入购物车次数 最近1周被点击数、被购买数、被收藏数和被加入购物车次数 最近1月被点击数、被购买数、被收藏数和被加入购物车次数 最近3月被点击数、被购买数、被收藏数和被加入购物车次数 全部被点击数、被购买数、被收藏数和被加入购物车次数 最近3天点击转化率、收藏转化、加入购物车转化率 最近1周点击转化率、收藏转化、加入购物车转化率 最近1月点击转化率、收藏转化、加入购物车转化率 整体点击转化率、收藏转化、加入购物车转化率 综上,某个用户对某个品牌是否购买的特征由刻画该用户对该品牌关注的各种特征,描述该用户的特征,以及描述该品牌的特征共同构成。 这么复杂的特征变量设计不应该每次做机器学习的时候去生成,而应该沉淀下来,其实每个企业都有类似的场景,但我们在做特征设计的时候,往往难以考虑的这么周全,想到哪做到哪,这体现出了数据挖掘数据中台的价值。 四、机器学习工程师价值的思考 读完阿里这本书,虽然更像是在看一本机器学习平台的说明书,也许专业人士会觉得LOW,但笔者是能体会到其在平台易用性上花的功夫的,团队也在做类似的一些事情,但还是有很大差距的,做了就知道了。 这本书引发的数据挖掘中台思考,也是不经意看案例时体会到的,企业实践的东西有这个好处,它在说一个事情,但过程却透露了很多实践的秘密,类似的东西还要很多,比如逻辑回归变量重要性的判断,我以前一直理解有误,比如特征哑元化的使用场景,比如KNN和随机森林在一些场景的表现,又如LDA的解释,由于案例放在那里,你很容易感性的得到理解,还有GBDT,笔者以前没听说过,团队说要用这个算法的时候,当时是一脸懵逼。 这周在与成员回顾某个数据挖掘的过程中,成员提到将矩阵算法换成GBDT时候付出了很大的代价,持续了很长时间,但效果提升了一点点,笔者也只能惭愧的笑笑了,要为自己的无知付出代价。 很多时候数据挖掘师很努力,但成果寥寥,我觉得最大问题是不理解客户的最终诉求,视野窄了,把算法当成了结果,数据挖掘师经常说案头苦干了1个月,XX算法提升了XX个点,非常不错,我说,到底带来了多少收入和用户? 其实不同企业的情况不同,在腾讯将推荐算法提升平均1个点当然是牛逼,但在我这个企业内,也许毫无价值,大家的起点完全不同。 其实作为客户,也根本不关注手段,要的就是效果,手段能简化就简化,用一个新数据往往好过新算法,以最低的代价获得最大的收益就是要做的事情,阿里云机器学习平台就是希望降低那个30%的成本时间,但也仅此而已。 未来是 人工智能 的时代,人工智能也在逐步平台化,今天你说掌握个深度学习好像还很先进,但被集成后就大幅贬值了,只有差异化才有价值,现在TensorFlow技术文章其实还不多,我们在试用TensorFlow On Spark的时候进度偏慢,这个时候你懂就有价值。 未来也许只有三类机器学习工程师有前途,一类是能改进和创造新的算法的,这是算法大师,二是做机器学习平台的,含功能,算法和数据,这是产品大师,三是能够深刻理解客户需求的,在某个行业有足够业务和数据底蕴,因此能够利用高效的平台工具创造价值的,这是应用大师。 有机会,你也可以去读读这本书。 本文为专栏文章,来自:傅一平,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/48331.html 。
来源:数据分析网
发布时间:2017-09-24 13:30:00
数据观最新消息,6月6日上午8时,工信部正式发布5G商用牌照,共计4张,三大运营商中国电信、中国移动、中国联通以及中国广电各获得一张。这意味着中国5G商用提前了一年。 电信运营商获得牌照后,将可以实现5G业务的正式商用,部署相关工作也将加快。目前,中国移动规划在2019年完成5G基站建设3万至5万个,投资为172亿元。中国联通预计建设2万个基站,投资计划为60亿至80亿元。中国电信计划建设2万个基站,投资为90亿元。 与此同时,中国也成为继韩国、美国、瑞士、英国后,第五个正式商用5G的国家。回顾历史,中国移动通信建设与全球进程相比,经历了1G的空白、2G落后、3G追赶、4G同步的阶段,现在终于用智慧和汗水登上了5G技术的第一梯队。 5G牌照意味着什么? 牌照是提供5G服务的许可,运营商在拿到牌照之后就可以着手进行5G网络建设,并开发和提供商用服务,争取市场验证。 此前,三大运营商已经在很多城市一定范围宣布进行5G建网试验,测试用户体验,这种试商用一般不收费,如果此后正式商用,意味着运营商可以收取费用,或许很快就可以看到一些5G的业务套餐了。 在关注牌照的同时,也需要关注频谱,频谱是5G建设的资源。此次,除了三大运营商以外,中国广电也获得一张5G牌照,原因就是广电掌握700MHz的黄金频段运营,700MHz频段为低频段,具有信号覆盖广、穿透力强等特性,5G组网成本相对较低,同时4K、8K等超高清视频也是5G商用的重要应用领域。 2018年12月工信部发布5G频谱规划方案,中国电信获得3.4-3.5GHz的100MHz频谱资源,中国联通获得3.5-3.6Ghz的100MHz频谱资源,中国移动获得2515-2675Mhz的160MHz带宽及4.8-4.9Ghz的100MHz频谱资源。不同频谱段位意味着不同规模的5G建网投资,原则上频段越高,基站密度要求越高,建网投入需要越大。 5G将带动科技产业发展 4G改变生活,5G改变社会,有人说,5G所带来的意义不亚于电力革命,5G具有大连接、高速率、低延时的效果,理论上,5G网络的传输速率是4G的10倍,可达10Gbps,手机在几秒时间就可以下载一部高清电影。通信、电子、传媒、计算机等领域都将先后受益于5G建设。 此次5G发牌超出市场预期,也是政策层证明我国发展5G的坚定决心,中国5G技术具有先进性和稳定性,5G商用将带动我国整个科技产业发展。中国5G建设节奏、体量和商用进度都在提速, 5G是偏中长期且具备较高确定性的投资板块。预计到今年年底,中国5G基站数量可能就是全球最多的。 通信 5G建设,设备先行。中兴通讯,烽火通信等设备商是最确定的受益者,这些设备厂商上游的元器件厂商,比如PCB、覆铜板、天线滤波器、光纤、光模块等领域公司也将拥有很大业务增量空间,如深南电路、华正新材、世嘉科技、通宇通信、剑桥科技等。 相比于4G基站,5G基站对一些芯片的用量是翻倍式的增长,比如FPGA,紫光国微旗下紫光同创据了解正在华为进行验证;射频前端用量将增长,涉及到第三代化合物半导体,这方面国内还需要发展进步,不过三安光电、海特高新已经布局。 电子 5G带来的换机潮,必然是所有手机终端厂商苦等已久的春天。我国的华为、小米、中兴、OPPO、vivo、努比亚等手机品牌都已经推出5G手机终端,有的在国外已经发布。未来5G手机也将带动供应链的增长机会,而长期看,AR/VR、物联网、智能汽车等创新应用的空间也很大,不过,可能2020年之后才会逐步落地。 5G的低延时高速率传输功效,还会刺激视频内容需求,4K\8K超高清视频产业将直接受益于5G建设。这样看来,像京东方、华星光电这些大尺寸面板厂商也会迎来新一轮发展机遇。 传媒 中国广电获得5G牌照,布局智慧广电业务的公司比如贵广网络、华数传媒或将受益;同时在5G领域智能设备渗透到一定程度,未来最受益的5G应用可能是游戏和视频,腾讯、网易、完美世界等在云游戏行业的布局值得关注。 计算机 车路协同等车联网领域一直被认为是5G应用的重要领域;而5G时代带来更多数据需要存储或者处理分析,浪潮信息等也将获得新一轮增长机会。 其实不只是科技产业,5G对各行各业的影响都是巨大的,为未来生活智慧赋能,带来变革,详情请回顾数据观综编《一文看5G如何赋能各行业,开启智慧新篇章》。 关于5G的几点讨论 5G真的来了,网友议论纷纷。“刚买了手机,还需要换手机吗?”“资费会不会便宜一点?”“5G手机多少钱?” 需要换手机吗? 想用5G网络,肯定需要换5G手机,这毋庸置疑。 好在一批5G终端马上就能和用户见面,例如,华为Mate 20 X 5G版、三星 S10 5G版、小米Mix 3 5G 版、OPPO Reno 5G版、vivo NEX 5G版、中兴天机AXON 10等。不过,目前这些手机售价不菲,上万元基本是“标配”。华为Mate 20 X 5G版的标价为12800元,是最贵的,小米Mix 3 5G 版售价也高达11800元。 独立电信分析师付亮建议用户,别着急上手,可经常去运营商营业厅了解进展,明年3月后,5G手机售价约6千元;明年四季度,售价约2千元,且具备现在万元手机大部分性能。 一个好消息是,和3G过渡到4G时用户需换卡不同,据三大运营商此前公布的消息,用户不换卡、不换号就可以体验5G高速上网以及语音业务,省了很多麻烦。 4G手机会被淘汰吗? ”我刚买了新手机,你现在给我说这个。”部分网友有疑问,“这是否意味着我的4G手机要淘汰了?” 其实说不上淘汰,就好比现在4G时代依然有大量的2G用户一样,他们还在使用2G手机。 所以不着急体验5G网络的用户可以继续使用目前的4G手机,三大运营商依然可以提供很好的4G网络支持。而且,目前4G网络速度也很快,在5G高清视频等应用没有普及的情况下,4G网络也可以满足用户的日常需求。 5G资费贵不贵? 2013年,4G刚面世时,网友就有“一夜不关4G,房子归电信运营商”的段子。那5G来临,流量资费会不会很贵? 通信行业专家项立刚表示,流量价格是按照基站技术水平衡量的,随着技术的进步,“在5G的时候,1G流量价格可能就是1块钱或者是5毛钱。” 需要注意的是,4G时代,用户使用流量从MB到了GB时代,那么5G时代,用户使用流量也会越来越多,具体花费多少,还要看用户使用流量情况和运营商套餐定价,但一个趋势是,流量单价会越来越便宜。
来源:大数据中国
发布时间:2019-06-06 23:22:00
ViZDoom 是一个 AI 研究平台,允许你训练机器人来玩 Doom,这是 1993 年最初由 id Software 发布的经典第一人称视角射击游戏。ViZDoom 使用一款开源 Doom 引擎 ZDoom 与游戏进行交互。 ViZDoom 包含了一系列用 C ++,Java,Lua 和 Python 编写的 示例机器人 。在许多情况下,模型本身依赖于各种潜在的深度学习库,如 TensorFlow 和 Theano 。 使用 ViZDoom,机器人将针对场景进行训练。ViZDoom 在发布源代码中包含几种场景。场景定义了 Doom 地图,机器人可用的控件(如左转,攻击等),玩家模式和技能水平。 在这篇博文中,我将通过设置 ViZDoom 和 TensorFlow ,并训练机器人在 Doom 中扮演恶魔。 ViZDoom 启动运行 以下是在全新安装的 Ubuntu Desktop 14.04.4 上运行。通常我使用了分布式服务器,但是我想看到机器人在完成训练后玩游戏。 我将使用 Google 的深度学习框架 TensorFlow 进行机器人培训。为了方便起见,我将描述如何使用 CPU 运行所有内容,但是如果要使用 GPU 进行训练,那么请进一步了解参阅基于 GTX 1080 的 TensorFlow 博客 ,以 GPU 为中心的安装说明。在许多情况下,TensorFlow 将在 GPU 上比常规桌面 CPU 快一至二个数量级。 我正在使用的机器配置 Intel Core i5 4670K,频率为 3.4 GHz,32 GB DDR3 内存,SanDisk SDSSDHII960G 960 GB SSD 驱动器和 Nvidia GeForce GTX 1080 显卡。 首先,我将安装各种包依赖。 $ sudo apt-get update $ sudo apt-get install \ build-essential \ cmake \ gfortran \ git \ libatlas-base-dev \ libblas-dev \ libboost-all-dev \ libbz2-dev \ libfluidsynth-dev \ libgme-dev \ libgtk2.0-dev \ libjpeg-dev \ liblapack-dev \ liblua5.1-dev \ libopenal-dev \ libsdl2-dev \ libwildmidi-dev \ nasm \ openjdk-7-jdk \ python-dev \ python-pip \ python-virtualenv \ tar \ timidity \ zlib1g-dev 然后我将设置 Java 的主文件夹。 $ export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64 ViZDoom 是用 Python 编写的,所以我将创建一个虚拟环境并激活它。 $ virtualenv vz $ source vz / bin / activate 然后我将安装五个基于 Python 的依赖。其中包括 TensorFlow 的分布式 CPU 驱动的 wheel。如果要使用 CUDA 支持的 GPU 加速版本,有一个单独的分布式。 $ pip install \ cython \ numpy $ pip install \ scikit-image \ https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.0-cp27-none-linux_x86_64.whl \ tqdm 然后,我将克隆 ViZDoom git 存储库,构建 Python 模块并进行安装。 $ git clone https://github.com/mwydmuch/ViZDoom.git $ cd ViZDoom $ cmake -DCMAKE_BUILD_TYPE=Release \ -DBUILD_PYTHON=ON \ -DBUILD_JAVA=ON \ -DBUILD_LUA=ON $ make $ pip install. 基于 TensorFlow 的模型通常与 CPU 和 GPU 无关,但如果你使用 CPU 驱动的分布式 TensorFlow 进行训练,则可能会看到警告:所使用的 wheel 没有为你的 CPU 进行优化编译。如果你正在运行第四代或更高版本的 Intel Core i5 CPU,则将缺乏对 SSE3,SSE4.1,SSE4.2,AVX 和 FMA 指令的支持。 训练 Doom 机器人 有一个示例模型 「learning_tensorflow.py」 位于 examples/python 文件夹中,该文件夹将加载机器人在空房间的场景,一个敌人在另一端。机器人有能力左右移动攻击。机器人基于在比赛时间结束之前能够快速杀死对手的得分。 以下是此方案的配置文件: $ cat scenarios/simpler_basic.cfg doom_scenario_path = simpler_basic.wad # Rewards living_reward = -1 # Rendering options screen_resolution = RES_640X480 screen_format = GRAY8 render_hud = true render_crosshair = false render_weapon = true render_decals = false render_particles = false # make episodes start after 20 tics (after unholstering the gun) episode_start_time = 14 # make episodes finish after 300 actions (tics) episode_timeout = 300 # Available buttons available_buttons = { MOVE_LEFT MOVE_RIGHT ATTACK } 下面花了 14 分钟训练机器人。 $ cd examples/python $ python learning_tensorflow.py 一旦训练完成,底层的开源 Doom 引擎 ZDoom 开始并且可以看到机器人在 10 局不同的游戏中对付敌人。 机器人每回合拥有 50 发弹药,并给予 300 个游戏动作来杀死单个恶魔。在这种情况下,恶魔并没有反抗,也没有太大的动作。不幸的是,即使有这么好的设置,在超过 20% 的游戏中,机器人很少杀死恶魔。以下是10场比赛的得分。 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: -404.0 Total score: 56.0 Total score: -404.0 Total score: -1.0 Total score: -404.0 保卫中心 ViZDoom 附带的其他场景是「保卫中心」场景,其中机器人在一个竞技场中是静止的,只允许左右转动并进行攻击。有一列的敌人会稳定地接近机器人,在敌人攻击之前有时间杀死他们。ViZDoom 的主要开发者之一,Micha Kempka 上传了这种情况下视频的到 YouTube。 在我的 GTX 1080 上使用 GPU 加速 TensorFlow 分布式来训练机器人之前,我修改了以下五行代码的示例 /python/ learning_tensorflow.py。训练了41分钟才能完成。 learning_rate = 0.002 epochs = 5 learning_steps_per_epoch = 4000 test_episodes_per_epoch = 1000 config_file_path = "../../scenarios/defend_the_center.cfg" 每杀死一个敌人,机器人获得一分,并且如果死亡,它会失去一分。每轮有 26 发弹药。在这过程中,我注意到机器人开始非常乱开枪,它的弹药库消耗有一点太快,遗漏一些恶魔。它值得在射击时瞄准目标。 十次运行后,机器人死亡前平均每场杀死 5.9 名恶魔, Total score: 5.0 Total score: 3.0 Total score: 5.0 Total score: 5.0 Total score: 4.0 Total score: 5.0 Total score: 6.0 Total score: 5.0 Total score: 7.0 Total score: 4.0 作者:Mark Litwintschik 本文地址: http://tech.marksblogg.com/tensorflow-vizdoom-bots.html 本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/48323.html 。
来源:数据分析网
发布时间:2017-09-23 09:00:00
1.常见算法套路 电商行业中,对于用户的商品推荐一直是一个非常热门而且重要的话题,有很多比较成熟的方法,但是也各有利弊,大致如下: 基于商品相似度:比如食物A和食物B,对于它们价格、味道、保质期、品牌等维度,可以计算它们的相似程度,可以想象,我买了包子,很有可能顺路带一盒水饺回家。 优点:冷启动,其实只要你有商品的数据,在业务初期用户数据不多的情况下,也可以做推荐 缺点:预处理复杂,任何一件商品,维度可以说至少可以上百,如何选取合适的维度进行计算,设计到工程经验,这些也是花钱买不到的 典型:亚马逊早期的推荐系统 基于 关联规则 :最常见的就是通过用户购买的习惯,经典的就是“啤酒尿布”的案例,但是实际运营中这种方法运用的也是最少的,首先要做关联规则,数据量一定要充足,否则置信度太低,当数据量上升了,我们有更多优秀的方法,可以说没有什么亮点,业内的算法有apriori、ftgrow之类的 优点:简单易操作,上手速度快,部署起来也非常方便 缺点:需要有较多的数据,精度效果一般 典型:早期运营商的套餐推荐 基于物品的协同推荐:假设物品A被小张、小明、小董买过,物品B被小红、小丽、小晨买过,物品C被小张、小明、小李买过;直观的看来,物品A和物品C的购买人群相似度更高(相对于物品B),现在我们可以对小董推荐物品C,小李推荐物品A,这个推荐算法比较成熟,运用的公司也比较多 优点:相对精准,结果可解释性强,副产物可以得出商品热门排序 缺点:计算复杂,数据存储瓶颈,冷门物品推荐效果差 典型:早期一号店商品推荐 基于用户的协同推荐:假设用户A买过可乐、雪碧、火锅底料,用户B买过卫生纸、衣服、鞋,用户C买过火锅、果汁、七喜;直观上来看,用户A和用户C相似度更高(相对于用户B),现在我们可以对用户A推荐用户C买过的其他东西,对用户C推荐用户A买过买过的其他东西,优缺点与 基于物品的协同推荐 类似,不重复了。 基于模型的推荐:svd+、特征值分解等等,将用户的购买行为的矩阵拆分成两组权重矩阵的乘积,一组矩阵代表用户的行为特征,一组矩阵代表商品的重要性,在用户推荐过程中,计算该用户在历史训练矩阵下的各商品的可能性进行推荐。 优点:精准,对于冷门的商品也有很不错的推荐效果 缺点:计算量非常大,矩阵拆分的效能及能力瓶颈一直是受约束的 典型:惠普的电脑推荐 基于时序的推荐:这个比较特别,在电商运用的少,在Twitter,Facebook,豆瓣运用的比较多,就是只有赞同和反对的情况下,怎么进行评论排序,详细的可以参见我之前写的一篇文章: 应用:推荐系统-威尔逊区间法 基于 深度学习 的推荐:现在比较火的CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)都有运用在推荐上面的例子,但是都还是试验阶段,但是有个基于word2vec的方法已经相对比较成熟,也是我们今天介绍的重点。 优点:推荐效果非常精准,所需要的基础存储资源较少 缺点:工程运用不成熟,模型训练调参技巧难 典型:苏宁易购的会员商品推荐 2.item2vec的工程引入 现在苏宁的商品有约4亿个,商品的类目有10000多组,大的品类也有近40个,如果通过传统的协同推荐,实时计算的话,服务器成本,计算能力都是非常大的局限,之前已经有过几篇应用介绍: 基于推荐的交叉销售 、 基于用户行为的推荐预估 。会员研发部门因为不是主要推荐的应用部门,所以在选择上,我们期望的是更加 高效高速且相对准确的简约版 模型方式,所以我们这边基于了word2vec的原始算法,仿造了itemNvec的方式。 首先,让我们对itemNvec进行理论拆分: part one:n-gram 目标商品的前后商品对目标商品的影响程度 这是两个用户userA,userB在易购上面的消费time line,灰色方框内为我们观察对象,试问一下,如果换一下灰色方框内的userA、userB的购买物品,直观的可能性有多大? 直观的体验告诉我们,这是不可能出现,或者绝对不是常出现的,所以,我们就有一个初始的假设, 对于某些用户在特定的类目下,用户的消费行为是连续影响的 ,换句话说,就是我买了什么东西是依赖我之前买过什么东西。如何通过算法语言解释上面说的这件事呢? 大家回想一下,naive bayes做垃圾邮件分类的时候是怎么做的? 假设“我公司可以提供发票、军火出售、航母维修”这句话是不是垃圾邮件? P1(“垃圾邮件”|“我公司可以提供发票、军火出售、航母维修”) =p(“垃圾邮件”)p(“我公司可以提供发票、军火出售、航母维修”/“垃圾邮件”)/p(“我公司可以提供发票、军火出售、航母维修”) =p(“垃圾邮件”)p(“发票”,“军火”,“航母”/“垃圾邮件”)/p(“发票”,“军火”,“航母”) 同理 P2(“正常邮件”|“我公司可以提供发票、军火出售、航母维修”) =p(“正常邮件”)p(“发票”,“军火”,“航母”/“正常邮件”)/p(“发票”,“军火”,“航母”) 我们只需要比较p1和p2的大小即可,在 条件独立的情况下 可以直接写成: P1(“垃圾邮件”|“我公司可以提供发票、军火出售、航母维修”) =p(“垃圾邮件”)p(“发票”/“垃圾邮件”)p(“军火”/“垃圾邮件”)p(“航母”/“垃圾邮件”) P2(“正常邮件”|“我公司可以提供发票、军火出售、航母维修”) =p(“正常邮件”)p(“发票”/“正常邮件”)p(“军火”/“正常邮件”)p(“航母”/“正常邮件”) 但是,我们看到,无论“我公司可以提供发票、军火出售、航母维修”词语的顺序怎么变化,不影响它最后的结果判定,但是我们这边的需求里面前面买的东西对后项的影响会更大。 冰箱=>洗衣机=>衣柜=>电视=>汽水,这样的下单流程合理 冰箱=>洗衣机=>汽水=>电视=>衣柜,这样的下单流程相对来讲可能性会更低 但是对于naive bayes,它们是一致的。 所以,我们这边考虑顺序,还是上面那个垃圾邮件的问题。 P1(“垃圾邮件”|“我公司可以提供发票、军火出售、航母维修”) =p(“垃圾邮件”)p(“发票”)p(“军火”/“发票”)p(“军火”/“航母”) P1(“正常邮件”|“我公司可以提供发票、军火出售、航母维修”) =p(“正常邮件”)p(“发票”)p(“军火”/“发票”)p(“军火”/“航母”) 这边我们每个词只依赖前一个词,理论上讲依赖1-3个词通常都是可接受的。以上的考虑顺序的bayes就是基于著名的马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词下的联合概率问题,相关详细的理论数学公式就不给出了,这边这涉及一个思想。 part two:Huffman Coding 更大的数据存储形式 我们常用的user到item的映射是通过one hot encoding的形式去实现的,这有一个非常大的弊端就是数据存储系数且维度灾难可能性极大。 回到最初的那组数据: 现在苏宁的商品有约4亿个,商品的类目有10000多组,大的品类也有近40个 ,同时现在会员数目达到3亿,要是需要建造一个用户商品对应的购买关系矩阵做 基于用户的协同推荐 的话,我们需要做一个4亿X6亿的1/0矩阵,这个是几乎不可能的,Huffman采取了一个近似二叉树的形式进行存储: 我们以易购商品购买量为例,讲解一下如何以二叉树的形式替换one hot encoding存储方式: 假设,818苏宁大促期间,经过统计,有冰箱=>洗衣机=>烘干机=>电视=>衣柜=>钻石的用户下单链条(及购买物品顺序如上),其中冰箱总售出15万台,洗衣机总售出8万台,烘干机总售出6万台,电视总售出5万台,衣柜总售出3万台,钻石总售出1万颗 Huffman树构造过程 1.给定{15,8,6,5,3,1}为二叉树的节点,每个树仅有一个节点,那就存在6颗单独的树 2.选择节点权重值最小的两颗树进行合并也就是{3}、{1},合并后计算新权重3+1=4 3.将{3},{1}树从节点列表删除,将3+1=4的新组合树放回原节点列表 4.重新进行2-3,直到只剩一棵树为止 针对每层每次分支过程,我们可以将所有权重大的节点看做是1,权重小的节点看做是0,相反亦可。现在,我们比如需要知道钻石的code,就是1000,也就是灰色方框的位置,洗衣机的code就是111;这样的存储利用了0/1的存储方式,也同时考虑了组合位置的排列长度,节省了数据的存储空间。 part three:node probility 最大化当前数据出现可能的概率密度函数 对于钻石的位置而言,它的Huffman code是1000,那就意味着在每一次二叉选择的时候,它需要一次被分到1,三次被分到0,而且每次分的过程中,只有1/0可以选择,这是不是和logistic regression里面的0/1分类相似,所以这边我们也直接使用了lr里面的交叉熵来作为loss function。 其实对于很多机器学习的算法而言,都是按照先假定一个模型,再构造一个损失函数,通过数据来训练损失函数求argmin(损失函数)的参数,放回到原模型。 让我们详细的看这个钻石这个例子: 第一步 p(1|No.1层未知参数)=sigmoid(No.1层未知参数) 第二步 p(0|No.2层未知参数)=sigmoid(No.2层未知参数) 同理,第三第四层: p(0|No.3层未知参数)=sigmoid(No.3层未知参数) p(0|No.4层未知参数)=sigmoid(No.4层未知参数) 然后求p(1|No.1层未知参数)xp(0|No.2层未知参数)xp(0|No.3层未知参数)xp(0|No.4层未知参数)最大下对应的每层的未知参数即可,求解方式与logistic求解方式近似,未知参数分布偏导,后续采用梯度下降的方式(极大、批量、牛顿按需使用) part four:approximate nerual network 商品的相似度 刚才在part three里面有个p(1|No.1层未知参数)这个逻辑,这个NO.1层未知参数里面有一个就是商品向量。 举个例子: 存在1000万个用户有过:“啤酒=>西瓜=>剃须刀=>百事可乐”的商品购买顺序 10万个用户有过:“啤酒=>苹果=>剃须刀=>百事可乐”的商品购买顺序,如果按照传统的概率模型比如navie bayes 或者n-gram来看,P(啤酒=>西瓜=>剃须刀=>百事可乐)>>p(啤酒=>苹果=>剃须刀=>百事可乐),但是实际上这两者的人群应该是同一波人,他们的属性特征一定会是一样的才对。 我们这边通过了随机初始化每个商品的特征向量,然后通过part three的概率模型去训练,最后确定了词向量的大小。除此之外,还可以通过神经网络算法去做这样的事情。 Bengio 等人在 2001 年发表在 NIPS 上的文章《A Neural Probabilistic Language Model》介绍了详细的方法。 我们这边需要知道的就是,对于最小维度商品,我们以商品向量(0.8213,0.8232,0.6613,0.1234,…)的形式替代了0-1点(0,0,0,0,0,1,0,0,0,0…),单个的商品向量无意义,但是成对的商品向量我们就可以比较他们间的余弦相似度,就可以比较类目的相似度,甚至品类的相似度。 3.python代码实现 1.数据读取 # -*- coding:utf-8 -*- import pandas as pd import numpy as np import matplotlib as mt from gensim.models import word2vec from sklearn.model_selection import train_test_split order_data = pd.read_table('C:/Users/17031877/Desktop/SuNing/cross_sell_data_tmp1.txt') dealed_data = order_data.drop('member_id', axis=1) dealed_data = pd.DataFrame(dealed_data).fillna(value='') 2.简单的数据合并整理 # 数据合并 dealed_data = dealed_data['top10'] + [" "] + dealed_data['top9'] + [" "] + dealed_data['top8'] + [" "] + dealed_data['top7'] + [" "] + dealed_data['top6'] + [" "] + dealed_data['top5'] + [" "] + dealed_data[ 'top4'] + [" "] + dealed_data['top3'] + [" "] + dealed_data['top2'] + [" "] + dealed_data['top1'] # 数据分列 dealed_data = [s.encode('utf-8').split() for s in dealed_data] # 数据拆分 train_data, test_data = train_test_split(dealed_data, test_size=0.3, random_state=42) 3.模型训练 # 原始数据训练 # sg=1,skipgram;sg=0,SBOW # hs=1:hierarchical softmax,huffmantree # nagative = 0 非负采样 model = word2vec.Word2Vec(train_data, sg=1, min_count=10, window=2, hs=1, negative=0) 接下来就是用model来训练得到我们的推荐商品,这边有三个思路,可以根据具体的业务需求和实际数据量来选择: 3.1 相似商品映射表 # 最后一次浏览商品最相似的商品组top3 x = 1000 result = [] result = pd.DataFrame(result) for i in range(x): test_data_split = [s.encode('utf-8').split() for s in test_data[i]] k = len(test_data_split) last_one = test_data_split[k - 1] last_one_recommended = model.most_similar(last_one, topn=3) tmp = last_one_recommended[0] + last_one_recommended[1] + last_one_recommended[2] last_one_recommended = pd.concat([pd.DataFrame(last_one), pd.DataFrame(np.array(tmp))], axis=0) last_one_recommended = last_one_recommended.T result = pd.concat([pd.DataFrame(last_one_recommended), result], axis=0) 考虑用户最后一次操作的关注物品x,干掉那些已经被用户购买的商品,剩下的商品表示用户依旧有兴趣但是因为没找到合适的或者便宜的商品,通过商品向量之间的相似度,可以直接计算出,与其高度相似的商品推荐给用户。 3.2 最大可能购买商品 根据历史上用户依旧购买的商品顺序,判断根据当前这个目标用户近期买的商品,接下来他最有可能买什么? 比如历史数据告诉我们,购买了手机+电脑的用户,后一周内最大可能会购买背包,那我们就针对那些近期购买了电脑+手机的用户去推送电脑包的商品给他,刺激他的潜在规律需求。 # 向量库 rbind_data = pd.concat( [order_data['top1'], order_data['top2'], order_data['top3'], order_data['top4'], order_data['top5'], order_data['top6'], order_data['top7'], order_data['top8'], order_data['top9'], order_data['top10']], axis=0) x = 50 start = [] output = [] score_final = [] for i in range(x): score = np.array(-100000000000000) name = np.array(-100000000000000) newscore = np.array(-100000000000000) tmp = test_data[i] k = len(tmp) last_one = tmp[k - 2] tmp = tmp[0:(k - 1)] for j in range(number): tmp1 = tmp[:] target = rbind_data_level[j] tmp1.append(target) test_data_split = [tmp1] newscore = model.score(test_data_split) if newscore > score: score = newscore name = tmp1[len(tmp1) - 1] else: pass start.append(last_one) output.append(name) score_final.append(score) 3.3 联想记忆推荐 在3.2中,我们根据了这个用户近期购买行为,从历史已购用户的购买行为数据发现规律,提供推荐的商品。还有一个近似的逻辑,就是通过目标用户最近一次的购买商品进行推测,参考的是历史用户的单次购买附近的数据,详细如下: 这个实现也非常的简单,这边代码我自己也没有写,就不贴了,采用的还是word2vec里面的 predict_output_word(context_words_list, topn=10) ,Report the probability distribution of the center word given the context words as input to the trained model 其实,这边详细做起来还是比较复杂的,我这边也是简单的贴了一些思路,如果有不明白的可以私信我,就这样,最后,谢谢阅读。 ——本文由作者 沙韬伟 投稿至 数据分析 网,并经编辑发布,版权归作者所有。 作者:沙韬伟,苏宁易购高级算法工程师。曾任职于Hewlett-Packard、滴滴出行。主要研究方向包括自然语言分析、机器学习和风控深度学习。目前专注于基于深度学习及集成模型下的用户行为模式的识别。 本文由 沙韬伟 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/47739.html 。
来源:数据分析网
发布时间:2017-08-30 14:07:00
小额信贷已有数千年的历史,相比现代银行体系主要诞生于 “富裕”群体的服务不同,小额信贷是建立于个体信用基础上,主要功能是“救急”,由于额度小、手续快且无用途限制,一直是缺少正常资产信用的“草根”们的主流融资渠道。而“强人脉、高利率、快周转、催收猛”也是小额信贷相对银行的特别优势。 一、小额信贷的风控技术发展变迁 风控是信贷的核心,但对风控的理解却没有真理,往往都需要从失败中总结积累。 信贷行业的风控技术基础理论依托的是两个基本理论,一是技术经济学,用来还原财务报表,用现金流和IRR测算来解释还款能力和利率定价;二是信用评估技术,用历史信用信息解释借款人的还款意愿。近年来,随着行为心理学和社会学研究的深入,违约成本评估理论逐渐兴起,在农贷和保险类场景中正成为国外新的研究方向,但由于缺少长周期实践数据,目前还处于试验阶段。 从实操角度看,中国的小额信贷则处于前所未有的创新期,大数据、人工智能、 区块链 、生物识别等各种技术手段都在应用中,特别是线上低成本获客,通过大数据反欺诈,以模型秒批秒贷,已成为了各家小额信贷的科技标配。 在金融科技风生水起的同时,一个风险悖论也在同时敲问:如果金融科技能同时有效解决小额信贷高成本和高风险问题,小额信贷的利率应该可大幅度下降。但根据北京、上海等地不完全统计,大数据和人工智能技术未普及的P2P发展前期,从2012年到2015年,民间金融利率从平均年化50%降低到年化25%左右,但到2018年,当金融科技已经普遍使用后,利率却反升到40%左右。利率上升与资产有关,但反过来说,既然高利率覆盖高风险,金融科技的价值又在哪里呢? 传统小额信贷是线下获客、线下审核、线下管理,这套模式所依赖的风控能力不是技术而是人员经验和人脉。所以一个好的小额信贷模式中,必然要突出业务人员培训和内控管理能力。这种模式虽历经千年传承被证明行之有效,但人员的选择和培养太慢,建立起一个好的管控制度体系太难,所以干小额贷款的很多,干得好的少。多数人要想不赔钱只能高利贷。从成本角度看,小额贷款如果固守一地或一行,人脉积累和信息积累够了,获客成本和风控成本很低,相比线上往往优势明显,缺点仍然是太慢太小。要想快速做大做强,依靠在每个地方开分店的方式容易失控,所以在互联网普及的时代就自然有了通过线上流量获客的朴素想法。 利用互联网流量获客,利用大数据评分审核放款,这个模式的想象空间极好,完美地把成本低和风险低这两个矛盾解决了,还提升了客户体验,扩大的市场规模,解决了用人带来的管理难题。但在实践中,这个模式首先遇到的问题,就是纯线上获客,很容易把坏人都吸引来,曾经某互金网站开了个小额信贷的业务,结果一晚上被骗了数千万,这种惨痛经历就导致所有线上做信贷的都要把反欺诈放在第一位。其中主要的技术手段就是利用活体识别、图像识别来甄别借款人是否是本人,利用后台的社会信用信息来解读借款人有无劣迹,形成黑白名单,对没进黑名单的人员放贷。风控逻辑是把信用卡的信用评价逻辑用到了陌生群体上,但一不像银行信用卡那样可以掌握精准的个人业务信息,二是黑名单覆盖人群太少,三是社会信用信息未经验证的数据和掺水的数据较多,导致这样的信用评估模型风险远比想象的大。尽管如此,有了大家前仆后继的使用,技术提升的速度还是非常快的,主要体现在: 1、海量标签的图像信息试算,使得我国图像识别模型优化水平独步全球,在没有欧洲GDPR那样严格的个人信息使用要求下,我国金融业在图像识别反欺诈应用方面可以单骑飚进。最近支付宝正在全国推图像识别支付,就建立在这样的技术自信基础上。 2、实名制全面实行后,互联网寡头具备高覆盖率人群交易数据,在社会信用信息建设上堪比欧美百年的征信机构。这些数据对于个人信用评价提供了有价值的参考维度。 3、互联网获客带来了流量的竞争,互联网寡头掌控了获客成本和客户信息,其竞争能力直逼银行,导致银行不得不投入力量支持互联网助贷业务,这使得互联网导流行业得到了更好的发展空间。 但也应该看到,技术提升后的红利领域依然是狭小的,而且是有天花板的。依赖互联网的客户资源基本是“互联网一代”。主要领域就是现金贷和消费分期类业务,客户分层依赖流量的控制。互联网巨头和银行依靠自身的流量和客户资源能力,分食最好的客户渠道和资源;消费金融公司和保险公司分食下一口,最次的就留给民间现金贷,所以大家看到同样利用大数据风控,头部互联网银行规模大、坏账比率低,而民间现金贷公司却不谈坏账只谈利率。看上去似乎是数据风控能力的差异,但实际上是营销能力的差异。对于底部现金贷公司来说,能拿到的很多借款客户都是复借率超过7、8次的人,最大的风控手段反而成了利率。在一轮轮线上挖掘后,互联网贷款的优质客户资源逐渐枯竭,天花板逐渐逼近。市场上的风控评分模型和数据基本同质,风控技术效能已让位于导流能力。 而在农贷、供应链等场景和抵质押信贷中,传统小额贷款模式依然在耕耘。当国家吹响普惠金融号角时,真正支农支小的信贷主力市场——小微经营贷领域,仍处于重度线下操作中。面对以还款能力为核心的小额经营贷款风控需求,进入小镇和农村,有效的信用信息找不到,乡土人脉连接的场景下,互联网巨头也转变成了线下。某互联网巨头近期大手笔投资于头部农贷公司,看中的就是其线下强大的培训和管理能力。税务、公积金、物流等信息,只是线上可参考的数据维度,依赖这些数据在线上放贷还在探索中。相比消费贷的技术红海,经营贷领域的风控技术创新乏新可陈,尚有巨大的前行空间。 二、小额信贷风控领域的技术展望 今天小额信贷的线上获客和反欺诈,让客户得到前所未有的好体验,但从后台风控技术来看,还有几大瓶颈需要突破。 一个技术瓶颈是模型技术。 此轮金融科技引爆的主要是C端的消费信贷和现金贷业务,模型技术来源于上世纪五十年代的评分卡,其原理是将借款人视为无差别样本,采用概率统计,计算信贷结果与某个信用信息的相关性,从而得出违约概率和定价。但欧美及国内银行的实践主要是在已掌握信息的客群中开展,极少像国内这样大胆对陌生人群使用。国内科技企业为弥补评分模型风控说服力不足的问题,大多采取了增加数据维度的方式。为尽可能搜集更多的借款人数据维度,甚至普遍使用SDK来跟踪监控借款人。营销上更是将数据维度多与风控能力强直接挂钩,制造出“数据越多风控越强”的概念。事实上,以统计为基础的大数据评分技术在上世纪信用卡违约潮中已被证明,单纯依赖评分而不是对客户的实际场景掌控来控制风险,在经济下行期是个伪命题。对于已渐到尽头的模型优化路径来说,亟待风控理论上的创新。 中国和国际小额贷款实践都证明,国民性、社会管控能力、制度等软性要素,对于小额贷款群体的信用表现影响很大,所谓“无差别样本”,实际往往差别很大,不同渠道和平台导来的客群差异很多都超过了统计学样本的方差允许值,在这种情况下,如果继续沿用评分卡模型,就必须从通用模型转为专项场景定制模型,以少数代表性强的场景或渠道信息标签替代现在“多多益善”的庞杂数据维度。模型优化需要从单纯的统计学算法向业务场景逻辑+统计转向,在这方面,一些出身于风控业务的技术公司已经先知先觉地走在路上了。 另一个瓶颈是支农支小的线下服务。 中国的小微企业平均寿命不到3年,线上不完整的大数据对于经营贷来说不足以确认风险,搜集经营信息和资产信息(如抵押贷场景下)仍需依赖线下,如何服务好线下渠道,让业务人员、代理人、渠道能方便进件和审核,这种B端的风控一直是技术难点。IPC、“三表三品三流”等交叉验证风控技术虽已深入大多数金融风控从业者中,但风控逻辑仍然是经验性的,如何将这部分经验标准化,从而既降低一线渠道展业难度,又解决获客道德风险,这成为金融风控科技自然的选择。目前主要的技术方案就是通过规则引擎技术将经验规则进行数据化转化。这条路的创新难度一是规则转化的难度超乎寻常的大,日常人工判断的简单规则都需要用几十条甚至上百条规则来描述,对于大部分缺少横跨信贷风控和金融科技通才的金融机构来说,制定这样的规则集还需要一定时间周期。人工智能经验仿生模型是规则引擎技术未来的前景,但缺少描述模糊规则的工具,同时,模糊判断的规则逻辑也缺少好的算法进行优化,只能依靠模型设计者对案例事件的理解进行改进,在这方面,笔者与徐匡迪院长有同感,我国只有人工智能应用而缺少算法的研究。 近些年来,新的风控理论和科技开始露头。这其中有几类代表: 一是保险信用在信贷中的应用。保险购买者的风险偏好是一个很好的违约成本估算维度。但这种理论验证需要有大量保险理赔数据作支撑,我国目前还没有保险公司对此有认知; 二是社会资本理论在农村信贷实践中的研究。乡村信用是违约软性成本的一种度量,目前国内除了社会学界,少有人关注; 三是行为心理理论,将借款人的人性特质与借款行为关联,引入测谎、性格测试等要素来评估风险,这方面国际上已有成功案例,在非洲农贷中有过试点。国内几年来零星做过一些尝试,除了“微表情”曾经被媒体放大传播过,其他的案例尚未见播报; 四是区块链应用,将社会信用上链形式记录,对熟人社会的信用征集有一定价值,但存在个人信息隐私保护等合规问题,是国内一些信用科技公司正在开展的方向。 总的看来,金融科技在小额信贷当期的最主流贡献,以导流获客为主。风控方面的技术以工具化解决方案为代表,对现有流程、规则等提供了很好的简化手段,普遍提升了效率。同时在无场景及消费分期类小额信贷业务上解决了规模扩张能力。但与宣传中的风控能力相比还有相当差距,尤其是在国家鼓励发展的支农支小普惠金融方面,还需要经历理论突破和实践验证的沉淀。 【 作者简介 】 戴星,高级经济师。出身国家开发银行早期团队,参与过银行五级风险分类体系制定和银行业第一部抵押条例的制定,1998年在《理论和实务》上发表《利用模糊概率理论进行项目风险控制》,是我国银行业最早的大数据风控模型的探索者之一。 后从事技术市场咨询,成为国内最先进行物联网技术、 云计算 、手机支付等相关技术的应用推广者。2014年投身互联网金融和大数据行业,从事风控管理和大数据信审等业务的探索。是国内金融行业人工智能及行为心理风控技术的带头人之一。2017年后,为人保金融服务有限公司资深经理,在普惠金融领域开展小额贷款的风控和数据模型工作。
来源:大数据中国
发布时间:2019-06-04 23:14:00
“为什么我的论文总发表不了,是不是我天生就不是做研究的料?”很多同学在写论文中遇到挫折,经常会发出这样的疑问。那么今天我就用星座,真实的数据和“高大上”的 机器学习 来帮大家分析一下原因。首先声明,我不是宿命论的支持者,也不懂占星术。本文也不是教大家如何成功,但利用本文的研究成果,可以帮助大家少走些弯路。现在网络上充斥着各种星座分析,但和本文相比都弱爆了。不管大家之前对星座分析持何种态度,我希望大家耐心读完本文之后,能对星座与天赋有全新的认识。(本文中的“天赋”其实用“本性”更合适些,因为它还包括了性格等因素。)本文的研究方法很简单:聚天下之天才而观察之。把各行各业中的天才们收集起来,看看他们哪个星座人数多,哪个星座人数少。方法简单,人人都会。但操作细节很重要,这样做出来的结果才会有意思(本文研究方法的具体细节见【附录】)。我们先来看一下有哪些天才被我当成了“小白鼠”。“表一”总结了本文所使用的数据。 表一:数据总结表 本文共选择了27个行业,总共5700多个样本,其中华人约占350个,女性约占600个,南半球约占300个。如果没有特别注明,各行业数据的历史一般是从该奖项(如果有的话)设立开始,直到2017年为止。有些行业有严格的筛选过程,比如每年评选的诺贝尔奖,各种体育竞技项目的国际比赛等,我们就可以利用它们来确定样本。然而,另一些行业没有固定的筛选过程,尤其是艺术类。所以,我们只能靠“时间”来筛选。具体来说,就是用搜索引擎搜索“历史上著名XXX”(XXX为职业名,比如,建筑师,作家等),来挑选举世公认的行业领军人物。本文使用的数据的总时间跨度大约是最近300年左右。 既然介绍了数据,那么我们就来看一下使用所有的数据统计出的星座分布(图一)(注:由于每个星座内的天数稍有不同,我用得到的每个星座的人数除以该星座的天数,从而算出星座分布的日均数,以排除天数不同带来的影响。本文之后所有的计算和结论都建立在诸如此类的日均数上)。图一的四种颜色分别代表土(黄色),水(蓝色),火(红色),风(灰色)四大星象。从图一中,我们看到射手人数最少,而与之相邻的摩羯座人数最多,两者的平均数接近全部星座的平均数15.5。另外,两头的白羊座和双鱼座人数也不少。除此之外,就很难看出有其它什么规律了。如果本文的星座分析是这样的话,就太”图样图森破“了。所以,让我们接着往下看。 图一:星座人数总分布图 关于天赋的星座分析 我把判断显著差别的计分法则(见【附录一】)运用到“表一”的27个行业上,我们就得到了“表二”(简单理解,正2分表示“人数非常多”,正1分表示“人数比较多”,负1分表示“人数比较少”,负2分表示“人数非常少”,0分则表示“人数不多不少,处于平均水平”)。请记住“表二”,因为它是本文上半部分最重要的成果! 表二:十二星座行业得分表 我在表的上方标注了每个行业所可能需要的"(主要)能力"(以我这个外行的角度),有些能力是几个行业共享的。另外,“表二”是仅仅基于北半球的样本所得结果(至于为什么分南北半球,我将在本文下半部分作详细解释)。行文至此,星座与天赋之间的关系就在“表二”建立起来了。是不是表中出现2分的情况比你想的要多得多?有同学可能会问: “表中某星座在某行业得了2分,说明这个星座在这个行业的领军人物的人数要超过其他星座,会不会是因为这个星座从事这行业的人本来就多呢?” 要回答这个问题,就得调查这个行业的所有从业人员的星座了,可惜相关数据很难获得。另外,如果从事这行业的人本来就多,这本身就是一个很有意思的现象。与本文的研究并不矛盾。 言归正传,鉴于此表的信息量很大,我们可以先计算各个星座的大类(科研,艺术,体育)平均得分,这样看起来可以更直观一些。如下表所示,在科研方面,处女座和狮子座这两个相邻星座分别占据着科研的头名和末名。在艺术方面,白羊座是当仁不让的第一,而双子座,处女座和摩羯座则并列最后。在体育方面,摩羯座表现突出,而天蝎座则表现不佳。总的来说,这些星座如果在某一方面特别强,那么在其它方面就会差一点,甚至很差。反倒是巨蟹座和天秤座虽然没有最强的某一方面,但是在全部三个方面都优于平均水平,属于均衡发展型。 表三:十二星座大类行业平均得分表 下面我就基于“表二”对十二个星座依次进行分析。(请注意,下文括号内的代表人物是一些个例,是按影响力大小选择的,并不一定符合这里统计意义上的性格特征描述) 一,白羊座(代表人物:欧拉,格里高利·派克,黑泽明,卡拉扬,达芬奇,梵高) 白羊座在艺术类得分之高,无人能出其右,尤其是需要运用感情和强烈的肢体语言来表达的表演,指挥和钢琴演奏。再加上导演和绘画,网络上对白羊座的评价是:冲动,积极,思维活跃。我觉得还是有些靠谱的。同时,也说明他们擅长表达和诠释事物的内涵。这样才能做出出色的数学研究,去诠释世间美妙的真谛!白羊座在计算机和围棋上得分很低,说明他们不喜欢按部就班地进行计算和算计。 二,金牛座(代表人物:高斯,萨缪尔森,哈耶克,贝聿铭,范斯哲,奥黛丽·赫本) 金牛座在艺术类中的导演和时装设计得分比较高但绘画得分一般,说明他们画面感很强,而且善于运用到实际中。金牛座在斯诺克和宇航员这两项中得分较高,说明网络上流传的“金牛座可靠,有耐心”并非空穴来风。优秀的斯诺克选手需要时刻保持绅士风度,斯诺克本身就是一项需要克制情绪的运动,如果过度兴奋或者过度悲观,都难以打好。至于宇航员更是如此。众所周知,宇航员的选拔条件非常严苛,必须具有非常坚强的意志品质和忍耐力来面对各种恶劣的生存环境。金牛座在网球项目上得到了为数不多的负2分,这更说明他们 “稳重,缺少爆发力” 。至于金牛座的其它性格,比如,吝啬,古板,我们无法从行业表现中得到答案。 三,双子座(代表人物:纳什,赫伯特·西蒙,特朗普,吴清源) 双子座不擅长做“大生意”,而喜欢“耍小聪明”,摆弄“小玩意儿”,比如,下个棋,照个相。他们也不擅长需要热情冲动的行业,比如,表演,绘画,时装设计等,而且在斯诺克上表现也不好。这倒挺符合网络对双子座的评价:“机智,善变,不安分”。即使是做研究也是关注“小”的方面,比如,在诺贝尔经济学奖获得者中,有10位是双子座的,竟无一人研究宏观经济学。倒是有4人研究博弈论(John Harsanyi,Lloyd S. Shapley,Robert Aumann,John Nash),4人研究微观经济学(Maurice Allais ,Herbert Simon,George Akerlof,William Vickrey)。 四,巨蟹座(代表人物:图灵,梅丽尔·斯特里普,乔治·阿玛尼,伊隆·马斯克) 巨蟹座在表演,尤其是时装设计中得了高分。如果把表演细分成男演员和女演员,巨蟹座在女演员分布中的得分比在细分前还要高(仅次于天蝎座,“蛇蝎美人”原来是有数据支持的!呵呵。)。再结合他们在时装设计中的抢眼表现,果然如同网络所说,这是一个“母性泛滥”的星座!照这个情况,巨蟹座不应该在钢琴演奏中获得低分。获得低分的原因可能是因为它们对于枯燥的反复训练缺乏坚持下去的毅力。这一点得到了宇航员的佐证。在重压之下,巨蟹座早早地就躲进了自己的蟹壳中,呵呵。尽管如此,巨蟹座因为他们的小心谨慎使得他们在玩德州扑克时立于不败之地。难道这是传说中的凯利公式(KellyFormula)的真实写照?(注:在重复赌局中,凯利公式根据赢输的概率及获利多少来决定投资(赌注)的大小使得(长期的)总预期收益最大,使用此公式就永远不会有破产无注可投的情况出现。)而且,巨蟹座的小心谨慎帮助他们在科研中取得成就,巨蟹座在科研中的得分超过十二星座的平均水平。 五,狮子座(代表人物:香奈尔,聂卫平,雷-达里奥,索罗斯,李嘉诚) 自信大胆且具有大局观的狮子座在商界和投资界傲视群雄,果然名不虚传!这点也体现在了下棋,建筑,文学和时装设计上。另一方面,过分自信的狮子座就会变得武断鲁莽,做事不仔细考虑,观察力不强,这一点在高尔夫球和哲学上表现尤具代表性。与之相关的,他们在绘画,作曲,物理,医学表现也不佳。 六,处女座(代表人物:黎曼,安藤忠雄,歌德,小泽征尔,巴菲特) 处女座是个很有意思的星座。他们在科研类中的得分是十二个星座里最高的,尤其擅长关注结构里的细节。而他们在艺术类的得分是最低的之一。另外,如同金牛座,处女座的忍耐力也是杠杠的,他们在斯诺克和宇航员这两项中取得高分。由此可见,处女座既仔细又有忍耐力,但不按部就班,还有很强的观察力,这是他们在搞科研时的制胜法宝。但另一方面,不感情用事的处女座缺少艺术创作中的那“神来一笔”。处女座在网上的评价, “完美主义,吹毛求疵,头脑清晰”。这一点在这里应该是说得通的。 七,天秤座(代表人物:霍洛维茨,李云迪,李安,艾略特,张爱玲,杨振宁) 天秤座的平衡感强,擅长分析处理结构问题,比如,化学,建筑,尤其是文学 。天秤座出人意料地在网球项目上得了高分,这可能也得益于他们的平衡感吧。在十二个星座中,天秤座在27个行业里得负分最少的星座,没有明显的短板。这里,我们无法验证天秤座是否如网络所说“平易近人,轻浮,优柔寡断”。 八,天蝎座(代表人物:费雯丽,居里夫人,比尔盖茨,毕加索,莫奈,屠格涅夫) 天蝎座在哲学和绘画上都得到了超高分,而且在表演方面也很强。这表明他们敏感,思想复杂,具有很强的洞察力。仅凭他们在哲学上的优异表现,天蝎座就无愧于十二星座中“最理性星座”的称号!由此可以推断,他们已把感性的绘画和表演提升到了理性的高度。然而,过分强调“形而上”的天蝎座在实际科研(比如,计算机,化学)及其它行业(比如,钢琴演奏,网球,斯诺克)中显出了缺乏耐心,不注意细节的弱点。天蝎座不擅长变魔术,应该也是理性思考的后遗症吧。这里无法验证网络上评价天蝎座的“疑心,善妒,报复心强”。 九,射手座(代表人物:劳伦斯萨莫斯,马克吐温,斯皮尔伯格,李政道) 与天蝎座正好相反,射手座在哲学和数学方面表现不佳,这可能与他们热情开放的性格,以及缺乏缜密思维的特质有关。而且,缺少耐心和忍耐力的他们在斯诺克,宇航员,及商业等行业中难有建树。所以,网上评价射手座“浮躁,做事易半途而废”,好像有点道理。不过,值得一提的是,射手座在经济研究方面的表现突出。一共有六位诺贝尔经济学奖获得者,以及五位克拉克奖获得者。 与双子座相比,研究宏观经济学的射手座经济学家的数量明显增加,比如,Finn Kydland,Gunnar Myrdal,Eric Maskin,Trygve Haavelmo,Martin Feldstein,Lawrence Summers等。有意思的是,双子座与射手座在经济研究上都表现很好(尽管擅长的方面不同),但他们在商业领域表现都很糟糕。 十,摩羯座(代表人物:牛顿,史蒂文·索德伯格,舒马赫,老虎伍兹) 摩羯座是十二星座里唯一一个在德州扑克和(尤其是)F1赛车都得高分的星座,难怪他们被网上评为“最有原则”的星座。如同小心谨慎的巨蟹座一样,脚踏实地的摩羯座在计算机研究领域优于其它星座。然而,专注有余的摩羯座想象力和创造力有点不足,这点可以从他们在建筑,时装设计,和魔术上的不佳表现看出。与此相关,分析处理结构问题也需要想象力和发散性思维(比如,化学,建筑,文学,尤其是物理),但过于严谨的摩羯座并不擅长此类问题,即使有牛顿这样的巨擎撑腰也无济于事。 十一,水瓶座(代表人物:保罗纽曼,莫扎特,舒伯特,狄更斯,爱迪生) 都说水瓶座充满智慧,可是“表二” 并没有反应出这点。相反,水瓶座在科研类和文艺类的得分都处于十二个星座的下游。在体育类中,也只有高尔夫球是个亮点。崇尚自由的水瓶座确实不适合从事德州扑克,斯诺克和摄影等需要克制情绪的行业。顺便提一下,水瓶座在表演行业中处于中游,但如果把表演行业细分成男演员和女演员,水瓶座可以在男演员中排第二位(仅次于白羊座),接近一个标准差。所以,水瓶座的男同学们只要负责耍帅,打打高尔夫球就行啦。 十二,双鱼座(代表人物:乔布斯,默多克,肖邦,爱因斯坦,雨果,加加林) 在我看来,双鱼座大概是十二星座里最神奇的星座了。首先,与天蝎座相似,双鱼座依靠缜密的思维来思考“形而上”的哲学问题,但面对需要具体计算的计算机研究和德州扑克时都表现不佳。但与天蝎座不同的是,双鱼座有较强的忍耐力和专注力,这帮助他们在商界大展身手。而且,双鱼座是唯一一个既擅长高尔夫有擅长网球的星座,真是“静如处子,动如脱兔”。更重要的是,双鱼座还是个会耍酷炫魔术的高手,说明他们在理性之中还带有感性,可能还具有一定的胆量。总之,许多事物的两面性都体现在这个星座中,真是件奇妙的事情。这些表现与网络上对双鱼座的评价“感性,滥情,意志力薄弱”很不相同。我觉得《名侦探柯南》中那个神出鬼没,风流倜傥的怪盗基德更像是双鱼座的(仅管他被设定为与漫画作者本人一样的双子座),呵呵。 行文至此,我把每个星座所擅长和不擅长的能力都分析了一遍,而且还借此验证了网上流行的星座性格分析是否靠谱。尽管性格与能力有密切联系,但是它们终究是两个概念。所以,正如大家在上文中看到的,在大多数情况下,我只能验证其中的一部分。验证的结果总结如下(见表四):有些星座的分析,经过验证是比较靠谱的,比如表最左侧的双子座,狮子座,处女座,巨蟹座和摩羯座。但还有一些,我只能检验其中的一部分。有时甚至一点也不能,比如,表最右侧的天秤座和双鱼座。 表四:十二星座验证表 在这里我想插一个花絮:大家可能知道菲尔兹奖首位(也是迄今唯一一位)女性获得者,伊朗著名数学家玛丽安·米尔扎哈尼(MaryamMirzakhani)最近(2017年7月)英年早逝,年仅40岁。当我在阅读她的生平时(见【1】),发现了一些有意思的事情。 玛丽安的家里没人是科学家,她从没想过要学数学,但一直被鼓励自立和追求兴趣。跟所有女孩一样喜欢看小说。想当小文青的她非但不是学霸,还对数学很头痛,老师也说她没天分。直到高二,她才在一个偶然的情况下发现了自己的数学天赋。米尔扎哈尼说自己很慢,是个“慢”数学家。到高二才发掘天分,解题也是耐心组合出办法。当她从事数学研究时,她的心思都在研究上,说自己是“慢人”,不靠灵光一闪解决难题,“有些问题已经研究了十几年,但经过数月甚至数年,你才能发现问题不同的一面。”有斯坦福大学同事说,她最独特的是研究方法,能创新地将不同事物连接在一起,对难题特别兴奋,毫无惧色。这种“慢”和“稳”的性格不光在工作上,生活上也一样。玛丽安的丈夫也是科学家。两人一起去跑步。老公高大健壮,一开始跑前面,她体格娇小,一直没有放慢脚步,半个小时以后,老公精疲力竭,她还保持着最初的速度。米尔扎哈尼给世界留下过一句话:“只要有耐心,孩子总会发现数学之美。我不认为每个人都应该成为数学家,但我相信许多人不曾给数学一个真正的机会。” 当我读完她的生平,我几乎能90%地肯定她应该是金牛座。于是去查了她的生日(5月3日),发现果然就是!当然,这毕竟只是一个个例。在上文的星座分析中,我不做个例分析,是为了强调结果的统计属性,避免给大家造成“以偏概全”的错觉。不过,玛丽安·米尔扎哈尼的例子是最近发生的,且非常具有传奇性,所以就谈一下,在下文中还会被提及。 言归正传,这里需要指出的是,我对这27个行业中的大部分都不是很熟悉,所以,只能从外行的角度给这些行业加上所需的能力。这样能够帮助完成分析,并尽量避免无法解释某些星座表现的情况发生。每个人对这些行业的理解不同,就有可能导致分析的结论不同。非常欢迎大家提出宝贵意见。 上述的十二星座分析只停留在文字描述,下面我要对“表二”进行量化分析。对数学不感兴趣的同学可以略过,直接跳到小结部分。 星座量化分析 上文“表二”中的每一列是一个行业,也可以看成是一列数组,所以我们可以计算它们之间的关联系数。按道理,这应该是一个27乘27的相关系数矩阵,但篇幅有限,我只报告相关性最高的那些行业。而且,我比较关心大类与大类之间的行业相关性,而不是大类内部行业的相关性(比如,数学和物理属于科研大类,绘画和作曲属于艺术大类,等等)。注意,这里的相关性不一定是我们平常认知里行业间的相关性,而可能是由于十二个星座在行业中的表现造成的相关性。所以,我们会看到一些出乎意料的结果。 “表五”列出了相关系数大于0.5的行业(不等于零的显著性都超过至少95%)。其中有些比较容易理解,比如,商业和投资。有一些乍看不明白,但稍微想一下就理解的,比如,德州扑克和计算机,哲学与绘画,宇航员和斯诺克。但有好些就不那么容易理解了,比如,相关系数高达0.83的指挥与数学,以及紧接着的作曲与医学(相关系数0.82)。就拿指挥与数学来说,其相关系数高的原因是白羊座在这两项都得了高分,而双子座都得了低分,其它星座没有一高一低相冲突的情况出现。 表五:行业相关性列表 具体来说,双子座得低分可能是因为他们机智善变的性格不擅长思考“形而上”的数学或哲学问题(双子座绘画也不行,而绘画与哲学相关性高达0.8)。同样,这种性格也不适合从事需要投入感情的行业,比如,指挥。另外,他们在斯诺克的低分和围棋的高分,更证实了他们机智而不稳重的一面。再看白羊座,情况稍稍复杂一些。冲动的白羊座不仅在指挥,还在表演和钢琴演奏中取得高分,这是可以理解的。但他们在数学中的优异表现就不能单单用“冲动”来解释了,我只能认为他们还擅长发掘事物的内涵,尤其从抽象的角度。这点可以由他们在绘画中的表现来佐证。 纵向看完“表二”后,我们再横向看一下。表中的每一行也是一列数组,按道理,我们也可以计算行与行的相关性。不过,我在这里使用一个新方法:层次聚类(Hierarchical Clustering)。这个方法的原理很简单:每列数组在初始时刻各自为一个类别,然后由下往上(agglomerative),每一次迭代选取距离最近的两个类别(这里使用的是Euclidean距离),把他们合并,直到最后只剩下一个类别为止,这样“一棵树”就构造完成了。这种方法的好处是不用在一开始就确定聚类数(number of clusters),可以等到建立树形图后再确定。这也是机器学习中的一种分类方法(非监督学习)。“表二”的聚类树形图和8个聚类(红框)如下。 图二:十二星座层次聚类树形图 如“图二”所示,水瓶座与双鱼座,还有金牛座与处女座距离很近,所以它们最先分别组成一个聚类。倒是巨蟹座与射手座的结合有点出乎意料。再向上一层,天秤座与狮子座相近,所以他们归为一个聚类。在树形图中,越往上,差异越大(距离越远),例如,双子座,摩羯座,白羊座,天蝎座。另外,除了同为土象的金牛座与处女座距离较近以外,土水火风四大星象的说法并没有从“图二”得到支持。顺便提一下,本方法用到的距离与相关系数实际上是一回事:(已标准化的)数组间的相关系数等于数组间的距离(Euclidean距离)的倒数,即两个数组相关系数越大,它们之间的距离就越小。这个结论符合一般认知,也可以从它们的数学定义中证得。由于篇幅有限,此处不再赘述。 最后,我对“表二”进行主成分分析(PCA,也属于机器学习中非监督学习的一种)。如“图三”所示,第一个因子(PC1),也是最重要的因子,只能解释“表二”中20%的方差。要想累计贡献率达到90%,必须用到前8个因子。这种情况是符合一般认知的,因为我们知道十二个星座之间有明显差异,很难用一两个因子就解释全部信息。在进行主成分分析时,原有的分类被打破,所以很难解释所得到的结果。这也是主成分分析的一个弱点。 图三和表六:主成分分析方差累计贡献率及相关星座 因此,我计算了前四个主成分因子与12个星座的相关性,并把其中系数绝对值最大的星座列在了 “表六” 。这样我们可以大致了解这些主成分因子所代表的含义。比如说,第一个因子与双子座的相关性高达93%,与白羊座为-70%。那么,我们可以大致认为双子座与白羊座的反面是十二星座里最主要的星座,尽管它们只能解释所有信息中的五分之一。以此类推,由于越往后,所剩信息越少,所以因子与星座的相关性会变弱。但我们还是能够看出个大概。值得注意的是, “表六” 列出的星座与前文中的层次聚类树形图最上方的星座大体相符,例如,双子座,摩羯座,狮子座,白羊座等,说明这些星座的确比较特别一些(类似于矩阵中的基)。 小结与应用 我在本文(上半部分)考查了星座与天赋之间的关系。通过观察十二星座在总共27个行业中的表现,我们把每个星座和它们各自的强项和弱项联系了起来。其次,借助星座们在行业中的表现,我对网络上的星座评价进行验证。有些星座经过验证是靠谱的(比如,双子座,狮子座),但有些我们只能验证一部分,甚至于还有一些我们无法验证(比如,天秤座,双鱼座)。最后,通过量化分析,我们了解了十二星座大致可以分成8个聚类(cluster),其中有些星座比较相似,比如,水瓶座与双鱼座,还有金牛座与处女座。但有些星座与其它星座比起来更不同一些,比如,双子座,摩羯座,狮子座,白羊座等。另外,我们需要至少8个主成分因子,才能使累计贡献率达到90%。 看到这里,有同学可能会问:“我只是个普通人,你分析了一大堆关于天才的数据,那与我何干?” 这个可以从三方面来回答: 挖掘个人潜能,改进个人短处,以及人际交往。 虽然本文探讨的不是如何挖掘普通人的潜能,但本文的研究结果可以提供一个参考。从体育类及艺术类行业来说,一个初入某一新行业的成年人,要想通过挖掘潜能成为这一行业的领军人物不太现实,但经过一定课时的基本训练,把潜能发展成兴趣爱好还是可行的。当然,我不是说其它星座的同学不能做,而是说这些星座的同学的性格比较适合玩这些项目。举个例子,机智灵巧的双子座同学可以试着学学围棋,玩玩摄影。小心谨慎的巨蟹座同学可以玩玩德州扑克。冲动热情的白羊座同学可以开发的项目就更多了,从表演,绘画,到钢琴,甚至导演。在如今“自媒体”横行的时代,白羊座有了一个很好的施展的平台。说不定哪天,又会出来一个类似papi酱(水瓶座)的网红。 另一方面,本文可以帮助大家更有的放矢地改进自己的短处。比如,小心谨慎的巨蟹可以试着加强韧劲和自信,在工作和学习中有意识地大声说出自己的想法,遇到困难时不轻易打退堂鼓。当然,我不是说巨蟹座的同学一定就缺乏自信,而是说这种情况较其它星座更有可能发生。而且,我们也不一定要改进得与金牛和狮子不相上下。如果能做到他们的一半,甚至只有三四成,那和原来的巨蟹比起来,已经是不小的进步了。其它星座也可仿效此方法对自己的短处进行改进。无论是挖掘长处,还是改进短处,后天的自我完善和自我升华,无论对个人还是对国家,都会有是有益的。 本文的研究结果也可以应用于平常的人际交往中。举个例子,如果你老板(公司里或学校里)是狮子座,那就经常性地给他(她)带高帽子,让自信的狮子更出风头。这样你即使出点小错,粗心的狮子也不会在意的。相反,你老板如果是处女座,那你只能辛苦一下,必须比他(她)还仔细,否则既仔细又有忍耐力的处女会把你逼疯的。又假如你老板是白羊座,那你做事最好不要拖沓,冲动的白羊总是希望立马看到效果。如果你老板是双子座,那他(她)倒不会怎么为难你,因为他(她)自己也飘忽不定,不过你要时刻准备着应付他(她)不知从哪儿冒出来的“鬼点子”。再假如你老板是金牛座,那就要避免与他(她)正面冲突或争论(即使你是对的一方),否则他(她)会和你死扛到底。剩下的星座,我就不一一点评了,大家自己慢慢琢磨吧。 以上这些观点也适用于恋爱中的男女朋友!而且,本文的量化分析结果也可以帮助大家“速配”。比如,金牛座和处女座,还有水瓶座和双鱼座这两个容易凑到一起,可能他们之间的思维方式和性格比较相似一些吧。不过,如果我说得不准,大家不要怪我,要怪就怪机器学习吧,呵呵。 附录:本文研究方法的具体细节 一,如何选择行业?在“表一”中,27个行业的选择遵循以下三个原则:要能够突显单个星座的特质。比如,诺贝尔和平奖得主没有被选为研究对象,因为他们大多是政治家,后天因素起了主要作用,不符合本文的初衷。又比如,许多体育项目没有被选中,因为大多数项目是集体活动,即使产生了许多体育明星,也很难区分他们的成功是由于团队的力量还是个人的天赋造就的。而且,兴奋剂在体育界的滥用也是另一个重要原因。 要有可靠的(经过筛选的)且样本数不是太小的数据。比如,历年诺贝尔奖得主就是很好的数据,仅管有些科目越来越强调团队合作(比如,化学,医学),从而掩盖了单个星座的特质。 选择范围尽量地广。人类的天赋具有多面性,所以选择的行业要尽可能覆盖它们,比如想象力,逻辑推断力,表达能力,等等。 当然,我也不敢肯定这27个行业就一定能代表人类的所有天赋。但由于数据的限制,要想选出符合上述三个原则的行业并不是很容易。欢迎大家多提宝贵意见。 二,为什么要选择每个行业中的天才? 这是因为在他们身上所体现的某些特质较普通人明显,仅管(在研究前)我们暂时不知道到底是哪些特质。而且,他们在行业中的表现是客观存在的,不会受到他人主观评价的影响。其次,如同上文提及的,天才们是经过了严格的筛选后得到的,数据可靠且容易获得。 最后也是最重要的一点,如上所述,本文不是讨论如何挖掘天赋,而是假设天赋已显露出来后,研究它与星座的关系。我不是宿命论的支持者,一个人的天赋与他(她)最后取得的成就没有必然联系,因为会受到许多后天因素的影响。我使用‘天才’们的数据恰恰可以控制这些后天因素,尤其是学术类和体育类行业,使得我更有效地观察星座与天才之间的关系。打个比方,我们可以不失一般性地认为诺贝尔经济学奖获得者的经济学基本理论知识都很扎实,并且背景相似(都具有博士学位,都在高等学校任教,等等)。而且,我们也无法推断说今年的诺奖获得者比往届的都要勤奋刻苦。至于艺术类,后天因素的影响就更小了,有人天生对声音敏感,而有人天生对色彩敏感,诸如此类。即使有老师指导,也只是起辅助作用。所以,如果在后天因素被控制的情况下,某个星座的人数相较其它星座还存在显著差别,那么我们有理由怀疑造成这种差别的原因不是来自后天,而是先天! 三,如何判断一个星座的人数比另一个星座的人数多(或少)? 这里我使用简单的统计学方法。假设给定一个行业的星座分布(如图一),我可以算出分布的平均值与标准差。如果某个星座在离开平均数1个标准差附近,那么情况就 “有点意思” 了,计正(负)0.5分。如果明显超过1个标准差,那么情况就 “很有意思” 了,计正(负)1分。如果超过2个标准差,那么情况就 “非常有意思” 了,计正(负)2分。如果是在1个标准差以内,则视为 “无差别” ,计0分。这样做的好处是可以排除某些行业样本数过大带来的影响(注1:所有行业的星座分布都是人数分布,除了围棋。每位围棋选手按水平高低有一个实力评分,围棋的星座分布建立在这些评分上)。 参考文献 【1】小时候被指没天分,长大却成天才少女,她的生命很短但惊艳了世界(http://www.weidu8.net/wx/1017150055433484) 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2017-08-29 09:44:00
参展商在数博会上展示华为研发的闪存系统。新华社发   “有人用人民日报数据库,写出数据新闻《谁是中国人民的老朋友》,用相关词频,梳理出新中国成立以来被冠以‘老朋友’的国际友人,从中分析国际环境的变化和外交政策的调整。”在2019中国国际大数据产业博览会“大数据领航·打造媒体融合发展新业态”高端对话现场,人民日报社副总编辑兼海外版总编辑许正中用一个鲜活的例子告诉大家,大数据有助于捕捉挖掘新闻事实,增加新闻报道的厚度,催生新的新闻产品。   论坛上,专家表示,大数据时代的技术变革,正在重塑媒体行业,产生了一系列的理念创新、内容创新及模式创新,用好大数据,将成就更好的全媒体。   贵州省委常委、宣传部部长慕德贵说,大数据能化无形为有形,从复杂中见规律,从而把抽象事物形塑为有形和可见的事物,具有造型塑型的作用,有效地利用大数据推动媒体的融合发展,将推动生产制作的新媒体产品更加形象生动,更加有互动性,从思维到现实层面都引领媒体融合发展。   大数据正在大幅提升新闻生产效率。科大讯飞副总裁于继栋说,借助科大讯飞的语音技术,一小时的录音,五分钟就可成初始稿件,相比以前,一小时录音至少需两小时整理,记者有更多时间思考,新闻生产效率和质量都得到了大大提升。   大数据也正在催生全新的新闻产品形态,给读者以更好的体验。2019年年初,可以听的《光明日报》正式上线,光明日报联合科大讯飞,借助人工智能技术,帮助读者实现从“看报”到“听报”的转变。本届数博会上,人民日报也发布了一款名为“果果”的虚拟主播产品,可用多语种向读者介绍新闻事实。   “丰富的新产品可以让用户得到更好的体验,让新闻更有效传递到最终用户。”于继栋说。   将合适的内容推送给需要的人,正是大数据、人工智能等新技术的用武之地。近年来,一些商业平台通过大数据为受众画像,再通过“智能算法”实现精准推送,实现了内容分发“千人千面”。这一技术手段改变了传统的内容分发模式,提高了内容的匹配度和到达率。许正中说,大数据有助于提高定向传播的精度,让内容的生产与传播更有针对性,让新闻宣传与舆论引导更有精准度。   大数据也可反馈读者的阅读需求,进而改进新闻生产和传播。腾讯集团副总裁马斌说,互联网和大数据,可以实现以人为本的生产流程重构,以需定产,互联网可以帮助媒体更容易了解到读者在想什么,进而决定生产什么。媒体可以精准把握读者的兴趣偏好、意见诉求及心态变化,实现个性化的内容生产和推送。
来源:大数据中国
发布时间:2019-06-04 23:13:00
Tensorflow是Google开发的开源 机器学习 库。本篇文章我们将使用Tensorflow对 线性回归 模型进行训练,并使用模型对数据进行预测。下面我们开始分步骤介绍。 首先导入所需的库文件,包括tensorflow,numpy和matplotlib。Tensorflow用于创建和训练线性回归模型,numpy用于提取数据和计算均方误差MSE,matplotlib用于绘制成本函数变化图。 #导入所需库文件 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt 模拟最简单的一种情况,简单线性回归,一个自变量和一个因变量。自变量为广告花费,因变量为获得的点击量。手动创建这两组数据,用于训练和评估模型效果。格式为float32。 #设置广告花费和点击量数据 money=np.array([[109],[82],[99], [72], [87], [78], [86], [84], [94], [57]]).astype(np.float32) click=np.array([[11], [8], [8], [6],[ 7], [7], [7], [8], [9], [5]]).astype(np.float32) 用最简单的方法将数据集划分为训练集数据和测试集数据。 #粗糙划分训练集和测试集数据 X_test = money[0:5].reshape(-1,1) y_test = click[0:5] X_train = money[5:].reshape(-1,1) y_train = click[5:] 下面开始实现简单回归模型,设置自变量x的占位符,后面进行梯度下降时将作为真实数据输入模型的入口点。同时设置模型的参数权重值W和偏置量b。我们将赋予参数不同的值来试图找到最小化成本函数的取值。 #设置自变量x的占位符,梯度下降时真实数据输入到模型的入口点 x=tf.placeholder(tf.float32,[None,1]) #设置斜率(权重值)W变量 W=tf.Variable(tf.zeros([1,1])) #设置截距(偏置量)b变量 b=tf.Variable(tf.zeros([1])) 然后设置Tensorflow中的简单线性回归模型y=Wx+b #设置线性模型y=Wx+b y=tf.matmul(x,W)+b 与设置自变量x的占位符一样,设置一个占位符作为实际y值的入口点。同时用于后续成本函数(最小方差)的计算。 #设置占位符用于输入实际的y值 y_=tf.placeholder(tf.float32,[None,1]) 使用最小方差作为成本函数用于评估我们模型的效果。然后使用梯度下降算法以0.000001的学习速率尽量最小化这个成本函数。 #设置成本函数(最小方差) cost=tf.reduce_sum(tf.pow((y_-y),2)) #使用梯度下降,以0.000001的学习速率最小化成本函数cost,以获得W和b的值 train_step=tf.train.GradientDescentOptimizer(0.000001).minimize(cost) 开始训练我们的模型,首先对所有变量进行初始化,防止带有之前执行过程中的残留值。然后创建一个会话(Sess),并在这个会话中启动我们的模型。 #开始训练前对变量进行初始化 init=tf.global_variables_initializer() #创建一个会话(Sess) sess=tf.Session() #在Sess中启用模型并初始化变量 sess.run(init) 创建一个空list,用来存储模型训练过程中每一步成本函数cost的变化。 #创建一个空list用于存放成本函数的变化 cost_history=[] 开始训练模型,这里让模型循环训练100次。并输出每次训练后模型的参数和成本函数cost。以及最终的模型参数W,b和成本函数。 #循环训练模型100次 for i in range(100): feed={x:X_train,y_:y_train} sess.run(train_step,feed_dict=feed) #存储每次训练的cost值 cost_history.append(sess.run(cost,feed_dict=feed)) #输出每次训练后的W,b和cost值 print(“After %d iteration:” %i) print(“W: %f” % sess.run(W)) print(“b: %f” % sess.run(b)) print(“cost: %f” % sess.run(cost,feed_dict=feed)) #输出最终的W,b和cost值 print(“W_Value: %f” % sess.run(W),”b_Value: %f” % sess.run(b),”cost_Value: %f” % sess.run(cost,feed_dict=feed)) 在训练模型的过程中,我们存储了每次迭代后成本函数cost的变化情况,下面对这个过程进行可视化。在最开始成本函数为234,随着迭代次数的增加成本函数收敛在1.04。 #绘制成本函数cost在100次训练中的变化情况 plt.plot(range(len(cost_history)),cost_history) plt.axis([0,100,0,np.max(cost_history)]) plt.xlabel(‘training epochs’) plt.ylabel(‘cost’) plt.title(‘cost history’) plt.show() 完成训练后,我们使用模型进行预测,输入x值为109。模型反馈预测值为9.84。这个x值其实就是测试集的第一个值。而真实的y值应为11。预测值与实际值之间存在着一定的误差。这个误差也是衡量模型效果的一个重要的指标。 #使用模型进行预测 sess.run(y, feed_dict={x: [[109]]}) 我们使用模型对测试集进行预测,并将所有的预测值与实际值进行比较,计算均方误差MSE来衡量模型的表现。MSE的值越小,说明预测模型具有更好的精确度。这里我们训练的模型均方误差MSE为0.7130。 #使用测试集计算模型的均方误差MSE pred_y = sess.run(y, feed_dict={x: X_test}) mse = tf.reduce_mean(tf.square(pred_y – y_test)) print(“MSE: %.4f” % sess.run(mse)) 下面我们以图表的方式更加直观的显示出模型在测试集上的表现,其中图表的X轴为实际y值,Y轴为预测值。虚线为学习回归线,为拟合所有数据点的最优曲线。 #绘制测试集真实点击量与预测点击量及学习回归线 fig, ax = plt.subplots() ax.scatter(y_test, pred_y) ax.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], ‘k–‘, lw=1.5) ax.set_xlabel(‘Measured’) ax.set_ylabel(‘Predicted’) plt.show() 到这里,我们完成了使用Tensorflow对简单回归模型进行训练,评估和预测的过程。在实际生活中,只依靠一个特征进行预测的情况非常少见,通常情况下预测要依靠多个特征才能完成。因此,我们下面从一个特征的简单线性回归模型升级到两个特征的多元线性回归模型。按照下面的方法,你也可以应用到有多个特征的线性回归模型。 多元线性回归与前面简单线性回归类似,因此相同的步骤我们在代码上进行注释。只对不同的内容进行说明。 #导入所需库文件 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt 在设置数据时增加一组特征或变量。这里我们增加了广告曝光量数据。 #设置广告花费,曝光与点击数据 invest=np.array([[13],[105],[105], [24], [3], [45], [35], [24], [40], [32]]).astype(np.float32) impressions=np.array([[202],[244],[233], [175], [10], [227], [234], [216], [220], [213]]).astype(np.float32) click=np.array([[8], [13], [11], [7],[ 2], [12], [10], [9], [11], [10]]).astype(np.float32) 将三组数据分布划分为测试集和训练集数据。 #粗糙划分训练集和测试集数据 X_test = invest[0:5].reshape(-1,1) X_test1 = impressions[0:5].reshape(-1,1) y_test = click[0:5] X_train = invest[5:].reshape(-1,1) X_train1 =impressions[5:].reshape(-1,1) y_train = click[5:] 对两个变量(特征)x和x2分别设置占位符。同时分别设置权重值变量W和W2。用于后续的训练。 #设置第一个自变量x的占位符 x=tf.placeholder(tf.float32,[None,1]) #设置第二个自变量x2的占位符 x2=tf.placeholder(tf.float32,[None,1]) #设置第一个斜率(权重值)W变量 W=tf.Variable(tf.zeros([1,1])) #设置第二个斜率(权重值)W2变量 W2=tf.Variable(tf.zeros([1,1])) #设置截距(偏置量)b变量 b=tf.Variable(tf.zeros([1])) 然后设置Tensorflow中的多元线性回归模型y=Wx+W2x2+b #设置多元线性回归模型y=Wx+W2x2+b y=tf.matmul(x,W)+tf.matmul(x2,W2)+b #设置占位符用于输入实际的y值 y_=tf.placeholder(tf.float32,[None,1]) #设置成本函数(最小方差) cost=tf.reduce_mean(tf.square(y_-y)) #使用梯度下降以0.000001的学习速率最小化成本函数cost,以获得W,W2和b的值 train_step=tf.train.GradientDescentOptimizer(0.000001).minimize(cost) #开始训练前对变量进行初始化 init=tf.global_variables_initializer() #创建一个会话(Sess) sess=tf.Session() #在Sess中启用模型并初始化变量 sess.run(init) #创建一个空list用于存放成本函数的变化 cost_history=[] #循环训练模型1000次 for i in range(1000): feed={x:X_train,x2:X_train1,y_:y_train} sess.run(train_step,feed_dict=feed) #存储每次训练的cost值 cost_history.append(sess.run(cost,feed_dict=feed)) #输出每次训练后的W,W2,b和cost值 print(“After %d iteration:” %i) print(“W: %f” % sess.run(W)) print(“W2 Value: %f” % sess.run(W2)) print(“b: %f” % sess.run(b)) print(“cost: %f” % sess.run(cost,feed_dict=feed)) #输出最终的W,W2,b和cost值 print(“W_Value: %f” % sess.run(W),”W2 Value: %f” % sess.run(W2),”b_Value: %f” % sess.run(b),”cost_Value: %f” % sess.run(cost,feed_dict=feed)) 在训练模型的过程中,我们同样存储了每次迭代后成本函数cost的变化情况,下面对这个过程进行可视化。在最开始成本函数为88,随着迭代次数的增加成本函数收敛在0.7。 #绘制成本函数cost在100次训练中的变化情况 plt.plot(range(len(cost_history)),cost_history) plt.axis([0,100,0,np.max(cost_history)]) plt.xlabel(‘training epochs’) plt.ylabel(‘cost’) plt.title(‘cost history’) plt.show() 计算均方误差MSE来衡量模型的表现。MSE的值越小,说明预测模型具有更好的精确度。这里我们训练的多元线性回归模型均方误差MSE为1.2479。 #使用测试集计算模型的均方误差MSE pred_y = sess.run(y, feed_dict={x: X_test,x2:X_test1}) mse = tf.reduce_mean(tf.square(pred_y – y_test)) print(“MSE: %.4f” % sess.run(mse)) 本文为专栏文章,来自:蓝鲸,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/47437.html 。
来源:数据分析网
发布时间:2017-08-15 04:55:00
随着大数据时代来临,互联网飞速发展。在国家大数据战略、“宽带中国”战略等政策的推动下,中国网络建设迅猛成长,物联网、5G、 云计算 、超高清视频等领域的发展促进流量需求爆发式增长。光传输网作为流量承载主体,越来越对带宽、速度、覆盖面等有着更严格的要求,面临严峻的挑战。然而,事实上以光纤为传输载体的光通信技术自诞生以来就逐渐扮演了重要的角色,在通信领域发挥了巨大的作用。    光通信技术引导的通信发展浪潮   1870年,英国物理学家丁达尔针对光的全反射原理做讲解性实验,他在装满水的木桶上钻孔,然后用灯从桶上边把水照亮,放光的水从水桶的小孔里流出,水流弯曲,光线也弯曲;后来人们造出玻璃纤维,当光线以合适的角度射入时,光就沿着弯曲的玻璃纤维前进,因此称它为光导纤维;1966年,高锟博士发表论文,从理论上分析证明了用光纤作为传输媒体以实现光通信的可能性;1977 年光纤进入大众市场,世界上第一条光纤通信系统在美国芝加哥市投入商用。光纤技术逐步在多个领域应用,迅速发展。   网络主干网技术先后经历了155M、2.5G、10G等不同发展阶段。当下,光纤技术有望成为构建主干网的优质选项。同时随着无线技术的发展,当100G技术不能满足网络传输需求,400G将是超高速、大容量、融合、智能化光传输网的演进方向。伴随多个400G标准颁布, MTP多芯光纤并行传输正给400G网络创造绝佳的条件。400G将引发新一轮的技术革命。 OM5光纤   此外,伴随数据中心对高带宽、高速度应用的需求增长,OM5光纤跳线将会成为用于高速数据中心应用的新型多模光纤跳线。OM5光纤正在给400G网络带来无限可能。光纤OM5宽带不仅可以支持802.11ac wi-fi系统,还可以支持高密度5G无线网络。802.11ax又被称为“高效率无线标准”,将用户密集环境中的每位用户的平均传输率提升4倍以上。   OM5光纤跳线借鉴了单模光纤的波分复用(WDM)技术,延展了网络传输时的可用波长范围,降低了网络的布线成本。此外,OM5可扩展性强,可向下兼容OM3和OM4类型的光纤。OM5光纤将会给光通信领域带来巨大的变化。    蓝思通信肩负历史使命 服务大数据时代   在400G时代来临之际,广州新蓝思光电通信技术有限公司参加了本次数博会,以实际产品场景应用向观众展示如何服务大数据时代。蓝思通信(EASTLANS)始于2003年,是一家专为客户提供数据中心模块化预连接MTP/MPO光纤系统方案的专业制造商,同时提供OM5、OM4、OM3等产品,质量获得行业GR-1435、GR-326严苛认证。MPO是日本NTT通信公司设计的第一代弹片卡紧式的多芯光纤连接器。MTP是由美国USConec公司注册的品牌,专门指其生产的MPO连接器独特的类型。MTP连接器是一种具有多重创新设计的高性能的MPO连接器。 蓝思通信HD-LC跳线   据介绍,随着数据中心的高速发展,迷你型、省空间、高密度的光纤解决方案渐渐被大部分工程项目采用,蓝思通信的HD-LC跳线采用了独特的“抽拉杆设计”,工程师只需用两根手指抓住拉杆,即使在狭窄的安装空间里也能便捷快速地安装工作,避免人手对光纤跳线的直接拉扯,减少了对光纤跳线结构的破坏,提高了光纤跳线的使用寿命,令空间利用率提高30%。   蓝思通信作为中国通信标准化协会的会员单位之一,在不断满足数据中心高速网络的基础架构设施要求下,致力推动“并行传输”MTP/MPO预连接光纤产品的应用进程,立志成为“数据中心模块化预连接MTP/MPO光纤系统全球领先者”,服务大数据时代。公司成立了“蓝思光设计院”,拥有30多名国内国际行业专家,将在国内各省多批次和不同位阶进行数据中心模块化预连接MTP/MPO光纤解决方案的工程师培训,以支持行业发展的需求,推动多芯“并行传输”MTP/MPO预连接光纤产品的应用进程。   2018年11月,蓝思通信为广铁集团对某地铁机房进行了升级改造,将数据交换速率由原来的10G升级到了40G,核心交换设备由原来的LC型端口换为MPO型端口,采用了支持40G/100G的OM4-MPO型多芯光纤作为传输主干线,解决了地铁内列车通讯的及时性和可靠性,满足来往客流的不断增加对网络大容量的需求,这仅是蓝思通信在5G高速网络传输基础设施建设的大容量、高速率、传输可靠性升级改造的众多案例之一。    蓝思通信亮相2019数博会   数博会期间,公司现场展示了40G/100G的数据中心模块化预连接MTP/MPO高密度光纤布线系统。该系统由核心交换机、路由器,服务器、存储器、高密度连接模块盒、光纤配线架、预连接MTP主干、光纤跳线等组成,形成模拟数据中心机房布线系统,可广泛应用于云计算数据中心、5G雾计算边缘数据中心、各类规模IDC数据中心、电信运营商机房,也满足CORD对高速网络的基础架构设施要求。   蓝思通信创始人蓝建生表示,蓝思通信的HD-LC跳线杆设计使空间利用率大幅提高,抽拉快速、安装便捷的特点使其成为高密度机房的新宠。目前蓝思服务的对象主要有大型的系统集成商,产品也已经广泛用于服务于智慧城市、轨道交通、数据中心、南网通信、军网通信等国家重点项目,借助数博会展览的机会也在寻求全国的合作伙伴,一起在光通信领域开拓未来。
来源:大数据中国
发布时间:2019-06-04 23:12:00
假如,你手头上正有一个 机器学习 的项目。你通过各种渠道手机数据,建立你自己的模型,并且得到了一些初期的结果。你发现,在你的测试集上你只有80%的正确率,这远远地低于你的预期。现在怎么办,你怎么来改进你的模型? 你需要更多的数据吗?或者建立个更复杂的模型?还是说调整正则参数?加减特征?迭代更多次?不然全来一遍吧? 最近我的一个朋友也这么问我,他觉得改进模型就是全凭运气。这促使我决定写这篇文章,来告知应该怎么做一个有信息量,有意义的举措。 1. 偏差和方差 为了构建一个准确的模型,我们首先要了解模型带来的各种误差。 偏差 :偏差误差是来源于模型的期望(平均)预测数值与真实数值之间的差值。 方差 :对于一个给定的数值,模型预测结果的变异(波动)程度。 1.1 数学定义 我们想要预测Y,我们的输入是X。我们假设他们两个直接有关系,比如,其中误差项服从正态分布。 我们可能通过线性回归或者其他建模方法得到一个估计,然后在点处的期望误差的平方是: 这个误差能够被拆分成偏差和方差两个组成部分: 必不可少的误差来源于误差项,任何模型都不能够彻底地解决。只有给定问题本身的真实模型和无穷大的数据来修正它,我们能够让偏差和方差项都变成零。然而,在一个没有完美的模型和无穷的数据的世界里,我们必须要在减小偏差和方差中权衡。 2. 什么是学习曲线 现在我们知道权衡偏差和误差这件事了,但是如何改进我们的模型仍然有待考究。我们的模型面对 严重偏离 和 高度变异 的时候应该怎么处理?我们需要绘制模型的学习曲线来解答这个问题。 2.1 严重偏离 小训练样本:很小,并且很大。 大训练样本: 和都很大,并且两者近似相等。 2.2 高度变异 小训练样本:很小,并且很大。 大训练样本:随着训练集增加而变大,并且继续减小,但是不会稳定。,而且他们之间的差距很显著。 3. 下一步做什么? 我们已经明白,问题往往出在偏差或者方差上。这时候,我们要根据不同的情况,做出不同的抉择。 3.1 严重偏离 选择更复杂的特征,高阶项或者增加节点。 减小正则参数。 3.2 高度变异 收集更多的训练数据来帮助模型得到更好的泛化。 减小特征集合的大小。 增大正则参数。 4. 机器学习流程 大多数的机器学习系统都是由一个模型链组成的。通常情况下都会有一种困境,你已经有了一个机器学习的管道,但是接下来一步应该做什么呢?上限分析在这里很有帮助。 上限分析每一次在管道中的某一部分中插入一个完美的版本,并且由此来测度我们所观察到的完整的管道能够有多大的提升。这种方法能够帮助我们明白在整个模型链中,哪一步能够带来最可观的优化。 比如说上述的文字识别的管道(模型链),你发现一个完美的字符分割模型能够给整个识别系统提升1%,但是一个完美的字符识别模型能够提升7%。所以相比于改进字符分割模型,我们应该更关注字符识别模型的改进。 5. 参考 Machine Learning The Elements of Statistical Learning Pattern Recognition and Machine Learning Understanding the Bias-Variance Tradeoff 作者:Sourabh Bajaj 本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/47168.html 。
来源:数据分析网
发布时间:2017-08-11 01:00:02
记者从6月3日在上海举行的“经济统计的未来高级国际研讨班暨中国-联合国统计能力开发信托基金项目十周年成果总结会”上获悉,国家统计局与联合国经济和社会事务部将在杭州建立大数据研究所。 国家发展改革委员会副主任、国家统计局局长宁吉喆与联合国副秘书长刘振民签署相关合作意向书。 来自合作双方的信息显示,这是联合国机构首次与相关国家合作建立大数据研究所,也是中国-联合国统计能力开发信托基金搭建的国际合作平台结出的最新成果。这一项目选址杭州,在于充分发挥中国相关地方政府和企业在大数据领域的先发和引领优势,重点聚焦新技术、新产业、新业态,推动国际统计事业更快适应当今全球科技革命和产业变革,更好服务于经济和社会发展。 刘振民表示,大数据对于帮助实现联合国“2030年可持续发展议程”具有重要意义,特别是可以帮助众多自身缺乏大数据开发能力的发展中国家参与全球数据创新。未来,杭州的大数据研究所将举办针对发展中国家的关于大数据使用的国际培训课程。 宁吉喆表示,目前中国已从六个方面推动大数据在统计工作中的应用,即利用大数据补充传统数据,利用大数据促进各类数据的整合,利用以大数据为代表的现代网络信息技术改进统计方法,利用大数据形成的创新机制构建新的统计体制机制,通过大数据的应用促进国际合作,以及对大数据生产应用本身进行统计测量。 中国-联合国统计能力开发信托基金成立的初衷在于提高全球特别是发展中国家统计能力,推动全球统计事业发展。十年来,中国-联合国统计能力开发信托基金累计资助40多个最不发达国家和发展中国家的统计机构负责人参加联合国世界数据论坛,在搭建统计合作平台、推动统计创新发展、提升发展中国家统计能力等方面开展了有益探索和实践,有效推动了国际通行统计规则的应用,以及国际先进统计方法和技术的推广,已成为国际政府间统计合作的典范。
来源:大数据中国
发布时间:2019-06-04 23:10:00
朴素贝叶斯分类器基于词袋模型,通过词袋模型我们可识别出文本中出现的词属于积极还是消极,若这个词出现在积极的词语列表中,文本的总体分数 +1,若总体分数为正,该段文本被分类为积极,反之亦然。 朴素贝叶斯分类器不考虑仅仅小部分的积极或消极的词语,而关注朴素贝叶斯模型训练集中全部的词语。如果一个词语没有出现在训练集中,应用拉普拉斯平滑(用 1 代替词语的条件概率)处理。 一篇文档属于类别 C 的概率: 朴素贝叶斯文本分类 首先用”train()”函数输入 X 或 Y 的值, X 为包含了文档中所有词语的列表, Y为每个文档的分类标签的列表。 分类器通过训练集中所有文档的更新完成训练,并在所有文档中,建立每个类别的每个词语相对出现次数的的散列表(即python中的字典)。 每个类别中建立一个包含所有出现的词语列表。 用”calculate_relative_occurences“方法计算列表中每个词语出现的相对次数,应用python的counter模块,计算每个词语出现的次数并除以所有词语的数量,结果保存在字典 nb_dict 中,它包含了朴素贝叶斯分类器的训练结果。 分类新的文档也很容易,先计算每个类别的分类概率,然后选择概率最大的类别。 作者:ataspinar 本文为专栏文章,来自:数据工匠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/47158.html 。
来源:数据分析网
发布时间:2017-08-10 00:29:00
2019数博会于5月26日至29日在贵阳成功举办,448家参展企业齐聚大会共同展示相关大数据技术、成果及解决方案。5G应用、 区块链 技术、人工智能……精彩纷呈的热门技术展现,仿佛让观众置身于科技的蓝海。 作为2019数博会的参展商,深圳市优必选科技股份有限公司(简称“优必选”)在数博会上展示了其在人工智能和人形机器人领域的最新研究成果。商用服务机器人Cruzr(克鲁泽)、智能巡检机器人ATRIS(安巡士)、与漫威合作的首款钢铁侠MARK50机器人、便携式智能机器人悟空等产品纷纷亮相,成为数博会展馆中的一大亮点,引起了各方关注。 据了解,优必选成立于2012年3月,是全球顶尖的集人工智能和人形机器人研发、平台软件开发运用及产品销售为一体的高科技创新企业。在人工智能行业发展前景和趋势上,优必选有着自己见解和看法。对此,数据观记者就人工智能及企业发展布局等相关话题采访了优必选。 以下是采访实录: 记者:人工智能是下一代产业革命发展的核心驱动力,优必选作为行业独角兽,对新一代人工智能产业发展作何布局? 优必选: 作为新一轮产业变革的核心驱动力和引领未来发展的战略技术,国家高度重视人工智能产业的发展。2017年国务院发布《新一代人工智能发展规划》,对人工智能产业进行战略部署;在2018年3月和2019年3月的政府工作报告中,均强调指出要加快新兴产业发展,推动人工智能等研发应用。 新一代人工智能技术正在越来越深入地与产业相融合,促进产业智能化。作为全球顶尖的人工智能和人形机器人研发、制造和销售为一体的高科技创新企业,优必选在人工智能技术领域保持领先优势,秉承“让机器人走进千家万户”的愿景,专注于人工智能及机器人核心技术的应用型研发、前瞻性研发与商业化落地,同时提供人工智能教育、智慧零售、智慧园区/校园安防等行业解决方案。以智能服务机器人为载体,将“AI+”赋能各行业,推动应用落地,促进产业智能化的发展,致力于打造“硬件+软件+服务+内容”的智能服务生态圈。 记者:从目前公司发展的轨迹看,似乎更偏向于ToB市场,这样的理解是否正确? 优必选: 优必选的愿景是要让智能机器人走进千家万户,C端市场一直是我们的核心目标。但人工智能机器人目前发展尚处于早期起步阶段,技术层面还无法支撑一些实际应用。目前的应用多建立在可控场景和垂直领域中,而在通用场景中尚不能完全应用。此外,机器人无论是从研发还是生产方面成本都比较高,大规模产业化还需要时间。 因此,相对而言,To B端的机器人在某些垂直领域可以满足特定的需求,是机器人市场中的战略性入口,它是优必选中短期十分看重的市场。不论是To C端市场还是To B端市场,企业必须围绕自己的核心技术进行布局,使公司的技术和产品能够得到市场的检验,这样对公司的长远发展才会有指导和建设意义。目前,优必选正在加速对大型仿人服务机器人的研发,持续投入伺服舵机、运动控制、机器视觉、定位导航等核心技术的研发。 虽然整个人工智能行业应用才刚刚起步,还没有迎来爆发,应用场景还比较缺乏。但人工智能在教育、娱乐、商用服务、医疗、养老等行业将会有较大发展也让我们看到了一些机会。 记者:优必选目前与很多公司、热门IP都有合作,这是否是优必选“以运营养技术”策略的体现? 优必选: 当下,人工智能机器人的发展,需要依靠宏观运营思维才能找到刚需。过去IP衍生品大多是静态的玩偶,而优必选通过人工智能技术让他们变成可以运动、对话交互的机器人,为用户带来全新的互动娱乐体验。2019年4月,优必选与漫威合作推出钢铁侠MARK50机器人,用户可以通过它感受前所未有的漫威体验,让钢铁侠这一超级英雄走进每一个人的生活。 与娱乐及IP结合的人工智能机器人只是我们在教育、服务类等机器人产品的其中的一部分,优必选正在打造整个人工智能产业的生态系统。智能机器人的发展道路还很长远,在这个过程中,优必选一方面坚持在人工智能技术领域深耕,另一方面会以先进的运营模式引领全球服务机器人产品商业化,拥有自我造血能力,有能力去开辟最前沿的路。 记者:对于人工智能技术的发展应用与推广,有的人持乐观态度,有的人持反对意见,优必选如何看待这样的冲突? 优必选: 人工智能会对各行各业和每个国家产生变革性的影响,是下一个全球化的推动轴心,会在全球范围内实现资源的优化。人工智能会创造大量就业,新的产业、新的岗位都会兴起,但不够AI化的企业注定会被淘汰。就像汽车取代了马车,马车夫失业了,伴随而来的是出现大量汽车工业从业人员、的士司机等。机器人可以给人类带来更有创造力的工作,很多危险的、琐碎、重复性的工种将被替代。 在未来,人工智能对人类开辟新的产业,提高生产水平和生活水平具有十分现实的意义。 记者:当下人工智能产业发展存在哪些困难?如何应对困难? 优必选: 人工智能发展虽然前景光明,但产业方兴未艾,在成长的过程中会遇到各种各样的困难和挑战,比如应用场景缺乏、高精尖人才匮乏、技术不成熟,同时在实现重大变革的道路上,不可避免的会遇到阻碍和冲突。 作为人工智能产业发展的推动者,首先需不畏惧变化和冲突,投入核心技术研发,积极引领人工智能的发展。同时,始终把安全放在重要位置,深入行业和消费者,以人工智能赋能各行业,促进行业转型升级。 在每一个新阶段,科技的进步都会使人类与世界的关系重新被定义。虽然人工智能产业尚在成长过程中,但是已经在科技领域展露头角,成为一颗冉冉升起的新星。目前,人工智能技术的发展速度引起一些担忧,从某种程度上来说,它对于提醒人类关注和控制人工智能技术的发展方向和速度具有一定的价值。凡事皆有两面,技术本身是中立的,好与坏的结果取决于人类对它的应用。人工智能在多数时间和多数领域将会改进我们的生活质量,让世界变得更美好。 记者:有哪些因素吸引贵公司参加2019数博会? 优必选: 2019数博会参会嘉宾、企业、媒体的数量、层级、质量都非常不错,活动精彩纷呈,创新氛围浓厚。同时,本届数博会还吸引了近30个“一带一路”沿线国家的关注。优必选作为一家立足全球市场的企业,期待能够通过数博会与来自世界各地的企业、嘉宾展开深入交流与合作,凝聚共识,加强各国科技界、产业界的合作,推动人工智能技术探索和产业化进程,使人工智能更好为推动发展、造福人类服务。 随着本届数博会的顺利落幕,优必选为观众带来的视觉盛宴还未结束,在人工智能领域,优必选必然会继续探索。人工智能作为创新科学技术,提升了经济生产效率,改变了生产结构,促发了众多领域产业变革,推动社会发生颠覆性的改变,是人类生产和生活方式的未来方向,是需要紧紧抓住的战略性产业。因此,企业需要及时看清人工智能产业链的全景和结构,从全球局势、创新思维、技术支撑、场景应用、人才培养、区域协同等多个视角,站在未来看现在,明确人工智能产业的战略重点和核心。 人工智能的发展是大势所趋,企业需顺应时代浪潮,但也需理性对待人工智能技术,在合理范围内利用人工智能技术,控制、引领其发展,同时通过锻炼扎实的技术及高效的运营思维,方能让人工智能驶入科技领域的新蓝海。 (数据观记者 陈骏佼) 搜索 复制
来源:大数据中国
发布时间:2019-06-03 21:23:00
传统的数据治理在 大数据时代 面临着大量数据的接入、大量数据的存储和快速灵活处理的三方面问题,这一期我们来聊聊如何正确的思考和解决这三个问题。 大量数据接入 大量数据的接入问题主要体现在两方面,第一方面是 大数据 的多样性造成原有单一通道的不适用性。大数据的多样性表明我们在接入数据的时候必然会采用多样化的接入手段。这就需要我们针对数据的类型如结构化数据、半结构化数据、非结构数据,数据源的存储形式如关系数据库、文件、分布式数据库两方面特性进行综合考虑,形成一个二维接入方式表。当然实际情况要更加复杂,在这里我们只是提出其中的一种解决问题的思路。 另一方面是大数据的高速性造就了数据通道的拥堵。针对大数据高速性的特点,流处理的技术发挥了重要作用。我们可以依赖消息队列集群加上流处理的技术进行解决,例如现在广泛采用的 kafka+spark streaming 的解决方案。数据通过消息的不同通道和订阅发布机制,建立了不同的数据传输通道,并且通过分布式机制和缓存机制解决了大量数据接入的性能问题。 新智数工 提供的采集助手就是要让不懂技术的人员也能接入各种类型的数据。 大量数据存储 关于数据存储的问题,第一个是大量数据造成了原有的存储空间不足的现象;第二个是数据的多样性造成了数据存储方式单一的现象;第三个最重要的现象是前面两个问题造成了数据存储要不断面临调整的问题。我认为要解决好如上问题需要从两个方面进行解决。一方面是数据的存储问题。数据的存储是为了更好的数据应用,应该提供给最终用户可以随时调整数据存储和定义的一组业务功能。我们现在很多用户只是知道自己大概有哪些数据,大概是什么情况。其实我们应该提供一个能让用户掌握数据资产的数据台帐,通过它能够实时了解数据的总量情况、变化情况、存储情况、加工情况,从而满足一系列的数据应用场景。另一方面是底层技术要做好保障,应按数据类型、使用类型建立好分布式存储的解决方案。包括块存储、文件存储、对象存储等。但这种技术形式应该对业务用户透明,用户只需要进行业务定义,不需要关心技术细节。新智数工的大数据池产品正是为了解决此问题而产生的。 快速灵活处理 快速灵活处理其实是体现大数据的第4个v价值的问题,因为数据食材被加工成不同的形状是为了菜品的要求,也就是数据加工处理的目的是为了数据应用。而传统的处理方式都是由专业数据加工者将数据进行预处理,当数据多样性体现后,这种方法就不能真正满足一线人员的实际需求了。这也是为什么以前的BI系统在面对一个新的数据种类时,变更会异常复杂和繁琐的原因。而我们真正的一线厨师需要随时随地能够加工数据食材,根据自已的喜好和需求对食材进行加工制作,而不是再依靠任何 IT 公司。依托大数据技术我们应该给用户提供一组简单的、可自己随时加工处理数据的功能。例如我们原来的一张列表有10个字段,我们应该可以由这10个原有字段不断定义新的字段,也就是我们可以给数据食材切成片或块等多种形式。 大数据时代,数据的价值密度很低,这就更需要数据裂变,只有数据裂变,数据的价值才能不断被放大。 本文由新智数工 汪利鹏(大数据创业者)投稿至 数据分析 网并经编辑发布,版权归原作者所有,转载请与作者联系。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2017-02-08 13:34:00
《悬而未决的AI竞赛——全球企业人工智能发展现状》由德勤洞察发布,德勤中国科技、传媒和电信行业编译。为了解全球范围内的企业在应用人工智能技术方面的情况以及所取得的成效,德勤于2018年第三季度针对早期人工智能应用企业的1900名信息技术及业务线高管开展了调查,范围涵盖七个国家:澳大利亚、加拿大、中国、德国、法国、英国以及美国。该调查重点关注了全球人工智能发展动态,以全球视角解读早期应用者,希望帮助所有企业制定更明智、更均衡的策略实现人工智能领域的独特优势。 报告显示: 企业对人工智能重要性的认识逐步加深,包括增强竞争优势和改进工作方式。 全球大部分早期应用者表示,人工智能技术对企业在当今时代取得成功尤为重要——这一观念正在逐步增长。亦有大部分早期应用者表示正在采用人工智能技术赶超竞争对手,同时人工智能赋予了其员工更加强大的能力。 人工智能成功的关键在于有效执行。 企业常常必须在广泛的实践领域中创造卓越,包括制定战略、确定最佳应用方案、奠定数据根基并培养扎实的实践能力。随着人工智能日益向消费层面普及,实现差异化竞争的机会窗口很有可能将会收缩,因此这些能力在当前至关重要。 不同国家早期应用者的人工智能成熟度各不相同。 不同国家的早期应用者对人工智能的热衷程度和实践经验存在较大差异。部分早期应用者积极发展人工智能,而部分则采取较为谨慎的策略。部分应用者利用人工智能改进特定的流程和产品,而其他则致力通过人工智能实现整个企业的转型变革。 无论各国人工智能成熟度如何,其策略方法均值得借鉴。 审视各国所面临的挑战以及企业应对挑战所采取的措施,我们可从中获取某些领先实践的基本要素。例如,部分国家的企业领袖更为关注解决技能方面的空白,而部分国家则专注于利用人工智能提升决策或网络安全能力。 完整报告如下: deloitte-cn-tmt-future-in-the-balance-zh-190528.pdf 搜索 复制
来源:大数据中国
发布时间:2019-06-03 21:17:00
这里首先需要说明的是标题中的“用户”指的是数据的用户,或者数据的需求方,这些用户往往不是网站或企业面向的外部用户,数据的消费者通常是公司内部各个部门和领域的人员。 为什么会提出这个问题,其实我们经常会遇到这样的情况:公司的高层抱怨从报表里面看不到有用的东西,是不是可以对报表做下整理(于是下面就忙开了),但是该怎么整理或者他们到底需要的是什么数据(好吧,高层的需求一般是不会明说的,我们要试着自己去揣摩);同时各个部门也在不断地提各类数据需求,往往他们的需求就比较明确,有时可能会细得吓人,需要每个用户的每次关键操作(考验服务器的时间到了)。数据部门就是处在这样一个对数据的需求存在着如何多样化的环境里面,所以考验数据人员的时间到了,我们能满足所有的需求吗? 目标和KPI 好了,首先来解答一下我们揣摩“圣意”后的结果,老板或者高层需要什么数据?其实很简单,他们只想知道公司的总体状况如何,所以我们只需要提供汇总的目标和KPI数据,不需要太多,2-3张报表,10个左右的指标足够展现出公司的全局了,但其实首先要做的是对公司的目标和KPI有一个明确的认识和定义。 主要关注人员: 决策层 虽然目标和KPI的主要关注人群锁定在公司的决策层,但其实公司的每位员工都应该关心公司的目标实现情况及KPI指标的表现,因为目标和KPI是客观评价公司状况和效益的最有效途径。但往往各个部门关心目标的KPI的方式会有差异,于是数据需要去满足各个部门不同的关注目标的KPI的方式,就有了下面的细分。 细分与功能点 公司的决策层可能会希望看到上面这些目标和KPIs的汇总数据,但如果我们给所有用户都提供这类汇总数据,那么可能其他用户就只能远远地望着这些数据,什么都做不了。所以我们需要给不同的用户不同类别不同层面的数据,因为 我们要做的就是让每个数据消费者都能根据数据Take Actions ,而其中很重要的一块就是数据的细分。 我们可以从多个角度对网站分析的报表和指标进行细分,每个公司根据自己运营类型的差异选择适合自己的细分模块,当然这里说的最常见的几个细分模块: 内容 、 用户 和 来源 ,也就是Google Analytics的分块方式。 内容细分 主要关注人员: 产品运营 尽管互联网的形式在不断地多样化,但无论如何互联网还是主要以信息服务提供商的角色存在,归根到底还是内容,所以对于网站而言内容是它的核心竞争力所在,对于网站分析同样如此,所以首当其冲的就是内容的细分。无论以哪些指标或者以何种细分方式来评价内容,最终我们的目的都是区分优质和劣质的内容,掌控产品的运营状况,从而保持或者改进网站内容。 内容细分的分析结果无疑可以给产品运营或者网站运营提供有价值的参考依据,明确了哪些是需要把握的核心内容,哪些内容需要改进。同时借助一些特殊的指标还可以指引细节上的改进,比如一个Pageviews很高但Avg. Time on Page较短、Exit Rate很高的页面显然在内容上没有足够的吸引力,但标题或简介信息足够吸引眼球,那么改进的方向就可以确定为提高内容的描述方式;如果你的网站提供电子商务服务,那么每个或每类产品细分的销售额(目标)及转化率(KPI)将让你能够更好地有针对性地进行产品和运营方式的选择。 用户细分 主要关注人员: 用户体验、销售 我们一般通过用户的使用环境(网络、设备、系统和客户端等)、人口统计学信息(性别、年龄、地域等)、用户行为类型(使用的趋势、忠诚度、创造的价值等)这几类数据和指标对用户进行细分。在现在“用户中心论”盛行的潮流下,是不是把用户放在内容后面有点不妥?网站的一切就是为了满足用户的需求,包括所有的内容的提供,但其实在 数据分析 上用户分析并没有内容分析来得普遍,特别是还要对用户进行细分,道理很简单,内容或者产品是可以自己把握的,而用户不行,所以尤其是基于用户行为分析的数据,说得很多但真正做好的或者应用于实践的其实并不多。 但有一块必须要有用户分析数据的支持,那就是用户体验的设计和优化。对于用户体验设计而言,其目标是能够满足所有用户的使用习惯,所以比较和优化各类用户在不同的使用环境和使用习惯中的数据能够对用户体验的改善起到很大的作用;而如果你的网站产品需要进行销售,那么用户行为分析对于个性化的产品销售和推荐能够起到很好的效果,它刚好与用户体验的目标相反,这类细分分析主要是为了满足每类甚至每个用户需求上的偏好。 来源细分   主要关注人员: 市场推广 其实对于网站分析人员而言,渠道来源的数据分析肯定不会陌生,许多网站都会重点分析这块的效果,包括SEO和SEM等都已经发展成为了非常专业的领域。网站分析工具里面一般都会区分直接进入、搜索引擎、外部网站及促销途径这几项来源,其实我们可以使用一些有效的途径将这些渠道分得更细,包括社会化媒介、合作网站、广告直邮等,通过这些来源细分去观察各渠道带来的流量的质量(在目标和KPI指标上的表现),我们就可以看清楚各推广渠道的优劣,从而为有效的推广行动提供参考。 其实还有一块——线下渠道,我们往往会认为线下的电视、报纸等上面的促销或广告的效果很难用数据进行监控,但其实只要我们去寻求一些办法,这些也是可以实现的,比如离线通是监控线下电话营销渠道的很好的工具。通过对线下渠道的监控分析,是我们更了解线下推广的效果以及其对线上推广所带来的关联和影响,最终指导推广人员更有效地布置和实施整套完整的推广计划。 功能点分析 主要关注人员: 技术、用户体验 如果你的网站不单是简单的几个页面,而是一个庞大复杂的系统,其中提供了丰富的功能和应用,那么我们还需要做一类分析,就是各功能点的分析。之前在“让用户更容易地找到需要的信息”专题中分析过几类网站中常见的功能:站内搜索、导航设计和内容推荐,这些功能点我们都可以使用特殊的方法获取数据、设置特殊的指标去分析他们的实现效果。 技术和用户体验团队都需要关注这些功能的实现效果和优化空间,数据是评价这些功能最有效的途径,因为这些功能都影响着用户的体验和满意度,一个真正优秀的网站需要把握好每个功能的每个细节的实现。 分析模型 上面提到的相关人员几乎涵盖了每个公司的各个领域,但其实还缺少一块重要的组成部分,就是我们自己—— 数据分析人员 。其实对于数据分析人员来说,他们需要把握所有的数据,从全局的目标和KPI到各类细分指标,以及各类功能点的数据。但这些还远远不够, 数据分析师 必须发挥他们的所长,设计并构建起各类分析模型,这些模型不仅可以对公司的关键业务和运营状态做出客观的评价,起到总结的效果外,更可以发现一些潜在的商业需求点,为公司的发展提供可能的方向和决策依据,起到预测的作用。 分析模型主要分为两类,一类是 定量分析模型 ,这个在我的博客中已经介绍过一些,包括关键路径分析的漏斗模型、基于用户行为分析的用户评价模型,当然也包括 数据挖掘 领域的用户兴趣发现、内容模式匹配,以及基于其上的个性化推荐模型,这些都在一定程度上实现了预测的效果。 另一类是 定性分析模型 ,包括目标市场的调研、以用户为中心的研究以及竞争优势的分析。当然现在可能在用户调研和用户体验方面做得相对多些,通过网上问卷、可用性实验、实景访问调研,结合一些可视化的点击热图、鼠标移动监控等工具来评估用户在使用网站是的整体感受和满意度,这种更加接近用户的分析方法将逐步为网站和产品的优化带来许多新的思考。 自定义Dashboard 其实大部分的网站分析工具和BI报表工具中都会提供自定义Dashboard的功能,以便用户可以将自己关注的指标、报表和图表集成地显示在同一个Dashboard上面,方便日常的观察和分析。本来这是一个很Cool的功能,因为只要稍微用点心,可以把自己的“仪表盘”做得很漂亮,但现实中这个功能没有想象中实现得那么好,或者用户没有去自定义Dashboard的习惯(当然存在数据的组织和关联上的限制以及报表工具易用性方面的问题),但作为数据的提供方,我们在定制好公用的Dashboard的同时,有必要时还要帮助某些特定需求群体定制自定义的Dashboard。 优秀的自定义Dashboard不仅能够合理地组织数据,同时更加可视化地展现数据,让数据的观察的分析不需要这么累,是的,也许用户会爱上这些数据。同时自定义的Dashboard其实还可以有效的控制数据权限,在Dashboard里面将合适的指标和报表开放给用户,从而屏蔽掉一些敏感的数据,数据的保密性对数据部门而言也是一块重要的工作。 不知道读完整篇文章会不会觉得有点空,没有实质的内容或实践性的分析方法,但其实这篇文章花了我很长的时间进行总结和思考,梳理整个数据提供方案的可行的思路,希望能给出一个系统全面的数据组织和提供方案,用数据为线索贯穿企业的各个角落,真正能够建立起数据驱动(Data Driven)的企业文化,让数据不单只是单纯的展现这么简单,能够满足各类人员的不同需要,并最终依靠数据提高企业在各个领域执行的效率和效果。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2015-09-25 09:45:00
5月20日路透社报道称,谷歌已经暂停了与华为的部分业务往来。除了通过开源许可获得的服务外,谷歌已暂停与华为的部分合作,包括硬件、软件和技术服务的转让。 换句话说,华为手机将只能使用开源Android系统,而要和Gmail、Chrome、Google地图、Google Play、Youtube等等一系列热门软件服务说再见。 消息出来之后,国内很多媒体,以及网友们都第一时间出来断言:“华为的海外市场完了。” 这种说法的根据是,由于限制了安卓系统,尤其是谷歌系软件的禁用,将让华为新机在欧洲等市场丧失竞争优势。 但是这里需要厘清的是,从安卓禁令开始执行,到华为新机投放到欧洲市场,再到市场反应生效。这是一个并不短的周期。从此至彼,真的已经是确凿无误的因果关系了吗? 如果细看的话,会发现这其中的变数并不在少数。更何况如今的谷歌与华为,只是中美贸易争端大舞台上的两位小小配角。剧本走向的重点本不在他们身上。 这让我想起不久前的欧冠半决赛,巴萨首回合3:0击败了利物浦。当所有人都在关注巴萨的得冠赔率时,第二回合利物浦4:0完成了“安菲尔德奇迹”。当然我们不是说“奇迹”必然会发生在手机市场上。 只是希望能提醒大家这样一个问题:第二回合才刚刚开始。比赛终场的哨声,先别着急吹比较好。 变数01 谷歌真的愿意失去华为吗? “卡脖子”这三个字我们可能听的太多了,有点斯德哥尔摩综合征的意味。 而至少今天在谷歌和华为之间,并不是单方面“卡脖子”的关系。对于谷歌来说,华为不仅是今天世界上最大的安卓客户之一,同时也是最积极的安卓底层能力贡献者。我们知道安卓是十分在意开发者生态反哺本体的,而华为在这个生态中的地位,已经足够稳固。 比如说著名的安卓卡顿问题。2005年时,被谷歌所收购的安卓系统,自身路线是极度灵活、极度开放和超强的适应性,让这一系统可以适应任何一种硬件条件和开发环境。这就注定了安卓系统会更多的开放接口、加载软件垃圾,加之安卓执行Java代码所采用的虚拟机转换机制,都导致了安卓系统为人诟病已久的卡顿问题。 而安卓卡顿问题很大一部分解药,最终是华为贡献的。从文件系统格式的统一更换,再到GPU Turbo和Link Turbo对图形中间件、内存管理和通信模块的更改,在对安卓系统的一系列“魔改”的过程中,华为已经为谷歌贡献了不少安卓核心技术。 而或许是早就预示到中美之前的博弈压力会下传到手机厂商与安卓系统之上,华为最近还推出准备近十年的了方舟编译器,从基础规则上解决开发者的转码负担,让他们不再需要从Java和C语言两种语言中来回转换,继而让安卓系统的流畅度提升了24%。如果说UI和Turbo技术的出现,还是针对华为自身产品,那么方舟编译器就直接通过全体安卓开发者来为华为加码。 据我们了解,谷歌和华为今天在安卓生态上保持着高效的沟通和频繁的技术交互。而一旦禁令落实,华为必将转向自研系统,对安卓的战略认识将一步步调整。这整个流程下来,华为面临的是损失+变数。而谷歌面临的却是技术盟友和商业盟友的同时丧失,只有损失,没什么变数。 这种局面,真的是谷歌愿意看到的吗? 变数02 90天之间会发生什么? 除去华为与谷歌双方在技术上的互相裹挟以外,影响这一事件的更多因素还取决于政策本身。 毫无疑问,如果没有中美之间的贸易争端,谷歌是万万不会做出这种“杀敌未知自损八百”的事情。安卓系统就和那条装满的大豆的轮船一样,是大国博弈中一个任由摆布标识而已。 从2018年到今天,相信大多数人也看出了大国博弈的拉锯过程:列出筹码、喊话对方、打打停停、边缓边打……可以说这时候任何一种信号都会被放大,同时任何一种信号的执行可能性也会被大打折扣。 就像今天,美国方面又宣布对华为禁令推迟90天实施。在政策的不稳定因素之下,我们很难对华为未来海外市场的表现进行直接推论。 而且政策的变数不仅仅存在于中美之间,在美国科技巨头与政府之间的关系也愈发趋于微妙。像特朗普在硅谷间名声本来就不算太好,加之如今利用反垄断法拆分科技巨头的风声愈来愈烈。科技巨头与美国政府之间可能存在的博弈抗衡,同样也会影响华为禁令的未来走向。 变数03 硅谷讨厌连锁反应 在政策反复横跳之下,市场心理的变化也将对这一事件走向之中再加一分变数。 从中美贸易争端开始,移动终端市场就立刻成为了话题中心。从高通、英特尔芯片断供的可能,再到安卓系统的收费趋势,直到如今对于华为的禁令。即使只是风声,也会不断敲打中国科技企业,告诉他们如今的全球产业链分工有着极大的不确定性。如此一来,会极大的削弱中国市场对于海外科技企业服务和产品的信任。 虽然“外部环境倒闭内部技术能力增长”的论调并不一定成立,但我们确实也看到,在这种威胁之下国内对于自研系统、自研芯片等等问题的关注正在走高,相应的资本和人才投入也与日俱增。有消息称,华为在今年秋天到明年春天就会推出自己的手机系统。 如果谷歌和华为真的走到“分手”这最后一步,华为全面启用Plan B,相信其他终端厂商也很可能在系统上进行迁移储备,以防事态进一步扩大。接下来很可能会是中国硬件厂商,到泛科技企业,更多走向对“迫不得已”的关注与思考。 这个连锁反应,是硅谷很讨厌的。保持现状的普遍期待,或许会倒逼手机市场的一幕分合。 变数04 欧洲用户到底喜欢什么? 假如说前面的几个问题,影响的是华为会不会最终长时间触发“安卓禁令“。那么最后一个变数在于,如果真的触发了,结果是不可收拾的吗? 我们知道,华为的海外市场,可以大致分为欧洲市场和亚非拉美市场。后者对硬件性价比要求更高,真正发力的是华为的规模效应、推广能力和硬件优势。真正让人担心的,是相对高端化的欧洲市场。 那么“安卓禁令“的最终矛盾就在于,华为为代表的中国手机厂商,一定要通过谷歌生态,才能够踏入欧洲吗? 首先我们要弄清楚,华为为什么能够在欧洲市场取得进展。 在华为手机欧洲成绩斐然的2017和2018年,同样也是华为在移动AI和手机摄影中取得重要进步的两年。也就是说,华为手机显然是因为软硬件创新上的优异表现而获得了欧洲市场的欢迎。某种程度上来说,欧洲用户开始“努力“购买华为手机,不只是为了和往常一样在Youtube上看看视频,用谷歌地图查找路线,而是看中了手机摄像和移动AI这些有差异性优势功能。 华为手机在摄影和移动AI上的差异化优势,显然不以谷歌的意志为转移。所以这一部分护城河一直都会在,能够帮助华为抵抗住一部分风险。 同时也要考虑的是,谷歌生态在欧洲占据优势,却也并非绝对优势。 在“科技企业霸权”被硅谷牢牢霸占的二十年间,随着硅谷科技企业的一步步壮大,欧洲本土的科技创新生态无疑受到了相关压制。欧盟推出严苛的GDPR法案,被广泛看作是对谷歌生态霸权的一种反击。 与此同时,需要看到的是Gmail、YouTube等谷歌系应用,都可以用各种方案装到手机里,不一定要通过谷歌服务。“安卓禁令下“真正难以避免的,只有Google Play等业务——恰好也是欧盟在努力压制的那些业务。 二者相加,结论是谷歌服务在欧洲很重要,但绝对不是一道手机里的必需品。反而欧洲市场的增长必需品,是欧洲用户展现出对有创意、低隐私风险的新技术,尤其是AI技术高接纳度。 借着欧洲被压抑已久的科技创新能力,结合华为的新软件服务需求,华为在欧洲尝试重建软件服务生态并非绝无可能。 写在最后 最后还要考虑的是,5G可能带来的洗牌效应正在逼近。 即使看似江山牢靠的安卓,今年的一大任务也是适配5G。在华为与谷歌割裂仅仅只是风声的时候,华为在5G,尤其是欧洲5G上所取得的优势已经是既定事实。正如任正非所说,华为在5G上的领先是别人两三年追赶不上的。对比通信技术的全面更新和手机软件服务生态,两者应该可以形成一种对冲,为华为重建软件生态带来一定的缓冲区。 加上华为日渐浮出水面的“Plan B”,我们也能发现华为对于今时今日这种状况并非毫无准备。而且在两国博弈的背景之下,国内对于华为的支持正在呈现出上扬趋势。即使做最坏的打算,我们也仍然能看到华为在欧洲市场仍然存有生机。 无论如何,接二连三的“科技禁令“对于我们都是一种惊醒。一直笼罩于和平之下的全球科技产业,如同在玩“两人三脚”的游戏,即使曾经捆绑,也不意味着解绑之后无法独立行走。风浪之中的华为已经尽人事。而看客不是裁判,未来才是裁判。 安菲尔德的欧冠半决赛第二场,也许才刚刚开始。奇迹不奇迹的,言之尚早。现在的任务只有一个,就是把球朝门里踢。 利物浦的那首歌是这么唱的: With hope in your heart And you'll never walk alone
来源:大数据中国
发布时间:2019-06-01 22:06:00
什么是 数据化运营 ? 利用 数据分析 ,得到隐藏在数据背后的业务规律,利用这些规则来给运营提供方向、方案、策略,并收集数据结果,进行不断优化,从而提升运营的效率与效果。 运营是什么? 运营工作是一个很细,方向性,目标性强的工作。例如:这个月期望新增活跃用户达到100万【明确的运营目标】,运营就是用尽量少的资源达到期望的目标。 一、定义清楚目标 运营定义目标,活跃用户的定义是什么?例如:是本月有过购买订单,用户有登录,有过评论? 二、目标分解 目标分解,活跃用户来源构成,例如:如下图所示;这个更多是从业务角度来说,根据业务经验,会怎么进行目标分解。同时非常明确各个用户的定义,规模有多大,这个规模就需要从数据上提供。 三、运营目标差距 运营人员利用经验进行了目标分解后,制定目标分解的逻辑。接下来需要 数据分析师 ,数据分析需要帮忙运营人员提取相关的数据。通过数据让业务人员精准的了解业务结构。 通过看这些数据,数据化运营人员就可以非常清楚以下几种事情: 1、如何不采取任何运营动作,那目前每月活跃用户大概50万老用户,27万的新注册会员。流失用户、休眠用户、注册未激活用户可能会有一定的比例用户会在本月活跃,比例分别为:1%、2%、1%,合计会有10万活跃用户。全月预计会至少有87万的活跃。 2、根据数据的测算,运营人员非常明确离当月设定的目标大概有13万的距离,这就是运营目标与实际的gap。因为运营人员需要根据目标差距去获取相应的运营资源来达到目标。 对很多公司来说,如何数据团队你准确、快速给运营人员这些数据,让运营人员通过数据可以非常准确的了解结构,对运营人员是很幸福的事情。通过这些数据分析,运营人员也有运营方向,可以根据目标差距,可获取资源来决定本次针对哪类型的人群来进行发力【数据分析提供了瞄准器,通过这些数据运营人员已经有明确的方向】。 接下来需要更深入的数据分析,分析各个类型的用户有什么样的特征,例如:休眠用户中有多少之前是高消费,之前主要购买了什么,从而建立了用户画像,对用户有全面的了解。运营人员根据这些数据分析的结果就知道可以制定什么样的策略,设计什么样的方案。 对于数据分析师来说,可能需要一定的数据分析、 数据挖掘 的方法,例如:建立RFM模型,通过聚类算法建立用户细分模型,通过流失模型预测每个用户的流失概率。 深入分析用户为什么流失,是因为对价格不满意,商品缺货,商品品质等,还是竞争对手搞活动。通过这些模型和深入的专题分析,让运营人员利用数据来制定非常有针对性的方案。例如,针对流失会员中的之前消费频率高,消费金额高,设计满减活动来挽回。 有二名话来形容数据化运营的话: 瞄准器,心中有数,循环迭代 提升运营效率,提高运营ROI 后续将开始写数据化运营之数据分析,会员分析等方面的文章。 作者: 数据海洋 来源:中国统计网 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2016-03-11 23:22:00
第一次使用手机语音助手的时候,这个令我新奇不已的玩意儿,总是会在我兴冲冲地问一个问题之后,令人失望地回答一句:“我好想听不懂你在说什么……” 后来技术演进,它终于能够通过我的一些关键词,听懂我说什么了。但一板一眼,一字一句,程式化十足。 慢慢地,简单的对话已经难不倒它。语音助手开始不局限于仅仅是对“文本”的理解,而是加入视觉、听觉等分析技术,通过“察言观色”来捕捉人的“话语”背后蕴藏的情感。它们开始试图获取人类的情绪。 就像亚马逊近日所透露的,基于Alexa语音识别情绪的技术能力,他们有计划打造一款类似手表的可穿戴设备,通过捕捉用户的情绪,而去提供更多的服务。 万事不离“视听”:AI探知情绪的主要途径 对人类的情绪进行研究和总结,是一个已经开展了将近一个半世纪的课题。最初研究者们往返于不同的种族人群,进行比对、分析,得出了人类的几大基本情绪类别,然后可以应用在人际交往、医疗护理等行业。 而在人机交互越来越深入的今天,机器能否对人的情绪进行充分的理解,将会直接影响到交互体验。由此而来,诸多人工智能公司开始对机器识别情绪展开了攻关。得益于图像识别和语音识别技术的不断取得突破,目前AI识别情绪主要有两种途径。 第一种是视觉情绪识别。这是一种最基本的情绪识别方式,因为人的情绪往往会以面部肌肉运动的形式来直接呈现,这也是美国心理学家保罗·艾克曼和福里森证明人类有六大基本情绪的直接原因。 而面部识别如今已经是一项非常成熟的技术,通过“喂给”AI大量的面部表情数据,然后进行学习,从而就可以对现实中人脸所呈现的情绪进行判断。国内就有专门做面部情绪识别的人工智能公司,比如旷视、太古等。 第二种是语音情绪识别。人的情绪除了能“看”出来,也能“听”出来。与之直接相关的就是不同情绪下人说话的语调:深沉之于悲伤、高昂之于愉悦等。 相较于视觉识别,语音识别的难度要高了不少。因为情绪与表情的对应度要远高于语调与情绪,比如你很难将哭丧脸与开心联系到一起,但一个人如果说话声音低沉的话可以表示他心情沉重,也可能是因为他的音色本就如此。正因如此,对声音信号的分析才会要求更加精细。百度、谷歌、亚马逊等对此均有一定的技术积累。 除了这两种情绪识别途径之外,通过文本识别和生理信号(脑电波、呼吸、皮肤阻力等)也是AI进行情绪识别的方法,但由于文本涉及的场景狭窄和生理信号的准确率低的短板,其尚不能成为主流的情绪识别方法。 显然,Alexa所擅长的就是第二种途径。在语音情绪识别方面,去年10月Alexa就已经取得了相关专利,其可以通过声音的模式来确定用户的幸福、快乐、愤怒、悲伤、恐惧、厌恶、无聊、压力和其他一些情绪的状态。而如今,这项专利终于要派上用场了。 从买止咳糖浆到在线购物:Alexa听懂情绪后怎样 Alexa是亚马逊专门研究智能语音技术的团队,它的技术要进行应用转化,往往和亚马逊的另一个团队Lab 126(曾经开发过kindle和echo等产品)有关。这一次,两个团队再次携手,准备把语音情绪识别的最新成果搭载到一个类似智能手表的可穿戴设备上。通过与手机APP的连接,来为用户提供个性化服务。 根据亚马逊的内部文件,这款手表的功能定位很简单,就是健康辅助。而在此之外,它还可以通过识别用户的语音特征来进行情绪判断,然后为其提供与他人交流的最佳方式。 根据描述,如果一个女生一边擤鼻涕一边咳嗽一边又跟Alexa说自己有点饿了,那么Alexa就会通过对女生说话的的音调(虚弱、低沉)和背景音(咳嗽、擤鼻涕)分析出她很可能得病了,然后发出来自机器的贴心关怀:要不要来碗鸡汤,或者叫个外卖?甚至直接线上订购一瓶止咳糖浆一小时内送货上门? 说真的,妹子要真有这么一个贴心助理,还要什么男朋友? 从这个角度来说,Alexa作为个人生活助理的角色会得到进一步的加强。比如将其和手机音乐、电商APP等业务进行连接,在感知到你比较悲伤的时候为你唱一支快乐的歌,或者为你购买一盒甜品来让你通过食物获取愉悦感等。 由此而往,Alexa很可能将开启一种全新的语音购物推荐方式。与传统的通过捕捉用户的浏览记录、搜索记录或者通过“窃取”其他用户在手机其他APP上留下的隐私足迹,然后进行毫无目标的泛化、低效的推荐不同,通过感知情绪和问询来为用户进行购物推荐,能够获得更高的成交效率。这无疑将对电商形成巨大的吸引,也是可能成为Alexa获利的一种新的商业模式。 当然,现在这种可穿戴设备尚且处于研究的早期阶段。亚马逊并未完全确定是否执行此项计划。如果技术可行的话,才会进一步地去进行设计。我们这样长篇大论似乎有“过度解读”之嫌。 但在这个时代,最不可小看也最无法预测的,就是技术的走势。如果它真的走入了现实,或许还真有一些东西需要认真对待并妥善解决。 谨防“服务”变成“买卖” 首当其冲需要被关注的,就是我们不厌其烦地再三提及但也不得不提的隐私问题。 隐私数据是互联网时代不可回避的,用户提供自己的数据以获取服务这种交换每天都在发生。在各种APP中,为了改进产品的使用体验,服务商一般都会明确告知会搜集用户的部分隐私数据,并且仅用于改进产品之用。但这种话向来被认为是鬼话,尤其是Alexa还是有前科的——echo就不止一次被用户曝出偷听用户和私自收集隐私的劣行。 但如果是做成监测健康和识别情绪的穿戴设备的话情况又不一样了。智能音箱正常情况下是需要唤醒才能工作的(我们假如非正常情况不存在……),而智能手表等可穿戴设备需要全天候地开启,也就是说它随时随地都在感知着你的变化……想一想,有个东西默默地掌握着你情绪的一切,然后很有可能在背着你做着一些不知情的事情,是不是有点害pia? 获取隐私的边界在哪儿,是需要解决的第一个问题。 其次,需要警惕它由一种私人服务“异化”为不合理的商业用途。上文我们分析过的,它可以和电商达成一种合作,形成一种新的购物模式。但是,如果它所推荐的商品或者商家都是“充值”过的呢?你以为被推荐的商品是最合适的,没想到却是给钱最合适的……利用用户的情绪进行商业分发,显然会给用户添不少堵。 从这个角度来说,如何划分服务和商业的界限,也是需要重点关注的。 最后,每次觉察到人的情绪变化,都会及时做出反应,很可能对人产生两个截然相反的影响。 一是过分地依赖。情绪不好有它安抚,情绪愉悦有它“锦上添花”,将会让人顺着天性而行,缺乏自主的情绪调节能力。成年人还好,如果是儿童的话将很可能对其性格的形成产生不良影响。如何限制儿童使用此类产品,就会成为一个新问题。 二则是引起反感。人与人性格不同,有的人可能会喜欢被安抚,但有的人如果事无巨细都要被“嘘寒问暖”,反而会引起精神的烦躁。这点很好理解,就跟你嫌爸妈唠唠叨叨是一个道理。那么,如何掌握好既能通过察觉情绪提供贴心的服务、又不至于引起反感的节奏,也是个技术活儿。 从总体上来说,Alexa如果能基于情绪识别提供正向的服务的话,还是很值得肯定的。毕竟人机交互到最后阶段,是不可避免的要进行情绪上的碰撞;而基于此提供一些商业化的服务也无可厚非。但由于情绪的私密性和个人化色彩,无论是Alexa还是其他提供类似语音技术服务的公司,都必须要在符合伦理常识和保证体验的前提下,提供有分寸、有边界的服务。 否则的话,被用户抛弃将会是注定之事。
来源:大数据中国
发布时间:2019-05-31 23:28:00
5月27日,备受关注的2019第五届中国(贵阳)大数据交易高峰论坛暨“一带一路”数据互联互通国际峰会拉开帷幕。   在此次以“贡献中国数据智慧、推动数据互联互通、构建全球数据生态”为主题的高峰论坛上,多位政府官员、专家学者和企业高管表示,大数据发展为我国绿色发展提供了一个重要途径,已经成为提高政府财政收入的有力工具。在坚守 数据安全 底线的基础上,打造产学研用相结合的大数据发展生态刻不容缓。   开拓创新型大数据交易体系   贵州省政协副主席、秘书长任湘生在致辞时,回顾并展望了贵州大数据产业发展的情况,对大数据交易产业发展寄予厚望。   任湘生说,期望大数据交易发挥好汇聚数据资源、融合数据资源的重要作用,尽力打好前哨,推动大数据应用不断拓展。   同时,制定大数据交易关键共性标准,不断完善大数据交易体制机制建设,在坚守数据安全底线的基础上,打造大数据交易生态,创建产学研用积极互动的良好格局,开拓发展创新型大数据交易体系。   重新构建大数据版图   清华大学新闻与传播学院院长、原国家新闻出版总署署长柳斌杰,就“打通数字鸿沟,开发数据资源”发表主题演讲。   柳斌杰表示,发展大数据产业要深度挖掘人类创造的数据资源宝库,不仅要高速收集已经数字化了的各种流动、交易的数据,还要激活沉睡在各个角落的数据,让所有的数据活起来,重新构建大数据版图,真正做到数据共享。发展大数据是推进智能化建设的必经之途,大数据是人工智能的基石。   智慧城市本质是大数据驱动的管理与发展   国家信息中心副主任、国家发改委互联网大 数据分析 中心副主任马忠玉发表题为《大数据及其在智慧城市建设中的应用现状》的主题演讲。   马忠玉表示,智慧城市的本质,是大数据驱动的城市管理与发展。大数据的本源在于数据的联通、共享、加工与算法。智慧城市核心,是要构建智能化管理与服务系统并实现O2O的城市大脑。   他还强调,智慧城市能否成功,关键在于城市管理理念和方式要全面改变。智慧城市建设要聚焦事物的本质,即建成真正智慧的城市大脑,能够输出优化的城市管理与治理方案,从“城市战略目标”到“部门业务目标”、“信息系统目标”的设计,要贯穿这一重要理念。他说,智慧城市设计、规划、建设,不是信息和通信技术的堆积,而是数据的采集与加工。   大数据对绿色发展具有重要促进作用   清华大学中国经济社会数据研究中心主任、国家统计局原副局长许宪春发表了题为《大数据与绿色发展》的主题演讲。   许宪春认为,实现我国绿色发展的关键途径在于加快产业结构转型升级,加快新经济发展,而大数据在其中发挥的作用不容小觑。研究大数据对绿色发展的具体影响,有利于推动绿色发展取得实质性进展。   他表示,大数据在资源整合、科学决策、平台建设、环境监管等方面,可以为绿色生产、绿色生活、美好环境提供重要的手段和保障。第一,通过大数据整合资源,促进产业转型升级,实现提质增效;第二,大数据通过建立公共服务平台和数据库推动绿色发展;第三,通过大数据保护生态环境,建设环境监管体系,将促进绿色发展。   “当前,传统的经济增长方式不能再继续,大数据对绿色发展具有显著的正外部性,大数据的开发利用对绿色发展具有重要的促进作用。”许宪春说。   五大策略应对新形势下数据安全挑战   中国网络安全审查技术与认证中心党委书记兼副主任王连印在题为《新技术环境下的数据安全问题》的演讲中,阐述了新形势下的数据安全体系建设的关键点。   王连印表示,目前我国数据安全工作在法治、政策、标准、技术等各方面都有了发展的指引和基本遵循,取得了一定的进展。如今在数据安全上面临泛在化、融合化、全局化的诸多新挑战。为了适应新形势下我国数据安全保障的需求,应重点加强以下工作。   首先,从全球视野看待数据安全问题,只有立足开放环境,加强对外交流、合作、互动、博弈,吸收先进技术,网络安全水平才会不断提高。   其次,对重要行业和领域,以及可能严重危害国家安全、国计民生、公共利益的关键信息基础设施,在网络安全等级保护制度的基础上,实行重点保护。   再次,新技术已经成为数据安全防护的重要途径。利用大数据和人工智能进行态势感知,进行风险识别、研判和预警,解决信息安全问题。   第四,依靠法规标准解决数据安全问题,加快关键信息基础设施识别、保护框架和实施要求等方面的法律法规、技术标准和规范。   最后,加强数据保护与使用,制定出台个人信息保护相关法律配套的制度文件和标准规范,通过管理制度设计和技术防护措施保障数据不被篡改、不毁坏、不丢失。   数据财政替代土地财政成为一种趋势   作为全国首家大数据交易所,贵阳大数据交易所已赢得数千家会员认可,成为国家大数据(贵州)综合试验区首批重点企业,参与了国家大数据政策、标准等的制定及国家科研项目。贵阳大数据交易所执行总裁王叁寿围绕“从土地财政到数据财政”发表了主题演讲。   王叁寿表示,数据财政替代土地财政成为一种趋势,激活政府数据价值的意义不亚于30年前的土地改革。大数据是提高政府财政收入的有力工具,实现数据财政的重要方式是数据资产运营。   近20年来,政府通过盘活土地资源,实现了经济高速发展,城市现代化进程得以加快。然而,随着时代的发展,当前土地财政明显已经难以为继,大数据的出现为新时期发展注明了新的内涵与外延,为国际竞争、地区转型、技术创新、经济发展及社会治理开辟了新路径。“盘活政府数据资源,建设数据财政架构的时机已经悄然到来。”王叁寿说。   王叁寿认为,目前我国数据资源80%以上掌握在政府手中。无论是从数据资源分布特点,还是从数据资源质量来讲,政府数据是现阶段数量最庞大、价值密度最高、涉足广度最宽的数据资源,涉及工商、税务、司法、交通、医疗、教育、通信、金融、地理、气象、房产、保险、农业等众多领域。   财政收入增长的新逻辑,在于激活数据、融通数据、变现数据,运用好大数据工具是实现这一目标的最佳途径。“用增量改革促存量调整,激活政府数据价值是最大的供给侧结构性改革。”王叁寿如此判断。
来源:大数据中国
发布时间:2019-05-31 23:24:00
活动背景:   大数据带来了新的数据处理方式和利用方式,也带来了基于数据的智能应用。作为数据密集型应用的领域,政府数据的采集和利用正带来新的政务服务和管理方式。大数据正带来数据驱动的数字政府建设,并推动互联网+政务、互联网+监管的深化应用。   2019年7月7日,由芜湖市人民政府指导,中科大智慧城市研究院、CIO时代学院、光明网主办,北达软、政府采购信息报协办的“第十三届电子政务高峰论坛”将于安徽芜湖拉开帷幕。我们将邀请到政务领域知名信息化专家、CIO时代学院学员、政府CIO论坛成员、政府机构信息中心主任、电子政务和智慧城市管理者等人群参加本次活动,共同探讨大数据与数字政务建设新趋势。   活动概况:   活动主题:大数据与数字政务建设   指导单位:芜湖市人民政府   主办单位:中科大智慧城市研究院、CIO时代学院、光明网   协办单位:北达软、政府采购信息报   活动时间:2019年7月7日   活动地点:安徽芜湖   近年来电子政务高峰论坛的主题涵盖了智慧城市、数字政府、新一代信息技术创新等,每年一度连续十三年,携手专家大咖齐聚一堂来探讨当下电子政务最热话题。那么如何大数据与数字政务建设有哪些新趋势?如何利用数据驱动实现政务建设新场景?以及如何把握好应用变革的大方向?第十三届电子政务高峰论坛报名热潮来袭,相聚芜湖,邀你来参与。
来源:大数据中国
发布时间:2019-05-31 23:03:00
随着中国市场渠道红利日渐消失,精细化运营与国际市场拓展成为了零售行业的大势所趋。如果说过去的20年,是国外零售企业“走进来”,与本地企业一起推动中国市场走向繁荣的20年。那么未来20年,则是中国零售品牌“走出去”、大力开拓海外市场的黄金时代。 在走出去的过程中,不少潜在的问题困扰着这批企业。本该致力于快速拓展的前线运营团队,却会因为流程断点等问题而消耗有限的精力;本该致力于为一线提供卓越服务的支持团队,却会被陷于成天忙于解决订单支付、成本分配、税率差异等基础性问题;本该运筹帷幄的跨国管理团队,限于数据仪表盘的精准程度,管理决策仿如隔山打牛。从表面上看,这是一系列孤立的技术问题,实质上却是任何一个成功的本土企业逐渐进化为跨国企业的过程中,所必然经历的“成长的烦恼”。 与此同时,随着AI、自动化、 区块链 、物联网等新技术的日趋成熟和融合,一个新的商业时代正在来临。企业需要充分利用这些呈指数级发展的技术,“由内而外”地展开全面的数字化重塑,进化为“认知型企业”,从而更好地应对复杂的客户需求和多变的竞争环境。 作为中国线下新零售的标杆,名创优品在实体零售被唱衰的大环境下,以独特的定位,"优质、创意、高性价比"的产品获得了市场青睐,创立不到6年,就在全球开出3600多家门店,实现170亿年营收。在品牌迅猛增长、全球市场发展突飞猛进的同时,名创优品也意识到,不同于国内市场,众多海外市场在地域、语言文化、政策、法律法规等方面存在巨大差异,形成了错综复杂的市场环境。如何实时掌控80多个国家各门店的经营状况;如何快速完成20000多个产品的认证和准入;如何洞察全球消费者的个性化需求,并将需求快速传递给1000多个供应商;如何将货品准确快速的配发到全球3600多家门店,服务全球3亿多消费者?这些是名创优品面临的一系列挑战。 2017年,名创优品携手IBM,打造以SAP为核心系统的全球业务运营服务平台,并通过大数据的决策与分析,展开了包括供应链、运营、财务、物流、人资等在内的全方位的数字化变革,以实现一体化的精细化运营,支持其在全球的快速扩张,并在这个过程中逐步走向认知型企业。 全球商品精准采购补货,快速周转:新制定的商品管理体系,建立涵盖计划、研发、采购、生产、配送等环节的集团级数据管理平台,可以实现精准采买、补货,提升单店单品配置准确性,同时实现采购业务与供应商的有效协同,快速响应市场需求。全球各门店可以根据实际需求制定采购计划,根据销售进度及时找供应商补货,也可以根据历史数据和经验有针对性地制定促销方案。在各环节数据联通,紧密衔接的情况下,很多门店已实现滞销品减半,库存周转率提高三分之一,人效提升一倍。 全球运营实时掌控,及时响应:新设计的系统化开店管理流程,改变了主要依靠人工管理且进度不透明的情况,实现各部门之间的协同以及开店进度的可视化管理。同时在多语言、多税务、多币种的复杂环境下,高效整合零售、促销、库存管理、现场管理等环节的终端数据,实现了门店运营数据的可视化。如此一来,名创优品就可以告别以往需要几天甚至一个月才能看到整体销售数据的情况,可以及时掌握全球每个国家每天的销售情况,并能及时发现和处理负毛利商品、滞销、缺货、负库存商品等终端运营的异常状况。 全球业务财务一体化,风险可控:业务财务一体化的实现,可以大大提高名创优品账务处理的及时性、准确性、标准化和自动化程度。涵盖多准则同步记账的财务体系,可以满足全球化财务管理的需求,不仅实现总部财务规则上传下达的及时性、准确性,还能更好的符合不同地域的财税要求,降低财务风险,实现高效的内审、内控和共享合规需求。比如,毛利低于一定程度,系统会自动限制该门店该商品的销售;库存超标,系统则自动限制对应商品的采购订单,违反各地区税收和财务规则的业务举措也会在系统中受到限制。 人力资源管理标准化,信息在握:零售企业的人力资源相对分散,在以往的人工模式下,人员的结构、汇报关系、流动情况等信息往往得不到及时的掌握。结合各国零售行业人力资源管理的特点,新搭建了标准的组织结构、岗位职级体系,不仅可以实现全球人力资源的规范化的管理,还能实施掌握人事信息,员工可以自助查询申请进度,经理在线审批,查看团队成员各类信息,从而有效支撑公司的业务发展和领导决策分析。 目前,项目第一期已于2018年8月在美国和印度尼西亚成功上线,2019年上半年则覆盖了中国、印度和泰国等国家,计划下半年推广到其他国家,并在未来逐渐完成80多个国家门店的平台建设。如今,不论在哪个国家,或者其他国家与中国总部之间,系统、流程之间数据信息的实时连接和打通,能够让名创优品见微知著,真正做到以小见大,以不变应万变。 名创优品全球联合创始人兼首席执行官叶国富表示:“随着名创优品国际化步伐的加快,公司需要将消费者的需求快速传递给全球供应商,将货品准确快速地送达全球门店,并实时掌握全球各个国家的经营状况等。与IBM的合作正在为了帮助我们打造和巩固这些能力,这有助于我们加快国际化步伐,尽早实现百国千亿万店的中期目标。IBM拥有丰富的行业经验和很多全球化的成功案例,在商品企划、运营、人才本土化等方面给了我们很大支持,是一个企业走向全球化的最好帮手。” IBM大中华区全球企业咨询服务部总经理麦俊彦表示:“AI、 云计算 和大数据等新兴技术的日渐成熟与融合,带来产业变革的新机遇,锐意创新的企业正在积极地展开由内而外的重塑,形成和巩固差异化竞争优势。我们很高兴能与名创优品合作,依托IBM的国际化资源与经验,尤其是IBM在零售行业的深厚积累,以及端到端的咨询服务优势,帮名创优品展开数字化重塑,形成全球化平台服务能力,助其在全球快速扩张,并在这个过程中迈向认知型企业。”
来源:大数据中国
发布时间:2019-05-22 15:16:00
什么是 交叉验证 法? 它的基本思想就是将原始数据(dataset)进行分组,一部分做为 训练集 来训练模型,另一部分做为测试集来评价模型。 为什么用交叉验证法? 交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。 还可以从有限的数据中获取尽可能多的有效信息。 主要有哪些方法? 1. 留出法 (holdout cross validation) 在 机器学习 任务中,拿到数据后,我们首先会将原始数据集分为三部分: 训练集、验证集和测试集 。 训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。 这个方法操作简单,只需随机把原始数据分为三组即可。 不过如果只做一次分割,它对训练集、验证集和测试集的样本数 比例 ,还有分割后数据的分布是否和原始数据集的 分布 相同等因素比较敏感,不同的划分会得到不同的最优模型,而且分成三个集合后,用于训练的数据 更少 了。 于是有了  2. k 折交叉验证(k-fold cross validation) 加以改进: k 折交叉验证通过对 k 个不同分组训练的结果进行平均来减少方差,因此模型的性能对数据的划分就不那么敏感。 第一步,不重复抽样将原始数据随机分为 k 份。 第二步,每一次挑选其中 1 份作为测试集,剩余 k-1 份作为训练集用于模型训练。 第三步,重复第二步 k 次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。 在每个训练集上训练后得到一个模型, 用这个模型在相应的测试集上测试,计算并保存模型的评估指标, 第四步,计算 k 组测试结果的平均值作为模型精度的估计,并作为当前 k 折交叉验证下模型的性能指标。 k 一般取 10, 数据量小的时候,k 可以设大一点,这样训练集占整体比例就比较大,不过同时训练的模型个数也增多。 数据量大的时候,k 可以设小一点。 当 k=m 即样本总数时,叫做  3. 留一法(Leave one out cross validation) ,每次的测试集都只有一个样本,要进行 m 次训练和预测。 这个方法用于训练的数据只比整体数据集少了一个样本,因此最接近原始样本的分布。 但是训练复杂度增加了,因为模型的数量与原始数据样本数量相同。 一般在数据缺乏时使用。 此外: 多次 k 折交叉验证再求均值,例如:10 次 10 折交叉验证,以求更精确一点。 划分时有多种方法,例如对非平衡数据可以用分层采样,就是在每一份子集中都保持和原始数据集相同的类别比例。 模型训练过程的所有步骤,包括模型选择,特征选择等都是在单个折叠 fold 中独立执行的。 还有一种比较特殊的交叉验证方式, Bootstrapping:  通过自助采样法,即在含有 m 个样本的数据集中,每次随机挑选一个样本,再放回到数据集中,再随机挑选一个样本,这样有放回地进行抽样 m 次,组成了新的数据集作为训练集。 这里会有重复多次的样本,也会有一次都没有出现的样本,原数据集中大概有 36.8% 的样本不会出现在新组数据集中。 优点是训练集的样本总数和原数据集一样都是 m,并且仍有约 1/3 的数据不被训练而可以作为测试集。 缺点是这样产生的训练集的数据分布和原数据集的不一样了,会引入估计偏差。 此种方法不是很常用,除非数据量真的很少。 各方法应用举例? 1. 留出法 (holdout cross validation) 下面例子,一共有 150 条数据: >>> import numpy as np >>> from sklearn.model_selection import train_test_split >>> from sklearn import datasets >>> from sklearn import svm >>> iris = datasets.load_iris() >>> iris.data.shape, iris.target.shape (( 150 , 4 ), ( 150 ,)) 用 train_test_split 来随机划分数据集,其中 40% 用于测试集,有 60 条数据,60% 为训练集,有 90 条数据: >>> X_train, X_test, y_train, y_test = train_test_split( ... iris.data, iris.target, test_size= 0.4 , random_state= 0 ) >>> X_train.shape, y_train.shape (( 90 , 4 ), ( 90 ,)) >>> X_test.shape, y_test.shape (( 60 , 4 ), ( 60 ,)) 用 train 来训练,用 test 来评价模型的分数。 >>> clf = svm.SVC(kernel= 'linear' , C= 1 ).fit(X_train, y_train) >>> clf.score(X_test, y_test) 0.96 ... 2. k 折交叉验证(k-fold cross validation) 最简单的方法是直接调用 cross_val_score,这里用了 5 折交叉验证: >>> from sklearn.model_selection import cross_val_score >>> clf = svm.SVC(kernel= 'linear' , C= 1 ) >>> scores = cross_val_score(clf, iris.data, iris.target, cv= 5 ) >>> scores array([ 0.96 ... , 1. ... , 0.96 ... , 0.96 ... , 1. ]) 得到最后平均分为 0.98,以及它的 95% 置信区间: >>> print ( "Accuracy: %0 .2f (+/- %0 .2f)" % (scores.mean(), scores.std() * 2 )) Accuracy: 0 . 98 (+ /- 0.03) 我们可以直接看一下  K-fold  是怎样划分数据的: X 有四个数据,把它分成 2 折, 结果中最后一个集合是测试集,前面的是训练集, 每一行为 1 折: >>> import numpy as np >>> from sklearn.model_selection import KFold >>> X = [ "a" , "b" , "c" , "d" ] >>> kf = KFold(n_splits= 2 ) >>> for train, test in kf.split(X): ... print( "%s %s" % (train, test)) [ 2 3 ] [ 0 1 ] [ 0 1 ] [ 2 3 ] 同样的数据 X,我们看  LeaveOneOut  后是什么样子, 那就是把它分成 4 折, 结果中最后一个集合是测试集,只有一个元素,前面的是训练集, 每一行为 1 折: >>> from sklearn.model_selection import LeaveOneOut >>> X = [ 1 , 2 , 3 , 4 ] >>> loo = LeaveOneOut() >>> for train, test in loo.split(X): ... print( "%s %s" % (train, test)) [ 1 2 3 ] [ 0 ] [ 0 2 3 ] [ 1 ] [ 0 1 3 ] [ 2 ] [ 0 1 2 ] [ 3 ] 资料: 机器学习 http://scikit-learn.org/stable/modules/cross_validation.html https://ljalphabeta.gitbooks.io/python-/content/kfold.html http://www.csuldw.com/2015/07/28/2015-07-28%20crossvalidation/ 作者:Alice熹爱学习 链接:https://blog.csdn.net/aliceyangxi1987/article/details/73532651 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-06-16 01:59:00
近两年,企业级市场迎来了久违的爆发性增长,归结原因不外乎三点:首先是网络能力,伴随通信基础网络建设逐渐增强,无线网络即将迎来5G时代,有线网络百兆日趋普及,同时三大运营商在政策指导下积极实践“提速降费”,对于用户而言,使用网络和流量不再是“奢侈”的事情,这也为互联网创新和服务升级奠定了坚实基础。 其次源于客户需求,各行业的转型升级浪潮要求通信方式变革,适应业务创新的需求,企业内外部沟通已从早期单纯的话音、短信等逐渐发展为基于互联网形式的即时通讯、实时音视频等多种交互方式,这不仅是技术和产品形态的创新,更是企业级客户的实际诉求,在全球信息化浪潮的推动下,中国传统企业的数字化转型和信息化改革也在快速推进,未来ICT技术将成为像水电气一样的基础设施,供信息化转型的企业随时随地随需使用。 最后是技术革新,以大数据、 云计算 、人工智能为代表的新一代信息技术正不断改变传统的互联网产业格局,越来越多的企业希望借助新技术实现自身的产品能力升级,以此在新一轮的数字化革命中占据核心位置,深入推动产业互联网、工业互联网版图的扩张。企业级通信服务也是如此,正在从简单的办公交流,逐渐融入到企业的生产体系和应用领域,企业级通信未来无疑将朝着云化、全融合、全场景的方向驶去。 正是基于以上市场诉求,企业级通信市场成为了各方高度关注和逐鹿的重要领域,当腾讯、阿里等BAT巨头纷纷从To C端转头攻入To B市场后,企业级市场注定是波澜不断,谁会在激烈的市场竞争中拔得头筹,什么才是企业通信下一个“黑科技”,业界拭目以待。 艾瑞调研报告显示,在国内即时通讯云业务市场统计中,融云位居市场占有率榜首,这已经是融云蝉联第一的第四个年头。提起融云,也许业界对这家公司并不十分熟悉,但在企业级通信云服务市场上,融云可是一名合格的“老兵”。 融云成立于2014年,自成立之日就将目标锁定在了“即时通讯云”,由于该公司的技术骨干全部出自当时的飞信团队和三星研究院,这让融云在即时通讯技术拥有了天然的核心技术实力,可以将高质量的即时通讯能力封装成SDK提供给广大开发者和产业合作伙伴。 正是凭借核心技术的领先优势,低调的融云先在互联网市场打开局面形成了市场深耕,然后又于2017年拓展至企业级市场,渐渐形成了稳固的客户群体,应该说,口碑先于品牌建立。 如今,在融云公有云平台上,日常活跃人数已经超过了7000万,平均每小时的信息交互量近10亿条,融云SDK触达用户数全球突破30亿。能够拥有和运营如此庞大用户基数的通信云平台,除了要感慨下中国这一得天独厚的市场环境之外,我们更好奇的是,融云是如何做到的? 近期,通信世界全媒体记者独家采访融云CTO杨攀,解开企业级通信服务独角兽——融云背后的技术奥秘。 融云CTO杨攀(右)接受通信世界采访 企业级服务“理想美好,现实残酷” 据相关数据统计,截至2017年12月,中国即时通讯用户规模已经达到了7.20亿,较2016年底增长5395万,增长率为8.1%。在如此前景可期的市场发展下,来自IT、互联网乃至电信运营领域的企业都看准了企业通信服务这块“大蛋糕”,希望在未来盘子做大时分得一杯羹。 然而“理想美好,现实却残酷”,企业级服务是典型的非标服务,这意味着每一家企业都会根据自身的情况和需求提出千差万别的个性化需求,而如何能够满足这些非标需求则是很多“后进者”的市场门槛。毕竟对于那些互联网企业以及电信运营企业而言,一直提供的都是标准化、通用化服务能力和平台。 而在医疗、教育、金融、游戏、房产、智能硬件等众多领域已经积累众多行业客户的融云却深谙企业级服务之道。对于制胜的秘诀,早已身经百战的杨攀似乎有太多感受,但总结起来只有两句话:对技术心存敬畏之心,唯有客户不可辜负。 “这两句话也是融云的企业文化和价值观,我们是一家技术型公司,对于技术的不断追求和突破是融云得以发展壮大的根本,所以公司的每一位员工都会谨记,唯有不断提供更好的技术和产品,才是融云对于客户服务最好的诠释和表达。“杨攀如是说。 据了解,融云的即时通讯服务集成融云SDK,可实现单群聊、私信、红包、图片、语音和小视频等通信能力,也可以为企业客户提供私有化部署以及个性化的定制,同时融云提供开放平台与主流办公软件如OA、CRM、ERP等服务商实现对接,让通信真正融入企业流程和日常运营,帮助企业实现办公与沟通的高效协同。 据悉在过去,融云主要以互联网客户为主,但近几年,伴随国内信息化浪潮席卷而来,传统企业和政府机关对信息化和数字化有了更明确的需求。如何通过信息化手段实现产业升级和内部流程改造,成为了很多传统大型生产企业以及企事业单位的重要命题。融云从中看到了商机,在2017年大跨步挺进了企业级市场,依靠自身过硬的技术实力和平台运营能力,融云实现了企业级服务的快速扩张,成为了IM“亿级俱乐部”的重要玩家。 融云企业IM应用场景 玩转企业级通信先过“亿级”门槛 为何企业级通信服务市场一定要提及“亿级”这个数量单位? 能够支撑每分钟10亿条高并发场景是通信云的“试金石”,是考验通信服务能力的重要指标。融云在公有云市场通过为客户服务经受了“亿级高并发” 的考验,这种能力为企业通信级市场提供可靠保障。 一些体验过企业IM的用户告诉记者:在信息化转型需求下,很多企业办公信息化提供商都声称自身具备IM能力,但问题在于,每当迎来高峰时段或登录用户太多,系统就会出现各种“不稳定”,严重时甚至还会宕机。 也就是说,提供企业级通信服务并非难事,但如何在高并发、大流量的情况下依然能够保证正常运行才是核心所在。目前,尽管市场上能够提供即时通讯、实时音视频服务的厂商有很多,但深究起来,真正能够支撑“亿级高并发”的平台,也只有微信、融云等少数几家企业而已。 对于极度苛求服务和质量的企业客户而言,对出现“卡顿、丢包、延时”等问题都是“零容忍”——任何一次微小的网络抖动或者数据丢包的背后,所影响的可能是大型企业的跨国谈判、关键行业领域的一次重要数据传输。 这是企业级通信云服务的特殊属性,也是很多通信云服务商对于企业级市场望而却步的主要门槛。高质量、稳定性、安全性——企业客户对于通信云服务的核心诉求从未改变。融云深知其中道理,对于技术的追求从未停歇。 杨攀告诉记者:融云的员工里,80%都是技术人员,我们还特别成立了一个团队,主要职责就是通过AI算法去分析所有能够获得的链接质量日志,网络日志等,针对那些网络崩溃和异常做分析并及时反馈给相关部门,然后在下一个版本进行迭代和优化。“虽然每次只能优化一点点的问题,但日积月累下来却能够产生质的飞跃。”杨攀这样表示。 安全和可靠是企业级通信服务首要保障 安全和可靠是企业级通信服务的首要保障,为此融云在产品和服务上不断精益求精,首先在平台搭建上,融云通过成熟的私有通信协议和完善的代码结构,实现了亿级并发的高性能、分布式的微服务方式、集群化的部署;在系统稳定性方面,融云选择与全球最优秀的IaaS云服务商联手搭建通信加速网,对数据进行透传,不涉及传输数据的落盘存储,并且传输链路进行了加密,保障 数据安全 的同时也最大限度降低了网络延时和网络丢包等问题;在安全性方面,融云形成了一套独有的“四层五防”安防体系。 经过长期的技术积累和运营打磨,如今融云的通信云服务能力在业界已经有口皆碑,同时也成为业内唯一一家公开向客户承诺“信息不丢、不重复、不乱序”的企业。 据悉,融云独有的“四层五防”安防体系,即为客户建立了从客户端、链路、服务器到运维管理全维度安全防控;下沉到业务层,融云还针对客户以下五种场景进行安全防护,由此可以避免通讯链路被窃听、客户端被破解、信息存储被盗取、认证信息被窃取,甚至是员工手机丢失造成的信息泄露。 业务升级从“即时通讯云”到“互联网通信云” 在融云看来,当下企业级通信服务正在迎来产业升级换代的关键期,传统的即时通讯服务在ICT新技术的带动下实现进阶。为了抢占产业核心位置,融云在今年开辟了全新赛道:在原有的即时通讯业务基础上,引入了实时音视频业务线,实现了基于IP通信的全场景通信能力,融云的业务赛道也从“即时通讯云”拓宽至了“互联网通信云”。 融云全新定位:安全可靠的全球互联网通信云 在杨攀看来,增加实时音视频业务线是大势所趋,电信级网络不断拓宽已经为互联网产业发展构筑了坚实的平台,人们线上交互沟通的方式也在更新迭代,正从最初的图文短信到语音通话,发展为如今的视频交流,乃至即将到来的物联网通信。 “融云看到了这一趋势并将其引入到企业级市场,希望借此为客户实现全场景化的通信能力,以公有云、私有云及混合云的方式帮助企业推进数字化转型。”杨攀如是说。 据介绍,目前融云的实时音视频业务主要包括实时音视频通话、千人会议、会议控制、互动白板、屏幕共享、录音录像等功能。同时可以对接语音转文字、人脸识别、CDN推流等系统。融云实时音视频具备部署简单、扩展灵活、容错容灾、网络优选与弱网对抗等技术优势,以保证低成本地输出高性能的实时音视频能力。 有了实时音视频业务的加持,融云也可以定制出更加贴近应用场景和用户需求的解决方案,目前已经在各领域得到了广泛应用。“我们不会盲目扩张,而是一步一个脚印地走好企业通信市场的每一步,以扎实的技术功底和完善的解决方案为企业通信赋能。”杨攀这样表示。 据悉,为了保证全球通信服务能力的提供,融云也在全球设立了多家数据中心,具备3000多个加速点,其通信网络已经覆盖全球233个国家及地区,为中国“出海”企业和拥有全球化运营需求的企业提供全球化通信加速网络的唯一选择。 融云全球通信服务覆盖233个国家及地区 而在未来,性能和安全依然是融云产品不变的服务理念,融云将依托自主搭建的全球通信网络,通过混合云的模式为各类客户,打造让客户放心的“全球互联网通信云”,以“敬畏之心”继续加大技术研发力量,实现核心技术的不断发展与突破。
来源:大数据中国
发布时间:2018-12-21 10:44:00
  作者 | Bernard Marr 译者 | Sambodhi 编辑 | Vincent 微信公众号 | “AI 前线”(ID:ai-front) 就在短短几年前,人们想用人类语言与机器进行“会话” ,体验让人感到沮丧,感觉就像一个喜剧。 今天,这一切都发生了改变。虽然自然语言处理和识别技术还远未达到完善的程度,但得益于 机器学习 算法的发展,人们越来越难以分辨究竟是在和机器还是和人类“说话”。 业务部门已经充分利用了这一点,越来越多的公司都在客服部门部署了聊天机器人,在内部流程中越来越依赖聊天机器人,并用来协助培训员工。 在温哥华举办的 ICLR 2018,Salesforce 的首席科学家 Richard Socher 提出了七项突破性的研究成果,涵盖了自然语言处理的实际进展,包括摘要、机器翻译和回答问题。 他告诉我,“自然语言处理技术对商业来说,将会非常重要:它将从根本上改变我们提供服务的方式、我们如何理解销售流程以及我们如何进行营销。尤其是在社交媒体上,你需要自然语言处理来了解你的营销信息以及人们如何看待你的品牌。” 当然,这就引发了一些问题,其中一个最明显的问题就是:人们真的想与机器交谈么?从商业角度来看,这是合乎情理的:用一台机器进行 1000 次同时进行的客服回话,要比一个巨大的人工呼叫中心来做的同样的工作来得更划算。 但是从客户的角度来看,他们得到了什么呢?除非他们得到的服务更快速、更高效、更有用,否则他们可能不会使用聊天机器人。 Socher 说:“我的观点并不能代表全世界部署的所有聊天机器人,因为有一些做得并不是太好。但在我们的案例中,我们得到了非常积极的反馈,因为当一个机器人正确地回答问题或满足你的要求时,它做得非常非常快。到最后,用户只需要一个快速的回答,原本人们想的是他们要和一个人会话,因为做出选择是通过按十分钟的菜单,或者听上十个选项,然后按下一个相应的按键。这样的方式,一点都不好玩,也不快,更没效率。” 实现高效利用自然语言处理技术的关键是聚合和增强的概念。 人工智能 和聊天机器人可以被用来监视和从每一次会话中获取见解,并从中学习如何在下一次会话中表现得更好,而不是只考虑一个人与一台机器之间的会话。 增强意味着机器不必进行整个会话。聊天机器人可以“介入”日常事务,例如回答组织知识库中的直接问题,或获取付款细节。 在其他情况下,实时分析的速度意味着机器人可以在检测到变化的时候提高警惕,例如,检测到客户变得愤怒时,就会让人类操作员接管会话——这要归功于情感分析。 摘要是自然语言处理的另一个非常有用的功能,它有望越来越多地应用到聊天机器人上。在企业内部,机器人可以在需要的时候快速消化、处理和报告业务数据,而且新成员可以快速提升自己的业务速度。而对于面向客户的功能,客户可以得到关于产品和服务项目的总结回答,或者技术支持的问题解答。 聊天机器人是“智能助理”技术的一种形式,它可以为你的手机上的 Siri 或 Google Assistant,或者你桌面上的 Cortana 赋能。一般来说,它们只专注于组织内的一个特定的任务。 Spiceworks 一项研究发现,40% 的大型企业将在 2019 年前实施智能助理或聊天机器人。(https://www.spiceworks.com/press/releases/spiceworks-study-reveals-40-percent-large-businesses-will-implement-intelligent-assistants-chatbots-2019/) 其中 46% 表示,自然语言处理将用于语音文本听写,14% 用户客服,10% 用于其他 数据分析 工作。 聊天机器人在协作型工作环境中应用也越来越普遍,比如 Slack,它们可以监控团队之间的会话,并在会话中的相关位置提供相关的事实或统计数据。 在未来,聊天机器人有望更进一步发展,并提出解决商业问题的对策和建议。 Socher 告诉我,“它们有望基于对过去成功的所有事物的理解,帮助我们制定营销信息。” 另一个例子是客服机器人,它们可以根据所拥有的会话的分类和情感分析来分配资源处理客户案例。 与所有 人工智能 一样,自然语言处理的发展还远未完成,我们今天所能拥有的会话水平,无疑在短短几年时间内会显得太过做作和不自然。 但今天,企业显然越来越适应了这个想法:将聊天机器人和智能助手集成到它们的流程,并相信这样做会带来效率和客户满意度的提高。 原文链接: https://www.forbes.com/sites/bernardmarr/2018/05/18/how-artificial-intelligence-is-making-chatbots-better-for-businesses/2/#5e0288273cf2 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/55876.html 。
来源:数据分析网
发布时间:2018-06-15 09:10:00
“大数据”如今已渗透到人类生活的方方面面。随着各种数据库的大量出现,传统文史研究也发生了变化。近年来,与“e考据”和“数字人文”相关的研究日趋增多,因此,进一步探索如何更切实地将理论、方法与研究实践有机结合,就变得十分重要。扬弃既有研究成果 大数据时代对传统文史研究产生的影响,首先表现在资料上。近些年新推出的电子资源在内容上甚至有超越传统出版物之势,检索的快捷性和精确度,可以令学者省却翻检群书、游历访书之劳。在这样的学术环境下,探讨某些疑难问题可能只需简单检索,许多“悬案”的解决难度也相应大幅度降低。前人因资料局限而不得不大量运用的“理校”“推论”“悟证”诸方法,在大数据时代无疑要重新进行扬弃。在学术史研究中,清人往往因所见善本不丰而大量运用“理校”法展开研究,其中有的结论或与善本相合或遭善本否定。今人既然已经能够在研究中大量占有善本供校勘,那么这种研究方法虽仍有学习的必要,但其实用性也难免会打些折扣。大量新材料理应引发大量新结论,一些“常识”或“定论”必然也会随之遭到质疑甚至颠覆,这对于现有的研究自然会有相当明显的刺激作用。近年来学界对于近代学人的成就时有争论,原因之一就在于当时学者以一人之力所做的资料性工作,精度和效率都很容易被数据库所超越。不少在民国时期“古史辨”中几乎成为公认的定论,随着出土文献的发现而被推翻(典型的例子如对《孙子兵法》的辨伪),足见新材料在某些研究领域确实处于相当核心的地位。通过数据库重新打捞那些以往不被关注的文献,这实际上仍是发现新材料,其性质与考古相似,亦可称之为当下的“预流之学”(陈寅恪:《敦煌劫余录序》)。与此相关的一个问题是,在超过120亿字的可检索的古典文本,以及各种不同类型的数据库中,还蕴藏无限问题可供发掘。而这些数据资源能否被学者使用,很大程度上取决于其所在单位购买的数据库数量。在高校间已有明显“数位落差”的现实条件下,学者个人的学术水准有可能受到所处文献环境的制约,而不同文献环境导致的信息素养的差异可能会进一步拉大这一差距。数据库大量涌现,学术评判标准也会发生变化。出于“功利”眼光计算,当代学者费尽周折的考据工作,很可能被下一代学者轻易解决。其原因并非人的智力、才能有别,而是文献环境不断变化提供的巨大方便使然。一代有一代之学术,面对不同的环境,学术范式也应随之转移。所以,当下正是海量文献可供使用、可以大有作为的时代,也是考据研究缺乏亮点而趋于同质化的时代。换言之,即使是在数据仍未被充分电子化的当下,考据研究的合法性也正在受到冲击。一般性的文献挖掘仍然重要,但能够解决核心学术问题的研究更为重要。  引发学术伦理讨论 在电子检索受到学界瞩目的同时,一些批评尤其是对于学术伦理的讨论也随之热门起来。电子检索的高效快捷,令不少学者担忧其可能引发更严重的学术不端。比如,有的研究者可能对相关领域了解有限,但在检索工具的助力下仍敢匆匆上马,轻易立说;有的研究者征引繁复,可谓博瞻,但实际上许多材料是脱离语境的“遥读”,经不起细加辨析;有的研究者过于迷信电子文本的全面性,但却因此而忽略了那些未被电子化的文献;有些电子文本存在错误,研究者未核查原书导致误引误断;等等。对这些实际存在甚至时显泛滥的问题,我们可以尝试从以下几个方面来进一步认识。首先,技术本身是中立的,上述批评很大程度上是在针对研究者个人的文史素养和治学态度,并未否定技术能够令优秀学者如虎添翼。而擅长检索的学者也能够认识到文史素养的重要性,并非一味依赖电子资源。从现实情况看,电子技术确实使那些曾经看上去遥不可及的一流学者(尤其是实证型学者),变得可以企及了,这至少是正在提升学术研究的平均水准。校勘、笺注、考据中的一些前期工作,可由计算机更精准地代劳,在人机结合的研究过程中,“高明子弟,自然沉潜”。其次,当下的电子文本绝非完美,即使是扫描版也往往不能完全忠于原书,引用之前必须与原始文献核对,不能径用。但这恰好说明,现在的数据库还没有脱去以往“工具书”的性质。前人做研究,亦会查阅类书、索引等,甚至常有转引、代查的现象,这证明“工具”本来也不被排斥。如将数据库理解为一种高级的“逐字索引”,则其学术价值自然彰显。此外,纸质文献(尤其是整理本)同样常常有误。古籍校勘中,也多有以“通行本”为底本的典范。事实上,核心问题不在于当下的电子文本有多少具体错误,而在于能否使注释具有可回溯性和规范性。如果一味排斥征引电子文本,很可能也会使数据库开发者缺乏将电子文本精确化的动力。  促进材料深度辨析 一般观点通常认为,电子检索作为一种“捷径”,往往令学者过于重视关键词,却忽视同一词语所处的不同语境。时代的风气、作者的习惯、史料的性质等,都在大数据时代的考据中付之阙如。在笔者看来,这种弊病在传统文史研究中同样并不少见,却有可能在大数据时代觅得新的解决契机。首先,大数据时代资源丰富,找寻辅证、反例的难度都较以前小,可以在一定程度上防治孤证武断,并有益于深入理解史料所处的特殊语境。其次,当大数据呈现出全部信息时,可以在多方面帮助学者辨析问题,甚至可以用“结构取义”的方式展开新的研究思路。例如高树伟在研究《永乐大典》的辑佚条例时,推翻了认为《大典》“直取全文”的成说,并且依靠海量文本对校的方式,提出了《大典》征书的新通例。这一认识既变,或许在一定程度上可以借助通例建立参考系,并以此来重新认识前人辑佚的成果,不妨称之为类似于“理校”的“理辑佚”。黄一农最近在脂批本“宁”字抄写避讳的研究中,也提及抄本研究应建立参照系,这些见解似可遥相呼应。又如在文本细读工作中,作者究竟是直接使用某一典故,还是受到文化传统影响,实际存在多种可能。笺注、考据家往往侧重于锁定甲乙间的因果承袭关系,但容易忽视文化大传统的潜在影响。近年来古代文学研究引入“互文”理论,尝试说明这种影响往往是网络状、多源多流的。张昊苏在此基础上提出“e互文”思路,意在指出大数据时代有助于深入理解这种多样性。借助大数据提供的便利,考据学出现了“后发先至”的现象。前辈学者经年研究的难题,很可能被新一代学人在短时间内解决。至少在这类问题上,信息素养的意义很可能要高于传统知识体系,掌握查找知识的能力很可能也比掌握知识更为高效且重要。这里并非是说新时代的学者可以不掌握知识而解决问题,而是说,信息素养可以出于研究的需要,迅速进入新的领域并建构具有针对性的知识体系,这种大幅度的跨界是传统学者较难做到的。当然,就目前的研究状况来看,大数据时代“数字人文”研究还没有作出第一流的成果,多数成果仍然是在研究具体问题,而尚未建立新的范式。但近十余年来这一领域的学术积累正以指数级速度增长,足以令人期待由“量变”产生“质变”。或许,未来传统学者也应该未雨绸缪,需要考虑能否做出不被数据库遮蔽、凸显研究者个性的学问。(作者单位:南开大学文学院)来源:中国社会科学网-中国社会科学报 作者:张子轼 声明:本文图片来源于“东方IC” 获取更多学术资讯 请关注中国社会科学网官方微信公众号cssn_cn
来源:大数据中国
发布时间:2018-12-18 12:40:00
编译 | Debra 编辑 | Natalie 微信公众号 | AI 前线(ID:ai-front) 不同方法得出结果不同:德国 vs 巴西 和往年一样,大家预测的冠军不尽相同,但目前争论的焦点集中在德国和巴西谁会夺冠上。 据媒体报道,几天前俄罗斯彼尔姆国立研究大学的大四学生制造的神经网络,预测 德国队将在 2018 年世界杯中夺冠,而世界杯前三名将是德国队、巴西队和阿根廷队 。据说,这项预测的准确度超过 80%。 而瑞银则由一支 18 名分析师和编辑组成分析师团队,运用计量经济学,在衡量了球队实力,资格记录和往年世界杯表现等因素后,对比赛进行了 10000 次计算机模拟,预测了比赛的可能胜者。根据其 5 月 17 日发布的报告, 瑞银预测今年世界杯冠军将花落德国,获胜可能性为 24%,其次是巴西 19.8%,西班牙 16.1%,而常年失利的英格兰以 8.5%的成绩排名第四,法国、比利时和阿根廷也被视为黑马 。 搞笑的是,瑞银全球财富管理部门首席投资官 Mark Haefele 仍然坚持认为英国有成为冠军的潜力。2014 年世界杯,瑞银的预测团队中因为有英国队铁杆球迷的存在,把 数据分析 结果排名第十的英国队硬生生拗成了冠军。看来真的是英国队的死忠粉啊。 然而,也有人用机器学习得出截然相反的预测结果—— 巴西将赢得冠军 。肯尼亚投资银行 Genghis Capital Investment Bank 的投资银行分析师 Gerald Muriuki,日前在 Medium 上公布了他使用机器学习预测 FIFA 2018 的结果。 逻辑回归 方法 Muriuki 使用逻辑回归的方法,利用两个 Kaggle 数据集(https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data ),以及 1930 年以来所有的参赛队伍的赛事数据结果,来进行赛事预测。 环境和工具 :jupyter notebook、numpy、pandas、seaborn、matplotlib 和 scikit-learn。 首先,将需要的库和数据加载至数据框。 经过加载库、数据集、探索分析和特征工程、范围缩小至参加世界杯的球赛、创建数据框部署模型等步骤之后,这个模型就可以进行预测了。 这是小组赛的部分预测结果 : 这是 16 强的预测结果 : 它还对四分之一决赛进行了预测 : 半决赛预测: 总决赛预测:巴西战胜德国 但 Muriuki 坦诚这个模型还有改进的空间,如通过评测球队队员素质提高数据质量、用混淆矩阵分析模型预测问题所在,或者使用多个模型提高准确率。 统计学方法 KDnuggets 上一位球迷借鉴了 FiveThirtyEight 预测 2014 年世界杯的方法(https://fivethirtyeight.com/features/how-fivethirtyeights-world-cup-predictions-compare-to-other-ratings/ ),通过统计学得出了相反的预测结果: 德国战胜巴西 。 FIFA 世界排名(https://www.fifa.com/fifa-world-ranking/ranking-table/men/index.html ):所有 211 支国家足球队的排名系统,得分基于 FIFA 认证过的所有国际赛事成绩。这不是最好的系统,但已经够用了。 Elo 排名:由 Dr. Arpad Elo 创建,原为 FIDE 国际象棋比赛而设计。这个复杂的矩阵基于比赛类型计分,并考虑到双方的目标分数差距,与 FIFA 的最大不同在于它考虑了友好比赛。 TransferMarkt 球队价值:这个总部位于德国的网站提供关于足球的所有信息,包括每个知名球员的价值,并列出了参赛国家球队及其价值。据该网站估计,所有在列表中的球队总价值约 106.4 亿欧元。 投注赔率:使用投注比较网站 OddsChecker,采用每个国家最大赔率。 收集完这些信息之后,该球迷进行了预测: 四种方法预测 2018 世界杯结果 KDnuggets 预测结果 如果 KDnuggets 的预测准确,以下就是本届世界杯赛程的最终结果:德国、巴西、西班牙分别为前三名。 人肉预测 英国《电讯报》进行的一项调查显示,大多数人还是看好德国赢得冠军。 Sporting life 没有预测谁会赢得冠军,但猜测了一把参赛国家队将在什么时候 out,比如认为英格兰会在四分之一决赛被淘汰。 机器学习、 大数据 … 预测有准头吗? 不管是用了什么方法,看起来多么复杂,预测结果准不准还得另当别论。因为事实证明,很多看起来靠谱、头头是道的预测结果往往抓瞎得很。比如华尔街最靠谱的高盛,预测 2014 年世界杯时便被啪啪打脸。当时高盛由大名鼎鼎高盛经济学家凯文·戴利(Kevin Daly)带领的量化分析师团队建立了自 1960 年以来正式国际足球比赛数据的模型,对其进行回归分析,通过一个叫“elo”的动态模拟系统“掷骰子”分析赛果,同时根据泊松模型(一种概率模型,用于预测进球而非预测胜负)预测小组赛的比分。结果呢,八强预测错了三个(哥斯达黎加、比利时和哥伦比亚),四强错了一个(西班牙),小组赛的赛果正确率只有 37.5%,还铁定押宝巴西会夺冠,让人哭笑不得。 彭博社的方法与高盛类似,是在各国国家队 FIFA 积分的基础上,模拟了 1 万次比赛结果,结果也与高盛类似,认为西班牙会在和阿根廷打平后点球进入决赛,最终输给巴西。然而尴尬了,西班牙早就在之前的比赛中已经 out 了…… 德银的模型更离谱,它的模型据说综合了 FIFA 排名、历史战绩、球员构成和赌球赔率等因素,算出的夺冠概率前四名是巴西、德国、西班牙、法国,但是德银的分析师在建立模型时,综合了一个据说是“历史夺冠轮回”的理论,最终,他们计算出的结果是巴西无缘 8 强,而英格兰将夺冠。然而,英格兰也早早打铺盖回家了…… 一众大佬在 2014 年世界杯预测中被无情打脸,然而,百度的预测却出乎意料地相对准确。据说,当时这家公司的数据科学家团队搜索了距当时 5 年内全世界 987 支球队(含国家队和俱乐部队)的 3.7 万场比赛数据,同时与中国彩票网站乐彩网、欧洲必发指数数据供应商 Spdex 进行数据合作,导入博彩市场的预测数据,建立了一个囊括 199972 名球员和 1.12 亿条数据的预测模型,并在此基础上进行结果预测。在大多数人预测巴西将夺冠的情况下,仍然坚持德国将胜出。结果巴西意外爆冷,奖杯被德国拿走。 根据以上分析来看,今年无论是机器学习还是大数据的方法,或多或少都借鉴了以往所使用过的方法,2014 年世界杯预测的结果大家也有目共睹。所以说,世界杯冠军到底将花落谁家将受到很多因素的影响,比如天气、球员状态、场地情况、任何意外事故,等等,如果真能料事如神,赌球的网站早就关门大吉了。而这也是世界杯的魅力和球迷为之疯狂的原因所在,不到最后一刻,谁也不知道会不会发生惊天逆转。 安静吃瓜看球的诸位球友们,你最看好哪支队伍夺冠呢? 参考链接: https://www.kdnuggets.com/2018/06/football-world-cup-predictions.html https://medium.com/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576 本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/55815.html 。
来源:数据分析网
发布时间:2018-06-14 08:10:00
亚马逊 的Alexa在国外是非常热门的 智能音箱 ,只需你说出它的唤醒词,比如“Alexa”、“Echo”或“Computer”,它就能对你的声音指令作出响应,比如帮你播放音乐、开灯、关灯等等。但现在这一特性也让人们开始担心自己的隐私。 据西雅图当地媒体报道,亚马逊旗下智能音箱产品Echo可能会秘密记录你的谈话内容,某些情况下,还可能将其发送给其他人。 上周,这种事情就发生在位于美国俄勒冈州波特兰市的一个家庭中,放置在室内的Echo记录了用户在家中的谈话,并将此对话发送到了该用户电话联系人列表中的某随机联系人。事发后,该名女子联系了亚马逊,亚马逊回应称该公司“非常重视隐私”,并表示该情况“极其罕见”。在一份声明中,亚马逊把该事件原因归结为其智能语音助手Alexa误判了用户的指令,以为该用户是想发送一段语音给某联系人。 而在今年4月份, 来自安全公司Checkmarx的研究人员发现了一种方法,可以让Alexa窃听、记录并发送用户的谈话记录。 Checkmarx说他们在4月初通知了亚马逊这个漏洞,亚马逊向CNET的记者证实,目前已经解决了这个问题。在亚马逊的智能音箱Echo产品介绍页面上可以看到这些信息: 总是会变得越来越聪明;使用Echo越多,Echo越会适应你的声音模式、词汇以及个人喜好。 亚马逊提交的相关专利描述中近一步还提到,未来智能语音设备可识别相关兴趣语句,并针对喜好进行精准广告推送。 国内的智能硬件也越来越普及,尤其是智能家居相关的产品,包括智能音箱、智能摄像机、智能电视、智能空调等等, 尤其是最为敏感的智能音箱和智能摄像机,相当于家里装了智能“耳朵”和“眼睛”,如果使用不当,个人隐私会有泄漏的风险。 谷歌提交过相关的专利描述: 未来智能家居系统能够监视家庭的一切活动场景,并通过设备获取多种信息,无论是家庭成员对电视节目的喜好,还是他们的卫生习惯,都可以通过这项相关新技术获取。 物联网技术和 人工智能 技术在给用户带来极大的方便的同时,因其持续的收集相关的个体行为数据,也会给用户的隐私带来潜在的风险。 在物联网技术和 人工智能 时代,如何有效的保障数据安全和个人隐私尤为重要。 个人认为,数据收集和使用方,应该做好 大数据 全生命周期安全与隐私保护等相关举措: (1)数据采集与传输安全。 大数据 在采集的过程中需要从源头保证数据采集的安全。数据采集时对数据的安全性进行分级处理以实施不同等级的保护,同时敏感数据要进行加密处理。数据加密技术是最基本的安全技术,是信息安全的核心。它通过变换和置换等各种方法会被保护信息置换成密文(如用哈希函数加密),然后再进行信息的存储或传输,即使加密信息在存储或者传输过程为非授权人员所获得,也可以保证这些信息不为其认知,从而达到保护信息的目的。数据传输的完整性通常通过数字签名的方式来实现。传输安全指在数据的生成、传输和访问过程中,确保数据的完整性、准确性及排他性。 (2)数据存储安全。 数据存储安全指在数据保存上确保完整、可靠、保密、有效调用,通常包括三层含义:一是存储设备自身的高靠性和高可用性,高靠性指设备故障时,在降级状态下依然能够完成数据存储工作;高可用性是指设备故障时,系统可便利恢复容错能力,走出降级状态。二是保存在存储设备上数据的逻辑安全。三是静态和动态数据加密,对大数据中需要保密的敏感数据,静态数据一般是先加密再存储,动态数据加密常见的一种方法是同态加密。 (3) 数据挖掘 安全。 大数据挖掘是从海量数据中提取和挖掘知识,机器学习是大数据挖掘的一种常见应用。大数据挖掘安全也需要做好隐私保护。目前数据挖掘中的隐私保护方法按照策略分为三种,包括数据扰乱法、查询限制法和混合策略法。基于隐私保护的数据挖掘主要集中关联规则挖掘、隐私保护分类挖掘和聚类挖掘、隐私保护的序列模式挖掘等方面。另外,大数据挖掘安全技术方面还需要加强第三方挖掘机构等身份认证和访问管理,以确保第三方在进行数据挖掘等过程中不植入恶意成熟,不窃取系统数据,确保大数据安全。 (4)数据发布与应用安全。 数据分布与应用安全关键技术包括用户管控安全技术和数据溯源安全防护技术。 第一方面,用户管控安全技术:在数据应用过程中需要对数据用户进行管理和控制,对他们进行身份认证和访问控制,并对他们的安全行为进行审计。在身份认证方面,随着身份认证技术的发展,融合动态口令认证和生物识别技术的强用户认证、基于Web应用的单点登录技术得到广泛应用。大数据用户管控采取的访问控制主要根据访问策略或权限限制用户对资源的访问,通常采用自主访问控制、强制访问控制和基于角色访问控制的组合策略。大数据用户管控的安全审计主要是记录用户一切与系统安全有关的安全活动,通过审查分析发现安全隐患。 第二方面,数据溯源即对数据应用生命周期的各个环节的操作进行标记和定位,在发生数据安全问题是可以准确的定位问题的环节和责任,以便对数据安全问题制定更好的安全策略和安全机制。数据溯源需要在多个分布式系统之间进行数据追踪,通常采用数字水印技术。 (5)隐私数据安全。 隐私数据包括个人身份信息、人口特征、财产状况、通信内容、社交信息、位置信息等,隐私保护的研究主要集中在如何设计隐私保护原则和算法,既保证数据应用过程中不泄漏隐私,同时又能更好的利用数据的应用。 数据匿名化技术是隐私保护技术中的关键技术。包括k-匿名、l-diversity匿名、t-closeness匿名、个性化匿名、m-invariance匿名、基于“角色构成”的匿名和Differential Privacy差分 用户隐私 等方法,由于篇幅所需,在此重点介绍Differential Privacy差分用户隐私。 苹果 在2016 年6 月份的WWDC 大会上就提出了一项名为Differential Privacy 的差分隐私技术。 苹果公司软件工程高级副总裁克雷格·费德里吉在WWDC的主题演讲上称,“为了让软件更加智能,我们必须找出不同用户的相同设备使用风格。 作为统计学和 数据分析 领域的研究主题,差分隐私利用了哈希、二次抽样和噪声注入等方式,使在完全匿名的前提下解析个人信息一事成为了可能。 ”苹果公司的差分隐私技术值得借鉴,因此,我们重点展开,具体包括: 第一、局部抽样。 相对于完整的上传所用用户的资料,苹果公司通过抽样技术采集一部分用户的数据,而不是全部。其假设是某一群用户的行为相对稳定,预期性更强,与其分析每个用户,不如分析典型群体来做行为预测。 第二、哈希加密。 如对用户的某些敏感数据,可以先用哈希函数加密。 第三、注入噪音。 在采集用户对数据前,向其随机注入一些噪音,如注入符合拉普拉斯分布的数据,那么在对总体数据进行分析时,这些噪音并不影响结果。 现今,法律也对用户隐私的保护极为重视。 2018年5月25日,《通用数据保护规范》GDPR将正式生效。所有收集欧盟(EU)国家公民数据的企业,将必须在明年正式执行有关用户数据保护的严格新规—《通用数据保护规范》(GDPR) 。GDPR的目标是保护欧盟公民免受隐私和数据泄露的影响,同时重塑欧盟的组织机构处理隐私和数据保护的方式。根据普华永道的调查数据显示,68%的美国公司预计将花费100万到1000万美元的投入来满足GDPR的合规性要求;另有9%的企业预计将花费超过1000万美元。 如果企业没有满足GDPR的合规性要求将导致什么后果?每一单GDPR违规行为将受到高达2000万欧元的严重处罚,或者上一年全球年营业额的4%,以较高者为准。Facebook今年大规模数据泄露事件,就是未经用户允许擅自将收集的到大量用户个人数据提供给了剑桥分析数据公司,Facebook因此事件也受到了法律的制裁。 为了应对GDPR,将欧洲作为重要市场的华为,为了确保有效的落实隐私保护各项要求,华为将通过成立已久的“全球网络安全与用户隐私保护委员会”的保护官,直接向CEO汇报。华为所有业务单元均设置有专职的隐私相关的角色和(或)组织。 同时根据GDPR的要求,华为还任命了欧盟数据保护官。 最后,个人建议数据采集和使用企业,一定认真的研究数据安全和保护用户隐私,这样,大数据和人工智能才能更良性的发展。 参考文献: (1)NIST Big Data Public Working Group. Big Data Security and pirvacy [R]. Gaithersburg: NIST, 2015:5 (2)吕欣,韩晓露,大数据安全和隐私保护技术架构研究,信息安全研究,2016年3月 (3)关于《通用数据保护规范》GDRP详见https://www.eugdpr.org 本文为专栏文章,来自:傅志华,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/55136.html 。
来源:数据分析网
发布时间:2018-06-03 22:53:00
大数据 文摘作品 编译:张南星、傅一洋、郑璇真 Judea Pearl帮助 AI 在概率计算上取得了巨大进步,但是仍然叹息道:AI在因果关系计算上无能为力。 AI得以发展到今天的聪明才智,离不开Judea Pearl的功劳。20世纪80年代,他带领一批人实现了机器的概率推导。 而现在,他却成为了AI领域最坚定的反对派之一。在他最新的一本书《疑问之书:因果关系的新科学》( T he Book of Why: The New Science of Cause and Effect )中,他指出AI进步最大的一个掣肘在于,对“智能”到底意味着什么的基本性认识不足。 三十年前,AI研究最大的挑战在于,如何通过编程让机器学会将潜在的原因与所观察到的现状进行联系。Pearl通过一个叫做贝叶斯网络的方法解决了这个问题。 贝叶斯网络让机器能够将现象与可能的原因联系起来:比如有一个病人刚从非洲回来,有发热和头痛的症状,那么最可能的解释就是他感染了疟疾。Pearl也因为这项成就获得了2011年的图灵奖——计算机科学界的最高荣誉。 但正如Pearl所看到的那样,AI领域陷入了概率关联的泥沼。如今,社会被各种吹捧机器学习和神经网络最新研究突破的文章所淹没。我们总是能读到诸如机器掌握了传统游戏的玩法、学会了驾驶汽车之类的文章。Pearl对此无动于衷,在他看来,如今的AI只不过是上一代机器的加强版:从一大堆数据中找到隐藏的规律。 “所谓 深度学习 所取得的重大成就,加起来不过就是曲线拟合,”他说道。 81岁的Pearl在他的新书中详细阐述了真正拥有智能的机器的思考方式。他认为机器真正拥有智能的关键在于能够使用因果推论,而非通过相关关系推论。 例如,仅仅做到将“发热”和“疟疾”联系起来是不够的,机器还要能推导出“疟疾会导致发热”。一旦这种因果的框架建立起来,机器就有可能提出一些反事实问题——如果施加某种干预,那么因果关系将会发生什么变化——Pearl视之为科学思考的里程碑。 同时,Pearl还提出了一套实现这种思考方式的形式语言——21世纪版本的贝叶斯框架,让机器能够概率性的思考。 Pearl期望因果推理能够赋予机器人类级别的智能。他解释说,在这种级别的智能下机器能够与人类更有效地沟通,甚至进行道德层面的交流,因为它们已经具备了自由意志——当然,也会有罪恶念头。 Quanta 杂志社最近在圣地亚哥的一个会议上与Pearl取得了联系,并在会议后对他进行了电话采访。以下是删选过的采访内容: Kevin Hartnett :为什么给新书起名叫作《疑问之书》? Judea Pearl :这本书涵盖了我过去25年所做的关于因果关系的工作,即因果关系在一个人的生命中意味着什么,因果关系的应用,以及我们会如何根据固有的因果关系来答问。奇怪的是,这些问题都被科学界抛弃了,我在此就是想弥补科学界对于因果关系的忽视。 H:科学界舍弃了因果关系这种说法还挺让人惊讶的。这不正是科学的全部吗? P:当然,但是你没法通过科学方程式实现这个愿望。代数语言是具有相称性的:如果x能推导出y,那么y就能推导出x。我是在说必然关系。但是我们没法使用数学语言描述一些简单的事实——比如,即将到来的暴风雨会让气压表的读数下降,而不是上升。 数学中不存在描述不对等关系的语言,诸如如果x导致了y,并不意味着y一定会导致x。我知道反对科学听起来非常可怕,如果我对我妈这样说,她可能会奖励我一巴掌。 但是科学是非常宽容的:当注意到我们缺少描述不对称关系的演算之后,科学会鼓励我们去创造一个。这时数学就发挥了很大的作用。当我意识到一个很简单的因果关系演算就能解决问题时,我整个人都惊呆了,当今最厉害的统计学家都会认为这个方法非常糟糕或者根本无法解决问题。但其实,所有这些我们能很轻松的在高中几何学中找到证明。 H:几十年前,您曾通过指导机器进行概率推导而在AI领域取得了盛名。能解释一下当时AI界发生了什么吗? P:在20世纪80年代早期出现的问题是人们对于预测和分析诊断本质的思考。当医生观察一个病人的一系列症状时,他会得出这个病人罹患疟疾或者其他疾病的概率。我们希望自动化系统、专家系统能够代替专家——不论是医生、是矿物探寻者、还是别的什么需要付钱聘请的专家。在那个时候,我就想着能不能用概率的方式解决这个问题。 不幸的是,标准的概率计算模型需要巨量的空间和时间。我想出了一个叫做贝叶斯网络的算法,只需要多项式时间,并且过程非常透明。 H:另外,在您的新书中,您称自己为当今AI界的叛徒。这是什么意思呢? P:事实上,在创造出了帮助机器对不确定性进行推导的工具之后,我给这个领域引入了一个更具挑战性的任务:对因果关系进行推导。许多AI界同事还在执着于不确定性研究,许多研究还在以分析诊断为核心,无需考虑问题的因果关系。他们想做的就是得到好的预测结果和分析诊断结果。 我可以举一个例子。现在所有我们看到的机器学习的研究都是以诊断模式执行的——即,给事物打上“猫”或“老虎”的标签。他们不在乎“例外情况”,他们想要的只是识别物体,以及预测时间序列下物体的变化。 当我创造出预测和诊断分析强有力的工具的时候,我就觉得自己像个叛徒,因为我知道这只是人类智能的冰山一角。如果我们想要机器能够对某些干预下的“例外情况”进行推导(例如,如果我们禁烟会怎么样?),或者进行反省性思考(例如,我高中毕业后会做什么?)时,我们必须使用随机模型。相关关系是远远不够的——这是因为数学本身的客观缺陷导致的,而不是个人主观想法。 H:人们都对AI未来可以做到的事情充满了希望,而你不是? P:当我看到越来越多深度学习的研究之后,我觉得他们都在相关关系的层级上停止前进了,譬如曲线拟合。虽然这听起来有点残酷,但所有令人印象深刻的深度学习研究成就加起来,实质上不过就是把曲线拟合到数据上。从数学层级的角度来看,无论在处理数据、分析数据时多么熟练,都不过只是一个曲线拟合练习,尽管这个过程复杂且繁琐。 H:你谈论曲线拟合的方式,让人觉得机器学习的成就并没有怎么打动你。 P:不,我印象很深,因为我们原本并没有期望能够通过简单的曲线拟合能够解决很多问题,但事实上它做到了。我抱有怀疑的是关于未来的发展——接下来我们能期待什么?我们是否能创造出一个机器人科学家,做出试验计划,找到未解决科学问题的新答案?这是我们接下来要做的事情。 我们同样希望能够与机器进行有意义的沟通,而有意义则意味着符合我们的直觉。如果你没法让机器人具备因果关系的直觉力,那么就无法与之进行有意义的沟通。机器人不会说出:“我原本可以做的更好”这样的话,而这是你我天生就能做的。这样,我们就失去了沟通的一个重要渠道。 H:那么对于机器掌握了因果关系直觉力的未来,我们可以期待什么? P:我们需要给机器部署环境模型。如果机器没有现实模型,那么我们就无法期待机器在现实中表现得很智能。首先第一步,也许是10年之内会发生的事情,就是人类给机器部署现实概念模型。 下一步,机器将基于这些模型,自行基于历史经验验证或定义新的模型。这也就是科学界的工作方式,例如,我们从由圆形及本轮组成的地心说模型开始,最后以椭圆轨道的日心说结束。 同样,机器人也能彼此交流,并能把这个假想的、野蛮的世界,转为隐喻式的模型。 H:当你和正在AI领域工作的人说起这些想法的时候,他们是什么反应? P:AI界如今各分天下。如果给那些沉醉于机器学习、深度学习以及神经网络成就的人说我这些想法的话,他们并不会理解我。他们只想继续曲线拟合。但如果和那些在AI界中非统计学习领域工作的人讲,他们很快就会领会我的意思。过去这两个月,我已经读到了几篇关于机器学习局限性的论文。 H:你的意思是不是说,在机器学习之外有一些别的趋势呢? P:不是趋势,而是一个严肃的意志探索之旅,我们需要不断地自我拷问:我们要去哪?下一步要做什么? H:这正好是我最想问你的。 P:我很高兴你没问我关于自由意志的问题。 H:那么,你是怎样看待自由意志的? P:我们未来一定会创造拥有自由意志的机器人,这点毫无疑问。我们需要思考的是怎么实现这一点,以及我们希望从中获得什么。由于某些原因,进化让自由意志之感知在计算机层面变得可实现。 H:怎么说? P:进化让我们具备了自由意志的感知。显而易见,进化遵从于一些计算函数。 H:如果机器人拥有了自由意志,会有很明显的特征和信号吗? P:我认为第一个特征就在于,机器人开始出现一些反事实的交流,譬如说:“你本应该做的更好”。如果一队正在踢足球的机器人开始以这样风格的语言进行交流了,那么我们就知道它们某种程度上拥有了自由意志。“你应该把那个球传给我的——我在等你,但是你没这样做!”“你本应该……”意味着你本可以做到一些冲动和欲望之下你想做的事情,但是你没能做到。所以第一个信号会是交流形式的变化,第二个会是行动上的改进。 H:现在你已经谈了很多关于自由意志的内容,也许是时候问一下你关于罪行的问题了。罪行往往建立在有能力做选择的基础之上。什么是罪恶? P:罪恶就是当你的贪婪或者不满超过了所有常规社会标准时,你内心存在的意念。譬如说,一个人内心有类似于软件模块的定义说:“你饿了,因此你被准许采取一些行动来满足你的贪婪或不满。”但同时,有别的模块规定你需要遵守社会规章制度,其中一个叫做同理心。当你把你的不满提升到这些通常意义上的社会规章制度之上时,罪恶便随之产生。 H:所以我们如何得知AI具备了犯罪能力? P:一个征兆就是机器人持续地忽略部分软件组件,或者当机器人开始遵从一些组件的指令而忽略掉别的组件,尤其是当它们忽略了那些让它们遵守基本行为准则的组件,而这些组件或者已经被部署在它们内部,或者本来是希望它们基于历史学习进行获取的。而机器人却不再遵从。 相关报道: https://www.theatlantic.com/amp/article/560675/from=singlemessage&isappinstalled=0 本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/54984.html 。
来源:数据分析网
发布时间:2018-06-02 14:56:00
随着信息技术和人类生产生活不断融合,互联网快速普及,全球数据呈现爆发增长,这对经济发展、社会治理、国家管理、人民生活都产生了重大的影响。当前全球大数据正进入加速发展的时期,技术产业应用创新不断迈向新高度。 近日,国家统计局与联合国经济和社会事务部将在杭州建立大数据研究所,这是联合国机构首次与相关国家合作建立大数据研究所。这一项目能够充分发挥中国地方政府和企业在大数据领域的先发和引领优势,重点聚焦新技术、新产业、新业态,更好服务于经济和社会发展。 权威国际研究机构预测,到2020年,中国数据总量将会超过8万亿GB,占全球数据总量的20%左右。我国正在成为数据量最大、数据类型最丰富的国家之一,这样规模化的优势为创新发展提供了关键要素。由此可见,我国大数据发展也正在快车道上不断前行。 数据是最有价值的战略资源 众所周知,大数据具有容量大、类型多、存取速度快、应用价值高等主要特征。大数据的集合过程,就是对来源分散、数量巨大、格式多样的数据进行采集、存储,并进行关联分析,从而发现新知识、创造新价值、提升新能力。大数据时代,正是从“人人互联”逐步延展至“人机交互”“物物相联”,发展空间无限广大。 工业和信息化部总经济师王新哲在2019大数据产业峰会上指出,大数据是新时代的“数字宝矿”,是当今世界最有价值的战略资源。大数据与5G、 云计算 、人工智能、工业互联网等新一代信息通信技术结合,从根本上改变了经济发展的模式,重塑了全球产业链分工。近年来,我国大数据产业蓬勃发展,产业规模日益壮大,融合应用不断深化,数字经济量质齐升,对经济社会的创新驱动、融合带动作用显著增强。 作为产业发展主管部门,工业和信息化部将扎实推进大数据战略,深入推动大数据与实体经济融合发展,加快发展壮大以数据为关键要素的数字经济,为促进我国经济实现高质量发展提供重要支撑和保障。具体而言,工信部将重点做好6个方面的工作:一是完善网络设施,夯实发展基础;二是推动协同创新,增强发展活力;三是深化融合应用,拓宽发展领域;四是构建支撑体系,优化发展环境;五是增强安全保障,促进健康发展;六是加强国际合作,推动开放发展。 从政策推进到行业应用,我国大数据产业发展均呈现积极向上的势头。中国通信标准化协会理事长奚国华指出,我国发展大数据有四大特点。 一是中国将发展大数据上升为国家战略,并持续深入推动。这种持续性的方向引导和顶层设计,使我国在大数据发展规划布局、政策支持、资金投入、技术研发、创新创业等方面均走在了世界的前列,尤其是在应用市场上。 二是数据资源内容丰富,从人人互联走向万物互联的格局形成,新形态不断出现,零售、医疗、交通、能源等率先沉淀大数据资源。 三是技术产业快速壮大,我国大数据软硬件自主研发能力正在提升,新兴专业化大数据企业创新活跃,我国独有的大体量应用场景和多类型实践模式,促进了大数据领域技术创新能力处于国际领先地位。 四是融合应用蓬勃发展,无论是从新增企业数量、融资规模还是应用热度来说,与大数据结合紧密的行业正在从传统的电信业、金融业扩展到健康医疗、工业、交通物流、能源行业、教育文化等行业,行业应用脱虚向实趋势明显。 大力开发数据资源,赋能各行各业 随着大数据与实体经济的融合更加深入,精确营销、智能推荐、应用信用评价等不断普及,个性化定制趋势明显,智慧医疗、智能交通等新模式、新业态不断涌现,为培育新兴产业提供了广阔的空间。而跨行业、跨领域的大数据资源开发,唤醒了越来越多“沉睡”的数据,开发出层出不穷的新数据。 我国大数据产业的发展离不开政产学研用各方通力配合,一方面,大数据服务于企业,海量的数据已经成为企业最具价值的财富,发展“数字经济”已成共识,大数据技术的应用场景也越来越广泛。比如电商巨头阿里巴巴,从市场营销到平台设计,从市场预测到决策支持,从效能提升到运营管理,从云计算到人工智能,都在使用大数据发挥重要的支撑作用。另一方面,大数据开始蔓延到社会的各个领域,让城市越来越智慧,协助解决交通、消防、警务、医疗、城管等群众最关切的“难点”“痛点”。 数据的开发只是第一步,如何妥善保存和利用数据才是建设数字中国的关键所在。目前,社会各界对数据应用背后的管理还不够重视,数据质量低、数据“孤岛”普遍存在, 数据安全 管理不到位,数据流通共享不畅的问题成为困扰大数据应用往前发展的障碍。为此,奚国华强调,各方都需要像重视实物资产一样重视数据资产的管理,为实现数据价值的持续释放打好基础。 还要着力深化大数据行业应用,当前大数据行业中的应用主要集中在数据处理、用户画像以及企业管理效率优化等方面,下一步应重点推动大数据在更深层次与实体经济的融合,这需要鼓励大数据技术企业不断提升大数据平台和应用的可用性和操作便捷程度,优先支持面向各应用行业的产品、服务和解决方案的开发,简化大数据底层繁琐的技术,并方便大数据行业的部署。 云网数融合,迎接5G数据爆发时代 大数据技术价值正在各行各业得到彰显,现在大数据的价值在互联网领域得到了充分的发展,例如,电商平台根据每个人的喜好推荐物品、新闻平台用大数据的一些算法推荐用户喜欢的信息等,都属于大数据技术在互联网行业的应用。 当然这些行业应用离不开云计算、物联网、AI等技术的相互配合,中国电信在云网数方面开展了深入的融合,其发展经验值得行业借鉴。中国电信股份有限公司云计算分公司副总经理徐守峰阐述了天翼云的云网数融合发展历程,中国电信于2009年布局天翼云产业,在十年时间内,天翼云的市场份额稳居国内云市场前三位,尤其是在大数据领域,天翼云领先优势比较明显。 2018年中国电信提出“云改”口号,从技术设施、产品服务和机制体制等3个方面对整个企业进行重新变革。 改基础设施即是围绕着云计算、5G、边缘计算等重新布局,同时,对网络进行改造已经达成业界的普遍认知和共识。 在产品服务方面,天翼云从简单的云逐步走向融合发展,从云走向云网,从云网走向云数、云物、云智。天翼云有两项核心智能,一个是云计算,另一个是大数据,这是从云简单的开始走向了融合的发展道路。 在机制体制方面,边缘计算场景现在正在逐步丰富,包括智慧企业、智慧园区以及对带宽要求比较高的游戏、VR/AR、4K/8K高清视频等智能应用。而“云+边缘计算”的高效协同,也将助力大数据产业高效发展。 在5G时代,三大应用场景的上线定会催生很多新业态,包括无人机投递、VR游戏、工业机器人、视频安防、远程医疗等应用场景。当5G大规模商用以后,业界会开创出更多数字内容、数字形态,促进大数据产业的发展。
来源:大数据中国
发布时间:2019-06-13 17:21:00
从Logistic回归开始,然后尝试Tree Ensembles和/或Neural Networks。 奥卡姆的剃刀原理: 使用最简单的算法,可以满足您的需求,并且只有在严格需要的情况下才用更复杂的算法。 根据我自己的经验,只有神经网络和梯度增强决策树(GBDT)正在工业中广泛使用。 我目睹Logistic回归和 随机森林 被弃用不止一次(这意味着它们是好的开始)。 从来没有人听说有人在公司中讨论SVM。 优点和缺点 这里讨论最流行的算法。 有关 机器学习 算法的完整列表,请查看 cheatsheet 。 朴素贝叶斯 超级简单,只是做了一堆计数。 如果NB条件独立假设实际成立,那么朴素贝叶斯分类器将比 逻辑回归 等区分性模型更快地收敛,因此您需要更少的训练数据。 即使NB假设不成立,NB分类器在实践中仍经常表现出色。 如果你想做某种半监督式的学习,或者想要一些令人尴尬的简单表现很好的话,这是一个很好的选择。 没有分布要求, 适合少数类别变量 计算独立分布的乘积 受到多重共线性 Logistic回归 逻辑回归仍然是使用最广泛的, 了解更多 一个相当好的分类算法,只要你期望你的特征大致是线性的,并且问题是线性可分的,就可以进行训练。 可以做一些特征工程,将大多数非线性特征很容易地转化为线性特征。 它对噪声也很稳健,并且可以避免过度拟合,甚至可以使用l2或l1正则化来进行特征选择。 逻辑回归也可以用于 大数据 场景,因为它非常高效并且可以使用例如ADMM(请参阅logreg)进行并发。 输出可以被解释为一个概率:您可以将其用于排名而不是分类。 运行一个简单的l2正则化LR来提出一个基线 无分布要求 用少数类别分类变量表现良好 计算logistic分布 适合少数类别变量 容易解释 计算CI 遭受多重共线性 很多方法来调整你的模型 不需要担心相关的特征,就像朴素贝叶斯一样。 轻松更新模型以接收新数据(使用在线梯度下降法) 如果您需要一个概率框架(例如,轻松调整分类阈值,说出何时不确定,或获得置信区间)还是希望在将来能够接收更多的训练数据迅速融入您的模型。 Lasso 没有分布要求 计算L1损失 具有变量选择特点 遭受多重共线性 Ridge 没有分布要求 计算L2损失 不具有变量选择 不受多重共线性 何时不用 如果变量是正态分布的且分类变量都有5个以上类别:使用线性判别分析 如果相关性大部分是非线性的:使用SVM 如果稀疏性和多重共线性是一个问题:具有Ridge(权重)的自适应Lasso + Lasso 线性判别分析 LDA:线性判别分析,不是潜在的Dirichlet分布 需要正态分布 不适合少数类别变量 计算叠加的多元分布 计算CI 遭受多重共线性 支持向量机 SVM vs LR: 支持向量机(SVM)使用与LR不同的损失函数(Hinge)。 他们也有不同的解释(最大边缘间隔)。 然而,实际上,具有线性内核的SVM与Logistic回归没有太大区别(如果您好奇,可以看看Andrew Ng如何从他的Coursera机器学习课程中的Logistic回归中推导SVM)。 您希望使用SVM而不是Logistic回归的主要原因是您的问题可能不是线性可分的。在这种情况下,您将不得不使用具有非线性内核的SVM(例如RBF)。 事实是,逻辑回归也可以用于不同的内核,但在这一点上,出于实际原因,您可能更适合使用SVM。 使用SVM的另一个相关原因是如果您处于高维空间。例如,据报道支持向量机可以更好地用于文本分类。 高准确度,在考虑过拟合时有很好地理论保证。 使用合适的内核,即使数据在基本特征空间中不能线性分离,它们也可以很好地工作。 在非常高维空间是常态的文本分类问题中尤其受欢迎。 没有分布要求 计算铰链损失 灵活选择非线性相关的核 不受多重共线性 很难解释 缺点: 训练可能会很痛苦。不推荐有很多实例的任何问题。不推荐大多数“工业规模”应用的SVM。除了玩具/实验室问题之外的任何事情可能会更好地用不同的算法来处理。尽管如此,内存密集型和烦人的运行和调优,所以我认为随机森林正在开始抢夺冠军。 决策树 易于解释 非参数化的,所以你不必担心异常值或者数据是否可线性分离 他们的主要缺点是他们很容易过拟合,但这就是像随机森林(或提升树)这样的集成方法进来的地方。 另外,随机森林往往是分类问题的赢家(通常在SVM上略微领先一些,我相信),它们快速且可扩展,并且您不必担心像SVM那样要调整一堆参数,所以他们现在似乎很受欢迎。 没有分布要求 启发式 适合少数类别变量 不受多重共线性(通过选择其中之一) Bagging, boosting, 集成方法通常优于单一算法。 树集成:随机森林和梯度提升树。 Tree Ensembles vs LR。 他们并不期望线性特征,甚至线性相互作用的特征。 LR中没有提到的一点是,它很难处理分类(二元)特征。 Tree Ensembles,因为它们不过是一堆决策树的组合,可以很好地处理这个问题。另一个主要优点是,由于它们使用装袋或提升构成的,这些算法可以非常好地处理高维空间以及大量的训练实例。 两者都是快速和可扩展的,随机森林往往会在准确性方面击败逻辑回归,但逻辑回归可以在线更新并为您提供有用的概率。 随机森林 随机森林使用数据的随机样本独立训练每棵树。 这种随机性有助于使模型比单个决策树更稳健,并且不太过拟合训练数据。 RF中通常有两个参数 – 树数量和被选择的每个结点的特征数目(列抽样)。 RF适用于并行或分布式计算。 几乎总是比决策树具有更低的分类错误和更好的f分数。 几乎总是表现出与SVM相同或更好的效果,但对于人类来说更容易理解。 非常适合具有缺失变量的不均匀数据集。 给你一个关于你的数据集中的哪些特征是最重要的免费的好主意。 通常训练速度比支持向量机要快(尽管这显然取决于你的实现)。 梯度提升决策树 GBDT一次构建一棵树,每棵新树有助于纠正先前训练过的树造成的错误。 每添加一棵树,该模型就会变得更具表现力。 通常有三个参数 – 树的数量,树的深度和学习速率,每棵树的建立一般都很浅。 容易过拟合 GBDT通常表现比RF好,但它们很难达到正确。 更具体地说,GBDT具有更多的超参数要调整,并且更容易出现过拟合。 RF几乎可以“开箱即用”,这也是他们非常受欢迎的原因之一。 GBDT训练通常需要更长的时间,因为树是按顺序构建的。 神经网络 优点 很好地拟合具有大量输入特征的非线性数据 广泛应用于工业 许多开源实现 缺点 神经网络仅适用于数值输入,具有常数值的向量和具有非缺失数据的数据集。 分类边界难以直观地理解,并且ANN在计算上昂贵。 黑盒子,使他们很难与之合作,就像试图通过审查人类潜意识来解释我们的意识行为背后的原因。 难以训练:训练结果可能是非确定性的,并且主要取决于初始参数的选择 当他们不像您期望的那样工作时,他们很难排除故障,当他们工作时,您将永远不会确信自己会很好地归纳未包含在您的训练集中的数据,因为从根本上说,您不了解你的网络如何解决问题 多层神经网络通常很难训练,并且需要调整大量参数 神经网络不是概率性的,不像其他统计学或贝叶斯统计学。一个神经网络可能会给你一个连续的数字作为它的输出(例如一个分数),但是把它转换成一个概率往往是困难的。具有更强大理论基础的方法通常会直接为您提供这些概率。 深度学习 不是通用的分类技术。 擅长图像分类,视频,音频,文字。 概要 考虑的因素 训练例子的数量,(你的训练集有多大?) 如果训练集很小,高偏差/低方差分类器(例如朴素贝叶斯)比低偏差/高方差分类器(例如,kNN或逻辑回归)具有优势,因为后者会过度拟合。但是随着训练集的增长(它们具有较低的渐近误差),低偏差/高方差分类器开始赢得胜利,因为高偏差分类器的功能不足以提供准确的模型。您也可以将其视为生成模型与判别模型的区别。 特征空间的维度 我希望问题是线性可分的吗? 特征是否独立? 期望的特征将与目标变量呈线性关系吗? 过度拟合是否会成为问题? 在速度/性能/内存使用方面,系统的要求是什么……? 它需要变量满足正态分布吗? 它是否遭受多重共线性问题? 用分类变量做作为连续变量是否表现好? 它是否计算没有CV的CI? 它是否可以不要stepwise而进行变量选择? 它适用于稀疏数据吗? 从Logistic回归等简单的事情开始,设置一个基线,并且只在需要时才会使其更加复杂。此时,树集成,特别是随机森林,因为它们很容易调整,可能是正确的路。如果你觉得还有改进的空间,试试GBDT或者更有兴趣去尝试深度学习。 原文链接:https://www.hackingnote.com/en/machine-learning/algorithms-pros-and-cons/ 编译:数据人网 链接:http://shujuren.org/article/591.html 本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/54870.html 。
来源:数据分析网
发布时间:2018-06-01 23:37:00
第三届世界智能大会现场。光明图片/视觉中国 第三届世界智能大会现场。光明图片/视觉中国   日前,第三届世界智能大会在天津举行。国家主席习近平致信向大会的召开致以热烈祝贺,向出席会议的国际知名企业家、业界领军人物和图灵奖获得者等各界人士表示诚挚的欢迎。图灵奖是计算机领域的最高奖,有“计算机界的诺贝尔奖”之称。在世界智能大会期间,约翰·霍普克罗夫特、曼纽尔·布卢姆、雷伊·雷蒂3位图灵奖获得者在大会的论坛上,回答了公众关心的人工智能问题。比如人的意识是怎样工作的?机器能否拥有人的意识?机器有了意识会不会全面战胜人类?本期与读者分享他们的观点。 约翰·霍普克罗夫特,一九八六年图灵奖得主、美国科学院、工程院、艺术与科学院院士,中国科学院外籍院士。    约翰·霍普克罗夫特:高维空间对机器学习非常重要   在人类历史上发生过很多次革命。第一次革命可以称之为“农业革命”。当人类第一次出现在地球上的时候,他们以采集天然食物为生,距今10000年前才开始从事农业。农业生产改变了人类的生产生活方式,使人类形成了“社区”的概念,“农业革命”与后来的工业革命的区别在于——在农业社会中教育不是很重要,人们只要跟着自己的父母就可以学会如何进行种植。而在工业革命到来后,教育的重要性大大提高,人们至少要经历高中和大学的教育才能足够胜任自己的工作。而今我们正在进入信息革命时代,信息革命带来了极其重大的影响,这种影响对人类社会的改变不亚于农业革命和工业革命。   比如未来制造业的就业机会可能一去不复返。举例而言,在我小时候,每一部电梯里都有专门的操作员,帮助客人操作达到指定的楼层。后来电梯的操作系统越来越先进,停降在各个楼层可以实现自动化,所以“电梯操作员”这个工作也就消失了。再比如说,当代的工厂生产一辆汽车所需要的人手比20年前少很多,大家可以看一下今天的汽车组装车间的照片——与几十年前热火朝天、人声鼎沸的汽车工厂相比,今天的汽车生产车间里可能只有一名工人,而且这名工人也许还穿着西服,打着领带,成了现代化车间系统的管理者。   电梯操作员、汽车工人……科技和生产力即将改变的下一个职业是什么?比如卡车司机,“智能无人汽车”技术的出现很可能让这些人也工作不保。很多经济学家说不必为此担心,因为一些工作正在消失,而社会总是在创造新的职业。这到底是不是真的呢?现在不得而知,但我想,当智能时代真正来临,社会所需要的人力劳动力可能只有现在的四分之一。   我们应该从现在开始思考这些问题:智能时代将在哪一时刻真正来临?到时候多少人还有所谓的工作?找到一份不错的工作需要什么新的素质?大学教育还需不需要?是否还有足够的资源来保证我们的正常生活?人工智能社会人们需要思考像这样有意义的事情。   常常有人问我,机器学习是不是代表着人工智能技术。对此,我的回答是否定的。界定人工智能技术,要看这个系统本身是否能够“思考”到更深的层次。比如说,一张简笔画上画着一个图案,看上去仿佛是一辆自行车,可它其实没有自行车的功能。机器学习可能会将这幅画直接归纳到“自行车”这个类别,但人并不会这样做。人可以透过这张图画,分辨和判断它的属性,提取出眼前这一信息真正的价值和功能。但是现在所谓的人工智能技术只是停留于表面,只是做图形形象的识别,这种学习和识别与人类的认识尚有巨大的差距。   当前,机器学习仍然存在很多问题,比如,如果想相对精准地判断某一事物,机器需要学习至少50000张图片,还要对每张图片进行归类,将这几万张图片归为大概1000个类别,从而形成一个“深度学习图片网络”。通过这个网络,机器可以对图像的内容和风格进行识别、定义。可是这依然无法与人类的学习认知水平相提并论。我女儿四岁的时候,我翻开儿童百科全书,给她看各式各样的图像,其中有一页画着消防车的彩图。过了几天之后我们上街看到消防车,她指着消防车说“爸爸快看,这是消防车!”仅仅见过一次图片,她就在大街上认出了消防车的事物,这体现了人类强大的学习能力和认知水平。   机器学习还面临一个急需解决的难题——互动问题。比如说这里有一张猫的照片,我把这个猫的照片的几个像素进行了调整,机器在识别的时候就会把“猫”当成“汽车”,一些微小的操作就能让机器产生误判,把图片归结到完全不同的类别,作为科研人员,我们必须认识到目前机器深度学习技术的不足,并致力于解决这些问题。   从本质上来说,我们对空间的视觉感知实际上是基于人类本能的三维维度,但是更高维度空间对于机器深度学习其实非常的重要。在这里我就不能不提到中国,中国有占全世界五分之一的人口,有大量高素质人才,只要给人工智能技术研究、高维空间研究更多支持,中国人工智能领域的学习者、从业者就有机会成长为世界级的高水平科研人员。 曼纽尔·布卢姆,图灵奖获得者,计算复杂性领域的主要奠基人之一。    曼纽尔·布卢姆:人工智能可以让机器有意识   20世纪50年代,计算机科学之父阿兰·图灵在《思想》杂志上发表了题为“计算的机器和智能”的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能“图灵测试。”   “图灵测试”的概念极大影响了人工智能对于功能的定义,以此为途径,我们做了大量的前期工作,甚至证明了罗素《数学原理》52道中的38道。当时有言论甚至宣称在10年之内,机器就可以达到和人类智能一样的高度。   当20世纪50年代明确了人工智能要模拟人类智慧这一大胆目标后,这一领域经历了近20年的辉煌。研究人员开展了一系列项目,表明计算机能够完成一系列原本只属于人类能力范畴之内的任务,例如证明定理、求解微积分、通过规划来响应命令、履行物理动作,甚至是模拟心理学家心理实验、作曲家谱曲这样的活动。但是,过分简单的算法以及计算能力的限制,严重阻碍了人们使用人工智能来解决更加困难和多样化的问题。   当前,我们正在从一个人类必须理解计算机的世界,迈向一个计算机必须理解人类的世界。亚里士多德曾说过,如果机器能干很多活,岂不能让人类解放出来,或许这一解放的起点就是——“理解”。   我认为人工智能技术下一步重要的发展方向是让机器产生“意识”。我们都知道,意识让人拥有了思考力和灵活性。同样,意识能够让计算机和机器人有强大的解决问题的能力。在天津大学,我曾经对现场的学生们说:希望你们未来能够创造出有意识的电脑。   意识让生命充满了活力,意识来自于哪里呢——意识来自大脑的架构。这里指的不是神经元,而是在神经元基础之上的更高层面的架构系统设计。神经科学家曾经提出一个天才的理论,叫作剧场意识。以剧场作为类比,描述什么是意识——意识就好比是舞台上的演员凭借短期的记忆从事一系列的表演。短期记忆,一个非常短的记忆,它就是你的意识。   现在我们如何发展人工智能基础的“意识”?我想神经科学能够给我们答案,下一步我们的人工智能技术将在“短期记忆”领域取得突破。那哪些东西能够进入短期记忆呢?此后长期记忆的处理器如何产生?需要什么样的长期记忆,处理器才能够真正形成类似于人的意识呢?这有很多问题,都需要科学家不断努力才能够最终解答。   从这个角度去展望,我的观点是——最多10年,机器意识就会出现。据我所知,目前已经有大学教授在做相关的实验。我们会活在一个美好世界,远比父母辈更充分。一旦人类可以制造机器意识,自然可能被善用,也可能被滥用。机器可以帮助我们,可以是个好东西,可以增加洞察力,他们是我们的孩子,我们可以让机器聪明且有意识。 雷伊·雷蒂,一九九四年图灵奖获得者,美国工程院、艺术与科学学院院士,中国工程院外籍院士。    雷伊·雷蒂:人工智能可实现社会包容式发展   很多人看到人工智能,看到的都是悲观的景象,但我看到的是光明的未来。在过去的60多年当中,科技进步最重要的是电脑的发明,以及互联网和智能手机的出现,这些都大大改变了所有人的生活。当然,在展望未来时,要有相关的法律法规和引导,来保证技术的发展不会对社会产生负面的影响。   人工智能技术只是一个工具,正如曾经人类想象自己是不是能飞起来,后来就发明了飞机,现在想象中的时空旅行在未来都有可能会变成现实。   什么是人工智能技术最重要的价值?人工智能能为世界带来怎样的改变?很多人提出:科学家需要保证人工智能的技术伦理。其中有这样一种观点——人工智能技术要有包容性,让“边缘人群”也能从中受益,对此我甚为认同。   有一个概念叫作“数字鸿沟”。“数字鸿沟”包括教育程度的鸿沟和语言的鸿沟。在当今的印度有22种不同的官方语言,大家彼此之间没有办法交流,所以只能够用英语进行对话。这个问题之于全球而言就更加明显了——全世界影响力较大的语言就超过100种,其中每一种语言的使用人数都超过了1000万人。   而今,人工智能技术在语言交流上的应用日臻成熟,我们可以进行语音到语音的翻译,我用印度语讲话,你用中文讲话,我们之间还是可以相互理解,实时进行沟通。   在过去10年中,人工智能技术在语言交流方面取得了极大的进步,这意味着人工智能带来了某种可能——让不会读写的人也能够从数字革命中获益。   这个技术会让互联网使用的人数至少翻一番。整个经济的效益就可以增加3倍,从而带动全球GDP提高4到10倍,达到千万亿级别。我们会越来越多地看到全球GDP的增长,现在是100万亿美元,接下来20年内可能会是10倍,而这将成为人工智能的技术赋能带给世界的实实在在的财富。因为因特网带来人工智能和大数据的应用,在这个过程中产生海量的数据,现在慢慢地收集起来就可以利用起来造福社会。比如你可以根据天气的原因,或者你睡眠的深度来决定你的手机要不要叫醒你等等,我们希望这些应用可以深入到我们的日常生活。   另一个是深度学习。很多程序具有学习能力,学习能力哪里来呢?来自大数据,手机的大数据,这些大数据所有的大众都可以用。如果机器有学习能力,你就不需要让程序员再去写一个新程序,而是机器可以跟你直接进行互动。因为它有学习的能力,这个就叫深度学习,是未来发展的方向。   未来几十年相信会有新的重大的要素突破,带来计算效率的几万倍增长,从而使相同成本情况下效率达到更高,成本变得更低。个人的数据已经被政府和企业收集在安全的范围内,将这些数据进行合理地分析,寻找他们的规律,通过纠错机制进行学习,通过阐述来学习。每个人都能获益于人工智能的语音助手,深度学习机器学习是未来的趋势。就像你的助理在你身边学习你做的事情,并且帮你代理一样,未来机器就可以通过计算大数据来做这些事情。(记者 陈建强 刘茜 焦德芳)
来源:大数据中国
发布时间:2019-06-13 17:13:00
福建福州举办的第二届数字中国建设成果展览会上,参观者在了解从1G到5G的“进化史”。潘登摄 光明图片/视觉中国 上海市民在体验5G高速网络。王冈摄 光明图片/视觉中国    【聚焦5G发展系列访谈·智库答问】本期嘉宾: 中国信息通信研究院技术与标准研究所副总工程师 罗松 (郭红松绘) 中兴通讯股份有限公司无线经营部总工程师 朱伏生 (郭红松绘) 中国电信科技委常委、IMT-2020(5G)推进组专家 沈少艾 (郭红松绘) 1.“身临其境的信息盛宴”触手可及    光明智库:5G技术可以给生活带来巨大便利,具体而言,5G会在通信服务、信息娱乐等方面给人们怎样的体验和惊喜?    罗松: 与4G网络相比,5G的速率至少是4G峰值速率的10倍,其毫秒级的传输时延和千亿级的连接能力更是令人惊叹。对于个人用户而言,最直接的使用感受就是网络速率的大幅度提升。   5G在带来更好的数据应用体验的同时,也会促进交互方式的再次升级。在信息娱乐方面,5G将推动视频、游戏等应用向超高清、3D和沉浸式体验方向发展,成为8K超高清视频等新应用不可或缺的网络支撑。在学习方面,人们将能够通过VR、AR技术进入虚拟教室,通过头戴式设备沉浸式参与自己喜欢的课程,并与课堂上的老师和同学进行全景式交流。另外,“云上办公”等也将成为可能。5G网络能够使娱乐、消费、工作等行为突破时空限制,拥有更好的交互体验,使我们享受到身临其境的信息盛宴。   从历史发展经验看,网络基础设施与业务创新共生共荣、相互促进。5G时代,移动通信将大幅提升以人为中心的移动互联网业务使用体验,不断给用户带来惊喜;同时,也会促进生活方式全方位、深层次变革。5G时代的到来,将为人们徐徐展开一幅“数字化生活”美好画卷。    朱伏生: 5G具有高带宽、低时延等特征,在通信服务、信息娱乐等方面会带来很多新应用。在5G时代,上网、下载文件、看视频等都会很流畅,速度要比现在快很多,人们可以随时随地观看高清视频,享受VR带来的新体验,身临其境地参与视频会议、体育赛事直播等活动,还可以在网上沉浸式体验各种游戏。    沈少艾: 消费者从来都不缺乏想象力,随着智能手机的普及,人们对数据业务的需求不断增加。在5G时代,消费者比较感兴趣的5G创新应用有很多,比如带有实时语言翻译功能的5G耳机、基于5G的智能家居服务、多视角的体育赛事或文艺演出直播,以及戴着VR头盔观看电影等等。 2.催生更多新业态新模式    光明智库:5G将如何影响传统服务行业?在构建智慧城市、智慧医疗、车联网、智慧养老等方面将发挥怎样的作用?    罗松: 当前,信息通信技术向各行各业融合渗透,经济社会各领域向数字化转型升级的趋势愈发明显,数字化的知识和信息已成为关键生产要素。5G为移动通信赋予了通用技术的属性,已成为与能源网、公路网、铁路网相并列的、不可或缺的关键基础设施,将全面推动数字社会的发展。以智慧城市、智能家居等为代表的典型应用场景与移动通信深度融合,预计千亿量级的设备将接入5G网络。5G还将以其超高可靠性、超低时延等性能,深度影响车联网、工业互联网等垂直行业。   人工智能技术的发展和成熟需要大量的行业运行数据,而数据的获取则必须依托网络技术。5G的发展将使数据的积累速度和总量达到一个新的高度,真正实现“隐性数据的显性化”,为人工智能、 云计算 等技术的应用提供强大的网络支撑能力。在5G时代,人们将会体验到更多的智慧应用。比如,在车联网领域,可实现基于5G网络的辅助驾驶。在行驶过程中,车辆既可以与红绿灯、道路限速和危险提示标志等交通设施进行通信,实现车路协同应用,又可以利用5G低时延、高可靠的网络能力,在紧急刹车、交叉路口碰撞预警等交通和驾驶安全方面实现智能化辅助,从而有效提高交通效率,节省资源,减少环境污染,降低交通事故发生率,改善交通管理。    朱伏生: 近年来,移动宽带和互联网的发展让零售业、餐饮业、票务服务业、银行保险业等产生了较大变化,无现金消费等业态日渐流行。未来,5G将进一步催生更多新业态、新模式,改变人们的生活和消费习惯。   目前,在我们的城市中装有很多摄像头,可对车辆、人员、环境进行监控,保障“最后一公里”的安全。借助5G技术,这些摄像头拍的视频、图像能够及时进行传输,不需进行压缩,大大增加了图像识别的准确率和识别速度。在5G的支持下,各种应用也将更好发挥作用。比如,通过VR技术进行人脸识别,警察可快速识别犯罪嫌疑人;识别车牌时能够更快进行信息读取,提高通行速度等。依托5G技术,我们的社会将变得更安全、更高效。   智慧医疗主要包括远程诊断、远程紧急处理和远程手术等。特别是在火车上、户外等场景中,紧急诊断和处理很有价值,甚至可以挽回很多人的生命。5G、VR技术能让有经验的医生通过网络清晰地看到病人的各种信息,使远程诊断变得更加可行、可靠。同时,5G的大带宽、低时延特点,能够支持医生远程为病人做手术,实现对医疗资源的充分利用和再分配,有助于解决地区医卫事业发展不平衡问题。   车联网对于安全行驶、减轻人的劳动强度等有着很大意义。特别是应用5G、人工智能技术的自动驾驶,会给汽车形态、汽车管理、车辆运行、人车关系带来改变。未来,出租车驾驶员这个职业也许会消失。传统车联网技术存在局部建站、覆盖有限、移动速度支持不够等缺点,而5G技术可实现密集建站、全网覆盖、支持500km/h的移动速度等,这些技术可在固定线路运行等场景中率先应用。   在智慧养老方面,应用5G、人工智能技术的智能机器人可提供更优质的养老服务,让老年生活更便利、更舒适、更安全。未来,5G带来的改变将是持续的,甚至会给人们的生活带来一些颠覆性变化。    沈少艾: 5G能够营造身临其境的虚拟购物环境,带来更好的购物体验,提升人们的购买欲望,改变人们的消费行为。比如,人们可以在“魔镜”中看到自己身穿多款新衣的样子,不用再抱着一大堆衣服排队走进试衣间;在线购买家具、窗帘时,也可通过VR眼镜感受尺寸、颜色等是否合适。   5G与人工智能、云计算等新技术的结合,将改变我们对未来的认知。智慧城市、智慧医疗、智慧养老会让我们的生活变得更加便捷、舒适。5G将汇聚更多智慧,给我们的生活带来全方位的改变。 3.带来全新媒体业务体验    光明智库:作为信息获取、生产、再造、分发的重要主体,媒体具有与通信技术结合的天然属性。5G技术会给媒体带来怎样的改变?    罗松: 在5G时代,舆论生态、媒体格局,以及媒体的传播方式都会在信息技术革新的影响下不断发生变化。5G技术将应用到新闻采集、生产、分发、接收、反馈等各个环节,使得媒体内生技术属性不断增强,媒体形态不断创新,传播内容更加精准。   5G技术的应用将带来全新的媒体业务体验。一方面,将使得全维视频直播等成为常态信息传输模式。比如,在5G技术和边缘计算能力的“加持”下,人们可以在家里全方位、多视角观看体育赛事。对于突发新闻事件,可通过无人机携带信息采集设备进行及时报道。另一方面,随着5G技术的推广,其低流量成本能力将逐步显现,受众将能够随时随地享受5G提供的大带宽连接。“5G 人工智能”可充分利用用户的碎片化时间,帮助媒体进行精准化推送,进一步释放媒体的内容红利。    朱伏生: 5G对媒体带来的影响,除了提高视频画质外,还能让新闻的表现方式变得更加个性化、定制化。“5G 人工智能”还可以使受众产生身临其境的感觉,对新闻事件有更深刻的了解与体验。    沈少艾: 5G时代商业模式的突破,首先是在增强宽带领域出现颠覆式的网络传媒变革,相信将会出现颠覆性的平台。视频将主宰天下,Vlog将升级换代,未来属于AR、VR虚拟世界。 4.深度挖掘5G应用场景及需求    光明智库:5G从技术变为应用、进入生活,企业的作用不可或缺。今后,企业应如何更好地抓住“风口”,推动5G技术发展与实际应用?    罗松: 5G技术能有效提高企业生产效率,降低企业生产成本,越来越多的工业企业、运营商、设备制造商等正在开展5G应用试点示范,探索未来5G应用新模式。中国信息通信研究院的统计数据显示,在全球5G应用示范中,垂直行业5G应用占比超过40%,其中智能制造占22%,医疗占9%,能源电力占7%;在我国5G应用示范中,垂直行业5G应用占比超过50%,其中智能制造占20%,能源电力占15%,远程医疗占13%。垂直行业对5G应用的关注度和积极性显著提升,并已开展实际探索。   5G将使生产力获得极大提高,并使生产关系发生变化以适应生产力的发展。在5G与行业结合的浪潮中,传统的工作模式、生产方式都将发生较大变革,垂直行业企业应该积极了解5G相关知识及5G与行业结合带来的种种变化,并结合自身情况,适时开展相关应用尝试,在有条件、有能力的情况下,开展5G创新应用探索。对于信息通信企业来说,需要更多地与垂直行业交流,共同探索5G应用的场景和需求,研发满足垂直行业企业实际需求、精准对位其痛点的整体解决方案。    沈少艾: 中国消费者对5G的关注度和认知度较高。5G从技术走向现实需要生态链伙伴通力协作,需要相关企业不断挖掘消费需求和行业痛点。    朱伏生: 5G对垂直领域的冲击很大。智慧港口、智慧物流、智能制造等都体现出5G的技术需求点,相关企业也很有意愿改进自己的业务方式和战略方向,积极与运营商进行沟通。不过,企业环境是非标准化的,需要在原先的个性化场景中进行改造,5G网络建设也需要更多地关注企业的痛点问题。相关企业要以开放的心态拥抱5G技术,与运营商、设备商携手,共同寻找新的思路和解决方案,充分发挥5G能力;要在将来的改革浪潮中,不落后于时代,随时针对科技变化做出优选战略抉择。
来源:大数据中国
发布时间:2019-06-13 17:12:00
国产 人工智能 芯片的发展,一如早年间国产通用处理器和操作系统的发展,过份地追求完全独立、自主可控的怪圈,势必会如众多国产芯片一样逐渐退出历史舞台。 国外:技术寡头,优势明显 由于具有得天独厚的技术和应用优势,英伟达和 谷歌 几乎占据了 人工智能 处理领域80%的市场份额,而且在谷歌宣布其Cloud TPU开放服务和英伟达推出自动驾驶处理器Xavier之后,这一份额占比在2018年有望进一步扩大。其他厂商,如英特尔、特斯拉、ARM、IBM以及Cadence等,也在人工智能处理器领域占有一席之地。 当然,上述这些公司的专注领域却不尽相同。比如英伟达主要专注于GPU和无人驾驶领域,而谷歌则主要针对云端市场,英特尔则主要面向计算机视觉,Cadence则以提供加速神经网络计算相关IP为主。如果说前述这些公司还主要偏向处理器设计等硬件领域,那么ARM公司则主要偏向软件,致力于针对机器学习和人工智能提供高效算法库。 注:上述表格中所给为截止到2017年各研制单位公开可查的最新数据。 独占鳌头——英伟达 在人工智能领域,英伟达可以说是目前涉及面最广、市场份额最大的公司,旗下产品线遍布自动驾驶汽车、高性能计算、机器人、医疗保健、云计算、游戏视频等众多领域。其针对自动驾驶汽车领域的全新人工智能超级计算机Xavier,用NVIDIA首席执行官黄仁勋的话来说就是“这是我所知道的 SoC 领域非常了不起的尝试,我们长期以来一直致力于开发芯片。” Xavier 是一款完整的片上系统 (SoC),集成了被称为 Volta 的全新 GPU 架构、定制 8 核 CPU 架构以及新的计算机视觉加速器。该处理器提供 20 TOPS(万亿次运算/秒)的高性能,而功耗仅为 20 瓦。单个 Xavier 人工智能处理器包含 70 亿个晶体管,采用最前沿的 16nm FinFET 加工技术进行制造,能够取代目前配置了两个移动 SoC 和两个独立 GPU 的 DRIVE PX 2,而功耗仅仅是它的一小部分。 而在2018年拉斯维加斯CES展会上,NVIDIA又推出了三款基于Xavier的人工智能处理器,包括一款专注于将增强现实(AR)技术应用于汽车的产品、一款进一步简化车内人工智能助手构建和部署的DRIVE IX和一款对其现有自主出租车大脑——Pegasus的修改,进一步扩大自己的优势。 产学研的集大成者——谷歌 如果你只是知道谷歌的AlphaGo、无人驾驶和TPU等这些人工智能相关的产品,那么你还应该知道这些产品背后的技术大牛们:谷歌传奇芯片工程师Jeff Dean、谷歌云计算团队首席科学家、斯坦福大学 AI 实验室主管李飞飞、Alphabet董事长John Hennessy和谷歌杰出工程师David Patterson。 时至今日,摩尔定律遇到了技术和经济上的双重瓶颈,处理器性能的增长速度越来越慢,然而社会对于计算能力的需求增速却并未减缓,甚至在移动应用、 大数据 、人工智能等新的应用兴起后,对于计算能力、计算功耗和计算成本等提出了新的要求。 与完全依赖于通用CPU及其编程模型的传统软件编写模式不同,异构计算的整个系统包含了多种基于特定领域架构(Domain-Specific Architecture, DSA)设计的处理单元,每一个DSA处理单元都有负责的独特领域并针对该领域做优化,当计算机系统遇到相关计算时便由相应的DSA处理器去负责。而谷歌就是异构计算的践行者,TPU就是异构计算在人工智能应用的一个很好例子。 2017年发布的第二代TPU芯片,不仅加深了人工智能在学习和推理方面的能力,而且谷歌是认真地要将它推向市场。根据谷歌的内部测试,第二代芯片针对机器学习的训练速度能比现在市场上的图形芯片(GPU)节省一半时间;第二代TPU包括了四个芯片,每秒可处理180万亿次浮点运算;如果将64个TPU组合到一起,升级为所谓的TPU Pods,则可提供大约11500万亿次浮点运算能力。 计算机视觉领域的搅局者——英特尔 英特尔作为世界上最大的计算机芯片制造商,近年来一直在寻求计算机以外的市场,其中人工智能芯片争夺成为英特尔的核心战略之一。为了加强在人工智能芯片领域的实力,不仅以167亿美元收购FPGA生产商Altera公司,还以153亿美元收购自动驾驶技术公司Mobileye,以及机器视觉公司Movidius和为自动驾驶汽车芯片提供安全工具的公司Yogitech,背后凸显这家在PC时代处于核心位置的巨头面向未来的积极转型。 Myriad X就是英特尔子公司Movidius在2017年推出的视觉处理器(VPU,vision processing unit),这是一款低功耗的系统芯片(SoC),用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和VR / AR头盔。Myriad X是全球第一个配备专用神经网络计算引擎的片上系统芯片(SoC),用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块,专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计,让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后,Myriad X架构能够为基于深度学习的神经网络推理提供1TOPS的计算性能。 执“能效比”之牛耳——学术界 除了工业界和厂商在人工智能领域不断推出新产品之外,学术界也在持续推进人工智能芯片新技术的发展。 比利时鲁汶大学的Bert Moons等在2017年顶级会议IEEE ISSCC上面提出了能效比高达10.0TOPs/W的针对卷积神经网络加速的芯片ENVISION,该芯片采用28nm FD-SOI技术。该芯片包括一个16位的RISC处理器核,1D-SIMD处理单元进行ReLU和Pooling操作,2D-SIMD MAC阵列处理卷积层和全连接层的操作,还有128KB的片上存储器。 韩国科学技术院KAIST的Dongjoo Shin等人在ISSCC2017上提出了一个针对CNN和RNN结构可配置的加速器单元DNPU,除了包含一个RISC核之外,还包括了一个针对卷积层操作的计算阵列CP和一个针对全连接层RNN-LSTM操作的计算阵列FRP,相比于鲁汶大学的Envision,DNPU支持CNN和RNN结构,能效比高达8.1TOPS/W。该芯片采用了65nm CMOS工艺。 相比较于鲁汶大学和韩国科学技术院都针对神经网络推理部分的计算操作来说,普渡大学的Venkataramani S等人在计算机体系结构顶级会议ISCA2017上提出了针对大规模神经网络训练的人工智能处理器SCALLDEEP。 该论文针对深度神经网络的训练部分进行针对性优化,提出了一个可扩展服务器架构,且深入分析了深度神经网络中卷积层,采样层,全连接层等在计算密集度和访存密集度方面的不同,设计了两种处理器core架构,计算密集型的任务放在了comHeavy核中,包含大量的2D乘法器和累加器部件,而对于访存密集型任务则放在了memHeavy核中,包含大量SPM存储器和tracker同步单元,既可以作为存储单元使用,又可以进行计算操作,包括ReLU,tanh等。 而一个SCALEDEEP Chip则可以有不同配置下的两类处理器核组成,然后再组成计算簇。论文中所用的处理平台包括7032个处理器tile。 论文作者针对深度神经网络设计了编译器,完成网络映射和代码生成,同时设计了设计空间探索的模拟器平台,可以进行性能和功耗的评估,性能则得益于时钟精确级的模拟器,功耗评估则从DC中提取模块的网表级的参数模型。该芯片仅采用了Intel 14nm工艺进行了综合和性能评估,峰值能效比高达485.7GOPS/W。 国内:百家争鸣,各自为政 可以说,国内各个单位在人工智能处理器领域的发展和应用与国外相比依然存在很大的差距。由于我国特殊的环境和市场,国内人工智能处理器的发展呈现出百花齐放、百家争鸣的态势,这些单位的应用领域遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域,催生了大量的人工智能芯片创业公司,如地平线、深鉴科技、中科寒武纪等。尽管如此,国内起步较早的中科寒武纪却并未如国外大厂一样形成市场规模,与其他厂商一样,存在着各自为政的散裂发展现状。 除了新兴创业公司,国内研究机构如北京大学、清华大学、中国科学院等在人工智能处理器领域都有深入研究;而其他公司如百度和比特大陆等,2017年也有一些成果发布。 注:上述表格中所给为截止到2017年各研制单位公开可查的最新数据。 全球AI芯片界首个独角兽——寒武纪 2017年8月,国内AI芯片初创公司寒武纪宣布已经完成1亿美元A轮融资,战略投资方可谓阵容豪华,阿里巴巴、联想、科大讯飞等企业均参与投资。而其公司也成为全球AI芯片界首个独角兽,受到国内外市场广泛关注。 寒武纪科技主要负责研发生产AI芯片,公司最主要的产品为2016年发布的寒武纪1A处理器(Cambricon-1A),是一款可以深度学习的神经网络专用处理器,面向智能手机、无人机、安防监控、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。目前已经研发出1A、1H等多种型号。与此同时,寒武纪也推出了面向开发者的寒武纪人工智能软件平台 Cambricon NeuWare,包含开发、调试和调优三大部分。 软硬件协同发展的典范——深鉴科技 深鉴科技的联合创始人韩松在不同场合曾多次提及软硬件协同设计对人工智能处理器的重要性,而其在FPGA领域顶级会议FPGA2017最佳论文ESE硬件架构就是最好的证明。该项工作聚焦于使用 LSTM 进行语音识别的场景,结合深度压缩(Deep Compression)、专用编译器以及 ESE 专用处理器架构,在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能,并将功耗降低 3.5 倍。 在2017年10月的时候,深鉴科技推出了六款AI产品,分别是人脸检测识别模组、人脸分析解决方案、视频结构化解决方案、ARISTOTLE架构平台,深度学习SDK DNNDK、双目深度视觉套件。而在人工智能芯片方面,公布了最新的芯片计划,由深鉴科技自主研发的芯片“听涛”、“观海”将于2018年第三季度面市,该芯片采用台积电28nm工艺,亚里士多德架构,峰值性能 3.7 TOPS/W。 对标谷歌TPU——比特大陆算丰 作为比特币独角兽的比特大陆,在2015年开始涉足人工智能领域,其在2017年发布的面向AI应用的张量处理器算丰Sophon BM1680,是继谷歌TPU之后,全球又一款专门用于张量计算加速的专用芯片(ASIC),适用于CNN / RNN / DNN的训练和推理。 BM1680单芯片能够提供2TFlops单精度加速计算能力,芯片由64 NPU构成,特殊设计的NPU调度引擎(Scheduling Engine)可以提供强大的数据吞吐能力,将数据输入到神经元核心(Neuron Processor Cores)。BM1680采用改进型脉动阵列结构。2018年比特大陆将发布第2代算丰AI芯片BM1682,计算力将有大幅提升。 百家争鸣——百度、地平线及其他 在2017年的HotChips大会上,百度发布了XPU,这是一款256核、基于FPGA的云计算加速芯片,用于百度的人工智能、 数据分析 、云计算以及无人驾驶业务。在会上,百度研究员欧阳剑表示,百度设计的芯片架构突出多样性,着重于计算密集型、基于规则的任务,同时确保效率、性能和灵活性的最大化。 欧阳剑表示:“FPGA是高效的,可以专注于特定计算任务,但缺乏可编程能力。传统CPU擅长通用计算任务,尤其是基于规则的计算任务,同时非常灵活。GPU瞄准了并行计算,因此有很强大的性能。XPU则关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。在2018年百度披露更多关于XPU的相关信息。 2017年12月底,人工智能初创企业地平线发布了中国首款全球领先的嵌入式人工智能芯片——面向智能驾驶的征程(Journey)1.0处理器和面向智能摄像头的旭日(Sunrise)1.0处理器,还有针对智能驾驶、智能城市和智能商业三大应用场景的人工智能解决方案。“旭日 1.0”和“征程 1.0”是完全由地平线自主研发的人工智能芯片,具有全球领先的性能。 为了解决应用场景中的问题,地平线将算法与芯片做了强耦合,用算法来定义芯片,提升芯片的效率,在高性能的情况下可以保证它的低功耗、低成本。具体芯片参数尚无公开数据。 除了百度和地平线,国内研究机构如中国科学院、北京大学和清华大学也有人工智能处理器相关的成果发布。 总结——对国产人工智能芯片的一点愚见 正如前文所述,在人工智能芯片领域,国外芯片巨头占据了绝大部分市场份额,不论是在人才聚集还是公司合并等方面,都具有绝对的领先优势。而国内人工智能初创公司则又呈现百家争鸣、各自为政的纷乱局面;特别是每个初创企业的人工智能芯片都具有自己独特的体系结构和软件开发套件,既无法融入英伟达和谷歌建立的生态圈,又不具备与之抗衡的实力。 国产人工智能芯片的发展,一如早年间国产通用处理器和操作系统的发展,过份地追求完全独立、自主可控的怪圈,势必会如众多国产芯片一样逐渐退出历史舞台。借助于X86的完整生态,短短一年之内,兆芯推出的国产自主可控x86处理器,以及联想基于兆芯CPU设计生产的国产计算机、服务器就获得全国各地党政办公人员的高度认可,并在党政军办公、信息化等国家重点系统和工程中已获批量应用。 当然,投身于X86的生态圈对于通用桌面处理器和高端服务器芯片来说无可厚非,毕竟创造一个如Wintel一样的生态链已绝非易事,我们也不可能遇见第二个乔布斯和苹果公司。而在全新的人工智能芯片领域,对众多国产芯片厂商来说,还有很大的发展空间,针对神经网络加速器最重要的就是找到一个具有广阔前景的应用领域,如华为海思麒麟处理器之于中科寒武纪的NPU;否则还是需要融入一个合适的生态圈。 另外,目前大多数国产人工智能处理器都针对于神经网络计算进行加速,而能够提供单芯片解决方案的很少;微控制器领域的发展,ARM的Cortex-A系列和Cortex-M系列占据主角,但是新兴的开源指令集架构RISC-V也不容小觑,完全值得众多国产芯片厂商关注。 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
来源:数据分析网
发布时间:2018-05-30 16:01:00
随着 人工智能 不断炒热,根据MoneyTree全球风险投资报告,2017年 AI 相关公司的融资总额达50亿美元,投资交易总数更达444笔,创出新纪录。投资分布于AI基础技术、汽车、金融服务、医疗保健和制药及零售等行业。大部分专家都认为,2018年AI领域融资将继续炽热。 一项研究显示,在调查的260家公司中,80%有投资AI。这些受访公司表示,希望通过AI协助开发产品、改善客户服务及提高经营效率。有人认为,AI已经走向主流,并期待从投资这项技术中获得短期和长期的收益。话虽如此,经验告诉我,AI距离实现全面落地还需要诸多的考虑,其中普遍有以下关注点: 一、可用性:提供易用的方式,通过直观的交互界面,让人们更轻松地接受新功能。只有出色的使用体验才可提升普及率。 二、可扩展性:采用可扩展的设施(包括软硬体及 数据资源 ),支持不断增长的需求。在敏捷开发的同时,必须考虑一些隐性成本,例如重复建设、技术切换、数据治理的花费。 三、勿忘安全性:要在 数据安全 方面大力投入,视之为 人工智能 的基础部分。作为「新石油」的 大数据 ,被盗用及泄漏后的风险也很高。 四、提升性能:若性能跟不上,功能再好的应用也会被用户抛弃。而且数据体量愈大,性能提升会愈困难。功能与性能之间的取舍永远存在,也不会因为更强的计算能力而消失。 五、保障个性化:给予用户全方位的控制权,这将促进更大范围普及,因为只有当用户可以按照自己的需求来使用有价值的应用,才是真正的个性化。 六、检查完整性:稳定的人工智能服务背后,要有 数据质量 机制作为支撑。这包括数据、算法、IT工程的准确性、一致性和完整性等。 资金正大量流入AI领域,当中也存在一定程度的非理性繁荣。随着当前的人工智能牛市接近第十个年头,风险投资市场目前偏爱规模较大的公司,以及超过一亿美元的超大规模融资轮。跟前几年相比,早期阶段的风险投资活动有所回落。人工智能何去何从,最关键还是用户说了算,且看2018年获入股投资的公司业绩再说后话。 本文为专栏文章,来自:车品觉,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/54598.html 。
来源:数据分析网
发布时间:2018-05-30 09:49:00