科技资讯_数据资讯

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行

阿里暂停投资印度：马云曾被传唤

NVIDIA RTX 30大量细节官宣！12针供电没那么神秘

大疆发布第四代手机云台DJI OM 4：巧妙磁吸、只需899元

百度网盘迎来劲敌，阿里推出“阿里云网盘”App

拯救Ps菜鸟！后期修图最难搞定的问题这个AI只用了几秒钟

从太空看深圳特区：40年沧桑巨变

阿里与国家电网入局！中国广电网络股份公司出资情况公开

丹麦电信计划9月7日启动5G商用已升级2650个站点

B站Q2净收入26.2亿元同比增长70% 月活用户1.72亿

1000亿美元！马斯克身家创纪录，今年大涨3倍

细思极恐！科学家通过开门的声音就能复制钥匙

　　8 月 24 日，据外媒报道，新加坡国立大学的一项研究，详细介绍了一种黑客利用智能手机和专业程序来复制钥匙的方法。　　报道称，人们每次将钥匙插入门的时候，都会产生声音。而新加坡国立大学的研究人员研发了一种名为 SpiKey 的程序，该程序可以和手机录音相配合，来复制开门时使用的钥匙。　　研究人员表示，黑客会通过攻击你的智能手机、智能手表、智能门铃等，在上面安装恶意软件，通过恶意软件会在你开门的时候录制钥匙插入门锁的声音。而通过这段声音，他们就能够通过专业的程序来复制钥匙。　　在测试中，SpiKey 能够在 330424 钥匙中为研究人员平均提供 5.10 个候选钥匙。而一般情况下，通过其中 3 个候选的钥匙就能够打开房门。　　不过 SpiKey 也存在一些弊端，必须事先知道每把钥匙使用的是什么类型的锁具，并且插入门锁的速度也需要保持稳定。　　研究人员指出，虽然这听起来很可怕，但是实施起来并不容易。这项技术并不成熟，你只需要在开门的时候确保没有被录音和手机上没有恶意软件就行了。

来源：博客园

发布时间：2020-08-25 06:46:00

用Python写一个简单的微博爬虫 | 数据分析网首页分类阅读行业资讯大数据统计学数据�

我是个微博重度用户，工作学习之余喜欢刷刷timeline看看有什么新鲜事发生，也因此认识了不少高质量的原创大V，有分享技术资料的，比如好东西传送门；有时不时给你一点人生经验的，比如石康；有高产的段子手，比如银教授；有黄图黄段子小能手，比如阿良哥哥木木萝希木初犬饼… 好吧，我承认，爬黄图黄段子才是我的真实目的，前三个是掩人耳目的…（捂脸，跑开）另外说点题外话，我一开始想使用Sina Weibo API来获取微博内容，但后来发现新浪微博的API限制实在太多，大家感受一下： user_timeline API document 只能获取当前授权的用户（就是自己），而且只能返回最新的5条，WTF！所以果断放弃掉这条路，改为『生爬』，因为PC端的微博是Ajax的动态加载，爬取起来有些困难，我果断知难而退，改为对移动端的微博进行爬取，因为移动端的微博可以通过分页爬取的方式来一次性爬取所有微博内容，这样工作就简化了不少。最后实现的功能：输入要爬取的微博用户的user_id，获得该用户的所有微博文字内容保存到以%user_id命名文本文件中，所有高清原图保存在weibo_image文件夹中具体操作：首先我们要获得自己的cookie，这里只说chrome的获取方法。用chrome打开新浪微博移动端 option+command+i调出开发者工具点开Network，将Preserve log选项选中输入账号密码，登录新浪微博找到m.weibo.cn->Headers->Cookie，把cookie复制到代码中的#your cookie处 cookie 然后再获取你想爬取的用户的user_id，这个我不用多说啥了吧，点开用户主页，地址栏里面那个号码就是user_id 将python代码保存到weibo_spider.py文件中定位到当前目录下后，命令行执行python weibo_spider.py user_id 当然如果你忘记在后面加user_id，执行的时候命令行也会提示你输入最后执行结束 iTerm 文字内容图片内容小问题：在我的测试中，有的时候会出现图片下载失败的问题，具体原因还不是很清楚，可能是网速问题，因为我宿舍的网速实在太不稳定了，当然也有可能是别的问题，所以在程序根目录下面，我还生成了一个userid_imageurls的文本文件，里面存储了爬取的所有图片的下载链接，如果出现大片的图片下载失败，可以将该链接群一股脑导进迅雷等下载工具进行下载。另外，我的系统是OSX EI Capitan10.11.2， Python 的版本是2.7，依赖库用sudo pip install XXXX就可以安装，具体配置问题可以自行stackoverflow，这里就不展开讲了。下面我就给出实现代码（严肃脸） #-*-coding:utf8-*- import re import string import sys import os import urllib import urllib2 from bs4 import BeautifulSoup import requests from lxml import etree reload(sys) sys.setdefaultencoding('utf-8') if(len(sys.argv)>=2): user_id = (int)(sys.argv[1]) else: user_id = (int)(raw_input(u"请输入user_id: ")) cookie = {"Cookie": "#your cookie"} url = 'http://weibo.cn/u/%dfilter=1&page=1'%user_id html = requests.get(url, cookies = cookie).content selector = etree.HTML(html) pageNum = (int)(selector.xpath('//input[@name="mp"]')[0].attrib['value']) result = "" urllist_set = set() word_count = 1 image_count = 1 print u'爬虫准备就绪...' for page in range(1,pageNum+1): #获取lxml页面 url = 'http://weibo.cn/u/%dfilter=1&page=%d'%(user_id,page) lxml = requests.get(url, cookies = cookie).content #文字爬取 selector = etree.HTML(lxml) content = selector.xpath('//span[@class="ctt"]') for each in content: text = each.xpath('string(.)') if word_count>=4: text = "%d :"%(word_count-3) +text+"nn" else : text = text+"nn" result = result + text word_count += 1 #图片爬取 soup = BeautifulSoup(lxml, "lxml") urllist = soup.find_all('a',href=re.compile(r'^http://weibo.cn/mblog/oripic',re.I)) first = 0 for imgurl in urllist: urllist_set.add(requests.get(imgurl['href'], cookies = cookie).url) image_count +=1 fo = open("/Users/Personals/%s"%user_id, "wb") fo.write(result) word_path=os.getcwd()+'/%d'%user_id print u'文字微博爬取完毕' link = "" fo2 = open("/Users/Personals/%s_imageurls"%user_id, "wb") for eachlink in urllist_set: link = link + eachlink +"n" fo2.write(link) print u'图片链接爬取完毕' if not urllist_set: print u'该页面中不存在图片' else: #下载图片,保存在当前目录的pythonimg文件夹下 image_path=os.getcwd()+'/weibo_image' if os.path.exists(image_path) is False: os.mkdir(image_path) x=1 for imgurl in urllist_set: temp= image_path + '/%s.jpg' % x print u'正在下载第%s张图片' % x try: urllib.urlretrieve(urllib2.urlopen(imgurl).geturl(),temp) except: print u"该图片下载失败:%s"%imgurl x+=1 print u'原创微博爬取完毕，共%d条，保存路径%s'%(word_count-4,word_path) print u'微博图片爬取完毕，共%d张，保存路径%s'%(image_count-1,image_path) 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-03-06 18:35:00

蚂蚁集团披露董监高名单：井贤栋为蚂蚁集团董事长

　　腾讯科技讯，8 月 24 日，证监会浙江监管局网站公示了蚂蚁集团辅导验收申请材料，中金及中信建投均已完成对蚂蚁集团的上市辅导，井贤栋为蚂蚁集团董事长，CEO 胡晓明及 CTO 倪行军为执行董事。　　蔡崇信、程立、蒋芳为蚂蚁集团非执行董事。程立为阿里巴巴集团 CTO、蒋芳为阿里巴巴集团首席人才官。　　另有 3 名独立董事，分别为郝荃、胡祖六、黄益平。阿里巴巴集团合伙人彭蕾、阿里巴巴集团董事会主席兼首席执行官张勇、阿里巴巴首席财务官武卫，已不在董事之列。　　马云为蚂蚁集团实际控制人，张勇为持有5% 以上股份的股东（或其法定代表人）。　　辅导机构认为，蚂蚁集团各方面的运行已经完善和规范，不存在影响首次公开发行人民币普通股（A 股）股票并上市的实质问题，具备发行上市的基本条件。

来源：博客园

发布时间：2020-08-25 06:45:00

史上最全Python数据分析学习路径图 | 数据分析网首页分类阅读行业资讯大数据统计学 �

Python 是一种面向对象、直译式计算机程序设计语言，由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点，Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势，Python受欢迎程度扶摇直上。由于Python拥有非常丰富的库，使其在数据分析领域也有广泛的应用。由于Python本身有十分广泛的应用，本期 Python数据分析路线图主要从数据分析从业人员的角度讲述Python数据分析路线图。整个路线图计划分成16周，120天左右。主要学习内容包括四大部分： 1）Python工作环境及基础语法知识了解（包括正则表达式相关知识学习）； 2）数据采集相关知识（python爬虫相关知识）； 3）数据分析学习； 4）数据可视化学习。 Python工作环境及基础语法知识了解对于Python基础语法学习部分，学习周期大概为4周，需要的相关资源在网络上都能找到免费的资源，而且质量都不错。相关中文资源如下： 1.python工作集成环境包 Python(x,y):下载地址：http://python-xy.github.io/downloads.html Pycharm：下载地址：http://www.jetbrains.com/pycharm/download/#div=windows 2.python数据分析相关库（Pandas/Numpy/Scipy/Matplotlib）如果安装了上面集成工作包，则下面的包不需要重新安装了。关于包的安装方法在学习资源图书中都有介绍，通常安装库采用pip方法，也可以用pip list查询系统安装了哪些库。 3.学习资源图书： 1）Python基础教程（第2版）[电子版图书自行百度] 2）深入浅出Head First python（中文版）[电子版图书自行百度] 在线教程： 1）廖雪峰的python教程：http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 2）正则式学习：http://wiki.jikexueyuan.com/project/python-crawler-guide/regular-expressions.html#7907ec6cc04be6c7f8cf8ac272215946 视频教程： 1）慕课网python入门：http://www.imooc.com/learn/177 2）慕课网python进阶：http://www.imooc.com/learn/317 3）正则式学习视频：http://www.imooc.com/learn/550 数据采集学习对于数据采集部分的学习主要是通过python爬虫的学习了解基本的外部数据采集情况，当然也可以借助别人写好的规则库直接完成某些数据的采集。这部分内容的学习周期大概也为四周，需要的相关资源在网络上都能找到免费的资源，而且质量都不错。相关中文资源如下：爬虫学习在线教程： 1.Python爬虫入门一之综述：http://cuiqingcai.com/927.html 2.Python爬虫入门二之爬虫基础了解：http://cuiqingcai.com/942.html 3.Python爬虫入门三之Urllib库的基本使用：http://cuiqingcai.com/947.html 4.Python爬虫入门四之Urllib库的高级用法：http://cuiqingcai.com/954.html 5.Python爬虫入门五之URLError异常处理：http://cuiqingcai.com/961.html 6.Python爬虫入门六之Cookie的使用：http://cuiqingcai.com/968.html 7.Python爬虫入门七之正则表达式：http://cuiqingcai.com/977.html 8.Python爬虫实战一之爬取糗事百科段子：http://cuiqingcai.com/990.html 9.Python爬虫实战二之爬取百度贴吧帖子：http://cuiqingcai.com/993.html 10.Python爬虫实战三之计算大学本学期绩点：http://cuiqingcai.com/997.html 11.Python爬虫实战四之抓取淘宝MM照片：：http://cuiqingcai.com/1001.html 12.Python爬虫进阶一之爬虫框架Scrapy安装配置：http://cuiqingcai.com/912.html 视频教程： Python简单爬虫开发：http://www.imooc.com/learn/563 数据分析 Python数据分析的学习主要是对相关库的使用，比如数据整理需要用到numpy和pandas库，数据描述与分析分析则主要用到pandas库，从某种程度上讲，利用python进行数据分析的学习过程就是对库的学习过程。由于有了前面2部分内容的学习基础，本部分内容的建议学习练习时间也为4周，相关免费学习资源如下：图书：利用python进行数据分析：http://item.jd.com/11352441.html[电子版图书自行百度] 视频：用python玩转数据：https://www.coursera.org/learn/hipython[视频为cousera认证课程，全程中文] 数据可视化 Python数据可视化学习的过程就是学习matplotlib库的过程，matplotlib库包含有丰富的数据可视化资源，地图、3D等等都有涉及，如果有前面3部分的学习经验的话，这部分内容在4周内也能解决。相关中文学习资源如下：图书： Python数据可视化编程实战[电子版图书自行百度]：http://item.jd.com/11676691.html 在线教程： 1.利用Python绘图和可视化（1）：http://www.lovedata.cn/ec/Python/2016/0118/7732.html 2.利用Python绘图和可视化（2）：http://www.lovedata.cn/ec/Python/2016/0118/7733.html 至此，Python数据分析相关学习内容介绍完了，上面介绍的多种资源，每个阶段只需选择其中的一种进行深入即可，更多更深的内容则需要自己去实践摸索。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-03-05 22:57:00

阿里之后，京东顺丰必有一战？

　　文丨锦鲤财经（ID：jinlifin）　　上周，京东集团发布公告称，旗下子公司京东物流将收购于中国专门从事“限时速运服务”的企业跨越速运集团有限公司（简称“跨越速运”）的控股权益。　　对于快递物流业内而言，跨越速运颇为低调。跨越速运航空资源丰富，和东方航空、南方航空等航空公司长期保持不错的合作关系，拥有稳定的包机资源，因此在限时服务上的时效较为稳定，又有“小顺丰”之称。　　现在航空已成为中国快递物流行业卡位的关键领域，京东物流今年在航空战略布局上动作明显。而跨越速运在航空资源、干线网络、客户基础和销售能力等方面的优势，也可以服务于京东物流进一步布局航空物流、扩大B端市场的战略补充，帮助京东物流向供应链上游延伸业务。　　刘强东此前接受采访也多次表示“未来只会存在两家快递公司，京东和顺丰”。但此次和跨越速运的联姻，对于顺丰来说，可能并不是一个好消息。　　在与电商巨头阿里较量之后，虎视眈眈的京东似乎也要动手了。　　收购跨越的企图　　中国物流与采购联合会发布的《2019 年度中国民营物流企业 50 强》显示，京东物流营收超过“三通一达”，排名第二，仅次于“一哥”顺丰。也就是说，京东物流用短短 8 年时间，在“通达系”，面前实现了华丽逆袭。　　事实上，在大众认知里，京东能够在强大的阿里面前崛起，物流功不可没。　　而关于京东物流 IPO 传言由来已久，从今年京东集团旗下京东数科、京东健康接连明确的上市节奏来看，京东物流 IPO 更可谓箭在弦上。　　在 IPO 前夕控股素有“小顺丰”之称的跨越速运，对于京东物流讲好资本市场故事无疑是个巨大加分项。　　国家邮政局数据显示，2019 年全国快递服务企业业务收入累计完成 7497.8 亿元，同比增长 24.2%。2020 年上半年，全国快递服务企业业务收入累计完成 3823.8 亿元，同比增长 12.6%。中国快递行业的博弈日益白热化。　　早年间快递界流传着一句话，中国只有两种快递，一种是顺丰，一种是其他快递。　　近几年好像不太听到这样的说法了。随着顺丰和其他快递公司的白热化竞争，京东物流自然也希望能够坐上行业领头位置。　　京东物流自成立起，就是为京东电商平台服务的，一直以来的优势都是仓储一体化模式。所以京东物流的战略核心是以仓配供应链服务为主，而不是做快递。所以长期以来，京东的干线运输更多的是采取第三方运力。　　虽然京东物流的干线运输车队早已投入运营，但也只是在陆路物流领域做的不错，而在更为高效的航空货运领域，京东无疑是被顺丰辗轧的。　　而如果京东物流想要进一步发展，必然需要与顺丰进行正面的对决。但是，这对京东物流来说，不是一件易事。　　京东在 2018 年进入个人快递业务，可惜反响平平。仓储一体化模式对于电商可能是极大的优势，但个人快递业务却平平无奇，主要受限于其航空物流的短板。　　所以，从京东的角度来看，这次代价高达 30 亿的收购是有着明确目标——跨越速运能够为京东物流补足关键短板，真正做到提质增效。　　但目前来说，顺丰拥有的全货机是跨越速运的超 4 倍，在 2019 年，顺丰航空发货总量超过 130 万吨，达 8.7 亿票，占国内货邮总运输量 24.8%。这 8.7 亿票远超跨越速运的约 1.1 亿票，况且跨越速运这 1.1 亿票中还包含了陆地发货总量，两者是差距是十分明显的。　　在过去的 13 年里，受限资本和市场规模竞争，跨越速运一直未能跻身第一梯队。跨越速运曾在 2019 年的估值达到 210 亿元，此次被京东以 30 亿元拿下，也许会迎来一场新的机遇，毕竟这也关系到京东物流的战略，一荣俱荣。　　京东物流自成立起虽然一直处于亏损状态，但其对京东电商的战略价值远远大于亏损。此番跨越物流之于京东物流，可能也有类似意义。　　快递一哥的尴尬　　自从电商腾飞带动快递行业的崛起以来，快递行业的竞争就始终绕不开商流的竞争。　　我国快递行业的激烈博弈，已经从企业间的竞争进化成了生态之间的竞争，而航空货运网络是物流生态圈必不可少的重要一环。　　京东物流对跨越速运的整合可谓是做商流和物流的渗透。京东和跨越速运的联合会让物流一哥顺丰大有“狼来了”的感觉吗？　　作为传统的快递巨头，顺丰虽然在航空物流方面具有优势，但天然不具备商流基因。大家对顺丰的普遍印象就是高端。顺丰也确实牢牢抓住了高端快递的市场，但顺丰的强势业务时效件增速显然已快达到天花板。　　近些年物流运输规模的增长主要是受电商驱动，电商快递是快递业务的主要收入来源。但对于顺丰来说，电商领域并不是其强项。电商带来的红利尽被通达系抢光。　　据公开资料显示，今年上半年，顺丰的市场占有率下降至 7.3%，同比下降 1.1 个百分点，市场占有率排名第六，位于通达系、百世之后。而通达系和百世的市场占有率集体上升。今年上半年，5 家快递公司合计市场占有率在 71.1%，目前中通的市占率 19.3%，位列首位。　　顺丰显然已经急不可耐，从 2010 年到 2019 年，顺丰尝试的电商项目有顺丰E商圈、顺丰优选、嘿客、顺丰同城等，尽量摆开阿里带来的束缚，但无一例外，这些项目的经营情况都不尽人意。　　顺丰的短期面临的困境是显而易见的，但长期来看，顺丰有不少诗与远方。正在布局的鄂州机场投建会缓解成本压力，同城业务，生鲜业务，快运业务都前途无量。　　跨越速运和顺丰一样采用的是“直营模式”，这或许是这次股权收购让一些业内人士产生“剑指顺丰”猜想的原因之一。　　实际上，物流行业的纵横捭阖并不少见，如阿里巴巴的投资触角就已经伸向四通一达，大有要将除顺丰等以外的快递企业一网打尽的气势。京东物流的收购也只是补短板而已。　　行业竞争难以停歇　　如今的快递行业早已三分天下。由阿里系和顺丰以及其他快递公司组成。　　而京东物流近来的动作说明，其无疑是在扮演一个搅局者。物流这块蛋糕的大小并未改变多少，大家都在抢食而已。　　8 月 18 日，京东开放平台与申通快递等物流服务承运商的合同陆续到期。8 月 31 日后，商家可能无法在系统选择列表中申通快递等，说到底，申通在这场交火中不过是无处可逃的“池鱼”。　　互联网零售巨头角逐愈发的激烈目前，快递行业与上游的电商行业处于不断加深融合的趋势。京东在此时收购跨越速运，显然跨越速运能给京东物流带来的显然不仅是B端供应链优势，其现有的航空动力网也将进一步帮助京东物流在C端时效体验上构筑更深的护城河。　　疫情的冲击下，我国专业航空货运能力不足、国际货运网络通达性削弱等问题逐渐暴露出来，加强航空货运能力建设，对于我国应对国际供应链安全等问题至关重要。针对此问题，国务院常务会议明确提出，要有序推进以货运功能为主的机场建设，完善航空货运枢纽网络。要一视同仁支持各种所有制航空货运发展，鼓励航空货运企业与物流企业联合重组，支持快递企业发展空中、海外网络等。　　国家层面的连续动作释放出了明确信号，鼓励并支持快递物流企业发展航空货运网络，同时，航空已成为中国快递物流行业卡位的关键领域，包括京东物流在内的国内企业，都在积极布局。　　从行业竞争角度看，阿里依托菜鸟网络，通过投资通达系来整合快递业务；顺丰是先从快递、物流业务切入，然后布局电商和新零售，而京东则在从电商延伸到物流，最后才切入快递领域。阿里系、京东、顺丰各有特色，却又相互厮杀，试图进入对方领域，以获取更多市场份额。　　这次收购的背后势必会对物流行业带来巨大的震动，疫情的影响，快运行业的日子并不好过，新一轮的行业整合说不定会就此拉开序幕。阿里、顺丰并不会让出到手的蛋糕，风起云涌的物流江湖，永远都不缺焦点。　　谁主沉浮，现在还是一个未知数。

来源：博客园

发布时间：2020-08-24 23:08:00

【Python】爬虫+K-means聚类分析电影海报主色调 | 数据分析网首页分类阅读行业资讯大数�

摘要：每部电影都有自己的海报，即便是在如今这互联网时代，电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报，精致的电影海报可以吸引人们的注意力。那么问题来了，不同风格的电影海报对颜色有什么样的偏好呢？利用 Python 爬取海报数据为了回答这个问题，我们需要分析不同风格电影的海报情况。首先，我们需要构建一个电影海报数据的数据集，因此我利用 Bing 图像搜索引擎来获取海报数据。接下来我利用 Python 从网页中抓取电影海报数据并将其储存到本地电脑中，最终我得到四种电影类型(惊悚片、喜剧、动画片和动作片)的112张海报数据。 from bs4 import BeautifulSoup import requests import re import urllib2 import os import numpy as np def get_soup (url): return BeautifulSoup(requests.get(url).text) image_type = "action movies" query = "movie 2014 action movies poster" url = "http://global.bing.com/images/searchq=" + query + "&qft=+filterui:imagesize-large&FORM=R5IR5" soup = get_soup(url) images = [a['src'] for a in soup.find_all("img", {"src": re.compile("mm.bing.net")})] for img in images: raw_img = urllib2.urlopen(img).read() cntr = len([i for i in os.listdir("images") if image_type in i]) + 1 f = open("images/" + image_type + "_" + str(cntr), "wb") f.write(raw_img) f.close() 其中部分海报数据如下图所示：图像格式转换为了提取海报的颜色信息，我们需要将图像转换为 RGB 像素矩阵。比如，对于 200*200 像素的图片，我们需要将其转换成含有 40000 个像素信息的对象。同时为了保持数据集的大小，我将图像的大小统一设定为 200*200。 def get_points (img): points = [] w, h = img.size for count, color in img.getcolors(w * h): points.append(Point(color, 3, count)) return points rtoh = lambda rgb: '#%s' % ''.join(('%02x' % p for p in rgb)) 提取颜色信息接下来我利用 K 均值算法和颜色信息将海报分成许多不同的类别。我尝试了 k=3 , k=5 和 k=10 三种模型，但由于大多数海报通常都具有黑色的字体和边框，所以前两种模型无法获取海报中的主要颜色信息。最终我选择 k=10 的模型，并利用该算法处理 112 张海报，得到了 1120 种颜色信息。部分结果如下图所示：从下图中我们可以看出，K 均值算法存在一些不足之处：该算法对初始值非常敏感，这会产生一些不想要的结果。在这张海报中，该算法无法获取金色或橘黄色的信息。 3D 散点图对每一类型的电影，我根据海报的 RGB 数据绘制三维散点图，其中每个点代表海报的一个颜色。通过比较四张散点图我们可以发现大多数惊悚片的海报中都有暗黑色和红色，而喜剧和动画片则会根据不同的电影主题选择不同的配色。喜剧 VS. 动画片动作片 VS. 惊悚片转换颜色信息由于我们很难从 1120 种颜色中提取一些特定的模式，因此我们需要降低颜色的维度。我们可以将颜色信息转换到 Lab 色彩空间中，然后利用 Python 中的 Delta E equations 和 colormath 包来计算海报中的颜色和基础颜色之间的视觉差异程度。我通过最小距离法将这些颜色分成 17 类。下表是喜剧电影海报数据的部分数据：电影类型对比转换数据后，我计算出每个电影类型中所包含的基本色数量。从上图中我们可以发现黑色、灰色和白色是电影海报中最常见的三种颜色。这是因为基本色的数量太少了，而大多数电影海报都有黑色的标题和边框。原文链接： http://blog.nycdatascience.com/students-work/using-python-and-k-means-to-find-the-colors-in-movie-posters/ 原文作者：Amy 译者：Fibears 本文为专栏文章，来自：数据工匠，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/9214.html 。

来源：数据分析网

发布时间：2016-03-02 02:06:00

微软《飞行模拟2020》发布后美国电商的飞行操纵杆销售一空

　　微软最近发布的《飞行模拟 2020》是一款最适合用专用飞行操纵杆来享受的游戏，但在当下，想在美国的市面上找到一个这样的控制器是一个挑战。截至 8 月 24 日星期一，亚马逊网站上最畅销的 PC 飞行操纵杆都宣告无货，要么被列为不可用，要么只有二手货，最令人崩溃的是进货时长要几个月时间。图为 FS9 时期的一代经典 Saitek Evo 摇杆　　我们无法知道目前的这种短缺是否是由微软《飞行模拟 2020》的发布直接造成的，因为飞行摇杆一开始就是一个相对小众的产品，而且，在游戏正式发布之前，Twitter 上就有人在抱怨缺货。同时，由于人们更多地呆在家里，需求增加，以及 COVID-19 大流行对供应链造成的挑战，很多其他游戏配件，比如任天堂的 Ring Fit 也在今年卖断货。　　微软《飞行模拟 2020》也是多年来最大的飞行模拟器新作，由于它包含在 Xbox Game Pass 订阅中，所以价格也相对实惠。另外，再过几个月，《星球大战：中队》也将发布，这意味着现在购买了飞行摇杆的玩家在 10 月 2 日后将有第二款游戏可玩，这可能进一步加剧缺货和订货时间长的窘境。　　虽然飞行摇杆在亚马逊和百思买这样的网站上越来越难找到，但似乎还有一些小型在线零售商仍有售。戴尔还有一个相对实惠的 Thrustmaster 组合飞行摇杆和节流阀控制器可供选购。

来源：博客园

发布时间：2020-08-24 22:00:00

R语言 vs Python：数据分析哪家强？ | 数据分析网首页分类阅读行业资讯大数据统计学数

摘要：这篇文章旨在更客观地看待这两门语言。我们会平行使用 Python 和R分析一个数据集，展示两种语言在实现相同结果时需要使用什么样的代码。这让我们了解每种语言的优缺点，而不是猜想。在Dataquest，我们教授两种语言，并认为两者在数据科学工具箱中都占据各自的地位。我们将会分析一个NBA数据集，包含运动员和他们在2013-2014赛季的表现，可以在这里下载这个数据集。我们展示Python和R的代码，同时做出一些解释和讨论。事不宜迟，现在就开始这场硬碰硬的对决吧！读取CSV文件 R nba <- read.csv( "nba_2013.csv" ) Python import pandas nba = pandas.read_csv( "nba_2013.csv" ) 上面的代码分别在两种语言中将包含2013-2014赛季NBA球员的数据的 nba_2013.csv 文件加载为变量 nba 。Python中实际的唯一不同是需要加载pandas库以使用Dataframe。Dataframe在R和Python中都可用，它是一个二维数组（矩阵），其中每列都可以是不同的数据类型。在完成这一步后，csv文件在两种语言中都加载为dataframe。统计球员数量 R print(dim(nba)) [1] 481 31 Python print(nba.shape) (481, 31) 两者分别输出球员数量和数据列数量。我们有481行，或者说球员，和31列关于球员的数据。查看数据的第一行 R print(head(nba, 1 )) player pos age bref_team_id 1 Quincy Acy SF 23 TOT [output truncated] Python print(nba.head( 1 )) player pos age bref_team_id 0 Quincy Acy SF 23 TOT [output truncated] 它们几乎完全相同。两种语言都打印出数据的第一行，语法也非常类似。Python在这里更面向对象一些， head 是dataframe对象的一个方法，而R具有一个单独的 head 函数。当开始使用这些语言做分析时，这是一个共同的主题，可以看到Python更加面向对象而R更函数化。计算每个指标的均值让我们为每个指标计算均值。如你所见，数据列以类似 fg （field goals made）和 ast （assists）的名称命名。它们都是球员的赛季统计指标。如果想得到指标的完整说明，参阅这里。 R meanNoNA <- function (values){ mean(values, na.rm= TRUE ) } sapply(nba, meanNoNA) player NA pos NA age 26.5093555093555 bref_team_id NA [output truncated] Python import numpy nba_numeric = nba._get_numeric_data() nba_numeric.apply(numpy,.mean, axis= 0 ) age 26.509356 g 53.253638 gs 25.571726 [output truncated] 这里有一些明显的分歧。在两种方法中，我们均在dataframe的列上应用了一个函数。在python中，如果我们在非数值列（例如球员姓名）上应用函数，会返回一个错误。要避免这种情况，我们只有在取平均值之前选择数值列。在R中，对字符串列求均值会得到 NA ——not available（不可用）。然而，我们在取均值时需要确实忽略 NA （因此需要构建我们自己的函数）。否则类似 x3p. 这样的一些列的均值将会为 NA ，这一列代表三分球的比例。有些球员没有投出三分球，他们的百分比就是缺失的。如果我们直接使用R中的 mean 函数，就会得到 NA ，除非我们指定 na.rm=TRUE ，在计算均值时忽略缺失值。绘制成对散点图一个探索数据的常用方法是查看列与列之间有多相关。我们将会比较 ast , fg 和 trb 。 R library (GGally) ggpairs(nba[, c( "ast" , "fg" , "trb" )]) import seaborn as sns import matplotlib.pyplot as plt sns.pairplot(nba[[ "ast" , "fg" , "trb" ]]) plt.show() 我们会得到非常相似的两张图，但是可以看到R的数据科学生态中有许多较小的软件包（ GGally 是最常用的R绘图包 ggplot2 的辅助包）和更多的通用可视化软件包。在Python中， matplotlib 是主要的绘图包， seaborn 是一个广泛用于matplotlib上的图层。Python中的可视化通常只有一种蛀牙哦的方法完成某件事，而R中可能有许多包支持不同的方法（例如，至少有半打绘制成对散点图的包）。对球员聚类另一个很好探索数据的方式是生成类别图。这将会显示哪些球员更相似。 R library (cluster) set.seed( 1 ) isGoodCol <- function (col){ sum(is.na(col)) == 0 && is.numeric(col) } goodCols <- sapply(nba, isGoodCol) clusters <- kmeans(nba[,goodCols], centers= 5 ) labels <- clusters$cluster Python from sklearn.cluster import KMeans kmeans_model = KMeans(n_clusters= 5 , random_state= 1 ) good_columns = nba._get_numeric_data().dropna(axis= 1 ) kmeans_model.fit(good_columns) labels = kmeans_model.labels_ 为了正确的聚类，我们移除了所有非数值列，以及包含缺失值的列。在R中，我们在每一列上应用一个函数，如果该列包含任何缺失值或不是数值，则删除它。接下来我们使用 cluster 包实施 k-means 聚类，在数据中发现5个簇。通过 set.seed 设置随机种子以使结果可复现。在Python中，我们使用了主要的Python机器学习包 scikit-learn 拟合k-means模型并得到类别标签。数据准备的过程和R非常类似，但是用到了 get_numeric_data 和 dropna 方法。绘制类别图我们现在可以按类别绘制球员分布图以发现模式。首先使用 PCA 将数据降至2维，然后画图，用不同标记或深浅的点标志类别。 nba2d <- prcomp(nba[,goodCols], center= TRUE ) twoColumns <- nba2d$x[, 1 : 2 ] clusplot(twoColumns, labels) Python from sklearn.decomposition import PCA pca_2 = PCA( 2 ) plot_columns = pca_2.fit_transform(good_columns) plt.scatter(x=plot_columns[:, 0 ], y=plot_columns[:, 1 ], c=labels) plt.show() 在R中，我们通过聚类库中的函数 clusplot 函数绘图，使用内建函数 pccomp 实行PCA。在Python中，我们使用scikit-learn库中的PCA类，使用matplotlib创建图形。划分训练集和测试集如果我们希望进行监督性机器学习，将数据划分为训练集和测试集是一个避免过拟合的好办法。 R trainRowCount <- floor( 0.8 * nrow(nba)) set.seed( 1 ) trainIndex <- sample( 1 :nrow(nba), trainRowCount) train <- nba[trainIndex,] test <- nba[-trainIndex,] Python train = nba.sample(frac= 0.8 , random_state= 1 ) test = nba.loc[~nba.index.isin(train.index)] 你能注意到R有更多的数据分析内建函数，例如 floor ， sample 和 set.seed ，这些函数在Python中通过第三方库被调用（ math.floor ， random.sample ， random.seed ）。在Python中，最新版本的pandas包含一个 sample 方法，返回对原始dataframe确定比例的随机抽样，这使得代码更加简洁。在R中，有很多包可以使抽样更容易，但是没有一个比使用内置 sample 函数更简洁。在两个例子中，我们都设置了随机种子以保证结果的可重复性。一元线性回归假设我们希望通过球员的得分预测其助攻次数。 R fit <- lm(ast ~ fg, data=train) predictions <- predict(fit, test) Python from sklearn.linear_model import LinearRegression lr = LinearRegression() lr.fit(train[[ "fg" ]], train[ "ast" ]) predictions = lr.predict(test[[ "fg" ]]) Scikit-learn包含一个线性回归模型，我们可以通过它拟合并生成预测。R依赖于内建函数 lm 和 predict 。 predict 根据传递给它拟合模型的不同会表现出不同的行为，它可以被用于各种各样的模型。计算模型统计量 R summary(fit) Call: lm(formula = ast ~ fg, data = train) Residuals: Min 1Q Median 3Q Max -228.26 -35.38 -11.45 11.99 559.61 [output truncated] Python import statsmodels.formula.api as sm model = sm.ols(formula= 'ast ~ fga' , data=train) fitted = model.fit() print(fitted.summary()) OLS Regression Results ============================ Dep. Variable: ast R-squared: 0.568 Model: OLS Adj. R-squared: 0.567 [output truncated] 如果希望得到类似 R平方值这样的模型统计量，在Python中需要比R多做一点。在R中，我们可以使用内建 summary 函数得到模型信息。在Python中，我们需要使用 statsmodels 包，这个包包含许多统计模型的Python实现。我们得到类似的结果，总体来说在Python中进行统计分析稍有点困难，一些R中存在的统计方法也没有存在于Python。拟合一个随机森林模型一元线性回归表现的不错，但是我们怀疑数据中可能存在非线性。因此，我们想要拟合一个随机森林模型。 R library (randomForest) predictorColumns <- c( "age" , "mp" , "fg" , "trb" , "stl" , "blk" ) rf <- randomForest(train[predictorColumns], train$ast, ntree= 100 ) predictions <- predict(rf, test[predictorColumns]) Python from sklearn.ensemble import RandomForestRegressor predictor_columns = [ "age" , "mp" , "fg" , "trb" , "stl" , "blk" ] rf = RandomForestRegressor(n_estimators= 100 , min_samples_leaf= 3 ) rf.fit(train[predictor_columns], train[ "ast" ]) predictions = rf.predict(test[predictor_columns]) 这里主要的区别是R需要使用randomForest库实现算法，而Python中的scikit-learn直接内建其中。scikit-learn为许多不同的机器学习算法提供了统一的交互接口，在Python中每种算法通常只有一个主要的实现。而R中有许多包含单个算法较小的包，一般访问的方法并不一致。这导致算法更加的多样化（很多算法有多个实现，还有那些新问世的算法），但是只有一小部分是可用的。计算误差现在已经拟合了两个模型，下面让我们计算误差，使用 MSE R mean((test[ "ast" ] - predictions)^ 2 ) 4573.86778567462 Python from sklearn.metrics import mean_squared_error mean_squared_error(test[ "ast" ], predictions) 4166.9202475632374 Python中的scikit-learn库包含我们可以使用的各种误差量度。在R中，可能有一些小的第三方库计算MSE，但是两种语言中手动计算它都很容易。误差的细微差异几乎可以肯定是由于参数调整造成的，并没什么关系。下载一个网页现在已经有了2013-2014赛季的NBA球员数据，让我们抓取一些额外数据补充它。为了节省时间，在这里看一场NBA总决赛的比分。 R library (RCurl) url <- "http://www.basketball-reference.com/boxscores/201506140GSW.html" page <- getURL(url) tc <- textConnection(page) data <- readLines(tc) close(tc) Python import requests url = "http://www.basketball-reference.com/boxscores/201506140GSW.html" data = requests.get(url).content Python中的 requests 包为所有的请求类型使用统一的API接口，下载网页非常容易。在R中， RCurl 提供稍微复杂方法发起请求。两者都把网页下载为字符串类型的数据。注：这在R中的下一步并不是必须，只是为了比较的原因。抽取球员比分现在我们已经下载了网页，需要处理它以抽取球员比分。 R library (rvest) page <- read_html(url) table <- html_nodes(page, ".stats_table" )[ 3 ] rows <- html_nodes(table, "tr" ) cells <- html_nodes(rows, "td a" ) teams <- html_text(cells) extractRow <- function (rows, i){ if (i == 1 ){ return } row <- rows[i] tag <- "td" if (i == 2 ){ tag <- "th" } items <- html_nodes(row, tag) html_text(items) } scrapeData <- function (team){ teamData <- html_nodes(page, paste( "#" ,team, "_basic" , sep= "" )) rows <- html_nodes(teamData, "tr" ) lapply(seq_along(rows), extractRow, rows=rows) } data <- lapply(teams, scrapeData) Python from bs4 import BeautifulSoup import re soup = BeautifulSoup(data, 'html.parser' ) box_scores = [] for tag in soup.find_all(id=re.compile( "[A-Z]{3,}_basic" )): rows = [] for i, row in enumerate(tag.find_all( "tr" )): if i == 0 : continue elif i == 1 : tag = "th" else : tag = "td" row_data = [item.get_text() for item in row.find_all(tag)] rows.append(row_data) box_scores.append(rows) 这将创建一个包含两个列表的列表，第一个是 CLE 的比分，第二个是 GSW 的比分。两个都有标题，以及每个球员和他们的比赛统计。我们现在不会将其转换为更多的训练数据，但是如果需要把它们加入 nba dataframe，转换可以很容易地完成。 R代码比Python更复杂，因为它没有一个方便的方式使用正则表达式选择内容，因此我们不得不做额外的处理以从HTML中得到队伍名称。R也不鼓励使用 for 循环，支持沿向量应用函数。我们使用 lapply 做到这一点，但由于需要处理的每一行都因是否是标题而异，需要传递保留项的索引和整个 rows 列表给函数。我们使用 rvest ，一个广泛使用的新R网络抓取包实现抽取数据，注意这里可以直接传递url给rvest，因此上一步在R中并不是必须的。在Python中，我们使用了 BeautifulSoup ，一个最常用的web抓取包。它让我们可以在标签间循环，并以一种直接的方式构建列表的列表。结论我们已经看到了如何使用R和Python分析一个数据集。还有很多任务没有深入，例如保存和分享分析结果，测试，确保生产就绪，以及构建更多的可视化。我们会在近期继续探讨这些，从而得到更明确的结论。现在，下面是一些能够得到的： R更加函数化，Python更面向对象就像我们在 lm ， predict 和其他函数中看到的那样，R用函数完成大部分工作。对比Python中的`LinearRegression类，还有dataframe的sample方法。 R包含更多的数据分析内建功能，Python依赖于第三方软件包。当我们查看汇总统计量时，在R中可以直接使用 summary 内建函数，但是Python中必须依靠statsmodels包。dataframe是R内置的结构，而在Python中由 pandas 包引入。 Python拥有“主要的”数据分析包，R拥有由较小的包组成的更大的生态系统在Python中，我们可以使用scikit-learn完成线性回归，随机森林和许多其他任务。它提供了一致的API，并很好的维护。在R中，我们有多种多样的包，但是也更加碎片化和不一致（线性回归是内置的 lm ， randomForest 是单独的包，等等）。总体上R有更多的统计支持 R是作为统计语言被构建的，它也显示了这一点。Python中的 statsmodels 和其他软件包提供了统计方法的大部分实现，但是R的生态系统要大的多。 Python中完成非统计任务通常更加直接有了类似BeautifulSoup和request这样良好维护的软件包，Python中的网页抓取远易于R。这种说法也适于我们还未关注的其他任务，例如保存数据库，部署web服务器或运行复杂的工作流。数据分析工作流在两者之间有许多相似之处 R和Python之间有一些互相启发的地方（pandas的Dataframe受到R中dataframe的影响，rvest包来自BeautifulSoup的启发），两者的生态系统都在不断发展壮大，对两种语言中许多共同的任务来说，语法和实现都是非常相似的。总结在 Dataquest ，我们首先教授Python，但是最近也加入了R的课程。我们看到这两种语言是互补的，虽然Python在更多领域更强大，但R是一种高效的语言。它可以作为Python在数据探索和统计等领域的补充，或者你惟一的数据分析工具。正如本篇文章中所显示的，两种语言有许多相似的语法和实现方法，你不能在一个或另一个，或者两者中出错。 Vik Paruchuri 原文链接本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-02-28 11:37:00

饿了么内部人士：确实推出百亿补贴与商家共同出资

　　蓝鲸 TMT 频道 8 月 24 日讯，近日有网友在饿了么 APP 上发现“百亿补贴”的字样。有饿了么内部人士对蓝鲸 TMT 确认，饿了么确实推出了“百亿补贴”，在出资规则上由饿了么和商家共同出资。　　该内部人士还表示，本次百亿补贴在逻辑和策略上，如重点城市和商家的选择上，比之前泛泛的补贴更为集中和聚焦，“因为更为聚焦，所以商家一部分的出资可以获得比之前更大的效果。” 　　据了解，本次补贴的重点 24 个城市分别为上海、北京、杭州、苏州、广州、成都、武汉、温州、南京、天津、宁波、长沙、合肥、厦门、沈阳、西安、泉州、青岛、无锡、哈尔滨、郑州、重庆、深圳、福州。　　根据美团外卖 8 月 8 日公布的数据，其平台订单量超 4000 万单。而据晚点 LatePost 报道，饿了么日单 2000 万单上下。“份额破三，在历史低点”。一位接近阿里本地生活的投资人说。　　QuestMobile 在 2020 年 6 月发布的数据显示，去重后的 APP 和小程序相加，饿了么月活跃用户数（MAU）为 7661 万，美团外卖为 1.4478 亿，是饿了么的近两倍。不过对饿了么的 MAU 数据统计中不包括淘宝、高德等对其的引流。　　除了推出百亿补贴，今年 8 月饿了么还在战略组织调整上进行了调整。据晚点 LatePost 报道，阿里本地生活服务公司对饿了么做了新一轮调整。业务战略上，从“5050 战略”到高质量增长，注重与阿里集团的协同；组织上，全国 24 个区缩编成 7 个大区，层级更扁平。本次调整结束后，将回归到阿里收购饿了么前的体系。

来源：博客园

发布时间：2020-08-24 21:55:00

数据从业者与PPT的进阶 | 数据分析网首页分类阅读行业资讯大数据统计学数据分析数�

最近写了不少 PPT ，有点感触，回想自己工作以来，从做取数，做建模，做分析，搞系统，做项目，做管理，PPT写得也很多了。网上有个词，叫作PPT文化，说写PPT并不好，浪费时间，做了多少无用功，很多人对此深恶痛绝。团队里新人已经不少了，每每要出日报，周报，甚至要汇报一下，希望其能把问题和事情描述清楚，但总觉得缺点什么。实际上，PPT对于数据从业者，是有特殊意义的，在大多数企业，数据从业者都需要通过PPT的形式表达自己的数据分析成果，或者表达对于某个问题或方案的看法和认识，有些岗位，甚至天生就是以PPT为生的。今天，就来谈谈关于写PPT的看法，当下PPT高手是如此之多，本人水平有限，算是班门弄斧了。 PPT反映了换位思考的能力。 PPT是一种思想的媒介，它的目的是沟通，因此，落下的每一个文字和图片，首先要让受众看得懂，这是基本原则。同样一件事，写给不同的对象看，千差万别。很多人，拿着给专业人员的PPT方案稍微改改，就去给领导汇报决策了，这是错位问题，大多时候领导并不关注技术细节，可能只会问你，建议选择哪个方案，好处坏处，要多少钱。 PPT的表达要遵循“对人说人话对鬼说鬼话”，分清楚对象和场合，采用不同的表达方式，始终要明白，你与其他的人背景不同，认知不同，高度不同，因此，不要想到什么就表达什么，这类PPT往往变成是给你自己看的，而不是给他人看得。一个PPT，让受众看不懂，是写PPT的人最大的罪过，是对看PPT人的最大不尊重。很多时候，PPT也是对于情商的挑战，一个公司写PPT最牛逼的，可能是秘书或综合办的人吧，这是有道理的。很多技术公司的售前或售后都擅长PPT，显然是岗位的刚性需求，很多企业，首先最需要的是能跟客户沟通的人。换位思考无关专业水平，技术能力再差，能力再有限，如果是个有心人，照样能写出令人看得懂的东西，这要好过曲高和寡。因为PPT首先比拼的是沟通能力，专业能力则是第二层次要解决的问题。专业知识是PPT的血肉。任何一个专业领域，你的专业水平，决定了PPT能写出的最高水平，不要相信空手套白狼的事，只有最懂这个领域的人，才能写出这个领域最牛皮的PPT。因此，掌握专业技能，不断提升自己的专业视野，始终是每个数据从业者的最大追求。可以看到咨询公司人员的工作方式，总是千方百计的跟客户沟通，拿到尽量多的资料来理解你的行业知识，因为大家都知道，再多的PPT技巧，再好的方法论，没有专业知识，也是巧妇难为无米之炊。也可以看到，很多咨询公司的工作是失败的，是无法落地的，并不是他们不努力，而是专业要求有时太高了，项目化的工作方式，使得他们只能用方法论的优势来弥补专业知识的缺乏，最终，PPT仍然是非常苍白的。笔者接触过大量合作伙伴的数据领域的售前，售后亦或专业技术人员，很多时候，他们给出的PPT方案是差强人意的，不能说不努力，实在是技术或业务视野上有差距。务实的人，到头来，只会关注专业内容。深度思考是PPT进步的阶梯。做技术或业务，特别是做数据的，很多时候，需要通过PPT表达你对于未来的看法，指出前进的方向。有很多的专家，虽然技术能力很强，工程实践强，经验也丰富，但其也不一定能写出牛皮的PPT，因为虽然其“术”的练习很多，但“道”太少了，一定程度讲，是深度思考少了。会有很多的场景，比如你问某专家，这个东西能否来龙去脉的讲清楚，可能专家真得解释不了，但他就是能解决很多实际的问题，这类专家更多是工匠型，对于每个企业很重要，但也许只能算是个将才。讲不出来，有时反映的是，知识并没有融会贯通，或者视野太小了，没有打造出属于自己的知识体系，更多的在COPY。深度思考的本质，在于通过COPY及日常的实践，通过连续的思考，总结出属于自己的一套独有方法论，构筑出自己的知识体系，形成对于这个世界自己的看法，而不是人云亦云，只有这样，才能做出更多的创新和突破。牛逼的PPT与普通PPT的差距，往往就在于思想认识上的差距，好的PPT不仅是描述事实，而且应该能够给予人启示的，赋予听者新的知识。这个大数据时代，这个不确定的时代，更需要深度思考大师。 PPT的表达讲究结构化。再回到沟通的技巧，领导讲话，经常这样表述，我给三个建议，第一是，第二是，第三是…，这是种结构化思维方式，它不仅让讲话者逻辑清楚，也让听者能抓住重点。人类所以比较容易理解这种表达方式，是有深层次原因的，大家注意这个原则就是了，比如你要面试，有时会很紧张，记住1,2,3…就行了。 PPT也一样，任何时候，都记得结构化的去表达事情，始终坚持这么练习，会让你表达更加严谨。写PPT多了，很多时候甚至会有强迫症，比如不仅希望逻辑表达是结构化的，而且结构化的语言描述都要对仗，比如标题都是4个字，就好比古时候的对联一样。不要取笑它，这是结构化思维的体现。我给2张PPT，一张数据分析的图，一张大数据思路的图，这种表达方式，脉络清晰，起承转合会很容易，PPT变得有骨架。虽然八股，但值得拥有，任何人起步的时候，首先要学会这个套路，PPT的放浪形骸，那是大师做的事情。 PPT的表述依赖训练。每个企业情况不同，专业也不同，听者的习惯也不同，因此，写PPT没有统一的表述方式，但有一点是肯定的，每页都要突出重点，就是要有文眼。每页努力只表达一个观点，所有的内容都是为了证明这个观点。一种学习方法是拿到自己组织里的最有代表性的PPT去学习如何表达，比如如果你是写分析报告的，那就去拿到企业的市场经营报告，这代表了经营分析的最高水平，又比如你要写技术方案，可以从以前大的项目的汇报PPT中获取灵感。这是个分享的时代，要善于站在巨人的肩膀上去学习，企业也应尽量透明化，老大的报告多发发，对于每个员工，都是锻炼学习的机会。当然，除了突出重点，不同类型的PPT，论证的方式肯定是有区别的，经营分析报告显然要数据说话，技术方案则要讲清楚架构、设计和流程等等。但无论是结构化的思维表达方式，或是内容组织方式，都可以通过大量训练学习获得，有心人，没有理由做不好。语文不好是借口，又不是写散文。 PPT有一定审美要求。 PPT长得是否好看，跟你的审美有关系，大多的人，不需要特意去学习，COPY别人的吧，存储一堆模板，买也能买到，写写练练就有感觉了。特别是如果你学会了换位思考，自然会让PPT的形式尽量让人看起来舒服，这是相辅相成的。以下是我2005年写的一个封面，斗转星移，现在估计是不能容忍了，但如果没有多年的训练，也许，只能停留在这个层次了。但始终记得，换位思考、专业知识、思想训练，重点表达，远比漂亮重要的多。为他人写的PPT。如果是给领导写PPT，面对面的沟通就更重要了， PPT往往能反映领导的最深层次思考，他的学识和视野，是一般的人无法达到的，应以谦卑的心态去充分理解领导的意图，有机会就去多骚扰下吧，你能争取多少领导的时间，决定了能降低自己多少无谓的消耗。当然，如果你能给出一些建议，那就再好不过了，自己伺机而动吧。 PPT的演讲技巧。对于PPT的内容理解的多少，决定了可能演讲的深度，但要演讲的精彩，一定程度是有赖于你的口才的，很多评奖评比啥的，或者如产品发布会，都是宣传目的，夸大也正常，记得会讲故事就行了。大多数工作岗位，大多数时候，我们需要务实的通过PPT这种沟通手段来表达问题及解决问题，没必要追求成为一个演讲大师，平铺直叙就够了。最糟的情况。其实很多时候，我们恨PPT，是因为习惯做事务性工作，平时缺乏思考的沉淀，一旦要开个会，总结一下，就感觉很没底，要熬夜写东西，有时熬夜也不可得，罪过倒真不在PPT，而在于自己了。当然，突发性的事情也不少，有时的确很被动，有时需要到处沟通协调，有时甚至要东拼西凑，压力很大，但职场毕竟也是个江湖，身不由己啊。但是，好的PPT能量是巨大的，的确没有比这种更好的上下沟通的形式了，就跟高考一样，既然很多听者乐意接受这种形式，就努力适应它吧。本文为专栏文章，来自：傅一平，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/39889.html 。

来源：数据分析网

发布时间：2016-12-26 13:29:00

李彦宏：大数据可以对中医证实或证伪 | 数据分析网首页分类阅读行业资讯大数据统计

昨天上午，在世界互联网大会“互联网创新与可持续发展”论坛上，百度公司创始人、董事长兼CEO李彦宏发表主旨演讲，分享了他对大数据、人工智能等前沿技术话题的洞察。尝试证实或证伪中医理论在演讲中，李彦宏谈到了大数据给医疗带来的机会，他提出，其实可以用大数据的方法进行证实或者证伪中医相关理论。李彦宏谈到，由于过去十几年的积累，人们已经可以看到在大数据、人工智能方面有很多新的机会出现。这些机会有些可能在一般人的心目当中和互联网没有太大的关系，但是在他看来，诸如大数据和医疗健康就有很多方面可以结合。在李彦宏看来，中医理论其实是在讲养生的方法，比如著名的《黄帝内经》，但《黄帝内经》已有两千多年历史，其中哪些理论是对的，哪些是错的，都可以通过技术手段来证实或证伪。在演讲中，李彦宏提到，安徽有一位老人每日在家按摩两小时进行养生保健，颇为长寿。他认为，类似这种零星的个体经验并不能够认定为规律，但如果在全国找到几千个、几万个同样的案例，用大数据的方式进行归类分析，就能够判断个体的经验是否构成规律。关注癌症治疗及基因测序对于互联网与医疗的结合，李彦宏也提到了除中医外的其他机会，比如基因测序。“大多数的疾病都是因为基因和后天环境导致的，那么什么样的基因导致什么样的疾病？大数据也可以帮忙。”李彦宏在演讲中指出。今年以来，李彦宏已经不止一次在公开场合表达自己对于生命科学、癌症治疗以及基因测序的高度关注，并多次表达互联网+以及人工智能和大数据等技术对于“治未病”、证实证伪医学理论的畅想。在今年与复旦大学师生的对话中，李彦宏说：“绝大多数病跟遗传有关系，但我们不知道是什么基因导致了这个病，可能是很多基因的一个Combination，导致了这个病。26000个基因、各种各样的组合就需要我们的大数据，需要我们的人工智能来计算。” 呼吁企业家思考自己使命据悉，李彦宏前不久还个人捐资3000万元，支持中国的食管癌研究。他说，长期以来，中国食管癌发病率高居世界首位，而且中国的食管癌都是所谓的食管鳞癌，与美国的食管腺癌不同，没法借鉴其他国家的研究成果，李彦宏认为，“这是我们中国人的职责”。食管癌研究项目利用大数据和人工智能技术相结合，对大量食管鳞癌患者的信息加以分析进行基因测定，更有针对性地进行药物研究，推进癌症预防与治疗的进一步发展。 “这不是公司的业务，是中国人的职责。”李彦宏说，“这个项目短期内不会有任何商业回报，所以需要用企业家个人的资金去进行研究、进行突破、进行创新。”为此，他还呼吁企业家们能够利用自己积累的资金去做一些有意思的、创新的事情，“期望我们每一个企业家都能站在时代的路口上，认真思考自己所肩负的使命，为自己的企业也为自己的人生做出更精彩的业绩”。人工智能将深刻改变人类而就在大会开幕当天，李彦宏还向国家领导人现场讲解了百度无人驾驶车的技术储备、路测实况、行业突破等内容。昨天的主旨演讲，李彦宏也以无人车为例，阐述了人工智能技术改变人们生活的巨大空间，他说，随着计算机计算能力、成本的下降，人工智能迎来了新机遇。李彦宏认为，人工智能有很多创新空间，不仅是无人驾驶汽车，人工智能未来对整个社会各方面都影响深远。“如果说过去的几百年工业化改变了人类，那么它主要的改变是代替了绝大多数的体力劳动；未来人工智能将会更加深刻地改变人类，它会代替绝大多数的简单、重复性的脑力劳动。” 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2015-12-18 03:38:00

继爱奇艺后台当局又对淘宝台湾动手：限6个月撤资或改正

　　【环球网报道记者赵友平】继爱奇艺后，台当局又对淘宝台湾动手了。据台媒刚刚消息，台湾“经济部投审会”今天（24 日）判定淘宝台湾为陆资，罚淘宝台湾 41 万元新台币，限期 6 个月内撤资或改正。　　据台湾“中央社”报道，台湾“经济部投审会”称，淘宝台湾虽由英商克雷达分公司经营，但克雷达可被陆资阿里巴巴实质控制，从而判定淘宝台湾为陆资，裁罚新台币 41 万元，限期 6 个月内撤资或改正。　　台“投审会”还称，阿里巴巴在克雷达公司持股未逾 30%，符合现行“大陆地区人民来台投资许可办法”，但依法令或契约约定，阿里巴巴可操控英商克雷达营运方针，认定具控制能力。　　对于媒体此前传出淘宝台湾若遭认定陆资恐被迫退出台湾的消息，今天（24 日）稍早时淘宝台湾曾回应台湾“中央社”时称，将持续尊重且配合主管机关决议。　　淘宝台湾向“中央社”记者说明，淘宝台湾由克雷达台湾分公司运营，克雷达股权来自不同国家的外资基金投资，投资比率皆依循台湾法律。淘宝台湾称，将持续尊重且配合主管机关决议，稳健经营，为台湾市场提供服务，保障消费者与商家的权益。　　8 月 18 日，台当局曾发布通告，称即将发布一份“在台湾地区从事商业行为禁止事项项目表”，禁止台湾任何单位代理或经销大陆 OTT TV（流媒体平台）服务。直白点说，这份通告就是针对爱奇艺和腾讯的。因为在公告中，台当局就直接点明：“为防止大陆地区 OTT-TV（如爱奇艺、腾讯等）通过代理或经销等迂回方式在台湾‘非法’经营”。　　“连陆剧平台都怕吗”，台湾《中国时报》此前刊登的一篇评论质疑禁止大陆影音平台的正当性究竟何在。文章称，如果民进党当局忧虑爱奇艺等影音平台上可以观看未经台湾许可的大陆影音出版品，合理的管制手段应是鼓励爱奇艺在台湾登记、注册，而不是全面禁绝。在媒体汇流的趋势下，民众通过网络看影音产品已是势不可挡的潮流，当局此时立法管制，“非但是螳臂当车，更是时空错乱”。　　对于淘宝台湾被判定陆资罚 41 万，岛内网友批评台当局“锁台”，是“井底蛙。”↓ 　　还有网友说，台当局为了整淘宝，结果整死台湾几万家中小企业家和卖家。↓

来源：博客园

发布时间：2020-08-24 21:50:00

哈啰投1亿元倡导文明出行 3499名失信用户禁用共享单车

　　哈啰出行旗下哈啰单车、哈啰公共助力车 8 月 24 日面向共享两轮出行行业发起“三个无差别”倡议，号召共享单车企业一起不分品牌、不分共享或私人，“无差别整理、清洁、消杀”车辆。　　据悉，哈啰首先将投入 1 亿元资金，其中 5000 万元用于补贴激励全国数亿用户文明出行习惯，其余用于运维扩招，将在全国各城专项招聘 1000 名一线共文行动队员，长期探索文明出行和车辆创新管理。　　哈啰单车事业部总经理褚轶群表示，从本次共文行动开始，哈啰将把车辆管理与城市文明出行环境共建纳入经营考核指标。为此，哈啰已开始专项招聘 1000 名一线共文行动队员，短期进行无差别整理、清洁、消杀车辆；长期联动政府管理部门，进行地铁站点、商圈等骑行热点地区创新管理。　　本次共文行动期间，哈啰将面向驾照分优秀的用户提供 5000 万元现金补贴，主要体现为购卡补贴、文明骑行任务奖励、组队骑行公益捐助等；此外，对于城市禁停区车辆的管理上，哈啰也将投入现金补贴鼓励用户骑往合规运营区域。　　数据显示，全国用户文明骑行比例高达 99.5%；但也有 3499 名用户因弃置、藏匿、破坏以及多次不文明用车影响公共秩序等被列入失信名单。　　哈啰近期也升级驾照分产品的正向激励规则，新版的骑行驾照分满分 12 分，分为A到F共 6 个等级。其中，A等级对应的是 10~12 分认定为优秀。　　本次共文行动期间，哈啰将面向驾照分优秀的用户提供 5000 万元现金补贴，主要体现为购卡补贴、文明骑行任务奖励、组队骑行公益捐助等；此外，对于城市禁停区车辆的管理上，哈啰也将投入现金补贴鼓励用户骑往合规运营区域。

来源：博客园

发布时间：2020-08-24 21:45:00

10个国外质量较高的数据可视化工具 | 数据分析网首页分类阅读行业资讯大数据统计学

摘要：今天，我们将介绍一些非常狂拽酷炫叼炸天的在线资源和工具，教你如何实现数据可视化。你可以看到各种题材，像人口、世界状况，甚至人类的情感，都可以将进行可视化，虽然一些可视化可能是实验性的，但他们的共同之处就是：帮助你更好地理解数据，而这正是可视化的要义。 Better World Flux http://www.betterworldflux.com/ 这是一款漂亮的可视化工具！Better World Flux 是一个可以互动信息、图形的网站。选择一个国家，根据指示操作，比如可以选择预期寿命或饮水作为指标。有一个小的视频演示如何操作，你可以在YouTube上观看（ http://www.youtube.com/watchv=xck1Alcyh2A ）。现有数据量其实非常原始，但你仍然可以很容易地跟踪过去50年中全球的社会化改善。虽然我承认，数据图原本是很难理解的，但在这里，一切清晰可见。 Visual.ly http://visual.ly/ 这也许是我最喜欢的在线工具之一。 Visual.ly 用社交网络功能来连接在世界各地的所有成员。设计师们通过提交自己的项目进入他们的网站画廊，从而能够对数据实现可视化。它理想的目标是提供一个接口，用于直接在浏览器中创建动态的信息图表。该工具目前未发布，虽然我听说过一些私人beta测试。你可以注册您的电子邮件地址以接收更新消息，并可能邀请测试。至于他们的网络功能，Visual.ly 提供了极少数的合作伙伴页面。这些类似于个人资料页面，您可以查看评论，喜欢，意见和信息图表意见，但这些都是有针对性的对大品牌 – 国家地理、易趣、Skype、CNN 等。 We Feel Fine http://www.wefeelfine.org/ We Feel Fine 标榜为人类情感而探索，这是我见过最独特的可视化引擎之一。开始前要点击其主页上的大按钮，该应用程序将据此加载操作系统。沿上面一行，你会发现飞出选项对数据进行排序。其标准包括年龄，性别，气候位置，甚至日期。该项目提供了整个世界的喜怒哀乐情绪，在任何给定的点，数据超级详细！这是对人类来说，真正令人震惊的实验。当你点击画布的任何地方，飞球会分散。如果您将鼠标放在他们中的一个，它会提供更多的细节，点击打开，顶部有一个全新的选项。许多结果都来自Twitter。情绪和情感的数据数量级是令人难以置信。 Rss Voyage http://rssvoyage.com/ 另一个我个人最喜欢，且确实有助于形象化各地数据的网络数据的网站。如果您登录到Rss Voyage,你可以导入自定义RSS供稿到您的帐户一整个数据图。在他们的网页，你可以点击“开始”与默认提供的应用程序。在这种情况下Rss Voyage将拉动几个流行的博客，如纽约时报，瘾科技，卫报，等等。如果您通过移动图形，点击一个特定的文章的观点时，他将固定在屏幕上。这包括标题，简短描述，元数据连同它的URL出版日期。如果在任何时候你想开始创建自己的RSS可视化，所有你需要做的就是创建一个帐户！注册是完全免费的，你可以在页面的底部创建通过注册表格您的帐户。作为另一奖励功能 Rss Voyage可以让你轻松设置全屏模式浏览风格的RSS源。 Revisit http://moritz.stefaner.eu/projects/revisit/ 客观来讲，Revisit是一种重新定义我们如何看待微博的工具。有了这个工具，你可以与一个或多个关键字的数据创建连接。您可以将额外的标题添加到您的图形和分享的链接（甚至到微博）。点击一个单独的分离线，关闭图形将显示更多细节。通常包括元数据，如时间发布和相关的关键字。搜索条件仅限于标准的Twitter符号，使用逗号分隔的关键字列表。如果有兴趣，我建议查看位于同一网站的创作数据可视化等项目。 http://moritz.stefaner.eu/projects/ Tag Galaxy http://www.taggalaxy.de/ Tag Galaxy是一个非常独特的可视化工具。他们的主页干净且易于理解，因为标签Flickr上有单独的一个搜索表单。此外左下角设有为新用户一些流行的建议。只需输入一个词，然后按Enter，通过Flickr的照片就可在Tag Galaxy查询。他们的渲染引擎复制我们的太阳系的中心，太阳代表主要搜索项的外观，外部行星的轨道代表类似的标签。这是我见过的最酷的可视化演示渲染和Flash之一。注意，当您在每个星球上悬停它会为你提供一个小的预览数。这是发现在Flickr的该标签的询问的照片总数。点击太阳将打开相关照片缩略图的球体，而旋转的行星会增加他们的搜索字词的查询。当然，你可以找到更多有关照片通过点击弹出完整视图。 Google Fusion Tables http://www.google.com/fusiontables/ 我们都知道的龙头企业是谷歌。他们的实验室的后面几年已经运行了一些很有趣的实验，Google Fusion Tables就是其中之一。你需要的是一个谷歌账户。此工具可以公开在网上共享数据，并建立自定义的可视化图形。这些可以从csv或Excel电子表格导入。尽管目前并不支持。登录后，会发现公共数据列表的表格与演示。这些都在不断更新，新的用户提交，打开文档后，顶部的工具栏会有其他菜单可视化链接，自定义图形。 Dipity http://www.dipity.com/ 没有什么比我们在地球上的历史更有趣。已经有很多的事件在过去10年到20年，更不用说十年到百年！ Dipity 是一个奇妙的工具，他用来创建和嵌入自定义的互动时间表。用户可以在重要日期进行标记，包括照片，链接，音频,视频和其他形式的媒体。该服务需要您在创建时间表前注册一个帐号。选择一个免费的计划，在日后他们提供升级到保费计划 http://www.dipity.com/premium/plans 。幸运的是，该网站会提供公共的最流行的时间表成员，所以你可以很容易地通过排序动态时间表去发现一个令人兴奋的细目清单。我个人最喜欢的是史蒂夫工作的生活和事业照片甚至直到2011完全格式化。 http://www.dipity.com/StevePro/Steve-Jobs-Life-and-Career/ WIkiMindMap http://www.wikimindmap.org/ 说到独特的展示台,维基百科也是一个网络，虽然你没有看到尽可能多的开发商，但是Wiki包含一个大的离谱的数据量！ WikiMindMap可以让你选择一个区域，然后输入网址的页面。如果您的关键字不完全匹配了一个页面，应用程序将提供给您最亲近的建议。圆圈内产生的链接将引出到主Wiki页面，而刷新链接打开的选项的树。这些都是相关的链接拉断主维基页面协调您的关键字。它也很容易通过点击链接刷新图标切换到一个新的根节点。 Axiis- Browser Market Share http://www.axiis.org/examples/BrowserMarketShare.html Axiis 是用于数据可视化软件的最流行的网站之一。在他们的网页，你可以把酷炫的程序下载到您的PC或Mac电脑上运行。 W3Schools已经记录用户和跟踪浏览器几年了。 Axiis编制从2002到2009与最流行的Web浏览器形成一个美丽的可视化图形。和众多上市的包括Safari浏览器，网景，IE浏览器和谷歌Chrome浏览器合作。名单尚未更新为2010/2011 ，但我们可能会看到公布在未来数月更新的信息图表。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-03-21 21:54:00

微软亚洲研究院副院长芮勇：实现真正的人工智能大约要500年 | 数据分析网首页分类阅读

摘要：芮勇认为实现真正的人工智能大约要500年，“你要让我在后面再加个0我也不反对”。微软亚洲研究院常务副院长芮勇认为外界对人工智能的看待并不理性，甚至被夸大地解读成“战胜人类”，在他看来，缺乏常识、没有概念这些都是人工智能的硬伤，或许在计算、记忆领域，人工智能将超过人类的表现，但是在人类擅长的想象力、创造力领域，人工智能还没有找到打开大门的钥匙。人工智能也分强人工智能和弱人工智能。从弱人工智能到强人工智能还有很长的距离。今天所有的人工智能几乎都是来自于人类过去的大数据，没有任何一个领域的能力源自自我意识，不管是象棋还是围棋，计算机都是从人类过去的棋谱中学习。其他领域也是类似，计算机在做图像识别的时候，也是从人类已有的大数据中学习了大量的图片。在面对人类从来没有教过的问题时，计算机就会一窍不通。假如让 AlphaGo 去下跳棋，它就会完全傻掉。甚至说把围棋的棋盘稍作修改，从19×19的格子变成21×21的格子，AlphaGo都招架不住，但是人类就没有问题。我们今天看到的绝大多数的人工智能是弱人工智能，这是说它只能做一件事情，做到比较好。会下围棋的只会下围棋，不会下跳棋，这是很单一的弱人工智能，强人工智能则会全面达到人类的水平。AlphaGo可以打败三十多岁的李世石，但它的学习能力不及一个5岁的小孩，这二者是有很大区别的，也是弱人工智能和强人工智能的区别。人类的学习不完全是通过样本获取的。比如说目前计算机在人脸识别领域做得还不错，可以达到90%以上的准确率，但它是通过看上百万幅图片做到的，人类不是这样，小孩生下来以后一段时间就能认识妈妈。我更想表述的观点是，人类和人工智能是各有所长的。人类的大脑分左脑和右脑，左脑控制语言、逻辑思维和理性，右脑则掌管着创造性和直觉。其实今天的人工智能，它很强的一点是记忆能力和计算能力太强大了。它不如人类的是创造力、想象力。把计算机放在苹果树下，一个苹果砸到上面，它不会联想到这个跟万有引力有什么关系，它没有这种概念。但是牛顿被苹果砸了之后，就会思考和想象，这是今天计算机和人工智能远远做不到的。所以关于人类和人工智能的关系并不是去PK，而是说人类加上人工智能，或者加上计算机，使得人类更强大，增强智能。具体来说人工智能的缺陷会有哪些体现呢？比如说语音识别领域，在很安静的环境下，人工智能几乎跟人类的语音识别水平差不多，但很多情况下环境不一定是安静的，如果在一个嘈杂的环境下，几个人同时说话，人是有能力选择性听某一个人的声音，但是人工智能做不到。即便是这个问题解决了，可以在能力上突破这个难关，人工智能还是无法像人类一样，这是因为人工智能缺乏常识，今天的机器是没有常识的。没有常识的机器没有办法像人类一样，小学生都做过一个题目叫鸡兔同笼，一共有多少个头、多少只脚，算一下有多少只鸡和多少只兔。这个题目的前提是小学生是知道鸡有一个头两只脚，兔子有一个头四只脚，但计算机是不知道的，这个题目就会把它难住。但告诉计算机这个前提之后，把题目换成鸭狗同笼，计算机还是不会做，因为新的常识它也没有。所以在没有常识之前，计算机没办法达到人类的各种智能，并且这是一个必要不充分条件，即使有一天它知道了所有的常识，计算机也缺乏形象思维和创造能力。人类很多问题都不知道大脑为什么会那样想，计算机的逻辑是一步一步，“突发奇想”这种事情只存在人类中，而不可能发生在现阶段的人工智能领域。在上世纪60年代，一位人工智能的科学家曾经说要实现真正的人工智能可能需要5到500年的时间，我是完全站在500年那边的，你要让我在后面再加个0我也不反对。总结来看，基本上是在任何有规则的，并且规则非常明确的情况下，不管是下围棋、跳棋、象棋、五子棋，只要是有规则的，计算机未来都会超越人类，不超越人类是不对的。除了有明确规则之外的领域，计算机和人工智能还有很长的路要走，因为人类强的地方，就是在很多信息不全的情况下，人类可以自动补全。人类其实是可以在这种情况下做出判断，在这种情况下，人类的力量远远大于机器的力量。目前来看，关于人工智能的研究，除了计算机科学这个学派以外，仿生学也是重要的学派，仿生学就要研究人类机体的结构、功能和工作原理，寄希望通过模拟的方式运用到人工智能领域，换句话说，就是研究人类大脑是怎么思索这件事情。在弱人工智能上，计算机科学这一派还是挺成功的，但是强人工智能有可能需要结合仿生学这一派，因为强人工智能是远远超越了有规则的东西，但这些没有规则的领域如何突破，可能需要对自身有更多的了解，如果能把计算机科学和仿生学相结合的话，人工智能的突破或许能更快。人工智能这个行业还需要理性的看待，这半年人工智能很热，好处是全社会、全民包括政府都在关注，对产业和学术界的发展有好处，但这个泡沫千万不要吹大，吹大了以后大家会失望的，一旦失望对这个产业的打击是巨大的。现在包括微软在内的很多公司和科学家都在解决人工智能缺乏常识这个难题，它有几个途径，第一个是纯人工做，向计算机普及人类所有的常识，但是这个工作量是巨大的，不可能完成的。第二个途径是全自动，从一些结构化的数据库里抓取。比如美国有50个州，每一个州的名字是什么？首府在哪里？人口有多少？用机器学习的方法把它抓取出来，放在计算机的知识图谱里。第三种途径是一个半自动的方法，可能对于大量的常识不会有非常标准的数据表，它是以非结构化文字的形式呈现，计算机要做的是能够从里面以“统计滚雪球的方法Statistical snow ball”抓取出知识。事实上，强人工智能500年之后能不能做到我都不能确定，但没有关系，人类的伟大之处正在于此，不是说因为这件事情很难就不做了，正是因为它很难，所以才需要一步一步扎实地往前走。我希望各界同仁们不要把人工智能捧成夏天，然后再跌入冬天，而是要理性看待。作者：李亚婷 liyating@iceo.com.cn 来源：微信公众号【中国企业家杂志】本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-06-14 00:28:00

TikTok被围剿竟是“中国女婿”扎克伯格一手挑拨的？

　　“人为刀俎，我为鱼肉。”这似乎是字节跳动和 TikTok 的真实写照，自 TikTok 被公然围剿后，大家都在猜测其幕后的黑手究竟是谁。　　23 日，美国媒体给出了一个答案：TikTok 的幕后黑手是“中国女婿”扎克伯格。　　据华尔街日报 23 日晚报道称，特朗普政府之所瞄准 TikTok，其中少不了脸书 CEO 扎克伯格四处游说的“功劳”。　　美媒《华尔街日报》8 月 23 日发长文爆料称，扎克伯格从去年开始，就在公开演讲、私下与白宫官员和议员的会面中，不断渲染 TikTok 对美国构成的威胁。他还曾向特朗普提出，中国互联网公司崛起的威胁应该是比控制脸书垄断更值得关注的问题，从而引发了特朗普政府对 TikTok 的担忧。　　报道中直言，在引发美国民众对 TikTok 及其中国持有者的担忧上，脸书也起了很大的作用。很少有科技公司像脸书那样，会从 TikTok 的困境中获得如此多的好处。　　虽然这并不意外，但网友们依旧很愤怒，表示：小扎“扎”男实锤啊。　　真·双面·扎克伯格：一面打压 TikTok，一面为 TikTok 鸣不平　　华尔街日报称扎克伯格开始对 TikTok 不满是从去年秋天开始的。　　去年秋天，脸书 CEO 扎克伯格在华盛顿特区发表有关言论自由的演讲时，谈到了一项议程：对来自中国科技公司的威胁发出警告，更具体来说，是对受欢迎的短视频分享应用 TikTok。　　演讲中有一句话直指脸书正崛起的竞争对手 TikTok：扎克伯格对乔治城大学的学生们称，TikTok 并不像脸书那样致力于言论自由，其会对美国价值观和技术主导地位构成威胁。 "以前互联网都是美国巨头，现在全球前十大互联网巨头公司中，中国互联网公司已经占据 6 家……中国互联网企业的崛起是对美国的威胁。" 　　他渲染 TikTok 与美国价值观不一致，宣称“在美国提到抗议活动时内容会面临审查，这是我们想要的互联网吗？” 　　此外，知情人士还透露称，这是扎克伯格在去年 10 月的上述行程中，以及那几周访问华盛顿期间与白宫官员和议员会面时，反复强调的一个信息。　　有一些知情人士称，在去年 10 月下旬白宫的一次私人晚宴上，扎克伯格向特朗普重申了他对中国的担忧，还提出中国互联网公司的崛起威胁到了美国商业，这应是比限制脸书更大的担忧。　　还有人透露，扎克伯格在与几位参议员的会议上专门讨论了 TikTok。其团队还接触了对华鹰派的国会议员，质问“为何 TikTok 被允许在美国运营，而脸书等其他美国公司却不能在中国运营”。　　巧合的是，此后不久，特朗普政府就开始着手对 TikTok 进行国家安全审查。而到了今年春天，特朗普开始威胁要封禁 TikTok 。　　7 月 29 日，美国四大科技巨头——谷歌、苹果、亚马逊和 Facebook 的 CEO 齐聚美国国会，参加众议院反垄断委员会的听证会。　　这场听证会本意是聚焦美国这四大超级科技巨头是否存在滥用垄断地位，但在当下中美两国宏观战略博弈的总体大环境下，尤其是在科技信息领域，　　这场会议也难免涉及到中国问题。　　而扎克伯格却将枪口对准了 TikTok，话里话外暗示这款 App 对美国国家安全产生了威胁。　　当四巨头公司的 CEO 被问及“是否认为中国政府窃取美国的科技技术”时，库克、皮查、贝索斯相继做出「以我所知，并没有」的回答，唯独扎克伯格表示，「这是有据可查的」。　　对于这样的指控，新上任的 TikTok 首席执行官凯文·梅耶尔（Kevin Mayer）在一份声明中直指了扎克伯格此番表态的原因：“Facebook 假借爱国主义之名，目标是让我们从美国消失。” 　　有意思的是，听证会过去不到一周的时间，扎克伯格一改对 TikTok 的态度，迅速“翻脸”。　　扎克伯格在最近一次的 Facebook 全体员工大会上谈到了 TikTok 的现状。他说： “我只是觉得这是一个非常不好的长期先例，无论最终如何解决，都应该非常认真小心地处理。我很担忧……这会对其他国家产生长期影响。” 　　据悉，有员工在此次大会上询问扎克伯格 Facebook 是否有意收购 TikTok ，他表示拒绝对公司的商业决策发表评论。　　除此之外，他还提到，一个 App 被越来越多人使用，被当地政府越来越视作竞争对手，他们遇到的国家安全问题是合理的。但他对 TikTok 政府遭受特朗普政府的国家安全问题表示同情。　　网友：真双面扎克伯格！　　中国女婿扎克伯格缘何撕破脸？　　那么，为什么扎克伯格这么忌惮 TikTok 呢？　　首先，扎克伯格是一个商人，商人考虑的第一因素无疑是如何恰到更多的饭，而 TikTok 的入局无疑给了 Facebook 更大的压力。　　三年前，张一鸣从众多对手中杀出重围，收购 Musical.ly 后整合到 Tiktok 中，复制了抖音在国内的成功经验，在海外上线三个月内 MAU 迅速增长 30%，开始海外扩张之旅。　　从 2017 年 11 月拿下日本 App Store 免费榜第一名，到次年泰国当地 App Store 排行榜第一名，TikTok 迅速风靡全球，在北美市场站稳脚跟。在今年 4 月份全球 App Store 和 Google Play 中收入 7800 万美元，同比增长 10 倍，位列全球移动应用收入榜首。6 月，TikTok 位列全球应用下载量排行榜第一名，其中印度和美国是主要贡献者。　　AppTrace 的调查显示，TikTok 在 2019 年 2 月的全球应用下载量排名中从 269 位跃升至第四位（2020 年以来排名一直保持在前四）。截至 2019 年底，TikTok 总计下载了 16.5 亿次下载，其中 2019 年的下载量占总下载量的 44％。　　今年第一季度，TikTok 成为全球单个季度下载量最大的应用，累计下载量超过 3.15 亿次。在美国市场，TikTok 也已经成为今年最受欢迎的应用之一，累计下载量超过 1.65 亿次。　　而这些成绩首当其冲影响的正是全球最大的社交平台 Facebook。TikTok 每新增一位用户，都在夺走 Facebook 产品的应用时长。　　Facebook 的营收几乎全部来自广告，2019 年其广告营收占比达到 98.53%。“移动社交+广告”是理想的商业模式，但前提是用户一直增长，而且愿意在平台上消耗时间。TikTok 在欧美市场崛起、不断获得优质用户，显然威胁到了 Facebook 的广告收入。　　相比 TikTok ， Facebook 俨然是一位老人了，但“只闻新人笑，不见旧人哭”这种戏码，小扎是不允许发生的。　　当然，TikTok 除了抢占了一部分市场外，对于 Facebook 来说自身来说，还有一个更为致命的问题，即其产品近几年来充满了“抄袭”的骂名。　　8 月 2 日晚，字节跳动曾发文直接点名脸书称，在公司全球化过程中面临着各种复杂和难以想象的困难，包括紧张的国际政治环境、不同文化的碰撞与冲突、竞争对手 Facebook 的抄袭和抹黑。　　2017 年，在 TikTok 入场后， Facebook 曾推出过一款短视频应用——Lasso。　　截至去年年底，Facebook 旗下的 Lasso 在全球的安装量为 42.5 万次。而字节跳动旗下的 TikTok 安装次数为 6.4 亿次，显然，Facebook 完败。　　而对于 Facebook 开发的 Lasso，《纽约时报》则将其形容为——"一个蹩脚的山寨软件"。　　连美国媒体都看不下去的"山寨"，这正是字节跳动在声明中所提到的 Facebook"抄袭"的来源之一。　　今年 7 月，Facebook 正式关闭了 Lasso。但"巧合"的是，正当 Tiktok 面临来自美国政府的强压时，8 月初，Facebook 旗下 Instagram 将推出短视频产品 Reels。　　而这也让 Facebook 股价涨幅一度超过 7%，次日股价继续创新高。短短两日，Facebook 创始人扎克伯格身家暴涨超过了 100 亿美元（折合人民币 700 亿元），成为世界上最年轻的千亿富翁。　　该应用同样也被美媒称为“ TikTok 山寨品”。其功能包括配乐跳舞和演小品，而这正是 TikTok 最为受欢迎的两种内容类型。与 TikTok 类似，Reels 可以让用户在上面发布 15 秒视频，且具备添加音乐和多款滤镜的功能，制作完成后就能分享 Instagram 等平台。　　更有趣的是， Facebook 不仅自己做了个山寨 TikTok ，并且开始准备挖走很多原来 TikTok 上的大流量网红了。　　而且这次，Facebook 给某些网红直接开好了价格，有些人只要来 Reels 就可以获得数十万美金。对于那些不愿意 “ 跳槽 ” 的，Facebook 表示，只要能在 Reels 首发他们的视频，再同步到其他平台，还是可以拿到视频制作的奖励。　　不得不说，Facebook 在产品方面确实少了不少新意和诚意，而让用户重新学习、习惯一个新 App 的成本是很多人无法接受的，并且内容者生态和源源不断的平台创意也用户非常看重的，所以挖人虽然是狠招，但并不是绝杀。　　综上，这一系列的事实只能说明，在资本的力量下，只有永远的利益，没有永远的朋友。　　参考资料：　　【1】 https://www.morningstar.com/news/dow-jones/202008231637/facebook-ceo-mark-zuckerberg-stoked-washingtons-fears-about-tiktok 　　【2】 https://www.leiphone.com/news/202007/Y1W1VyVRUpdmrwRK.html 　　【3】 https://3w.huanqiu.com/a/c36dc8/3zb8xY0Widw?agt=20&tt_group_id=6864428140681232910 　　【4】 https://www.toutiao.com/a6857090029228196366/

来源：博客园

发布时间：2020-08-24 21:40:00

深入对比数据科学工具箱：Python和R之争 | 数据分析网首页分类阅读行业资讯大数据统�

概述在真实的数据科学世界里，我们会有两个极端，一个是业务，一个是工程。偏向业务的数据科学被称为数据分析 (Data Analysis)，也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building)，也就是B型数据科学。从工具上来看，按由业务到工程的顺序，这个两条是：EXCEL >> R >> Python >> Scala 在实际工作中，对于小数据集的简单分析来说，使用EXCEL绝对是最佳选择。当我们需要更多复杂的统计分析和数据处理时，我们就需要转移到 Python 和 R 上。在确定工程实施和大数据集操作时，我们就需要依赖 Scala 的静态类型等工程方法构建完整的数据分析系统。 Scala 和 Excel 是两个极端，对于大多数创业公司而言，我们没有足够多的人手来实现专业化的分工，更多情况下，我们会在 Python 和 R 上花费更多的时间同时完成数据分析(A型)和数据构建(B型)的工作。而许多人也对 Python 和 R 的交叉使用存在疑惑，所以本文将从实践角度对 Python 和 R 中做了一个详细的比较。应用场景对比应用Python的场景网络爬虫/抓取：尽管 rvest 已经让 R 的网络爬虫/抓取变得容易，但 Python 的 beautifulsoup 和 Scrapy 更加成熟、功能更强大，结合django-scrapy我们可以很快的构建一个定制化的爬虫管理系统。连接数据库: R 提供了许多连接数据库的选择，但 Python 只用 sqlachemy 通过ORM的方式，一个包就解决了多种数据库连接的问题，且在生产环境中广泛使用。Python由于支持占位符操作，在拼接SQL语句时也更加方便。内容管理系统：基于Django，Python可以快速通过ORM建立数据库、后台管理系统，而R中的 Shiny 的鉴权功能暂时还需要付费使用。 API构建：通过Tornado这个标准的网络处理库，Python也可以快速实现轻量级的API，而R则较为复杂。应用R的场景统计分析: 尽管 Python 里 Scipy、Pandas、statsmodels 提供了一系列统计工具，R 本身是专门为统计分析应用建立的，所以拥有更多此类工具。互动式图表/面板: 近来 bokeh、plotly、 intuitics 将 Python 的图形功能扩展到了网页浏览器，甚至我们可以用tornado+d3来进一步定制可视化页面，但 R 的 shiny 和 shiny dashboard 速度更快，所需代码更少。此外，当今数据分析团队拥有许多技能，选择哪种语言实际上基于背景知识和经验。对于一些应用，尤其是原型设计和开发类，工作人员使用已经熟悉的工具会比较快速。数据流编程对比接着，我们将通过下面几个方面，对Python 和 R 的数据流编程做出一个详细的对比。参数传递数据读取基本数据结构对照矩阵转化矩阵计算数据操作参数传递 Python/R 都可以通过命令行的方式和其他语言做交互，通过命令行而不是直接调用某个类或方法可以更好地降低耦合性，在提高团队协作的效率。参数传递 Python R 命令行输入脚本识别 Python path/to/myscript.py arg1 arg2 arg3 import sys my_args = sys.argv Rscript path/to/myscript.R arg1 arg2 arg3 myArgs <- commandArgs(trailingOnly = TRUE) 数据传输与解析对于数据传输与解析，我们首推的格式是csv，因为一方面，csv格式的读写解析都可以通过 Python 和 R 的原生函数完成，不需要再安装其他包。另一方面，csv格式可以很快的转化为 data frame 格式，而data frame 格式是数据流分析的核心。不过，实际情况中，我们需要传输一些非结构化的数据，这时候就必须用到 JSNO 或者 YAML。数据传输与解析 Python R CSV(原生) csv read.csv CSV(优化) pandas.read_csv(“nba_2013.csv”) data.table::fread(“nba_2013.csv”) JSON YAML json(原生) PyYAML jsonlite yaml 基本数据结构由于是从科学计算的角度出发，R 中的数据结构非常的简单，主要包括向量(一维)、多维数组(二维时为矩阵)、列表(非结构化数据)、数据框(结构化数据)。而 Python 则包含更丰富的数据结构来实现数据更精准的访问和内存控制，多维数组(可读写、有序)、元组(只读、有序)、集合(唯一、无序)、字典(Key-Value)等等。基本数据结构 Python R 数组 list:[1,’a’] :array:array(c(1,”a”),2) Key-Value（非结构化数据）数据框（结构化数据）字典:[“a”:1] dataframe lists data.frame 矩阵操作实际上，Python(numpy) 和 R中的矩阵都是通过一个多维数组(ndarray)实现的。矩阵转化 Pyhton R 维度 data.shape dim(data) 转为向量 data.flatten(1) as.vector(data) 转为矩阵 np.array([[1,2,3],[3,2,1]]) matrix(c(1,2,3,3,2,1),nrow=2,byrow=T) 转置 data.T t(data) 矩阵变形 data.reshape(1,np.prod(data.shape)) matrix(data,ncol=nrow(data)*ncol(data)) 矩阵按行拼接矩阵按列拼接 np.r_[A,B] np.c_[A,B] rbind(A,B) cbind(A,B) 矩阵计算 Pyhton R 矩阵乘法 np.dot(A,B) A %*% B 矩阵幂指 np.power(A,3) A^3 全零矩阵 np.zeros((3,3)) matrix(0,nrow=3,ncol=3) 矩阵求逆 np.linalg.inv(A) solve(A) 协方差 np.cov(A,B) cov(A,B) 特征值特征向量 np.linalg.eig(A)[0] np.linalg.eig(A)[1] eigen(A)$values eigen(A)$vectors 数据框操作参考 R 中的 data frame 结构，Python 的 Pandas包也实现了类似的 data frame 数据结构。现在，为了加强数据框的操作，R 中更是演进出了 data table 格式(简称dt)，这种格式以 dt[where,select,group by] 的形式支持类似SQL的语法。数据框操作 Python R 按Factor的Select操作 df[[‘a’, ‘c’]] dt[,.(a,c),] 按Index的Select操作 df.iloc[:,1:2] dt[,1:2,with=FALSE] 按Index的Filter操作 df[1:2] dt[1:2] groupby分组操作 df.groupby([‘a’,’b’])[[‘c’,’d’]].mean() aggregate(x=dt[, c(“v1”, “v2”)], by=list(mydt2$by1, mydt2$by2), FUN = mean) %in% 匹配操作返回T/F pd.Series(np.arange(5),dtype=np.float32).isin([2, 4]) 0:4 %in% c(2,4) match 匹配操作返回Index pd.Series(pd.match(pd.Series(np.arange(5),dtype=np.float32),[2,4],np.nan)) match(0:4, c(2,4)) tapply df.pivot_table(values=’a’, columns=’c’, aggfunc=np.max) tapply(dt$a,dt$c,max)#其中dt$a是numeric，dt$c是nominal 查询操作 df[df.a <= df.b] dt[ a<=b ] with操作 pd.DataFrame({‘a’: np.random.randn(10), ‘b’: np.random.randn(10)}).eval(‘a + b’) with(dt,a + b) plyr操作 df.groupby([‘month’,’week’]).agg([np.mean, np.std]) ddply(dt, .(month, week), summarize,mean = round(mean(x), 2),sd = round(sd(x), 2)) 多维数组融合 pd.DataFrame([tuple(list(x)+[val]) for x, val in np.ndenumerate(np.array(list(range(1,24))+[np.NAN]).reshape(2,3,4))]) data.frame(melt(array(c(1:23, NA), c(2,3,4)))) 多维列表融合 pd.DataFrame(list(enumerate(list(range(1,5))+[np.NAN]))) data.frame(melt(as.list(c(1:4, NA)))) 数据框融合 pd.melt(pd.DataFrame({‘first’ : [‘John’, ‘Mary’],’last’ : [‘Doe’, ‘Bo’],’height’ : [5.5, 6.0],’weight’ : [130, 150]}), id_vars=[‘first’, ‘last’]) melt(data.frame(first = c(‘John’, ‘Mary’),last = c(‘Doe’, ‘Bo’),height = c(5.5, 6.0),weight = c(130, 150), id=c(“first”, “last”)) 数据透视表 pivot table pd.pivot_table(pd.melt(pd.DataFrame({ ‘x’: np.random.uniform(1., 168., 12), ‘y’: np.random.uniform(7., 334., 12), ‘z’: np.random.uniform(1.7, 20.7, 12), ‘month’: [5,6,7] 4, ‘week’: [1,2] 6}), id_vars=[‘month’, ‘week’]), values=’value’, index=[‘variable’,’week’],columns=[‘month’], aggfunc=np.mean) acast(melt(data.frame(x = runif(12, 1, 168),y = runif(12, 7, 334),z = runif(12, 1.7, 20.7),month = rep(c(5,6,7),4),week = rep(c(1,2), 6)), id=c(“month”, “week”)), week ~ month ~ variable, mean) 连续型数值因子分类名义型因子分类 pd.cut(pd.Series([1,2,3,4,5,6]), 3) pd.Series([1,2,3,2,2,3]).astype(“category”) cut(c(1,2,3,4,5,6), 3) factor(c(1,2,3,2,2,3)) 数据流编程对比的示例 Python 的 Pandas 中的管道操作 (df .groupby(['a', 'b', 'c'], as_index=False) .agg({'d': sum, 'e': mean, 'f', np.std}) .assign(g=lambda x: x.a / x.c) .query("g > 0.05") .merge(df2, on='a')) R 的 dplyr 中的管道操作 flights %>% group_by(year, month, day) %>% select(arr_delay, dep_delay) summarise( arr = mean(arr_delay, na.rm = TRUE), dep = mean(dep_delay, na.rm = TRUE)) %>% filter(arr > 30 | dep > 30) 数据可视化对比绘制相关性散点图对比数据相关性是数据探索常用的一种方法，下面是Python和R的对比。 Python import seaborn as sns import matplotlib.pyplot as plt sns.pairplot(nba[["ast", "fg", "trb"]]) plt.show() R library(GGally) ggpairs(nba[,c("ast", "fg", "trb")]) 虽然我们最终得到了类似的图形，这里R中GGally是依赖于ggplot2，而Python则是在matplotlib的基础上结合Seaborn，除了GGally在R中我们还有很多其他的类似方法来实现对比制图，显然R中的绘图有更完善的生态系统。绘制聚类效果图这里以K-means为例，为了方便聚类，我们将非数值型或者有确实数据的列排除在外。 Python from sklearn.cluster import KMeans kmeans_model = KMeans(n_clusters=5, random_state=1) good_columns = nba._get_numeric_data().dropna(axis=1) kmeans_model.fit(good_columns) labels = kmeans_model.labels_ from sklearn.decomposition import PCA pca_2 = PCA(2) plot_columns = pca_2.fit_transform(good_columns) plt.scatter(x=plot_columns[:,0], y=plot_columns[:,1], c=labels) plt.show() R library(cluster) set.seed(1) isGoodCol <- function(col){ sum(is.na(col)) == 0 && is.numeric(col) } goodCols <- sapply(nba, isGoodCol) clusters <- kmeans(nba[,goodCols], centers=5) labels <- clusters$cluster nba2d <- prcomp(nba[,goodCols], center=TRUE) twoColumns <- nba2d$x[,1:2] clusplot(twoColumns, labels) 速度对比 Python import numpy as np xx = np.zeros(100000000) %timeit xx[:] = 1 The slowest run took 9.29 times longer than the fastest. This could mean that an intermediate result is being cached 1 loops, best of 3: 111 ms per loop R xx <- rep(0, 100000000) system.time(xx[] <- 1) user system elapsed 1.326 0.103 1.433 显然这里 R 1.326的成绩比 Python 的 Numpy 3:111 的速度快了不少。事实上，现在 R 和 Python 的数据操作的速度已经被优化得旗鼓相当了。下面是R中的 data.table、dplyr 与 Python 中的 pandas 的数据操作性能对比：结论 Python 的 pandas 从 R 中偷师 dataframes，R 中的 rvest 则借鉴了 Python 的 BeautifulSoup，我们可以看出两种语言在一定程度上存在的互补性，通常，我们认为 Python 比 R 在泛型编程上更有优势，而 R 在数据探索、统计分析是一种更高效的独立数据分析工具。所以说，同时学会Python和R这两把刷子才是数据科学的王道。参考资料 pandas doucumentation: Comparison with R / R libraries Comparison – R vs. Python: head to head data analysis Hacker News: Comparison – R vs. Python Quora: How does R compare with pandas yhat: R and pandas and what I’ve learned about each Why are pandas merges in python faster than data.table merges in R Python和R科学计算操作速查表知乎：R 和 Python (numpy scipy pandas) 用于统计学分析，哪个更好？ Choosing R or Python for data analysis An infographic 作为分享主义者(sharism)，本人所有互联网发布的图文均遵从CC版权，转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR专栏： https://segmentfault.com/blog/harryprinc ，如果涉及源代码请注明GitHub地址： https://github.com/harryprince 。微信号: harryzhustudio 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-04-10 15:40:00

创新飞轮效应：苹果、华为、TCL攻“芯”有术

　　2001 年，倪光南院士领导的团队让中国自主研发的 CPU“跳”了，就在它被小心地捧在手上，希望献给实业时，却发现，中国没有一家企业能接住，这团火焰就此熄灭。　　几十年来，中国的企业从来没有放弃在上游核心技术上的探索，但是罕有企业成功。为什么？创新与市场没有形成闭环，技术的创新如果是空中楼阁，对企业、产业就无法形成真正的推动力。　　而纵观当今最成功的企业，包括美国苹果、亚马逊、谷歌、微软、脸书，以及中国的华为，都是在创新技术、产业链（生态）与市场（用户）之间形成完整的闭环，这就如同一个快速运转起来的飞轮，推动企业加速螺旋上升。　　驱动创新的飞轮，不仅要有核心技术，更要有资本的耐心、产业链的协同和高效的市场反馈，任何一个环节的缺失，都会让它失去前进的能量。　　随着中国大企业越来越多，他们也在不断上控核心技术，他们有资本、有市场、有产业链资源，也正在形成自己的创新飞轮。除了华为，我们看到另一家正在形成自己创新飞轮的中国大企业——TCL。　　市场、资本加持创新飞轮加速　　半导体是高度技术与资本密集的产业，受生产成本以及半导体自身发展周期性波动的影响，世界半导体产业历经了美国、日韩、中国台湾等地区的产业链转移。中国依托庞大的市场需求及生产要素成本优势，已经成为半导体产业转移的主要目的地。　　虽然中国半导体市场发展迅速，但仍依赖大量进口，自给率较低，与国外相比存在巨大的差距，尤其是以芯片为核心的高端半导体产业，依然被国外巨头所垄断。　　半导体产业全产业链图示　　然而这种以半导体技术与专利形成的垄断局面，正在遭遇一股新力量的冲击。　　华为从卖通讯设备起家，在做大市场规模之后慢慢向上游渗透，自主研发操作系统、芯片，以至于麒麟芯片可以比高通芯片的性能更强，操作系统运行流畅性不输苹果 iOS。　　之所以可以在核心技术上取得突破，一是舍得在研发上大投入。二是有庞大的产业资源，生态丰富，上下游供应商完备，并且在全球拥有海量用户，其研发的技术可以在产业生态中被放大，并且可以与市场快速对接，通过市场反馈不断迭代完善，加速技术的成熟，进而形成正循环。　　不仅是中国，放眼看全球，苹果历经四代手机产品的更替，才让 iOS 操作系统成为经典，随后苹果开始摆脱英特尔和高通的芯片钳制，以自研芯片站上全球半导体产业的顶端。　　懂懂笔记认为，华为与苹果的成就，证明创新飞轮的转动可以打破技术封锁。企业利用产业链协同的优势和丰厚的资本实力，将研发的核心技术落地运用，全新的产品体验获得用户反馈，市场规模扩大的同时，也将进一步推动新技术创新。　　在收购中环半导体后，TCL 也转动起自己的飞轮。在消费电子领域多年的市场深耕，使 TCL 拥有全球智能终端市场的话语权，并带来了半导体显示材料上的整合优势，形成了自身的竞争壁垒。　　在拓展了中环半导体在新能源材料及半导体材料这一新赛道后，通过对半导体产业链的投入，TCL 不仅能获得核心技术加持的优势产品，更以新技术推动企业成长。　　围绕国家战略新兴产业，TCL 不断寻找技术密集、资本密集，能够充分发挥其核心能力的高新产业，在全球科技产业下一个十年的竞争中，加速创新飞轮。　　创新飞轮不仅能打造企业的核心竞争力，拉开与其它竞争对手的差距，带来企业规模的扩张，还会创造更高的利润与品牌溢价。　　苹果一直是手机界利润最高的企业，华为则一直是安卓系统里利润最高的企业，他们可以在手机产业遥遥领先，就是因为创新飞轮已经高速旋转。　　无疑，创新飞轮使大者更大，强者更强。　　中环入怀飞轮闭环　　中国企业之痛就是大而不强，究其根本原因就是没有掌握核心技术，也没有形成自己的创新飞轮。虽然拥有产业规模优势，但企业缺少了上游的核心技术，在关键零部件和原材料端，长期受制于人。　　TCL 正在突破微笑曲线中上端高附加值的研发设计环节　　这样的企业虽然也有一些科技成果与专利技术，但本质上仍是市场驱动的公司，而不是科技驱动的公司。上图是我们都非常熟悉的微笑曲线，两端——上游的核心技术和下游的品牌运作，使得企业可以获得更高的附加值。中国企业长期徘徊在底部，随着近几年大企业越来越多，并且品牌意识增强，下游已经有明显的变化。同时，随着华为、TCL 这样的企业不断上探，上游也开始有所突破。　　以 TCL 为例，2019 年 TCL 完成资产重组，TCL 科技的产业转向半导体显示及材料，构建了产业链一体化生态、高质量技术创新、极致效率成本的核心能力，成为具有产业资源和全球化能力的科技公司。　　一棵树再大也长不到天上，对于 TCL 科技来说，半导体显示技术只是创新飞轮的一部分，它还要不断围绕半导体产业进行布局，使自己成为一片森林。　　硅材料作为半导体行业的基石，其重要性不言而喻，但在“拥硅为王”的大势下，在重掺、区熔硅片技术全球领先，构筑了高竞争壁垒的中环半导体，却因为产业化制约，眼看着日、韩、德、美等国的企业垄断了全球 90% 的市场，自己只能依靠新能源材料业务维持生计。　　这也是国内创新型企业的瓶颈之一，他们往往都是单点创新，没有办法获得更多产业资源，在其它企业转化成本的顾虑下，无法快速实现市场增长。　　直到 TCL 科技摘牌中环混改项目，中环半导体领先的硅材料技术，有了向半导体显示等领域扩张的机会，并能全身心投入到半导体材料的创新实践。　　懂懂笔记认为，中环半导体从 TCL 科技获得的不仅是资金效率的提升，更是 TCL 科技给中环半导体带来的产业资源以及全球视野。　　从供应商到工艺制程上，TCL 科技的半导体显示产业与中环半导体有高度相似的地方，TCL 华星将半导体显示及材料作为重要发展方向，中环半导体的晶体技术在硅基显示、Micro-LED 等领域上可与 TCL 华星相互促进。 TCL 华星与韩国领先面板企业各领域布局状态对比　　TCL 科技拥有完善的全球化制造布局，这是中环半导体所欠缺的，只靠它自己，很难形成全球化的产业循环和基础支撑。TCL 科技在全球制造经验、出海经验方面，能给中环半导体的发展带来强大的助力。　　“我们并不是帮助中环半导体，而是产业协同、相互赋能。”TCL 创始人、董事长李东生表示，TCL 优势之一是把集团下各产业资源集中起来，在庞大的资源池帮助下，实现资源的互补与共进，让产业运作效率更高。　　随着 TCL 科技与中环半导体打通产业链，原本由半导体显示技术引领的创新飞轮，有了新能源技术的协助，共同推进半导体核心材料技术落地，打造极致产品。TCL 创新飞轮形成产业链闭环的同时，也有了向“芯”而生的动能。　　 TCL 向上，飞轮筑“强” 　　向高科技、重资产、长周期和国家战略新兴产业布局，是 TCL 科技的发展战略，半导体显示和材料是这样的产业，半导体硅片与太阳能硅片也是这样的产业，而且产业之间有着天然的联系。　　半导体产业应用最广泛的下游，是消费电子产品，TCL 不仅核心产品电视的出货量进入全球前二，还涉足智能手机、平板电脑等众多消费电子领域。　　中游的半导体显示领域，TCL 科技大尺寸面板出货量，已经从五年前的全球第六位上升到今年的第二位，还投资了晶晨半导体、集创北方等显示技术公司。 TCL 华星半导体显示产业投入及全球产能布局　　中环半导体拥有完整的新能源光伏产业链，包括下游光伏电站的建设及运营，中游的太阳能硅片及太阳能电池组件。随着光伏竞争的核心要素从跑马圈地，收敛到技术驱动、管理驱动、规模驱动，TCL 将助力中环半导体走向全球市场。　　半导体显示及光伏产业在高端制造的运营上，具有相通性，TCL 科技通过整合 TCL 华星和中环半导体在智能制造，以及工业互联网方面的经验和资源，能够进一步实现制造升级。　　这两大半导体产业链的上游最终都会汇聚到硅材料，作为半导体产业最为基础的材料，硅材料可以说站在了整个电子产业的最上游。　　TCL 科技不再担心半导体产业链会在原材料端受制于人，还能利用垂直一体化产业链优势，抓住半导体硅材料的发展窗口期，向硅材料全球一线阵营进发。　　国内主要硅片企业 8 英寸硅片月产能统计（万片）　　然而，在 TCL 科技的半导体产业链中，还缺少了一个重要环节，那就是芯片。拥有半导体产业链下游市场到中游制造，及至最上游的原材料，这是很多向上受限于原材料供应，向下缺乏产业化实践的芯片公司，梦寐以求的生长土壤。　　TCL 的攻“芯”术，也是苹果、华为所遵循的发展战略，以产业资源向上加持核心技术，核心技术向下赋能产品、市场，形成创新飞轮。　　二十年前美国市值排名前十的公司，几乎都是市场垄断型企业，而现在几乎都是创新科技驱动的公司。创新飞轮的本质，会把一家市场驱动的公司改造成科技驱动的公司。　　从半导体显示、半导体及新能源材料、人工智能等前沿领域的创新技术，到三大引擎从原料生产到终端产品全产业链生态，再到全球市场，TCL 完整的闭环创新飞轮已初见端倪，而随着这个改造过程的完成，TCL 也正在蜕变为一家真正的科技公司，并在创新飞轮的筑造下，向全球领先的智能科技公司进发。　　【结束语】　　“我们还没有能力解决国家缺芯的情况，但我们要为解决缺芯的大问题贡献我们的一份力量。”谈及对中环半导体的并购，李东生的表达很委婉，但也更耐人寻味。　　中国的大企业，应该有更多的担当，有不断向上捅破天的勇气。　　过去十年里，中国的半导体产业在奋力追赶下，也不断开花结果，比如国内半导体显示产业勇于逆周期投资，依靠效率优势后发制胜，实现了显示屏幕国产化。　　随着全局科技产业格局的快速演变，围绕半导体核心产业链的传感器、芯片、硅材料，都是中国科技企业向上突破的目标。如今，TCL 又一次将使命扛在了肩上。　　在微笑曲线的顶端，会有越来越多华为、TCL 这样的中国企业。

来源：博客园

发布时间：2020-08-24 21:28:00

开源如此火热，但研究表明该领域已不再增长

　　开源软件在软件业中发挥着重要作用。早期，开源代码行和项目数量曾经呈现出了一个多项式甚至指数式增长的趋势。然而，在资源有限的情况下，这种增长不可能无限持续。Blekinge 理工学院的 Michael Dorner 等人近期发布的一项报告指出，其研究结果表明：开源领域已不再增长。　　该团队研究了过去 25 年中出现的超 224,000 个开源项目，测量了每一个项目代码行数、commit 量、贡献者和生命周期状态随时间的变化。最后发现，自 2016 年以来，活跃的开源项目数量一直在萎缩，而贡献者和提交者的数量也自 2013 年的峰值以来有所减少。　　“开源--虽然最初以指数级的速度增长，但现在已经不再增长了。我们认为它已经达到了饱和状态。” 　　数据显示，开源代码行的体量是巨大的：现存已有超过 170 亿行的开源代码。截至 2018 年底，开源项目中共包含有 17,586,490,655 行代码，包括 14,588,351,457 行源代码和 2,998,139,198 行注释。　　然而报告指出，自 2011 年以来，代码行数的增长就开始持续放缓；2015 年之后，代码行数则完全停止增长。同时，commit 的数量也在随时间的增长而下降。2015 年之后，commit 量进入自由落体状态，跌回了 2007 年时的水平。　　另一方面，研究发现，绝大多数开源项目都处于一个被废弃的状态。“截至测量的最后一个月（2018 年 12 月），我们总共发现了 224,342 个开源项目。其中 196,009 个处于非活动状态，13,085 个处于废弃状态，还有 58 个新增项目。在 25 年的时间范围内，有 15,046 个被删除”。下图描述了一段时间内的开源项目生命周期状态：　　可以说的是，相较于正在进行中的项目，被放弃的项目数量还在继续增长。　　此外，开源贡献者的数量也在逐步减少。与 commit 量一样，贡献者的数量在 2013 年达到顶峰后开始出现下降。2013 年 3 月，贡献者数量达到高峰值，共有 107,915 名。但截至 2018 年，开源贡献者的数量已经下降至了 2008 年时的水平。　　总的来说，可以看到的是，大约在 2000 年到 2010 年这一时间段，开源领域在很多方面都呈现出了指数级增长的趋势。但在之后的几年间，其除了停止了指数级增长外，还出现了大幅下跌。针对这一行业变化，该论文则提供以下几个可能的原因：在志愿参与贡献的开发人员减少的同时，有偿开发工作岗位没有相应增加；由于公司资源管理，从志愿捐款改为有偿捐款，减少了为每个参与者捐款的有效时间；偶发性参与增加，更多的人倾向于减少志愿服务；从集体志愿服务到反思性志愿服务的世代转换（2005 年贡献者的平均年龄为 31 岁，2017 年为 30 岁），这可能是由于开源活动在职业发展中的作用日益增加所致；代码复杂性的对开发人员的要求越来越高，对新手并不友好；贡献内容质量下降，导致接受率降低，审核者和提交者的负担越来越大。　　报告全文： https://arxiv.org/pdf/2008.07753.pdf 　　针对上述解释，一位开源项目贡献者 Mike James 也表达了自己的看法称，“作为一名失败的开源贡献者，我对其中一些原因表示认同”。同时，他还从自身参与过的一些开源项目出发，给出了自己停止为开源做贡献的三个原因。第一个案例是一个 Apache 项目，James 表示，“治理问题似乎比我提出的补丁更复杂，更让人不知所措”。第二种情况是，因为项目强加了一套他在编码中从来没有使用过的编码风格，而他并不认同这一举措。“花时间和精力把我的 mods 放到他们的规范格式中，这并不值得且无聊。” 第三种情况则是因为项目的记录做的太差。作为一个贡献者，他搞不清楚自己做的事情是否合理。向项目维护者反应这一情况，结果却收到了让他自己想办法解决的回复，从而导致了他放弃继续为该项目做贡献。　　所以，你还在继续为开源项目做贡献吗，如果不是的话，那你放弃的原因是什么呢？

来源：博客园

发布时间：2020-08-24 21:21:00

动态图第一篇——通过选项按钮制作动态图 | 数据分析网首页分类阅读行业资讯大数据

之前有很多人问我，如何我在excel数据跟着图动起来，最初我在接触excel的时候，看到别人做的这样的图，我是羡慕的不要不要的，最近几篇，就来分享一下我对动态图的一些做法吧。今天的分享的是利用“窗体控件”中的“选项按钮”来实现动态。窗体控件是excel开发工具选项卡下面的内容，一般我们默认excel下面是隐藏开发工具选项卡的，如何调用呢，看下图：调用开发工具选项卡后，下面我们继续调用下面的选项按钮：依次设置：当我们点选的时候，B16会有值1，按照上述步骤依次添加我们需要动态的各个项，结果得到下图示：设置好以后，我们每点选一个，B16单元格内的数值都会对应变化。接下来我们需要通过函数联动B16，就可以实现我们前面说的动态了。看下图：公式也复制给大家： =INDEX($C$3:$G$12,MATCH(B$17,$B$3:$B$12,),$B$16) 对于动态图，其实index和match是最常用到的函数，对于index，我之前的文章里面有说明的，有需要的，可以去翻一下。（链接在这里 http://mp.weixin.qq.com/s__biz=MzIwOTAxMTEwMA==&mid=207343270&idx=1&sn=60670d955c2d257bae37603e52143b6a#rd）接下来选中B17:K18,按下 ALT+F1 ，直接插入条形图。为了美观，你可以直接将图覆盖B17:K18，然后将图的图层设置为底层，如图示：然后将5个选项按钮组合起来（方便你拖动）（注意：不要选中你的图，否则你在拖动按钮的时候，会连图一起移动了）成果如图：给大家看看效果图：最后，根据上面的说明，打开电脑，动起手来吧！本文为专栏文章，来自：Excelky，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/12448.html 。

来源：数据分析网

发布时间：2016-04-07 12:43:00

微博正式收购《王者荣耀》双料冠军TS战队：阵容保留更名WB.TS

　　据国内媒体报道，8 月 24 日，微博正式宣布收购 2020 年王者荣耀职业联赛（KPL）春季赛和王者荣耀世界冠军杯双料总冠军：豚首王者荣耀战队（TS 战队），并将冠军阵容全员保留。　　未来 TS 战队将以“WB.TS”为名继续征战王者荣耀职业联赛系列赛事，此次收购标志着微博正式进军王者荣耀职业联赛领域，深度布局电竞产业。　　据微博相关负责人介绍，一直以来，游戏都是微博重点布局的垂直领域，未来，微博也将加大对游戏业务的投入，完善电竞理念、结合过往经验，实现全产业链的电竞生态布局。　　TS 是手游《王者荣耀》的职业电竞战队，于 2017 年 1 月 13 日正式成立，在以往的各大赛事中收获了众多荣耀。　　在 2020 年 KPL 春季赛中，TS 战队以 13 连胜的战绩获得总冠军，并拿下王者荣耀世界冠军杯的参赛资格，在之后的比赛中，TS 战队在先失局0：3 落后的绝境下，连赢 4 局，最终以4-3 的总比分战胜对手 DYG 战队，荣获 2020 王者荣耀世界冠军杯的世界冠军。　　官方数据显示，截至 2020 年 7 月，微博生态内 KPL 粉丝达 4744 万，KPL 春季赛相关话题累计阅读超 101 亿，相关视频累计播放达 13.7 亿。　　在 2020 王者荣耀世界冠军杯举办期间，微博电竞热度再创新高，赛事相关热搜 74 个，总决赛直播观看量达 3151 万，创下微博新纪录。　　广州市社会科学院最新调研报告指出，预计到今年年末，我国内地电竞用户将达 5.2 亿，电竞市场营收将达到 1400 亿元左右，至 2022 年，中国(内地)电竞用户将增至 5.5 亿，电竞市场营收将超过 1600 亿元。

来源：博客园

发布时间：2020-08-24 21:06:00

R语言构建配对交易量化模型 | 数据分析网首页分类阅读行业资讯大数据统计学数据分�

前言散户每天都在经历中国股市的上蹿下跳，赚到钱是运气，赔钱是常态。那么是否有方法可以让赚钱变成常态呢？我们可以通过“统计套利”的方法，发现市场的无效性。配对交易，就统计套利策略的一种，通过对冲掉绝大部分的市场风险，抓住套利机会，积累小盈利汇聚大收益。目录什么是配对交易？配对交易的模型用 R语言实现配对交易 1. 什么是配对交易？配对交易（Pairs Trading）的理念最早来源于上世纪20年代华尔街传奇交易员Jesse Livermore 的姐妹股票对交易策略。配对交易的基本原理是找到两个相关性较高具备均衡关系的股票或其他金融产品，做空近期相对强势的金融产品，同时做多相对弱势金融产品，等待两者价格重返均衡值时进行平仓，赚取两者的价差变动的收益。假设两个金融产品在未来的时期会保持良好的均衡关系，一旦两者之间的价格走势出现背离，同时这种背离在未来会被进行修复，那么就可能产生套利的机会。对于配对交易来说，就是找到这样的机会，进行统计套利。配对交易的特点配对交易与传统股票交易最大的不同之处在于，它的投资标的是两只股票的价差，是一种相对价值而非绝对价值。由于它在股票多头和空头方同时建仓，对冲掉了绝大部分的市场风险，所以它是一种市场的中性策略。无论大盘上涨还是下跌，配对交易策略收益都是相对平稳的，与大盘走势的相关性很低。在市场无趋势性机会时，可以通过配对交易避免股市系统风险，获取Alpha绝对收益。趋势性的交易策略，可以参考文章两条均线打天下。配对交易操作方法组合筛选：在市场上寻找用于配对的金融产品或者组合，检查历史价格的走势，判断是否可以用来进行配对。主要用下面几个指标来筛选配对组合：相关系数、模型计算的均值回复速度、协整检验、基本面因素等。通过这些因素来寻找出具有稳定相关关系的组合。风险衡量和动态组合的构建：计算配对组合各自的预期收益、预期风险、交易成本；判断两个组合之间的价差服从何种分布；判断是具有长期均衡特性还是短期均衡特性；价差发生跳跃的频率等。确定交易规则：根据价差的特性，确定交易的频率（高频交易还是低频交易），交易的触发条件和平仓规则等。执行交易及风险控制：除了按照交易规则执行外，还必须动态跟踪价差走势，如果发现突变，应该及时调整套利模式和交易频率。配对交易缺点统计套利的规则都是基于历史数据计算的，但历史不能代表未来，当市场发生变化模型也会失效市场对价格进行修复的时间难以准确判断，只能根据历史大致估计。如果回归的时间过长，对套利者的资金使用成本是个考验，也有可能导致套利失败。 2. 构建配对交易的模型根据配对交易的原理，我们就可以自己设计配对交易的模型了。首先，需要把配对交易涉及的指标都进行量化，比如如何选择不同的两个具备均衡关系金融产品，什么时候做多，什么时候做空，什么时候平仓等。根据概念，我们生成两个虚拟的金融产品X,Y，包括时间和价格字段。让X和Y的两个产品都价格符合正态分布，生成100个日期的数据。由于是测试程序，日期字段是包括了自然日，暂时理解为连续的日期。 R语言实现的代码如下： > set.seed(1) #设置随机种子 > dates<-as.Date('2010-01-01')+1:100 #100个日期 > x<-round(rnorm(100,50,40),2) #随机生成X产品，100个正态分析的收盘价 > y<-round(rnorm(100,50,40),2) #随机生成Y产品，100个正态分析的收盘价 > df<-data.frame(dates,x,y) > df dates x y 1 2010-01-02 24.94 25.19 2 2010-01-03 57.35 51.68 3 2010-01-04 16.57 13.56 4 2010-01-05 113.81 56.32 5 2010-01-06 63.18 23.82 6 2010-01-07 17.18 120.69 7 2010-01-08 69.50 78.67 8 2010-01-09 79.53 86.41 9 2010-01-10 73.03 65.37 10 2010-01-11 37.78 117.29 11 2010-01-12 110.47 24.57 12 2010-01-13 65.59 31.53 13 2010-01-14 25.15 107.29 14 2010-01-15 -38.59 23.97 15 2010-01-16 95.00 41.70 16 2010-01-17 48.20 34.29 17 2010-01-18 49.35 37.20 18 2010-01-19 87.75 38.84 19 2010-01-20 82.85 69.77 20 2010-01-21 73.76 42.91 21 2010-01-22 86.76 29.76 22 2010-01-23 81.29 103.72 23 2010-01-24 52.98 41.42 24 2010-01-25 -29.57 42.82 25 2010-01-26 74.79 45.99 26 2010-01-27 47.75 78.51 27 2010-01-28 43.77 47.06 28 2010-01-29 -8.83 48.49 29 2010-01-30 30.87 22.73 30 2010-01-31 66.72 37.03 31 2010-02-01 104.35 52.41 32 2010-02-02 45.89 26.44 33 2010-02-03 65.51 71.26 34 2010-02-04 47.85 -10.74 35 2010-02-05 -5.08 62.26 36 2010-02-06 33.40 -11.46 37 2010-02-07 34.23 37.96 38 2010-02-08 47.63 28.87 39 2010-02-09 94.00 23.92 40 2010-02-10 80.53 47.72 41 2010-02-11 43.42 -26.57 42 2010-02-12 39.87 97.06 43 2010-02-13 77.88 -16.60 44 2010-02-14 72.27 31.46 45 2010-02-15 22.45 5.36 46 2010-02-16 21.70 19.97 47 2010-02-17 64.58 133.49 48 2010-02-18 80.74 50.70 49 2010-02-19 45.51 -1.45 50 2010-02-20 85.24 -15.62 51 2010-02-21 65.92 68.01 52 2010-02-22 25.52 49.26 53 2010-02-23 63.64 37.28 54 2010-02-24 4.83 12.83 55 2010-02-25 107.32 -9.50 56 2010-02-26 129.22 6.99 57 2010-02-27 35.31 90.00 58 2010-02-28 8.23 25.15 59 2010-03-01 72.79 -5.38 60 2010-03-02 44.60 124.77 61 2010-03-03 146.06 67.00 62 2010-03-04 48.43 40.45 63 2010-03-05 77.59 92.34 64 2010-03-06 51.12 85.46 65 2010-03-07 20.27 25.23 66 2010-03-08 57.55 138.24 67 2010-03-09 -22.20 39.80 68 2010-03-10 108.62 -6.98 69 2010-03-11 56.13 44.22 70 2010-03-12 136.90 58.30 71 2010-03-13 69.02 142.32 72 2010-03-14 21.60 54.23 73 2010-03-15 74.43 68.28 74 2010-03-16 12.64 46.91 75 2010-03-17 -0.15 36.64 76 2010-03-18 61.66 48.61 77 2010-03-19 32.27 81.51 78 2010-03-20 50.04 133.01 79 2010-03-21 52.97 91.10 80 2010-03-22 26.42 98.32 81 2010-03-23 27.25 0.75 82 2010-03-24 44.59 89.36 83 2010-03-25 97.12 58.80 84 2010-03-26 -10.94 -8.69 85 2010-03-27 73.76 70.84 86 2010-03-28 63.32 43.65 87 2010-03-29 92.52 108.58 88 2010-03-30 37.83 19.36 89 2010-03-31 64.80 32.79 90 2010-04-01 60.68 12.96 91 2010-04-02 28.30 42.92 92 2010-04-03 98.31 66.08 93 2010-04-04 96.42 20.73 94 2010-04-05 78.01 83.21 95 2010-04-06 113.47 1.68 96 2010-04-07 72.34 8.08 97 2010-04-08 -1.06 107.65 98 2010-04-09 27.07 9.37 99 2010-04-10 1.02 66.48 100 2010-04-11 31.06 34.76 把数据进行可视化，可以更直观地理解数据本身。 # 加载R语言类库 > library(ggplot2) > library(scales) > library(reshape2) # 数据转型 > df2<-melt(df,c('dates')) # 画图 > g<-ggplot(data=df2,aes(x=dates,y=value,colour=variable)) > g<-g+geom_line() > g<-g+scale_x_date(date_breaks = "1 week",date_labels='%m-%d') > g<-g+labs(x='date',y='Price') > g 上图中，X轴为时间，Y轴是价格，红色线为X的产品的价格，蓝色线为Y产品的价格。我们可以直观的看出，X,Y两个产品无任何关系。根据配对交易的假设条件，如果两个金融产品的价差是收敛的。我们用X的产品价格减去Y产品的价格，当差值为正的时候，我们认为X的价格过高，则做空X，同时Y的价格过低，则做多Y；当差值为负的时候，我们认为X的价格过低，则做多X，同时Y的价格过高，则做空Y；当差值为0时，则价格被市场所修复，则全部平仓。为了让差异更明显，我们定义的计算公式如下。价差Z = X价格-Y价格 Z > 10时，做空X，做多Y ；Z<0时，平仓 Z < -10时，做多X，做空Y ；Z>0时，平仓计算差价，然后计算交易统计。 # 计算差价 > df$diff<-df$x-df$y # 找到差价大于10时的点 > idx<-which(df$diff>10) > idx<-idx[-which(diff(idx)==1)-1] # 打印差价的索引值 > idx [1] 4 11 15 23 25 30 34 36 38 43 48 53 55 59 61 68 76 81 83 86 88 92 95 98 接下来，我们进行模拟交易，取第一个索引值的点，在2010-01-04时做空X，做多Y。当差价小于0在2010-01-06时，进行平仓。 # 打印前20个数据 > head(df,20) dates x y diff 1 2010-01-02 24.94 25.19 -0.25 2 2010-01-03 57.35 51.68 5.67 3 2010-01-04 16.57 13.56 3.01 4 2010-01-05 113.81 56.32 57.49 5 2010-01-06 63.18 23.82 39.36 6 2010-01-07 17.18 120.69 -103.51 7 2010-01-08 69.50 78.67 -9.17 8 2010-01-09 79.53 86.41 -6.88 9 2010-01-10 73.03 65.37 7.66 10 2010-01-11 37.78 117.29 -79.51 11 2010-01-12 110.47 24.57 85.90 12 2010-01-13 65.59 31.53 34.06 13 2010-01-14 25.15 107.29 -82.14 14 2010-01-15 -38.59 23.97 -62.56 15 2010-01-16 95.00 41.70 53.30 16 2010-01-17 48.20 34.29 13.91 17 2010-01-18 49.35 37.20 12.15 18 2010-01-19 87.75 38.84 48.91 19 2010-01-20 82.85 69.77 13.08 20 2010-01-21 73.76 42.91 30.85 # 当差价大于10时，做空X，当差价小于0时，平仓。 # 第4行做空，第6行平仓 > xprofit<- df$x[4]-df$x[6];xprofit [1] 96.63 # 当差价大于10时，做多Y；当差价小于0时，平仓。 # 第4行做空，第6行平仓 > yprofit<- df$y[6]-df$y[4];yprofit [1] 64.37 从交易结果来看，我们第一笔配对交易就是赚钱的。这是为什么呢？根据配对交易的假设条件，如果两个金融产品的价差是收敛的，通过协整性检验的方法，我们可验证数据的收敛性。那么如果数据是收敛的，他还会具备均值回归的特性，请参考文章均值回归，逆市中的投资机会。画出X,Y的价差图，我们可以明显的看出，价差一直围绕着0上下波动，这是明显收敛的，同时符合均值回归的特性。 > plot(df$diff,type='l') 这就是市场的规则，通过配对交易的方法，我们找到市场无效性，从而可以赚去套利的收益。 3. 用R语言实现配对交易看到上面的赚钱方法，也许大家会很兴奋！但是大部分市场的数据，都不会像我们的假设条件一样，轻而易举就能实现赚钱的目标。我们可以用计算机程序进行全市场的扫描发现交易机会，当然你也可以通过肉眼的方式来观察。市场上有一些天生就具备均衡关系的金融产品，可以作为我们套利的入手对象。股票类，同行业、市值和基本面相似的个股，比如，中国银行(601988)和农业银行(601288)。基金类，以相同指数作为标的的不同基金，比如，证券B(150172)，券商B(150201)。期货类，同一期货品种的不同合约，比如，铜(cu1605, cu1606)。混合类，跨市场为标的的金融产品，比如，沪深300指数，IF的期货合约接下来，以相同品种不同合约的期货为例，我们把配对交易用在cu1605和cu1606的两个合约上，试试效果如何。由于期货是支持的T+0日内的交易的，而对于套利的操作，通常都不会持仓过夜，所以我们在尽量的短周期上进行操作，而且日内平仓。下面我将以1分钟做为交易周期。 3.1 数据准备 R语言本身提供了丰富的金融函数工具包，时间序列包zoo和xts，指标计算包TTR，可视包ggplot2等，我们会一起使用这些工具包来完成建模、计算和可视化的工作。关于zoo包和xts包的详细使用可以参考文章， R语言时间序列基础库zoo ，可扩展的时间序列xts 。本文用到的数据，是铜的1分钟线的数据，从2016年日2月1日到2016年日2月29日，日盘的交易数据，以CSV格式保存到本地文件cu1605.csv,cu1606.csv。商品期货的日盘交易时间分为3段：09:00:00-10:14:59，10:30:00-11:29:59，13:30:00-14:59:59。当前测试，不考虑夜盘的数据。数据格式如下： 2016-02-01 09:00:00,35870,35900,35860,35880 2016-02-01 09:01:00,35890,35890,35860,35870 2016-02-01 09:02:00,35870,35870,35860,35870 2016-02-01 09:03:00,35870,35900,35870,35900 2016-02-01 09:04:00,35900,35900,35870,35870 2016-02-01 09:05:00,35870,35880,35860,35870 2016-02-01 09:06:00,35880,35880,35860,35870 一共5列：第1列，交易时间，date，2016-02-01 09:00:00 第2列，开盘价，Open，35870 第3列，最高价，High，35900 第4列，最低价，Low，35860 第5列，收盘价，Close，35880 通过R语言加载铜的1分钟线数据，因为我们进行日内交易，所以在加载时我就进行了转换，按日期进行分组，生成R语言的list对象，同时把每日的data.frame类型对象转成XTS时间序列类型对象，方便后续的数据处理。 #加载工具包 > library(xts) > library(TTR) # 读取CSV数据文件 > read<-function(file){ + df<-read.table(file=file,header=FALSE,sep = ",", na.strings = "NULL") # 读文件 + names(df)<-c("date","Open","High","Low","Close") # 设置列名 + dl<-split(df,format(as.POSIXct(df$date),'%Y-%m-%d')) # 按日期分组 + + lapply(dl,function(item){ # 换成xts类型数据 + xts(item[-1],order.by = as.POSIXct(item$date)) + }) + } # 加载数据 > cu1605<-read(file='cu1605.csv') > cu1606<-read(file='cu1606.csv') # 查看数据类型 > class(cu1605) [1] "list" # 查看数据的日期索引值 > names(cu1605) [1] "2016-02-01" "2016-02-02" "2016-02-03" "2016-02-04" "2016-02-05" [6] "2016-02-15" "2016-02-16" "2016-02-17" "2016-02-18" "2016-02-19" [11] "2016-02-22" "2016-02-23" "2016-02-24" "2016-02-25" "2016-02-26" [16] "2016-02-29" # 查看每日的数据量 > nrow(cu1605[[1]]) [1] 223 # 查看cu1605合约的数据 > head(cu1605[['2016-02-01']]) Open High Low Close 2016-02-01 09:00:00 35870 35900 35860 35880 2016-02-01 09:01:00 35890 35890 35860 35870 2016-02-01 09:02:00 35870 35870 35860 35870 2016-02-01 09:03:00 35870 35900 35870 35900 2016-02-01 09:04:00 35900 35900 35870 35870 2016-02-01 09:05:00 35870 35880 35860 35870 把数据准备好了，我们就可以来建立模型了。 3.2 配对交易模型以2016年02月01日为例进行交易，以1分钟线的close价格来计算cu1605和cu1606的两个合约的价差。下面我们对数据进行操作，合并2个合约在2016年02月01日的数据，并对空值进行处理，最后计算出两个合约的价差。 # 合并数据 > xdf<-merge(cu1605[['2016-02-01']]$Close,cu1606[['2016-02-01']]$Close) > names(xdf)<-c('x1','x2') # 用前值替换空值 > xdf<-na.locf(xdf) # 计算价差 > xdf$diff<-xdf$x1-xdf$x2 # 打印前20行数据 > head(xdf,20) x1 x2 diff 2016-02-01 09:00:00 35880 35900 -20 2016-02-01 09:01:00 35870 35920 -50 2016-02-01 09:02:00 35870 35910 -40 2016-02-01 09:03:00 35900 35940 -40 2016-02-01 09:04:00 35870 35910 -40 2016-02-01 09:05:00 35870 35920 -50 2016-02-01 09:06:00 35870 35910 -40 2016-02-01 09:07:00 35860 35910 -50 2016-02-01 09:08:00 35840 35880 -40 2016-02-01 09:09:00 35790 35840 -50 2016-02-01 09:10:00 35800 35840 -40 2016-02-01 09:11:00 35790 35830 -40 2016-02-01 09:12:00 35820 35860 -40 2016-02-01 09:13:00 35810 35850 -40 2016-02-01 09:14:00 35790 35830 -40 2016-02-01 09:15:00 35780 35830 -50 2016-02-01 09:16:00 35770 35810 -40 2016-02-01 09:17:00 35760 35820 -60 2016-02-01 09:18:00 35750 35800 -50 2016-02-01 09:19:00 35760 35810 -50 数据解释： x1列，为第一腿对应cu1605合约 x2列，为第二腿对应cu1606合约。 diff列，为cu1605-cu1606 从价差的结果看，每1分钟cu1605合约都小于cu1606合约，从-110到-20价差不等，并且以-63为均值上下反复震荡。 # 计算价差范围 > range(xdf$diff) [1] -110 -20 # 计算价差均值 > mean(xdf$diff) [1] -63.90135 # 画出价差分布柱状图 > hist(xdf$diff,10) 画出价差分布柱状图我们假设以-63为均值回归点，当差值为大于-45的时候，认为X的价格过高做空X，同时Y的价格过低做多Y；当差值小于-75的时候，我们认为X的价格过低做多X，同时Y的价格过高做空Y；当差值为-63时，价格被市场所修复，则全部平仓。以cu1605和cu1606的两个合约按照1:1持仓进行配比，1手多单对1手空单。定义模型指标，计算价值列为diff，均值回归列为mid，最大阈值列为top,最小阈值列为bottom。 target.pair<-function(xdf){ xdf$diff<-xdf$x1-xdf$x2 #差值 xdf$mid<- -63 #均值回归点 xdf$top<- -45 #最大阈值 xdf$bottom<- -75 #最小阈值 return(xdf) } 完成指标的定义后，我们创建配对交易模型，并对合同数据进行回测，产生交易信号后，模拟交易输出清单，并可视化交易结果。回测过程代码省略，产生的交易信号如下所示。 date x1 x2 diff mid top bottom op 21 2016-02-01 09:00:00 35880 35900 -20 -63 -45 -75 ks 1 2016-02-01 09:25:00 35740 35810 -70 -63 -45 -75 pb 22 2016-02-01 09:40:00 35690 35730 -40 -63 -45 -75 ks 2 2016-02-01 09:47:00 35700 35770 -70 -63 -45 -75 pb 13 2016-02-01 10:00:00 35690 35770 -80 -63 -45 -75 kb 5 2016-02-01 10:01:00 35710 35760 -50 -63 -45 -75 ps 23 2016-02-01 10:02:00 35710 35750 -40 -63 -45 -75 ks 3 2016-02-01 10:07:00 35680 35750 -70 -63 -45 -75 pb 14 2016-02-01 10:37:00 35720 35800 -80 -63 -45 -75 kb 6 2016-02-01 10:42:00 35740 35790 -50 -63 -45 -75 ps 15 2016-02-01 11:20:00 35700 35780 -80 -63 -45 -75 kb 7 2016-02-01 11:21:00 35710 35750 -40 -63 -45 -75 ps 24 2016-02-01 11:21:00 35710 35750 -40 -63 -45 -75 ks 4 2016-02-01 11:23:00 35690 35760 -70 -63 -45 -75 pb 16 2016-02-01 11:29:00 35690 35770 -80 -63 -45 -75 kb 8 2016-02-01 13:36:00 35660 35720 -60 -63 -45 -75 ps 17 2016-02-01 13:45:00 35660 35740 -80 -63 -45 -75 kb 9 2016-02-01 13:46:00 35670 35730 -60 -63 -45 -75 ps 18 2016-02-01 13:52:00 35650 35730 -80 -63 -45 -75 kb 10 2016-02-01 13:53:00 35650 35710 -60 -63 -45 -75 ps 19 2016-02-01 13:56:00 35640 35720 -80 -63 -45 -75 kb 11 2016-02-01 14:49:00 35600 35660 -60 -63 -45 -75 ps 20 2016-02-01 14:52:00 35610 35700 -90 -63 -45 -75 kb 12 2016-02-01 14:58:00 35610 35690 -80 -63 -45 -75 ps 数据解释： date列，为交易时间 x1列，为第一腿对应cu1605合约 x2列，为第二腿对应cu1606合约。 diff列，为cu1605-cu1606 mid列，为均值回归点 top列，为最大阈值 bottom列，为最小阈值 op列，为交易信号交易信号一共有4种。 ks, 开仓, 做空(卖)，对应反向操作为pb。 kb, 开仓, 做多(买)，对应反向操作为ps。 ps, 平仓, 做空(卖)，对应反向操作为kb。 pb，平仓, 做多(买)，对应反向操作为ks。一共出现了24个交易信号，由于我们进行的是配对交易，所以当出现ks(开仓做空)信号时，实际上会进行2笔操作，开仓做空第一腿，开仓做多第二腿。接下来，进行模拟交易，计算出交易清单。 $x1 code op price pos fee value margin balance cash 2016-02-01 09:00:00 cu1605 ks 35880 1 8.9700 179400 26910.0 NA 173081.0 2016-02-01 09:25:00 cu1605 pb 35740 0 8.9350 0 0.0 700 173748.1 2016-02-01 09:40:00 cu1605 ks 35690 1 8.9225 178450 26767.5 NA 173437.7 2016-02-01 09:47:00 cu1605 pb 35700 0 8.9250 0 0.0 -50 173339.9 2016-02-01 10:00:00 cu1605 kb 35690 1 8.9225 178450 26767.5 NA 173552.0 2016-02-01 10:01:00 cu1605 ps 35710 0 8.9275 0 0.0 100 173574.2 2016-02-01 10:02:00 cu1605 ks 35710 1 8.9275 178550 26782.5 NA 173651.3 2016-02-01 10:07:00 cu1605 pb 35680 0 8.9200 0 0.0 150 173753.4 2016-02-01 10:37:00 cu1605 kb 35720 1 8.9300 178600 26790.0 NA 173758.1 2016-02-01 10:42:00 cu1605 ps 35740 0 8.9350 0 0.0 100 173780.2 2016-02-01 11:20:00 cu1605 kb 35700 1 8.9250 178500 26775.0 NA 173887.3 2016-02-01 11:21:00 cu1605 ps 35710 0 8.9275 0 0.0 50 173859.4 2016-02-01 11:21:001 cu1605 ks 35710 1 8.9275 178550 26782.5 NA 174044.1 2016-02-01 11:23:00 cu1605 pb 35690 0 8.9225 0 0.0 100 174096.2 2016-02-01 11:29:00 cu1605 kb 35690 1 8.9225 178450 26767.5 NA 174173.3 2016-02-01 13:36:00 cu1605 ps 35660 0 8.9150 0 0.0 -150 173945.5 2016-02-01 13:45:00 cu1605 kb 35660 1 8.9150 178300 26745.0 NA 174260.1 2016-02-01 13:46:00 cu1605 ps 35670 0 8.9175 0 0.0 50 174232.3 2016-02-01 13:52:00 cu1605 kb 35650 1 8.9125 178250 26737.5 NA 174331.9 2016-02-01 13:53:00 cu1605 ps 35650 0 8.9125 0 0.0 0 174254.1 2016-02-01 13:56:00 cu1605 kb 35640 1 8.9100 178200 26730.0 NA 174403.8 2016-02-01 14:49:00 cu1605 ps 35600 0 8.9000 0 0.0 -200 174125.9 2016-02-01 14:52:00 cu1605 kb 35610 1 8.9025 178050 26707.5 NA 174490.6 2016-02-01 14:58:00 cu1605 ps 35610 0 8.9025 0 0.0 0 174405.3 $x2 code op price pos fee value margin balance cash 2016-02-01 09:00:00 cu1606 kb 35900 1 8.9750 179500 26925.0 NA 146147.1 2016-02-01 09:25:00 cu1606 ps 35810 0 8.9525 0 0.0 -450 200214.2 2016-02-01 09:40:00 cu1606 kb 35730 1 8.9325 178650 26797.5 NA 146631.3 2016-02-01 09:47:00 cu1606 ps 35770 0 8.9425 0 0.0 200 200328.4 2016-02-01 10:00:00 cu1606 ks 35770 1 8.9425 178850 26827.5 NA 146715.6 2016-02-01 10:01:00 cu1606 pb 35760 0 8.9400 0 0.0 50 200442.7 2016-02-01 10:02:00 cu1606 kb 35750 1 8.9375 178750 26812.5 NA 146829.8 2016-02-01 10:07:00 cu1606 ps 35750 0 8.9375 0 0.0 0 200557.0 2016-02-01 10:37:00 cu1606 ks 35800 1 8.9500 179000 26850.0 NA 146899.1 2016-02-01 10:42:00 cu1606 pb 35790 0 8.9475 0 0.0 50 200671.2 2016-02-01 11:20:00 cu1606 ks 35780 1 8.9450 178900 26835.0 NA 147043.4 2016-02-01 11:21:00 cu1606 pb 35750 0 8.9375 0 0.0 150 200835.5 2016-02-01 11:21:001 cu1606 kb 35750 1 8.9375 178750 26812.5 NA 147222.6 2016-02-01 11:23:00 cu1606 ps 35760 0 8.9400 0 0.0 50 200949.8 2016-02-01 11:29:00 cu1606 ks 35770 1 8.9425 178850 26827.5 NA 147336.9 2016-02-01 13:36:00 cu1606 pb 35720 0 8.9300 0 0.0 250 201014.1 2016-02-01 13:45:00 cu1606 ks 35740 1 8.9350 178700 26805.0 NA 147446.2 2016-02-01 13:46:00 cu1606 pb 35730 0 8.9325 0 0.0 50 201078.4 2016-02-01 13:52:00 cu1606 ks 35730 1 8.9325 178650 26797.5 NA 147525.5 2016-02-01 13:53:00 cu1606 pb 35710 0 8.9275 0 0.0 100 201142.7 2016-02-01 13:56:00 cu1606 ks 35720 1 8.9300 178600 26790.0 NA 147604.8 2016-02-01 14:49:00 cu1606 pb 35660 0 8.9150 0 0.0 300 201207.0 2016-02-01 14:52:00 cu1606 ks 35700 1 8.9250 178500 26775.0 NA 147706.7 2016-02-01 14:58:00 cu1606 pb 35690 0 8.9225 0 0.0 50 201221.4 数据解释： $x1部分，为第一腿的交易清单。 $x2部分，为第二腿的交易清单。 code，合约代码 op，交易信号 price，成交价格 pos，成交数量 fee，手续费 value，对应价值 margin，保证金 balance，平仓盈亏 cash，账号资金我通过交易清单，统计交易结果。 > page $day # 交易日期 [1] "2016-02-01" $capital # 初始资金 [1] 2e+05 $cash # 账户余额 [1] 201221.4 $num # 交易信号数 [1] 24 $record # 配对交易平仓盈亏 x1 x2 balance 2016-02-01 09:25:00 700 -450 250 2016-02-01 09:47:00 -50 200 150 2016-02-01 10:01:00 100 50 150 2016-02-01 10:07:00 150 0 150 2016-02-01 10:42:00 100 50 150 2016-02-01 11:21:00 50 150 200 2016-02-01 11:23:00 100 50 150 2016-02-01 13:36:00 -150 250 100 2016-02-01 13:46:00 50 50 100 2016-02-01 13:53:00 0 100 100 2016-02-01 14:49:00 -200 300 100 2016-02-01 14:58:00 0 50 50 $balance # 汇总平仓盈亏，第一腿盈亏，第二腿盈亏 [1] 1650 850 800 $fee # 汇总手费费，第一腿手续费，第二腿手续费 [1] 429 214 215 $profit # 账户净收益，收益率(占保证金) [1] 1221.000 0.023 $wins # 胜率，胜数，败数 [1] 1 12 0 最后，通过可视化输出交易信号。图例解释棕色线，为价差diff 紫色线，为最大阈值top 红色线，为最小阈值bottom 蓝色线，为均值线mid，平行于top和bottom 浅蓝线，为ks开仓做空的交易绿色线，为kb开仓做多的交易从图中看就更直观了，我们进行了12次交易，每次4笔，胜率100%。最后，我们对2月份整个的数据进行回测。回测结果如下。 date profit ret balance fee winRate win fail maxProfit maxLoss avgProfit avgLoss 1 2016-02-01 1221 0.023 1650 429 1.00 12 0 250 50 138 NaN 2 2016-02-02 1077 0.020 1650 573 1.00 15 0 150 0 110 NaN 3 2016-02-03 64 0.001 100 36 1.00 1 0 100 100 100 NaN 4 2016-02-04 113 0.002 150 37 1.00 1 0 150 150 150 NaN 5 2016-02-05 926 0.017 1400 474 1.00 13 0 150 100 108 NaN 6 2016-02-15 1191 0.022 1550 359 1.00 10 0 250 100 155 NaN 7 2016-02-16 78 0.001 150 72 1.00 1 0 150 0 150 NaN 8 2016-02-17 179 0.003 250 71 1.00 2 0 200 50 125 NaN 9 2016-02-18 14 0.000 50 36 1.00 1 0 50 50 50 NaN 10 2016-02-19 -36 -0.001 0 36 NaN 0 0 0 0 NaN NaN 11 2016-02-22 64 0.001 100 36 1.00 1 0 100 100 100 NaN 12 2016-02-23 632 0.012 850 218 1.00 6 0 200 100 142 NaN 13 2016-02-24 470 0.009 650 180 1.00 4 0 200 0 162 NaN 14 2016-02-25 114 0.002 150 36 1.00 1 0 150 150 150 NaN 15 2016-02-26 178 0.003 250 72 1.00 2 0 150 100 125 NaN 16 2016-02-29 511 0.009 800 289 0.88 7 1 150 -50 121 -50 数据解释： date，交易日期 profit，净收益 ret，每日收益率 balance，平仓盈亏 fee，手续费 winRate，胜率 win，胜数 fail，败数 maxProfit，单笔最大盈利 maxLoss，单笔最大亏损 avgProfit，平均盈利 avgLoss，平均亏损从结果来看，多么开心啊，几乎每天都是赚钱的！！ cu1605和cu1606两个合同是完美地具备均衡关系的两个金融产品，大家常常所说的跨期套利就是基于这个思路实现的。本文介绍的配对交易模型，是统计套利的一个基本模型，原理很简单，当大家都掌握后拼的就是交易速度了。利用市场的无效性来获取利润，是每个套利策略都在寻找的目标。通过统计方法，我们可以发现市场的无效性，再以对冲的操作方式，规避绝大部分的市场风险，等待市场的自我修复后来赚钱利润。说起来很简单，但市场的无效性，可能会在极短时间内就被修复。 “天下武功为快不破”，通过量化的手段，让计算机来发现机会，进行交易，实现收益。一切就和谐了！！作者：张丹来源：http://blog.fens.me/finance-pairs-trading/ 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-04-05 22:17:00

复盘腾讯出海之路 WeChat只是企鹅海外帝国一角

　　文/鸿键　　来源：深响（ID：deep-echo）　　核心要点　　在业务出海方面，腾讯曾将希望都押在微信身上。由于水土不服、竞争激烈等原因，WeChat 未成为海外的主流社交应用，但在华人群体中影响力巨大。　　资本出海是腾讯更强势的海外布局形式，其海外投资遍布世界各国，其中布局游戏全产业链是腾讯投资的关键组成。　　尽管社交流量打法未能复制到海外，但资本的成功出海依然为腾讯开辟了通路，遍布全球的游戏产业布局助力腾讯成为游戏行业龙头，也为其打开了海外的增长空间。　　2020 年，互联网大厂的头上悬着来自海外的达摩克利斯之剑。　　今年 6 月开始，国内互联网大厂的海外业务不断受挫，先是印度政府以“国家安全原因”封禁了一批 APP，其中包括 UC 浏览器、TikTok、微信、微博等。不久后，美国市场出现了更大的波折。　　接连几周的时间里，TikTok 在美国的前途成为国内外媒体关注的焦点。风波愈演愈烈的同时，战火从字节跳动烧到了腾讯，微信海外版 WeChat 成为又一个被美国政府针对的中国互联网产品，相关消息传出后，腾讯股价盘中一度重挫 10%。　　在 8 月 12 日的财报电话会上，腾讯高管表示，美国市场占腾讯的全球营收不足2%。国内也有券商表示，“WeChat 禁令”对腾讯的影响较小，但从腾讯股价的起伏来看，市场似乎仍有担忧情绪。　　担忧来自腾讯海外布局面临的不确定性，外界的疑惑大多集中于：除了 WeChat，腾讯在海外还有哪些业务，之于腾讯本身又有怎样的重要性？　　答案是：腾讯早已成为全球市场的大玩家，其海外布局也深刻影响着腾讯自身的业务发展。　　近些年来，以腾讯、阿里巴巴、字节跳动等为代表的互联网大厂把目光投向更广阔的海外市场，但和 TikTok 这样的业务出海相比，资本出海是腾讯更强势的海外布局形式。　　「深响」通过梳理腾讯的海外投资发现，腾讯是海外举足轻重的玩家，在世界各国均有布局，而回顾腾讯在国际化方面的努力则会发现，强势的资本出海既与 WeChat 的发展情况有关，也反映了腾讯试图靠资本出海反哺自身业务发展的考虑。　　微信出海路漫漫　　在业务出海方面，马化腾曾把希望都押在微信身上，并毫不掩饰对微信国际化的期待。他在 2013 年曾表示，“这辈子能够走出国际化的，在腾讯来说，在目前来看我就只看到微信这个产品。” 　　作为腾讯的拳头产品，微信受到重视属于情理之中，2013 年，两岁的微信已经有了 4 亿国内用户和 1 亿的海外用户，其不仅帮腾讯拿到移动互联网“船票”，也打开了来自海外的想象空间。　　为了帮微信海外版 WeChat 打开海外市场，腾讯曾请梅西为 WeChat 代言，电视广告一度在 15 个国家和地区同步播放，移动端广告和线下广告的投放也相当密集。梅西代言 WeChat 　　从腾讯 2013 年的年报就能看出集团对微信出海的重视程度，财报显示，受在国际市场投入大量资金推广 WeChat 影响，腾讯当年的销售及市场推广开支相比上一年接近翻倍。　　力推 WeChat 的背后，腾讯的意图是将其在国内屡试不爽的社交流量打法复制到海外。　　在 PC 互联网时代，腾讯基于 QQ 的社交流量发展出各项增值服务和业务，以至于不少同行对其“什么都做”颇有微词。到了移动互联网时代，微信更是承载着移动端支付、游戏、电商等业务的巨大可能性。站在时代更迭的窗口期，腾讯没理由不想动全球市场的蛋糕。　　虽然有重金和球王的加持，但 WeChat 的出海不算顺利。一方面，WeChat 需要解决水土不服的老问题，风靡国内的功能不一定能让外国用户买单，而各国又有独特的国情需要适应；另一方面，Facebook、Line、WhatsApp 等海外同行已经在市场占有一席之地，想要突围难度不小。　　据彭博社报道，腾讯在 2014 年曾试图收购 WhatsApp，但在谈判接近最后阶段的时候，马化腾因为身体原因不得不推迟前往硅谷的时间，此时扎克伯克开出了接近腾讯两倍出价的收购价格，抢先一步拿下 WhatsApp。　　虽然错失了 WhatsApp，但在华人群体中影响力巨大的微信和 WeChat 依然是中国连接世界各国最重要的数字桥梁，留学生联系家人、企业的跨国业务、全球华人的信息交流都与 WeChat 息息相关，其重要性其实也是中国全球地位的折射。　　相比 2013 年时候的声势，如今微信国际化的情况已经不是集团披露的重点，但腾讯的出海其实一直在进行中，只是在一个相对低调的维度。　　投遍全球　　虽然 WeChat 未能完成马化腾的心愿，腾讯在海外市场似乎也没有真正打造出一款类似 TikTok 影响力的产品，但腾讯在海外是个举足轻重的玩家，这与其在海外市场的布局策略相关——资本出海，而非产品出海。　　「深响」根据 IT 桔子的数据整理发现，截至今年 8 月中旬，腾讯在海外的投资标的多达 143 个，遍布 22 个国家，众多投资标的中，有 71 个公司位于美国，印度和韩国分别以 17 和 13 的投资数排在美国之后。　　和在国内的“掐尖”投资风格相似，腾讯在海外的投资主要瞄准了细分赛道的头部玩家，明星企业在其投资列表中俯拾皆是，比如美国的 Epic Games、Riot Games、Snapchat、Reddit、Lyft、特斯拉，芬兰的 Supercell，英国的 Farfetch，新加坡的“东南亚小腾讯”Sea，印尼版“滴滴”Go-Jek 等等。 “东南亚小腾讯”在纽交所上市　　投资标的分布虽然广，但腾讯的资本出海有着清晰的逻辑。　　和纯粹的投资机构不同，腾讯本身作为行业巨头，其在投资时除了考虑财务回报、也会侧重被投企业之于竞争的意义以及和自身业务的协同。　　由于显著的人口优势和与中国相似的移动互联网发展路径，腾讯、阿里巴巴近年都试图将影响力辐射至东南亚市场，竞争在所难免。在电商赛道，阿里巴巴通过投资获得 Lazada 的控股权，腾讯则加码 Sea 旗下的电商平台 Shopee；在支付赛道，阿里巴巴投资了电子支付品牌 Mynt，腾讯则收购了菲律宾电子支付企业 Voyager。　　竞争驱动之外，腾讯的资本出海还有明显的业务协同特性，其常见的做法是先通过收购少量股权换取与被投公司的合作，这一点在腾讯的游戏业务发展上表现得最为明显。　　据「深响」统计，腾讯的海外投资行业分布里比重最大的是游戏，143 个投资标的中有 42 个归属游戏行业，且多数大名鼎鼎的游戏公司都在其中，如《英雄联盟》开发商 Riot、《PUBG》开发商 Bluehole、《堡垒之夜》开发商 Epic、《皇室战争》开发商 Supercell 等。　　投资知名游戏公司的思路不难理解，腾讯试图以此拿下热门游戏 IP 和研发权，补齐自身在游戏行业上游的短板。与此同时，腾讯还以投资布局游戏产业链中的底层技术、发行、渠道等环节。Sea 旗下的 Garena 是腾讯出海手游在东南亚的代理商，腾讯投资美国游戏发行商 Outspark、越南游戏发行商 VNG、韩国游戏运营商 KaKao 等也是同一思路的体现。　　之所以要布局游戏全产业链，腾讯在海外所面对的不同环境是关键。在国内，腾讯坐拥由微信、QQ 等“腾讯系”应用带来的巨大流量，本身就是最大的分发渠道，但社交流量的打法没能复制到海外，加上各国各地区的政策限制，腾讯通过投资换合作，“借力”本地玩家是更便利的选择。 Riot 研发的《英雄联盟》　　腾讯投资管理合伙人、腾讯集团副总裁李朝晖曾对腾讯在游戏领域的投资有过如下描述：“通过投资我们和核心合作伙伴建立了长期的战略关系，确保我们在全球都能拿到最好的游戏；另一方面投资跟腾讯业务有非常强的协同和相互促进的关系。” 　　经过了十余年的投资布局，腾讯在海外已经形成了显著影响力。出行、社交、影视、金融等诸多海外布局中，游戏无疑是腾讯出海最成功的板块。值得注意的是，资本影响力之外，腾讯自身游戏业务的全球影响力与日俱增。　　资本出海下的企鹅帝国　　资本的成功出海为腾讯开辟了通路，从布局的广度和深度，以及在各环节的掌控力来看，腾讯已经是名副其实的世界级游戏帝国，而投资正是撬动腾讯游戏业务发展的关键：　　投资并收购 Riot，腾讯获得《英雄联盟》在国内独家代理权的同时，也为日后的现金牛产品《王者荣耀》埋下伏笔，马化腾曾将收购 Riot 描述为腾讯“最成功的海外投资”；　　投资 Bluehole，腾讯取得了《绝地求生》的研发和代理权，其与 Bluehole 联合开发的手游《PUBG Mobile》在全球热度居高不下；　　投资 Epic，腾讯获得虚幻游戏开发引擎的同时，还收获了《堡垒之夜》的代理权；　　收购 Supercell，腾讯拿下了《部落冲突》、《皇室战争》等热门手游的代理权，成为全球收益最高的手游公司；　　入股动视暴雪，腾讯获得《使命召唤》的代理权，并与动视暴雪合作开发出《Call of Duty Mobile》。　　可以看到，资本出海之于腾讯游戏业务发展的意义在于：先通过投资拿下优质游戏 IP，接着凭借在“端转手”方面的研发能力和在全球的渠道布局，将爆款手游输送至海外。在此路径中，《PUBG Mobile》成为了首款打开全球市场的中国手游。 PUBG Mobile 活动　　根据移动应用数据公司 Sensor Tower 的数据，2020 年 7 月，腾讯旗下的《PUBG Mobile》和《和平精英》在全球实现收入 2.08 亿美元，较 2019 年 7 月增长 10.8%，位列全球手游收入榜榜首。其中，中国玩家贡献了 56.6% 的收入，美国和沙特阿拉伯玩家分别贡献 10% 和 5.6%。　　游戏在海外的畅销为腾讯提供了新的收入“引擎”，根据腾讯去年年报，其海外游戏收入在去年第四季度同比增长超过一倍，占网络游戏收入的 23%，增长来自《PUBG Mobile》、《Call of Duty Mobile》及《英雄联盟》新模式《云顶之弈》。截至 2019 年底，全球前十最受欢迎的手游（按 DAU 计算）中的 5 款均由腾讯开发。图源：腾讯 2019 年年报　　值得注意的是，腾讯的海外游戏布局也影响了其他产品的出海。以腾讯云为例，其优先攻下国内游戏、直播、视频等客户的经验也被带出海外。今年第一季度，腾讯云正式进入韩国市场，韩国前二十的游戏发行商中一半已与腾讯云达成合作。在日本市场，腾讯云也拿下了多个头部客户。　　时至今日，腾讯在游戏内容、研发、渠道等方面均已筑起护城河，战略上也有逐渐从以投资换合作转向增强掌控力、自主发行的趋势。可以预见的是，《PUBG Mobile》的出海路径将被复用，腾讯来自海外游戏的收入空间也将被进一步打开。　　日前的财报电话会上，马化腾强调，微信和 WeChat 是“两款不同的产品”。在此逻辑中，相比风口浪尖的 WeChat，资本和游戏才是腾讯出海的主角。一方面，各国“独角兽”的身后往往都有腾讯的身影；另一方面，腾讯的游戏业务正在全球掀起新的浪潮。　　作为全球级的巨头，腾讯的出海之路还将撬动更大的空间。

来源：博客园

发布时间：2020-08-24 20:50:00

【SAS宏】拼手气红包该怎么抢？让微信红包的随机算法来告诉你 | 数据分析网首页分类阅

摘要：看到一篇讲微信拼手气红包算法的，又回想起今年抢红包屡败屡战，手气捉急，所以用 SAS 实现了一下抢红包算法，一探究竟。推荐阅读：微信红包的随机算法是怎样实现的？算法如下每个红包的金额在0.01 和剩余平均值*2 之间产生。例如：发100块钱，总共10个红包，那么平均值应该是10块钱一个，那么第一个抢到红包的额度在0.01-20元之间随机确定。又当前面3个红包总共被领了40块时，剩下60块钱，总共7个红包，那下一个抢到红包的额度在0.01-（60/7*2)=17.14之间。根据以上算法编写了以下SAS程序进行红包分配模拟，红包金额，红包份数以及模拟次数均可自行定义。（注：这里有个假设，那就是流传出来的算法是正确的）红包模拟分配SAS代码 %macro randomdata(amount,share,count); %dot=1%to&count; data test&t; do i=1; x=ranuni(0); up=&amount; pay&t=up/(&share+1-i)*2*x; rest=up-pay&t; output; end; do i=2 to &share-1 by 1; x=ranuni(0); up=rest; pay&t=up/(&share+1-i)*2*x; rest=up-pay&t; output; end; do i=&share; x=0.5; up=rest; pay&t=up/(&share+1-i)*2*x; rest=up-pay&t; output; end; keep i pay&t; run; %end; data test; merge test1-test&count; drop i; run; proc transpose data=test out=test0; run; %do m=1 %to &share; proc means data=test0 mean std max min p5 p25 p75 p95; var col&m; output out=stat&m mean=mean std=std max=max min=min p5=p5 p25=p25 p75=p75 p95=p95; run; %end; data stat; set stat1-stat&share; rank=_N_; drop _type_ _freq_; run; %mend; 【Q：抢红包的先后顺序对红包金额有没有影响？】从微信红包的随机算法自然引出对多人拼手气红包的以下猜测：抢红包的先后顺序对红包金额有一定的影响，之前抽取红包的人运气越好，下一个抽取的随机金额上界就越低，抽到大额红包的可能性就变小，反之亦然。看似后抽取红包的参与者们获得的金额被前人们所控制着，那实际情况又是如何呢？通过代码对10人分享总金额1000元的红包进行1000次模拟。下表展示1000次模拟中的前5次（其中，第一个抢到红包的标记rank=1，第二个rank=2, 以此类推）：对于每个rank的1000条样本结果进行单因素分析结果如下：我们看到金额的样本均值并不随着抽取红包的先后顺序有显著波动，而标准差则随着红包抽取的进行而逐渐增大。这也体现在最大最小值上，由于红包金额的最小值在算法中固定为0.01，因此抽取顺序并不会显著影响样本最小值，但是随着越来越多参与者的抽取，后面抽取红包的参与者反而获得了一些取得高收益的可能性，但这也得归功于前面人的“坏运气”。进一步，我们再来看一下这10个参与者获得的红包金额分布情况，下图中分别展示了这1000次模拟结果中各rank的最小值，5分位数，25分位数，平均数，75分位数，95分位数以及最大值。另外，人均期望值100也被用灰色直线标注。通过上图可以看到每个rank的样本均值和我们的人均期望值100并没有显著区别，也就是说抽取红包的先后顺序并不影响期望的抽取金额。这也证实了微信红包分配在算法上的公平性。然而，样本的各分位数则有一些细微的升降趋势，如5分位数，25分位数和75分位数的样本均值随着抽取红包的循序而有轻微的下降，相反，95分位数和最大值则随着抽取动作的进行而增大。下面我们比较一下第一人和最后一人（第十人）的样本金额分布情况：很明显，根据算法，第一参与者的抽取金额均匀分布与（0,200）之间，而最后一人的抽取金额则为一个偏态分布。相比先前抽取红包的人，最后一人有着更大的机会获得大金额红包，同时也有更大的机会获得小金额红包。样本分布的变化同样很好的解释了上文中各分位点的变化趋势。综上所述，抢红包的先后顺序对红包金额的“期望”并没有影响，也就是说微信红包的分配算法对每个参与者是公平的，但是抢红包的先后对金额的波动率，也就是“风险”有一定影响，参与者可以根据自己的风险偏好选择适合自己的领取顺序。“保守型”参与者尽量早些下手，以获得一个均匀分布于期望人均金额附近的收入，而“激进型”参与者则可以选择晚些下手（当然晚下手还得承受红包被领完的风险哦），这样可以争取到更多的获得大额红包的机会，但是同时也增加了获得小额红包的可能性。另外，还有朋友问我：为什么200的红包只能拿到1块1？！那我可以很负责任地说，根据微信红包的分配算法，抢到198.9块的哪位碰到了可能性为0.55%的好事（红包金额大于等于198.9元），而你则是碰上了可能性为0.55%的霉事（红包金额小于等于1.1元）。。。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-04-04 19:32:04

绝版！麒麟9000芯片发布时间曝光：华为供应商疯狂生产赶在这一天前

　　据外媒报道，华为将在 IFA 2020（德国柏林国际电子消费品展览会）上举行主题演讲，届时将发布下一代高端芯片麒麟 9000 系列。　　据悉，华为预计将在德国当地时间 9 月 3 日下午 14 点（北京时间 20 点）的新闻发布会上宣布这一消息。　　最新消息显示，麒麟 9000 将采用台积电 5nm 工艺制程，鉴于 9 月 15 日之后，台积电将不能再为华为出货，因此该公司现在正开足马力为华为生产。　　另据业内人士@手机晶片达人爆料：“最近华为的供应商都很忙，忙着在9/14 之前赶紧出货给华为，甚至要求提前出货，所以华为的供应商 8 月，9 月业绩一定都非常好。但是只看八，九月数字，其实是个假象。 ” 　　8 月 7 日，在中国信息化百人会 2020 峰会上，华为消费者业务 CEO 余承东在主题演讲中表示，今年秋天上市的 Mate 40，将搭载的麒麟 9000 可能是华为高端芯片的绝版。　　余承东表示，华为 Mate 40 搭载了我们新一代的麒麟 9000 芯片，将会拥有更强大的 5G 能力，更强大的 AI 处理能力，更强大的 CPU 和 GPU。　　但由于美国的第二轮制裁，华为的芯片生产只接受了 5 月 15 号之前的订单，到 9 月 15 号生产就截止了。所以今年可能是华为麒麟高端芯片的绝版，最后一代。　　余承东遗憾地表示，我们投资了非常巨大的研发投入，也经历了非常艰难的过程，但在半导体制造方面，华为没有参与。只做到了芯片的设计，但没搞芯片的制造，是非常大的一个损失。

来源：博客园

发布时间：2020-08-24 20:25:00

SAS-EM 决策树操作案例 | 数据分析网首页分类阅读行业资讯大数据统计学数据分析数据

摘要：决策树主要用来描述将数据划分为不同组的规则。第一条规则首先将整个数据集划分为不同大小的子集，然后将另外的规则应用在子数据集中，数据集不同相应的规则也不同，这样就形成第二层数据集的划分。一般来说，一个子数据集或者被继续划分或者单独形成一个分组。 1 预测模型案例概述一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是，在这些申请贷款的客户中，大约有20%的人拖欠贷款。通过使用地理、人口和金融变量，该公司希望为该项目建立预测模型判断客户是否拖欠贷款。 2 输入数据源分析数据之后，该公司选择了12个预测变量来建立模型判断贷款申请人是否拖欠。回应变量（目标变量）标识房屋净值贷款申请人是否会拖欠贷款。变量，以及它们的模型角色、度量水平、描述，在下表中已经显示。SAMPSIO.HMEQ数据集中的变量， SAMPSIO库中的数据集HMEQ包括5960个观测值，用来建立和比较模型。该数据集被划分为训练集、验证集和测试集，从而对数据进行分析。 3 创建处理流程图添加结点连接结点定义输入数据为了定义输入数据，右键输入数据源结点，选择打开菜单，弹出输入数据对话框。默认情况下，数据选项卡是激活的。点击select按钮选择数据集， 4 理解原数据样本所有分析包在分析过程中必须定义如何使用这些变量。为了先对这些变量进行评估，EM采用元数据方式处理。默认方式下，它从原始数据集中随即抽取2000个观测样本，用这些信息给每个变量设置模型角色和度量水平。它也计算一些简单统计信息显示在附加选项卡中。如果需要更多的样本量，点击右下角的Change按钮，设置样本量。评估这些元数据创建的赋值信息，可以选择变量选项卡查看相关信息。从图中可以发现，Name列和Type列不可用。这些列表示来自 SAS 数据集的信息在这个结点中不能修改。名称必须遵循命名规范。类型分为字符型和数值型，它将影响该变量如何使用。EM使用Type的值和元数据样本中级别的数量初始化每个变量的模型角色和度量级别。 5 定义目标变量在该分析中，BAD是一个响应变量，将BAD变量的模型角色设置为target类型。右键BAD变量的ModelRole列，设置模型角色。 6 观察变量分布我们可以根据元数据样本观察每个变量的分布情况。譬如，查看BAD变量的分布情况，右键BAD变量的Name列查看BAD的分布情况。 7 修改变量信息为了保证剩下的变量拥有正确的模型角色和度量级别，将DEROG和DELINQ的度量级别设置为有序（Ordinal）。右键DEROG变量的Measurement列，设置为Ordinal。 8 查看描述性统计信息点击Interval Variables选项卡和class variables选项卡可以查看变量的基本统计信息。 9 观察数据划分结点的默认设置打开数据划分结点，默认方式下，划分选项卡是被激活的。数据划分方法显示在方法显示面板。 EM对输入数据集进行抽样，将原数据集分成训练、验证和测试数据集。默认情况下，采用简单随机抽样方法。并且，可以选择层次抽样或者自定义抽样方法。另外，还可以为初始随机抽样过程定义随机种子。在选项卡的右边，可以设置训练、验证和测试数据集的比例，它们之和为100%。打开树节点，设置决策树模型，在变量选项卡中查看变量的状态、模型角色和度量方式。（如果度量方式不准确，在树节点中是不能修改的。需要在数据源输入节点中进行更正）并且，树节点可以处理缺失值现象。选择基本选项卡，很多构建决策树的选项在该选项卡设定。划分标准依赖于目标变量的度量方式。对于二值或者名义目标变量，默认的划分标准是重要水平为0.2的卡方检验。另外，也可以选择熵方法或者基尼系数方法作为划分标准。对于顺序目标变量，只有熵和基尼方法可选。对于区间变量，有两种划分标准选择，默认方法和F检验或者方差检验。在设置树的增长和大小中，默认方式下，只有二值划分是允许的，树的最大深度是6，最小的观测值数量是1。然而，为了划分节点依旧需要设置节点中观测值数量。默认的在训练集中的观测值数量是100。关闭树节点，运行树节点，查看运行结果。在查看菜单，点击树状结构，查看决策树型图在该图中，可以发现6个叶子节点。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-04-04 19:19:03

《微软模拟飞行2020》刺激PC硬件升级：三年贡献180亿元

　　《微软模拟飞行 2020》(Microsoft Flight Simulator 2020) 还未发售，就已经成为现象级的存在，对于 PC 硬件升级的刺激也不可限量。　　市调机构 JPR 预计，《微软模拟飞行 2020》在未来三年的累计销量有望达到 227 万份，可以带动游戏玩家在硬件更新放牧投入多达 26 亿美元，约合人民币 180 亿元。　　从整机到处理器、显卡、内存，从操纵杆到脚踏板，从电竞椅到 VR 头显，都要为这款游戏陆续升级更新。　　JPR 表示，无论普通玩家还是发烧友，都会为该游戏烧掉不少钱，尤其是高端玩家贡献最大。　　《微软模拟飞行 2020》的硬件要求其实不算很夸张，但要想玩爽还是需要花点钱的。　　它的推荐配置为锐龙 5 1500X/酷睿 i5-8400 或更高型号处理器、RX 590/GTX 970 或更高型号显卡、4GB 内存，理想配置则不应低于锐龙 7 2700X/酷睿 i7-9800X 处理器、Radeon VII/RTX 2080 显卡、8GB 内存。

来源：博客园

发布时间：2020-08-24 20:20:00

R的学习路径，从新手到专家的7个步骤 | 数据分析网首页分类阅读行业资讯大数据统计�

摘要：如果你从来没有编程经验，也没有比较熟悉的统计软件，那么学习R可能会比较困难。这个学习路径主要针对新手。关于R有很多优秀资源，这里介绍的一些在线课程、书籍和更多让你尽快学会R。纲要：步骤1：你为什么要学习R 步骤2：安装步骤3：了解R的语法步骤4：R的核心->包步骤5：帮助系统步骤6：数据分析工作流程 6.1导入数据 6.2数据操作 6.3 数据可视化 6.4统计部分 6.5报告结果步骤7：去发现令人兴奋的新东西步骤1：你为什么要学习R R迅速成为数据科学里的通用语言，你会发现在越来越多的商业环境和一些商业竞争软件如SAS，STATA和SPSS中使用R。这意味着，对R的需求日益增长，而且掌握这个技能很容易获得高薪。通过学习R，你能熟悉一个高度多样化和有趣的社区，而且R在金融、基因组分析、房地产、广告、支付等不同领域都有不同的应用，这些领域都在促进R的发展，你会遇到各种例子，在每天基础工作上的应用，使工作变的更有趣，也会通过解决这些问题增加你的能力。步骤2：安装在你用R工作之前，首先下载安装在你的电脑上，登录 http://cran.r-project.org/mirrors.html ，选择离你最近的CRAN镜像站点，选择了镜像站点后，根据你所用的操作系统下载适当的版本。R有不同的版本，安装起来很简单，支持Linux,Mac 和Windows的系统。详细可参照 https://cran.r-project.org/ 。在安装R时，最好有一个集成开发环境，如果你喜欢一个图形用户界面，你应该看看 r-commander 。步骤3：了解R的语法学习一种编程语言的语法和学习一种自然语言没什么不同，通过练习。一个比较好的方式是通过下面这些教程。 Datacamp中对 R的介绍教程和后续课程中的R编程。这些课程教你编程和数据科学的交互方式，以自己的节奏。 R 的交互包 swirl 包，也有一个在线版可用，不需要设置在EDX 上有微软推出的 Introductionto R Programming Coursera上有 R Programmingcourse by Johns Hopkins 接下来还有一些非常好的入门书籍： Jared Lander’s R语言 :实用数据分析和可视化技术 Rfor Everyone:Advanced Analytics and Graphics R in Action by Robert Kabacoff 由DataCamp相关人员编写的free introduction to R tutorial（R的免费入门教程）步骤4：R的核心->包每一个R包是一个简单的代码包。除了基本的代码库，包通常包括数据、文档和测试。作为一个R的用户，你可以下载一个特定的包（有些甚至是预先安装）并开始使用它的功能。每个人都可以开发包，每个人都可以与他人分享他们的R包。这是一个非常强大的概念，这个语言已经形成一个社区，你不需要做所有的核心规划，或者自己理解每一个特定算法和可视化的所有细节。只需要一个软件包，你就可以简单的使用。许多软件包可以从Comprehensive R Archive Network这里下载，你可以通过install.packages function来安装下载。你还可以通过 Bioconductor ， GitHub 和 bitbucket 来寻找一些特定的包。在Rdocumentation上你可以很容易的搜索CRAN,github和 bioconductor上面的包。 Step5：帮助系统你很可能会发现，当你解决了一个R的问题，又会出现5个新问题。这时候你就需要帮助系统来指导你。在你可以使用其内置的帮助系统。例如，输入`plot`将为您提供的绘图功能的文档。 R把一大重点放在文档。前面提到的 rdocumentation 就是一个能寻找到各种报和功能的文档的伟大网站。 Stack Overflow is是一个很好的关于R的问答社区。还有一些关于R的很好的博客例如 KDnuggets and R-bloggers . 步骤6：数据分析工作流程当你了解上面这些之后，你就可以开始进行分析了。 6.1导入数据你可以把各种数据格式都导入到R里，但是不同的类型需要不同的方法，这是一个难点。文本文件：你可以从预安装工具包中使用 read.table()。和 read.csv()等功能导入文本文件。 Excel文件：可以通过 readxl package , gdata package 和 XLConnect package. https://www.datacamp.com/community/tutorials/r-tutorial-read-excel-into-r SAS、STATA and SPSS数据可以用 haven package 导入，类似Systat 和Weka的数据格式可以用 foreignpackage 导入。和一些数据库相关联可以使用 RMySQL , RpostgreSQL 和the ROracle package. 如果你想了解更多关于如何将数据导入R的教程可以参照 https://www.datacamp.com/community/tutorials/r-data-import-tutorial 6.2数据操作用 tidyr包为整理你的数据用 stringr 进行字符串操作工作时的时间和日期的安装 lubridate 封装使其工作与这些更容易一点。像 zoo , xts and quantmod 这类包可以帮助你在中R进行时间序列分析 6.3 数据可视化 R语言作为数据分析和科学家们最喜欢的工具的原因是因为它的数据可视化能力。成千上万的基数通过R语言进行创造，就像 FlowingData 所创造出的岗位一样，举个例子就是著名的 facebook 的可视化：如果你想开始与可视化研究，那就要花些时间研究ggplot2的软件包。其中一个有名的软件包就是研发的图形和图。ggplot2强调利用语法和图形，因此在使用时非常直观（你不断建立你的图的部分，这有点像玩乐高）。有大量资源可以帮助你， interactivecoding tutorial 好比 cheatsheet （一个mac的操作系统软件）和Hadley Wickham即将出版的书。除了ggplot2以外，还有很多其他的软件包，可以创建高度互动的图形，还有很多很好的学习资源可以让你加快速度。交互式Web图形ggvis 谷歌的图表界面googleVis plotly R（在线数据分析制图工具- 小众软件）如果你在数据绘图中遇到问题，这篇文章可能会对你有帮助。 https://www.datacamp.com/community/tutorials/15-questions-about-r-plots 接下来要说的就是“传统”的图形，R语言也可以处理可视化的空间数据。你可以很容易地可视化空间数据和模型上的来源，如谷歌地图和开放街道地图包，如ggmap静态地图。另一个很大的软件包choroplethr由阿里拉姆斯坦Trulia或TMAP开发。如果你想了解更多。 https://cran.r-project.org/doc/contrib/intro-spatial-rl.pdf 6.4统计部分如果你是个统计学新手，当你在运用R语言的时候这里有一些非常可靠的资源可以帮助你理解 AndrewConway’s Introduction to statistics with R (online interactive codingcourse) Data Analysis and StatisticalInference by Duke University (MOOC) PracticalData Science With R (book) DataAnalysis for life sciences by Harvard University (MOOC) Data ScienceSpecialization by Johns Hopkins (MOOC) ASurvival Guide to Data Science with R (book) 请注意，这些资源是针对初学者的。如果你想进一步深入学习，你可以看看关于机器学习R语言的复杂资源。书的话，比如《掌握机器学习》和《机器学习与R语言》就非常好地解释了不同的概念。还有一些网上资源，如Kaggle机器学习课程可以帮助你练习。此外还有一些非常有趣的博客例如 MachineLearning Mastery 和 this post .。 6.5报告你的结果分享你的模型的一个最好的方法是通过动态文档的可视化。 R Markdown （基于knitr和Pandoc）是一个做数据分析报告的最好的方式，在HTML，Word，PDF，ioslides等渠道上都是可以进行重复进行的。这里有关于 R Markdown 的教程， https://www.datacamp.com/courses/reporting-with-r-markdowntap_a=5644-dce66f&tap_s=14201-e863d5 步骤7：现在去发现令人兴奋的新东西 R语言是一种快速进化的语言。学术界和企业界都在快速采用它，因此研发R语言新的功能和工具的速度正在迅速提升。这些新的技术和软件包才是使我们感到最兴奋的。 HTML控件允许你创建交互式的Web可视化等动态地图（传单），时间序列数据的图表（Dygraphs），互动表（数据表）。如果你想学习如何创建你自己的东西那就要通过RStudio看看这个教程。 https://www.rstudio.com/resources/webinars/creating-javascript-data-visualizations-in-r/ 最近另一种在市场上引起争议的技术是shiny。有了Shiny，你可以使你自己的交互式网络应用程序像这些一样，有一个完整的学习门户网站，还可以致力于建设自己的Shiny应用程序。最近，有很多人将注意力集中于如何在云计算中应用R语言。如果你想自己独立完成这件事情，你可以看一下R语言是如何在AWS运用的，还有Azure（Azure是微软基于云计算的操作系统）的R语言编程，以及 RStudioServer on Digital Ocean 一旦你在R语言上有一些经验，提升你的R语言水平的一个很好的办法就是看看HadleyWickham的免费书 Advanced R 。此外，你还可以其他数据科学爱好者在Kaggle上竞赛来锻炼你的R语言水平。在这里，你有机会去操作一些有趣的案例，比如说泰坦尼克号数据集。祝你成功！来源：kdnuggets，数据客翻译。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-04-04 00:50:00

京东大战申通，谁也不是谁的葱

　　文/半佛仙人　　来源：半佛仙人（ID：banfoSB）　　继拼多多大战特斯拉之后，申通和京东又搞起来了，果然这些老板天天不睡觉，原来都忙着打嘴炮。　　我都可以想象老板们大半夜睡足 4 小时后，神清气爽的拉出各大企业清单，开始寻找下一个受害者的样子，是何等的高手寂寞。　　选择撕X对象是一个技术活。　　这个比较强，撕不过，口活比我还利索，不行。　　这个比较弱，但是经常给我们投广告，不能侮辱人民币，不行。　　这个虽然又弱又没钱，但是人缘好，我惹他容易一身骚，不行。　　所以当东哥看到申通的时候，嘴巴一歪，眼睛一亮，这两个字，看着就行。　　京东和申通是为什么打起来的。　　简单来说，就是京东和一批快递合作时间到了，决定不续约，其中申通是最大的一家，别人都没说话，申通跳出来表示自己被京东封杀了，很委屈，自己努力了 27 年，努力服务商家和消费者，希望用户可以为他主持正义。　　我看到这个事情的时候，并不想为申通主持正义，甚至想加钱让京东加大力度扩大打击范围，最好京东商城只能用京东或者顺丰 EMS，这样才能为用户提供更好的物流服务。　　不要只盯着申通，另外三通一达，你不要装看不见。　　一开始我有这样的想法时，我觉得自己可能比较过分，于是问了一圈身边的朋友，结果发现都是在骂申通。　　只有一个朋友，张口就骂京东，骂了 5 分钟，我如获至宝，想多听听不同的意见。　　于是在他骂完后我问他，那你是支持申通吗？我能听听你的想法吗？　　他说刚才只是热身，然后他骂了整整半小时申通。　　骂完申通连带四通一达一起骂。　　用的词我都不好意思写，不文明。　　经过这番用户调研，我的内心很沉重。　　倒不是因为一边倒，而是因为他们骂的过于花样百出，让我产生很大的压力，他们这么秀，我要怎么努力才能不被他们超越。　　后来我想了想，干嘛要站队呢，京东干申通也不是什么深明大义，无非就是京东进阿里体系没挤进去，所以要把阿里作为大股东的申通给挤出来。　　其实就像内种事儿没谈好价格一样，很无聊。　　申通不是什么好通，但京东也不是什么好东。　　作为消费者，肯定应该是不站队的，但作为两家的用户，我得说，京东干得漂亮。　　人家京东是什么速度？　　明尼苏达的公寓见证过人类的奇迹。　　马斯克是钢铁侠，我们也有闪电侠。　　而且闪电侠更厉害，因为天下武功，唯快不破。　　正所谓。　　亚洲速度一阵风，北京南边看京东，明尼苏达两分钟，震惊世界有神通。　　看看人家京东是怎么为自己代言。　　那你说申通有快的吗？有，股价掉的快。　　申通说自己努力了 27 年，努力更好的服务商家和消费者。　　我很震惊，努力了 27 年，就努力成现在这样，是不是我对努力的理解出现了问题，能不能不要再努力了。　　还有其他三通一达，我知道你们是死活不肯送上门，可以的，我忍了。　　我已经在包裹上标注了你放丰巢我都忍了，结果现在不通知，直接给我放代收点。　　代收点离我家还贼远，不仅远，开门时间和关门时间还刚好和我生物钟相反，我每次拿个快递跟倒时差一样，真是人在家中坐，美利坚生活天上来。　　这几家联手，跟约定好的一样，都不送，你们到底是送快递还是在五排开黑？　　那里是代收点还是网吧？你们这么迷恋他？　　就这样，就这样，这个快递我还经常收到不完整的。　　按照道理来说，快递盒子应该是方形的，每次到快递站，看到这些快递的形状，我都感慨这是艺术的结晶。　　一家一个艺术流派。　　第一个快递师承孙笑川，是抽象派。　　第二个快递师承阿 Giao，是印象派。　　第三个快递师承药水哥，是后现代。　　第四个快递，师承大卫科波菲尔，我根本找不到第四个快递，给我玩儿消失了。　　一整箱的小猪佩奇丁字裤就这么没了，丁字裤难道会长腿吗？或者丁字裤穿你们腿上了？穿着丁字裤送快递是为了降低自重跑的更快一点吗？　　太努力了，我还真是谢谢了。　　有一次我问我的快递哪去了，他们说不知道，但是也不想编造，可能是被外星人劫走了。　　我说快递怎么可能被外星人劫走，这不合逻辑。　　他深沉的说故事才需要逻辑，但生活不需要。　　我当场就被镇住了。　　我淦，他说的真有道理，我信了。　　后来有段时间我经常投诉，投诉他们不放丰巢。　　结果他们还问我为什么投诉。　　我倒要问问你们为什么明明上面写的放丰巢，非得给我放代收点，这都不是一次两次三次了，我把自己的收件名都改成了放丰巢，你还给我放代收点，你的良心不痛吗？　　我今天不是投诉你，我是投诉你的语文老师，九年义务教育的脸都被你丢光了。　　而且，别人都是投诉你们为什么不上门，我只投诉为什么不放丰巢，我也愿意让一点，大家各退一步不好吗。　　我都觉得自己是善人。　　我今天不是投诉你不送快递，我是投诉你欺负老实人。　　就这样，这些快递公司还觉得自己在努力服务好用户，是不是把努力的方向给弄错了。　　方向不对，努力白费。　　还是说努力也确实在努力，只不过在努力找借口。　　或者其实确实是在努力服务好用户，只是我们并不配当用户。　　是我不配了。　　说真的，京东问题也一堆，也不是什么正义使者。　　但好歹人家业务能力是真的过硬。　　快递服务的标杆就是京东和顺丰，目前我遇到打电话的，就这俩，再算一个德邦。　　其他快递也反思一下，为什么人家都学会打电话了，你还学不会认字。　　放丰巢这三个字，有这么难认吗？　　要是哪天京东和顺丰掐起来了，我还得考虑考虑怎么两个都骂。　　现在这两家弄起来了，我都想不到谁会站申通。　　京东不提供其他快递服务，一堆快递可能没救了，但京东的用户有救了。　　我在京东上买东西图啥，东西是一样的东西，价格是差不多的价格，不就是图快递牛逼吗。　　也别说什么行业垄断，国内上百家快递呢，死几个对消费者没什么影响。　　现在是很多公司想着在上游商家拼价格，不想着讨好消费者，打死谁我都不心疼。　　很多快递公司干啥啥不行，卖惨第一名。　　每次出了事情，都把人家快递员给推出来，说快递员多么不容易。　　问题是快递员和快递公司怎么会是一回事儿呢。　　快递员当然不容易，但你们说的好像你们赚了钱会给快递员一样，快递员整天累得要死也没见赚到什么钱。　　就是白嫖人家的身份，还不给人家钱。　　为啥大家都用代收点，问都不问直接代收点，本质就是要节约人力成本，这样一个快递员可以送好几个小区。　　明面上打着快递员的旗号卖惨，实际上在暗暗准备干掉更多的快递员。　　都是资本家，装什么白莲花。　　既然是出来卖的，你给消费者服务，消费者给你钱，别整那些有的没的。　　你觉得价格划不来，你涨价，顺丰和京东都不便宜。　　你觉得送上门委屈了，你去找邮政部门去刚，规则是人家定的，别跟消费者废话。　　也别来谈感情，消费者跟你没感情。　　就算有感情，这个感情也有太多不好的回忆。　　希望各位快递公司继续努力，希望有一天，消费者也能帮你们说点话。

来源：博客园

发布时间：2020-08-24 20:16:00

Excel2016四个超强的数据分析功能 | 数据分析网首页分类阅读行业资讯大数据统计学数�

摘要：三维地图、预测工作表、引用外部数据查询、数据透视表更强大的功能改进、将 Excel 表格发布到Office 365 Power BI实现数据的商业智能分析……Excel 2016在数据智能分析与展示上亮点多多…… 01三维地图（新）当需要按地理位置展示数据时，Excel三维地图能够自动识别地理信息，并在地图上的相应城市、省份或国家展现图表。操作步骤： 1.在包含一列地理位置的数据表中，全选表中的数据，单击【插入】-【三维地图】-【打开三维地图】。 2.单击【演示名称】，即可启动三维地图。 3.单击【新场景】-【添加图层】-【重命名此图层】，输入图层名称。 4.选择图表类型，设置“位置”框中“城市”的值为“城市”。 5.设置【高度】字段值为【AQI指数（无聚合）】；设置【类别】字段值为【空气质量级别】；设置【时间】字段值为【日期（日）】。 6.再按前面的步骤依次添加多个场景和相应图层，并设置图层的参数等，设置完成后，还可将地图导出为视频。 7.最终完成效果如下图所示。 02预测工作表（新） Excel 2016新添加预测工作表，根据现有数据，一键预测出指定时间内的结果，简单快捷的完成市场预估。操作步骤： 1.定位到数据表中，单击【数据】-【预测工作表】。 2.选择预测结束日期，单击【创建】。 3.预测结果在新的工作表中呈现。 03引用外部数据查询（新）通过 Excel 2016 的内置查询功能，轻松快速地获取和转换数据。示例中以“从Web”插入数据源。 1.单击【数据】-【新建查询】-【从其他源】-【从Web】。 2.以中国银行外汇牌价为例，http://www.boc.cn/sourcedb/whpj/index.html。 3. 在地址栏中输入网址，单击【确定】。 4. 选择【Table 0】-【编辑】。 5. 在弹出的窗口中可以调整删除列，留下我们需要的数据。单击要删除的列标，选择【删除】。 6. 单击【货币名称】后的筛选下拉箭头，勾选需要的货币单击【确定】。 7. 单击【关闭并上载】。 8. 即可导入到表中，选中任一数据单元格，单击【设计】-【刷新】，表中数据同步实时更新。 04数据透视表增强功能（新） Excel 以其灵活且功能强大的分析体验而闻名。在 Excel 2016 中用户能够跨数据轻松构建复杂的模型，对数百万行数据进行高速计算。 1.将光标定位在数据区域内，单击【插入】-【数据透视表】，勾选“将此数据添加到数据模型”并确定。 2.单击“全部”，搜索框中输入“地区”然后拖到“列”字段中。 3.搜索框中输入“利润”，并拖到“值”字段中。 4.此时显示表之间的自动关系检测，单击“自动检测”。 5.检测完成，单击“关闭”。也可以单击“管理关系”查看表之间的关系。 6.搜索框中输入“日期”，拖动“结算日期”到“行”字段中。 7.表格按时间自动分组，例如：单击“2016”—“第一季度”可以看到季度、月的分组。 8.单击【数据透视图】，插入一个透视图。单击数据透视图向下钻取按钮，让你可以跨时间分组和数据中的其他层次结构进行放大和缩小。 05发布到Power BI(需Office 365) Excel 表格可以发布到Office 365 Power BI实现数据的商业智能分析。操作步骤： 1.选中包含数据的任意单元格，单击【开始】-【套用表格格式】，在弹出的菜单中选择任意表格格式，为表格数据自动套用表格格式。 2.单击【文件】。 3.单击【发布】-【发布到Power BI】-【保存到云】。 4.单击【OneDrive-XXXX】-【OneDrive-XXXX】。 5.单击【保存】。 6.单击【发布】。 7.单击【转至Power BI】。 8.在【数据集】中单击导入的表格名称，在【可视化】中选择要插入的图表类型，例如【饼图】，并设置【图例】的值为【城市】，【值】为【营业面积】。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-04-03 19:42:00

用上这个Python的Docker正式版镜像，你也能成为容器高玩

　　萧箫发自凹非寺　　量子位报道公众号 QbitAI 　　加载完 Python 的 Docker 镜像后，顺手又装了个 Python？　　这样的「误会」，在你看完这篇对 Python 的 Docker“正式版镜像”的解读后，就会烟消云散。　　不仅可以了解到 Docker 镜像的结构、功能，还能对 Docker 的印象有所改观：容器看起来真的比虚拟机好用！　　下面以“Python 正式版”为例，具体来了解一下 Docker 镜像的用法和细节。　　 Docker 镜像这样用　　这个镜像的基础镜像是 Debian GNU/Linux 10，是 Debian 系统最新的一款名为 Buster 的版本。　　Tips：Buster 是《玩具总动员》中安迪的狗子，Debian 开发组喜欢用这款电影里的角色命名系统版本。　　也就是说，这是个基于 Linux 的镜像，不仅能保证稳定性，还能提供 bug 修复。　　接下来，是文件中的环境变量。　　务必确认在 PATH 前面加路径，也就是你安装镜像的地方，这样能保证用到的是安装的镜像。　　此外，也确认一下语言的环境变量，不过 Python3 已经默认 UTF-8，所以这一步不一定要做。　　当然，也可以确认一下 Python 的最新版本（图中是 3.8.5）。　　确认环境变量后，是关于运行依赖的事情。　　事实上，为了能运行，Python 需要依赖一些额外的软件包。　　其中，ca-certificates 相当于一个证书列表，类似于浏览器用来验证 https://url/ 的证书，这也是 Python，wget 和其他工具用来验证服务器的证书。　　至于 netbase，则用来安装一些/etc 中的文件，通常用于将确切的名称映射到某些端口。　　例如，/etc/services 就会映射到 443/tcp 端口上。　　在那之后，就是 Python 的安装了。　　一个编译器工具链会被安装，而 Python 代码也会被下载、编译，而不需要的 Debian 安装包也会被删掉。　　在这其中，最核心的部分有如下三点：　　1. Python 会被安装到/usr/local 位置下 2. 所有的 .pyc 文件都会被删掉 3. 一旦 gcc 等安装包对编译 Python 不再有用，那它们也会被删掉　　而所有的这些，都只需要通过 RUN 命令来实现。　　也许你会注意到，在这个过程中，Python 编译了 libbluetooth-dev。事实上，Python 镜像的确有蓝牙接口，不过需要安装对应的安装包。　　此外，在设置别名上，在/usr/local/bin/python3 和/usr/local/bin/python 间，可以随意选一个名称来用（反正是一样的）。　　最后，是安装 pip，事实上，Docker 会确保安装的是新版本的 pip，即它有自己的时间表，即使可能距离 Python 上一版发布已经过了很久。　　在这个过程中，所有的 .pyc 文件都会被删除。　　done！好了，怎么运行？　　事实上，一句话就够了。　　此外，如果在使用 CMD 时 ENTRYPOINT 为空，你的 Python 会在运行镜像时被默认运行。　　也可以根据需要，指定其他可执行文件。　　一些你可能不知道的 tips 　　虽然大多数人不会犯这个错误，不过对于一些新手小白来说，还是可能在装上 Python 的 Docker 镜像后，顺手又装了个 Python。　　这样的话，会导致两个 Python 在镜像中「打架」，造成不必要的混乱。　　此外，Python 的官方图片往往也包含了最新的 pip 。　　虽然 Python3.5 的最后一个版本都是去年年末的事情了，不过即使是 3.5 的安装，也会带上最新的 pip。　　还要注意的一点是，这个镜像安装后会删掉所有的 .pyc 文件。　　此外，这个正式版镜像并没有安装 Debian 的安全更新，可能需要你手动安装一下。　　经过一番操作后，你就可以放心地使用 Python 的 Docker 镜像，在上面运行相应的程序了。　　那么，Docker 到底与虚拟机有什么不同？　　 Docker 与虚拟机的区别　　作为一个容器，Docker 有点像虚拟机，本质上都是为了在不同环境中编写的各种程序而生。　　这是因为，编程语言总是会随着环境的更新而迭代，在 Python 更新了新版后，有人调侃 Python2 和 Python3 看起来根本不是一种语言。　　如果开发了一个 Python3 的程序，但测试和生产的环境只装了 Python2，运行过程中就可能出现各种鸡飞狗跳的事情。　　不过与虚拟机不同的是，Docker 不用再自己装个操作系统了，而这个东西，恰恰是最占地方的。　　Docker 将程序中要用到的各种环境「零件」和程序一起打包，做成一个镜像，这样使用者只需要加载这一个镜像，就可以直接运行程序。　　相比于在电脑上加载好几个虚拟机，占用大半空间，Docker 不失为只有一台电脑时，运行各种程序的好选择。　　作者介绍　　Itamar Turner-Trauring 有 20 多年的科学计算和分布式系统经验，写过 Twisted 网络框架，也在谷歌工作过，为 Google Flight 贡献过后端 C++ 代码。　　1996-2000 年，Itamar Turner-Trauring 在巴伊兰大学和特拉维夫大学（以色列排名第二和第一的大学）学习数学与计算机课程，并于 2009 年在哈佛大学取得文科学士学位，研究方向是人文学科。　　现阶段，Itamar Turner-Trauring 会撰写 Python 相关的技术文章，帮助开发者更快上手这款编程语言。　　参考链接：　　 https://pythonspeed.com/articles/official-python-docker-image/

来源：博客园

发布时间：2020-08-24 20:08:00

利用Python分析背单词软件的惊人真相 | 数据分析网首页分类阅读行业资讯大数据统计学

摘要：利用python分析背单词软件，揭秘你不知道的惊人真相 0×00 前言你想知道背单词软件有大概多少人注册第一天都没有背完嘛你想知道背单词软件这么火,这么多人在使用,真的有多少人真的在背诵嘛别急, Python 程序员用数据给你说话. 文章目录如下: 0×00 前言 0×01 问题的提出和任务的分解 0×02 任务一,信息爬取 ox03 任务二,清理和存储 0×04 任务三,分析 0×05 任务四,结论 0×06 整个流程的不足和反思. 0×07 代码. 0×01 问题的提出和任务的分解前两天,就在一个雷电交加的夜晚,我躺在床上,草草的看了一篇英文文章,突然想到一个非常有意思的问题: 是不是大部分的人做事真的不能坚持呢比如,背单词. 好,那我就看看到底有多少人是坚持不下来的那么,我们的问题就变成了这样子: 有多少人是在坚持或者曾经坚持过背单词呢(假设100天以上算的上是背单词的话) 有多少梦想,毁于不能坚持背单词的人们学习的量,是不是符合正太分布呢于是我选中了业内的标杆扇贝软件作为分析的对象.抽取其中的大约1/30的用户的公开数据,也就是游客用户都可以看得到的数据,进行抽样调查. 调查的具体内容如下: 打卡最高/成长值最高/学习单词数量最高平均每个人打卡次数/成长值/学习单词数量打卡/成长值/学习单词数量的分布(也就是已经坚持了多少天了) 那么,我的任务也就可以分解如下: 爬取数据使用Python2的Scrapy进行爬站清理数据 sql语句和pandas运算分析数据 pandas + seaborn + ipython book 得出结论 0×02 任务一,信息爬取,清理和存储每个用户的信息都在这里: http://www.shanbay.com/bdc/review/progress/2 使用beautifulsoup4 进行解析即可.其他部分参考代码. 扇贝的工程师反爬虫做的还不错,主要有两点: 访问数量超标,封禁IP半个小时.对应的方法就是代理服务器.(代码中已经删除代理服务器,所以,如果你运行不了代码,那你应该知道怎么做了.) cookie如果不禁用很快就无法爬取.对应的方法就是禁用Cookie. 0×03 任务二,清理和存储对于数据库,使用Postgresql存储就好了.也没有什么大问题.参考代码.有问题在评论下面问. 通常情况下在存入数据库的时候需要进行数据的净化,不处理也没有什么大问题. 0×04 任务三,分析分析阶段,使用IPython notebook. 通常情况下,我们使用的是Anaconda里面的Python3版本 .可以到这里下载,注意,mac和ubuntu下载的是命令行版本. https://www.continuum.io/downloads 安装完毕以后,重启终端.环境变量生效. 1 2 #直接安装seaborn pip install seaborn 切换到指定目录然后敲入命令ipython notebook打开浏览器进行编辑. 至于怎么使用,请看代码. 0×05 任务三,结论在这里省去部分的分析过程直接贴出结论. 总共抓取1111111张网页,成功获取610888个用户的信息. 于是得出结论如下: 扇贝之最: 最高打卡天数: chainyu 1830天最高成长值: Lerystal 成长值 28767 最高单词数量: chenmaoboss 单词量 38313 平均到每一个人身上平均每人打卡天数: 14.18,而超过成长平均值的人数为71342,占总抽样人数的,额,11.69% 平均成长值: 121.79,而超过平均成长的人数为13351,占总抽样人数的,额,11.42% 平均学习单词数量: 78.92,而背超过平均单词的人数为13351,占总抽样人数的,额,2.19%(注意,真的是2%左右) 那么,我们来看看打卡,成长值,单词数量的,分布吧. 第一个,所有人的打卡数量直方图. 这是所有人的打卡数量直方图简直惨不忍睹. 第二个,非零用户的打卡数量直方图. 非零用户的打卡数量的直方图这真是一段悲伤的故事.由于坚持不了几天的用户实在是太多,简直就是反比例函数嘛,导致图像严重畸形.那么,我们只能分段了看用户打卡天数在0~20,20~100,100~500,500~2000范围的分布图了. 分别如下: 0~20 20~100 100~500 500~2000 其他成长值的各种分布也是如此,在此就不贴出来了. 正如你所看到的,我再来总结一下, 在抽样中, 英语梦死在前0天的有416351人,占总比68.15%; 英语梦死在前1天的有466761人,占总比76.40%; 英语梦死在前2天的有484535人,占总比79.31%; 英语梦死在前5天的有510230人,占总比83.52%; 英语梦死在前10天的有531219人,占总比86.95%; 英语梦死在前20天的有551557人,占总比90.28%; 英语梦死在前50天的有575975人,占总比的94.28%; 英语梦死在前100天的有590700人,占总比96.69%; 英语梦死在前200天的有575975人,占总比98.36%; 英语梦死在前263天的有600875人,占总比98.81%; 你可以大致感受到残酷的现实,几乎没有多少人可以坚持到200天以后. 但是,你还需要注意到的事情是: 抽样的来源是ID为1~1111111之间的60W成员众所周知的事情是: 早期的用户往往质量相对会高一些.而且,注册的ID越大,证明注册时间距离现在越近.获得200天的几率也就低了不少. 那么,这样的话,英语梦死在200天之前的人数比例还会大上不少. 回到文章开始: 问: 背单词软件有大概多少人注册第一天都没有背完嘛答:68.15% 问:有多少人是在坚持或者曾经坚持过背单词呢(假设100天以上算的上是背单词的话) 答:保守估计,不足3.4% 问:有多少梦想,毁于不能坚持答:不妨干了这碗鸡汤,歌唱青春一去不复返. 问:背单词的人们学习的量,是不是符合正太分布呢答:不是,简直就是反比例函数. 抛出一个结论: 以绝大部分人努力之低,根本就用不着拼天赋. 赠给你我,共勉. 0×06 整个流程的不足和反思. 扇贝的工程师反爬虫做的还不错,主要有两点: 访问数量超标,封禁IP半个小时.对应的方法就是代理服务器. cookie如果不禁用很快就无法爬取.对应的方法就是禁用Cookie. 爬虫框架使用Scrapy,这样就免去了大量的繁琐的线程调度问题,直接写获取信息的逻辑代码,以及存储信息的逻辑代码就好了. 在编写爬虫的过程中,有一些经验: 在爬虫开启以后,由于我暴力的关闭,导致还是有不少的item没有完成请求处理和存储. 我在处理异常的时候忘了应当把失败的item存放放在文件中,方便我第二次补充,这样的话就不会丢失一部分的用户信息了. 代理服务器需要自己写脚本进行测试,否则你可能有很多很多的请求都会超时(毕竟很多代理服务器还是很不靠谱的). 我的分析数据能力并不是很强,仅仅是从CS109里面偷学了一点点,然后使用Seaborn画图,但是这整个过程中还是觉得自己分析不过来,不是写不出代码,而是不清楚使用什么样的数据模型进行分析更好. 0×07 代码代码放在了Github上面,咳咳,注意,没有把代理服务器放进去.如果你跑一下会发现只能半小时抓取300+页面,这不是我的问题,是你没有把代理服务器填好.代码比较粗糙,还请轻拍. 代码的地址为: https://github.com/twocucao/DataScience/ 仓库里包含了抓取网站的代码和分析数据的IPython Notebook,自己阅读吧. 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-03-29 23:15:00

易车第二季度营收19.56亿元同比下滑29.9% 净亏损5.36亿元

　　腾讯科技讯，8 月 24 日，易车（纽交所股票代码：BITA）今天发布了其截至 2020 年 6 月 30 日的 2020 财年第二季度业绩。易车第二季度营收为 19.56 亿元，同比下滑 29.9%；净亏损为 5.36 亿元，同比扩大 294.1%，不按 GAAP 的净亏损为 4.47 亿元，同比转亏。　　业绩要点　　2020 年第二季度营业收入为人民币 19.56 亿元（约 2.77 亿美元），去年同期营业收入为人民币 27.92 亿元（约 3.95 亿美元）。　　2020 年第二季度毛利润为人民币 13.03 亿元（约 1.84 亿美元），去年同期毛利润为人民币 16.74 亿元（约 2.37 亿美元）。　　2020 年第二季度净亏损为人民币 5.36 亿元（约7,590 万美元），去年同期净亏损为人民币 1.36 亿元（约1,930 万美元）。　　不按美国通用会计准则（Non-GAAP）计，2020 年第二季度净亏损为人民币 4.47 亿元（约6,330 万美元），去年同期净利润为人民币 2.16 亿元（约3,060 万美元）。　　2020 年第二季度归属于易车公司净亏损为人民币 3.69 亿元（约5,220 万美元），去年同期归属于易车公司净亏损为人民币 1.45 亿元（约2,060 万美元）。　　不按美国通用会计准则（Non-GAAP）计，2020 年第二季度归属于易车公司净亏损为人民币 3.34 亿元（约4,720 万美元），去年同期归属于易车公司净利润为人民币 1.55 亿元（约2,200 万美元）。　　易车公司首席执行官张序安表示：“尽管新冠疫情暴发后中国经济开始逐步复苏，但乘用车零售销量仍然低迷，经销商库存积压较高。整体上，二季度中国汽车行业仍充满挑战。宏观经济形势给我们带来的既有挑战也有机遇。” 　　最新发行股数与加权平均股数　　截至 2020 年 6 月 30 日，公司共计发行 73,761,089 股普通股。2020 年第二季度，不按美国通用会计准则（Non-GAAP）计，基本和稀释后每美国存托股份损益的计算采用的加权平均股数分别是 71,796,549 和 71,796,549。每股美国存托股份相当于公司一股普通股。　　易鑫 2020 财年第二季度运营及财务概况　　易鑫为易车的控股子公司，主要运营易车的交易服务业务。2020 年第二季度，易鑫共促成汽车融资交易约 6 万 9 千台，同比下降 49.9%，主要由于易鑫采取了更为谨慎的风控评估算法。易鑫助贷业务和自营融资业务的融资总额为人民币 53.80 亿元（约 7.61 亿美元）。　　2020 年第二季度，易鑫助贷业务促成融资交易约 5 万 3 千台，同比下降 20.8%，约占易鑫总融资交易量的 76.9%。　　2020 年第二季度，按美国通用会计准则计，易鑫总收入达到人民币 7.45 亿元（约 1.06 亿美元），同比下降 50.3%。核心业务当期新增收入，包括助贷业务和新增自营融资租赁交易收入，达到人民币 2.55 亿元（约3,600 万美元），同比下降 56.8%。　　截至 2020 年 6 月 30 日，易鑫包含助贷业务和自营融资租赁业务在内的所有业务 90 日以上（含 180 日以上）逾期率和 180 日以上逾期率分别为 2.46% 和 1.40%。　　按美国通用会计准则计，易鑫 2020 年第二季度的应收融资租赁款信用损失拨备为人民币 3.21 亿元（约4,550 万美元）。　　董事会变更　　易车今日宣布任命京东集团副总裁凌晨凯为公司董事。黄宣德将于 2020 年 9 月从京东集团荣退，凌晨凯将接任黄宣德成为京东派驻易车的董事会成员。以上变动于 2020 年 8 月 21 日生效。

来源：博客园

发布时间：2020-08-24 20:00:00

这些Excel实用技巧，绝对值得收藏! | 数据分析网首页分类阅读行业资讯大数据统计学 �

一、为合并单元格添加连续序号合并单元格在 Excel 数据管理中饱受诟病，究其原因是中看不中用，如何对合并单元格添加序号呢？二、不用公式，实现中国式排名美式排名很简单，中国式排名很麻烦。相同分数不占用名次，这该怎么办？别再为公式发愁了，不使用公式，也能实现中国式排名。三、VLOOKUP实现一对多查询只有想不到，没有做不到，这回是做绝了。画龙点睛的VLOOKUP用法—— 四、档案表中批量插入员工照片利用网页制作中的HTML技术，快速导入照片，提高效率5分钟—— 五、批量插入指定名称的工作表无需VBA，也能批量插入指定名称的工作表，不信你就试试看。六、快速输入当前时间且不再变化数据有效性的另类应用，快速录入当前时间。输入灵活并且输入的时间不会再发生变化。七、快速制作工资条财务表亲，怎能不会工资条的制作？你想象不到的简单—— 八、突破数据有效性来源限制设置数据有效性时，要求序列来源必须是单行或单列。这个技巧就是用来欺骗Excel的～来源：Excelhome 作者：祝洪钟本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2016-03-28 23:19:00

QuestMobile：中国移动互联网2018半年大报告 | 数据分析网首页分类阅读行业资讯大数据统

总体来看，2018年上半年中国移动互联网经济增速放缓，却迎来了上市潮，移动互联网对用户注意力的争夺愈发强势，竞争的护城墙越来越高。本报告从移动互联网发展模式入手，探究新零售、游戏社交、品牌营销等模式的创新路径，同时还对移动视频、移动购物、泛娱乐、出行服务等行业的发展及趋势进行了解读，供有关行业人员参考。本文为专栏文章，来自：QuestMobile，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/57696.html 。

来源：数据分析网

发布时间：2018-07-18 22:36:00

介绍几款经典的数据可视化工具及示例 | 数据分析网首页分类阅读行业资讯大数据统计

什么是数据可视化？数据可视化主要旨在借助于图形化手段，清晰有效地传达与沟通信息。为了有效地传达思想概念，美学形式与功能需要齐头并进，通过直观地传达关键的方面与特征，从而实现对于相当稀疏而又复杂的数据集的深入洞察。这意味面对一大堆杂乱的数据你无法嗅觉其中的关系，但通过可视化的数据呈现，你能很清晰的发觉其中价值。在经过一阶段的数据分析平台搭建工作后，结合比赛，我开始了对数据可视化的研究，结合几篇对可视化技术与工具的描述，以下整理出一些数据可视化的资料与知识，以供参考。一、数据源类型 One-dimensional data / Points Two-dimensional data / Tables Multidimensional data / Relational Tables Text and hypertext Hierarchies and graphs / Telephone calls and Web documents Algorithms and software 二、可视化手段三、可视化工具汇总 3.1 简易图表 1.DataWrapper: 一个非常漂亮的在线服务，上传数据并快速生成图表后，就可以到处使用或将其嵌入在自己的站点中。这个服务最初定位于专栏记者，而实际上任何人都可以使用。 DataWrapper 在新版本浏览器中可以显示动态图表，而在旧版本浏览器中则显示静态图片。 2.Flot:一个基于jQuery 的绘图库，使用HTML 的canvas 元素，也支持旧版本浏览器（甚至IE6）。它支持有限的视觉形式（折线、散点、条形、面积），但使用很简单。 3.Google Chart Tools 4.gRaphal:与Flot 相比，它更灵活，而且还要更漂亮一些。 5. Highcharts JS: Javaｓｃｒｉｐｔ图表库，包含一些预定义的主题和图表。它在最新浏览器中使用SVG，而在旧版本IE（包括IE6 及更新版本）中使用后备的VML。 6.Javaｓｃｒｉｐｔ InfoVis Toolkit: 简称JIT，它提供了一些预设的样式可用于展示不同的数据，包括很多例子，而文档的技术味道太浓。 7.jqPlot: jQuery 绘图插件，只支持一些简单的图表，适合不需要自定义样式的情况。 8.jQuery Sparklines: 可生成波形图的jQuery 插件，主要是那些可以嵌在字里行间的小条形图、折线图、面积图。支持大多数浏览器，包括IE6。 9.Peity: jQuery 插件，可生成非常小的条形图、折线图和饼图，只支持较新版本的浏览器。再强调一遍，它能生成非常小又非常精致的小型可视化图表。 10.Timeline.js: 专门用于生成交互式时间线的一个库。不用编写代码，只用其代码生成器即可；只支持IE8及以后的版本。 3.2 图谱可视（具有网络结构的数据） 1.Arbor.js: 基于jQuery 的图谱可视化库，连它的文档都是用这个工具生成的（可见它有多纯粹、多meta）。这个库使用了HTML 的canvas 元素，因此只支持IE9 和其他较新的浏览器，当然也有一些针对旧版浏览器的后备措施。 2.Sigma.js: 一个非常轻量级的图谱可视化库。无论如何，你得看看它的网站，在页面上方的大图上晃几下鼠标，然后再看看它的演示。Sigma.js 很漂亮，速度也快，同样使用canvas。 3.3 地图映射（包括地理位置数据或地理数据） 1.Kartograph: Gregor Aisch 开发的一个基于Javaｓｃｒｉｐｔ和Python 的非常炫的、完全使用矢量的库，它的演示是必看的。最好现在就去看一看。保证你从来没见过这么漂亮的在线地图。Kartograph 支持IE7 及更新版本。 2.Leaflet: 贴片地图的库，可以在桌面和移动设备上流畅地交互。它支持在地图贴片上显示一些SVG 数据层。 Leaflet 支持IE6（勉强）或IE7（好得多），当然还有其他更新版本的浏览器。 3.Modest Maps: 作为贴片地图库中的老爷爷，Modest Maps 已经被Polymaps 取代了，但很多人还是喜欢它，因为它体积小巧，又支持IE 和其他浏览器的老版本。Modest Maps 有很多版本，包括Actionｓｃｒｉｐｔ、Processing、Python、PHP、Cinder、openFrameworks…… 总之，它属于老当益壮那种。 4.Polymaps: 显示贴片地图的库，在贴片上可以叠加数据层。Polymaps 依赖于SVG，因此在较新的浏览器中表现很好。 3.4 原始绘图（高级定制） 3.Paper.js: 在canavs 上渲染矢量图形的框架。同样，它的网站也堪称互联网上最漂亮的网站之一，它们的演示做得让人难以置信。 4.Raphal: 一个绘制矢量图形的库。 3.5 三维图形 1.PhiloGL: 专注于3D 可视化的一个WebGL 框架。 2.Three.js: 能帮你生成任何3D 场景的一个库，谷歌Data Arts 团队出品。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2015-10-30 02:41:00

互联网营销和分析专用名词速览 | 数据分析网首页分类阅读行业资讯大数据统计学数�

使用须知： 2018年增补版，增加了近一两年出现的一些常见的新的名词，大约20个，并做了详细的解释。新增名词部分：数字广告和AdTech部分新增 oCPC、oCPM、oCPA：在CPC，CPM或者CPA前面加上“o”，表明这些广告投放的出价方式是经过“优化了的”。如果没有“o”，CPC、CPM和CPA（见后面 CPC 、 CPM 和 CPA 词条）则是分别按照“点击”、“展现”和“行为”来为广告的投放定价。而加上“o”，则意味着，广告投放系统会为实现可被该系统追踪到的最优化的效果来进行广告投放的人群选择和出价。所谓的“最优化”，背后的实现通常是用“监督学习（见后面的监督学习词条）”来完成的，即按照广告主希望受众做出的A甚至是S（销售，也可以叫做转化，即conversion）作为他们（媒体）调整广告投放策略和流量分配的优化依据，进行监督学习，从而能够自动化地，且比人手动控制更加优化地完成广告投放。不过，最终实际的付费还是按照C、M或者A来进行。相关词条：CPC、CPM、CPA、监督学习。 GDPR： General Data Protection Regulation，一般性数据保护条例。这是欧盟颁布的个人数据隐私保护条例，应对互联网个人数据的使用不合理且缺乏有效监管的状况。GDPR规范了个人隐私数据的定义，各数据相关方如何获取、访问、使用、流通个人数据的机制，以及这些机制背后的透明度。对个人数据的使用条件和范围，侵权情形及相应惩罚都做了相关的规定。该条例在2016年4月27日通过，两年的缓冲期后，在2018年5月25日强制执行。 GDPR取代了1995年的数据保护指令。这一条例不需要欧盟各国立法通过即在全部欧盟国家有效。这一条例也很有可能成为中国个人数据隐私保护未来立法的参考蓝本。 AdTech： Advertising Technology（广告技术）的缩写。越来越多的互联网技术应用在广告领域，从而诞生了一个专门的行业领域，广告技术行业。这一行业经由程序化广告（见 Programmatic词条）的兴起而被推向顶峰。通常DSP、SSP、AdExchange、DMP、Trading Desk（参见相关词条）都是典型的AdTech的服务机构或平台。相关词条：Programmatic、DSP、SSP、AdExchange、DMP、Trading Desk AdExchange：广告交换网络（也有称之为广告交易网络的），是程序化广告（见 Programmatic词条）中的广告“交易市场”。AdExchange一般是开放的，这类AdExchange与金融投资的股票二级市场类似，AdExchange支持各种拥有广告资源的媒体在其上交易自己的广告资源，通常这些资源完全基于广告受众并动态化的交易的，即当有互联网用户（受众）的终端展现了这些广告资源时，该资源才有被售出的可能。同时，对广告位有需求的广告主也可以进入AdExchange采购自己需要的广告资源，采购方式也同样是当广告资源上有受众出现时，广告主购买该资源上展示广告主自己的广告的机会。由于这一过程需要很多专业的广告技术才能实现，因此媒体方通常通过SSP来实现自己广告资源与AdExchange的接入，而广告主方则通过DSP实现与AdExchange的接入。除了公共AdExchange（开放的AdExchange），也有封闭的AdExchange，即媒体基于自己的广告资源建立的广告交换网络，一般没有或者只有很少的来自其他媒体的广告资源，因此它并不是真正意义上的AdExchange，尽管它也对几乎所有的广告主开放。 Trading Desk：常被简称为TD。对于广告主而言，程序化的广告投放往往需要包括AdExchange、DSP以及AdNetwork等广告资源和投放机构的参与，因此需要非常专业的能力。与股票二级市场交易有trading desk（交易操作柜台）为投资人服务一样，程序化广告也有专门为广告主服务的trading desk，帮助广告主选择合适的AdExchange、DSP、AdNetwork以及各种程序化广告资源，并进行投放操作与优化。如果是广告代理商（Agency）提供的Trading Desk服务，也被称为ATD（Agency Trading Desk）。透明化：程序化广告的出现及流行促进了透明化，原因正好在于程序化广告与普通的合约广告（固定时间和广告位置以及具体价格的广告）相比，不够透明。由于程序化广告基本上都是人群定向的，因此不能随时查看自己的广告是否投放、具体投放在哪里以及投放给了谁，这不仅可能造成无法真正了解广告的效果（尤其是对于品牌广告主），还使广告服务收费变得很不透明。透明化是通过技术解决方案、一系列行业标准、结算方式乃至广告商提供服务的方式等进行改革，以帮助实现更为透明的程序化广告投放。另外，由于对于透明化越来越关注，很多广告商提供纯技术服务，而不再走流水的方式，希望借此迎合广告主的需求，而有实力的广告主，也更多开始考虑自建程序化广告团队，甚至自建广告投放团队。 Arbitrage：套利。指以相对低的价格买进广告资源（流量），然后又以相对高的价格卖给广告主从而赚取差价的广告交易方式。 MRC：与IAB一样，是一个美国的行业组织，全称是Media Rating Council（媒体评级委员会），网址是：http://mediaratingcouncil.org/。 MIP： Marketing Intelligence Platform, 营销智能平台。指通过大数据和人工智能等方式实现的自动化智能化的广告主营销决策系统。IBM的Watson在营销上的应用是MIP的一个例子，在中国，品友互动则推出了他们的智能营销决策系统，也命名为MIP。另外一家数据米铺（Data MIP）也以MIP命名自己的产品，主要提供电子商务领域营销智能系统。 CDJ： Customer Decision Journey，即消费者决策流程，尤指数字营销领域的消费者决策流程。传统理论下，消费者购买某样商品，会经过从认识品牌，到考虑评估，到形成偏好，再到购买的过程，并且在购买之后还可能持续购买或是推荐给他人。随着社交媒体日益兴盛，以及互联网用户行为的日益碎片化，传统理论描述的消费者决策流程逐渐瓦解。在数字化的影响下，将会加速传统的考虑以及评估阶段，品牌不再是被动地对消费者的决策旅程施加影响，而是能够在数字营销工具的帮助下主动重塑消费者的决策旅程，压缩消费者考虑以及评估阶段，让消费者基于品牌喜爱度决定再次购买。消费者决策流程较为难以定量化衡量，但归因以及多触点归因（参见 Attribution 和 MTA 词条）可以帮助部分描述消费者决策流程，从而一定程度上打开这个黑箱。但全面完整的描述消费者决策流程是不可能的。相关词条：Attribution、MTA MTA： Multi-Touchpoints Attribution，即多消费者触点的归因。最基础的归因方式，只能实现单一消费者触点的流量归因，例如某一个电商网站（该网站是一个消费者触点）的流量归因。多触点则能够容纳同一个消费者在不同的触点上的行为轨迹，例如该消费者使用某个电商的网站、app、微店乃至于H5或者公众号等，以及到达这些渠道的流量的归因。MTA是分析和研究CDJ的定量基础。相关词条：CDJ 互联网营销运营与MarTech部分新增 MarTech： Marketing Technology（营销技术）的缩写，是指一系列服务于互联网营销和营销运营与优化的技术解决方案的总称。这些技术解决方案包括但不限于：为实现获客相关的技术解决方案，潜客培育和转化解决方案，数据获取和打通（onboarding）方案等。理论上AdTech也应该是Martech的子集，但是人们约定俗成MarTech不包括AdTech，二者并列，即MarTech是除AdTech之外所有的数字营销技术的简称。 Data Onboarding：数据打通，尤指离线数据（offline data）和在线数据（online data）的打通。离线数据不仅仅包括我们通常认为的线下数据，也包括互联网上的静态数据，例如用户其静态属性及与之相关联的用户ID。在线数据则主要是指消费者的动态的行为数据，以及与之相关联的用户ID。 CDP： Customer Data Platform，即顾客数据平台。与DMP（参见词条 DMP ）相似，CDP也是存储消费者的数据的，但区别在于，CDP存储的是已经成为你的顾客的消费者的数据，而DMP理论上应该包括所有互联网上的受众，尤其是你的目标受众的数据。CDP可以看做是传统的CRM在数据领域的升级，以迎合今天互联网的消费者社交化的倾向以及符合新零售的趋势。DMP和CDP可以通过Data Onboarding的方式联通，它们共同构成企业的数字营销云（参见词条营销云）的数据基础。相关词条：DMP、营销云 DM Hub： Digitial Marketing Hub，是MarTech的一种产品解决方案，即集成的欧中数字营销工具（通常包含多个营销渠道的投放管理和优化工具、多消费者触点的用户营销体验管理工具，以及基于数据的受众和消费者分群工具），从而为企业提供一站式的管理多流量渠道和消费者触点的技术产品解决方案。国内的Convertlab提供以DM Hub为命名的相应产品，但DM Hub实际上是这一类产品的通用名。相关词条：MarTech Marketing Cloud：营销云，是MarTech解决方案产品在云端的集成。一般应该包含所有MarTech的解决方案，即包含DM Hub中相关的功能、AdTech相关产品的功能、DMP和CDP、创意管理、内容管理、社交营销管理、效果类营销管理、数据监测与效果评估等。部分Marketing Cloud也包含交易管理的功能，或分散在各个功能模块中。内容营销部分新增 MCN： Multi-Channel Network，多渠道网络，本质上是“网红+制作+传播”的内容制作及发行公司，可以有一款节目，也可以有很多属于它的节目。举个例子，“逻辑思维”就是MCN，这个节目由网红+专业制作完成，然后在各个渠道上播放；Papi酱也是。国外有Awsomeness TV，YouTube上青少年订阅量第一的频道，拥有460W 订阅用户，月均千万浏览量；MakeStudio，所辖7万个频道，用户涵盖方方面面，月均数十亿次播放。头部的MCN有较高影响力和收入，有网红，有专门的团队。长尾的MCN数量庞大，但影响力较弱，收入也较少。 UGC： User-Generated Content，用户生产内容，也称UCC，User-created Content。 PGC： Professionally-Generated Content，专业生产内容，也称PPC，Professionally-produced Content。PGC本质上属于UGC的细分子集。它与UGC的区别在于，用户有无专业的学识、资质，在所共享内容的领域具有一定的知识背景和工作资历。 OGC： Occupationally-Generated Content，职业生产内容。OGC和PGC的区别以是否领取相应报酬作为分界，PGC往往是出于“爱好”，义务的贡献自己的知识，形成内容；而OGC是以职业为前提，其创作内容属于职务行为。下文为2017年版本的名词术语全集 Part1：最基本的名词 Ads ：就是广告（名词）的英语复数啦。Ads = Advertisements。如果是“做广告”（动词），应该用Advertising。 Click ：点击，是指互联网用户点击某个广告的次数。 CPM ：Cost Per Mille，这次实际上省略了impression，全文应该是cost per mille impression。Mille是千的意思，在英语中它只跟着per一起用，即per mille，就是汉语的“每千……”的意思。所以CPM是每千次展示的成本。 CPC ：Cost Per Click，每次点击的成本。 CTR ：Click Through Rate，点击率。就是用click除以impression的比例。 DA ：Digital Marketing Analytics的缩写。数字营销分析。 Impression ：意思是“曝光”，也被称为“展示”或“显示”，是衡量广告被显示的次数，一个广告被显示了多少次，它就计数多少。比如，你打开新浪的一个页面，这上面的所有广告就被“显示”了1次，每个广告增加1个Impression。 PPC ：Pay Per Click的简称。一般是特指搜索引擎的付费竞价排名广告推广形式，因为搜索引擎竞价排名只有一种收费方式，即按照点击付费。虽然也有其他广告形式也是按照点击数量来进行收费，一般不被称为PPC，而被称为CPC，即Cost Per Click。为什么？似乎是约定俗成。 ROI ：Return On Investment的简称。一般而言on这个词是应该小写的，所以ROI似乎应该是RoI，不过大家都约定俗成了，不必较真。ROI是典型的追求效果类的营销的关键指标。在中国的互联网营销，这个值一般指的是，我花了多少钱推广费，直接产生了多少的销售。比如花了1万元做SEM推广，直接卖了3万元的货。ROI会被认为做到了3（即3:1）。这一点与财务计算上的ROI是不同的，后者是利润和投入的比值，但在互联网营销上，大家没有把利润作为R，而是用GMV。关于GMV是什么，本文的下篇有。:) SEM ： (Search Engine Marketing)（搜索引擎营销），实际上它是可以适用于以下任何一种表达的模糊术语：1.涉及使用搜索引擎的任何数字营销，或2.仅涉及搜索引擎的付费数字营销，即：PPC（付费 – 点击）。对于哪个定义是正确的，没有一个准确的标准，但后者是最常用的。 SEO ：Search Engine Optimization的简称。就是搜索引擎优化，特别指搜索引擎搜索结果自然排名的优化。所谓自然排名，就是不通过给搜索引擎付钱就能获得的排名。不花钱就能被搜索引擎排到前面当然是好事，但大家（每个网站）都这么想，所以要出头还挺难的。懂得这个领域的高手过去能挣很多钱，但今天SEO却越来越短时间内就出效果，所以想要通过SEO挣快钱越来越难。 Social ：社会化，是social marketing（社会化营销）或者social media（社会化媒体）的简称，具体指二者的哪一个要看场合。社会化媒体，在中国过去是人人网、开心网之类，现在是微信、微博、图片分享类网站应用等。 WA ：Web Analytics的缩写。就是网站分析。 Part2：数据分析领域 AI和BI ：AI是Artificial Intelligence（人工智能）的简称；BI是Business Intelligence（商业智能）的简称。商业智能又称商业智慧或商务智能，在过去指用数据仓库技术、联机分析处理技术、数据挖掘和数据可视化技术等进行数据分析以实现商业价值的一种能力。今天的商业智能开始引入人工智能，从而进入一个新的领域。 Benchmark ：我在大学的时候这个词被翻译为“定标比超”，真是不明觉厉的感觉呀。Benchmark就是“可以作为对比的参照值”。我的很多客户会问，这个指标在行业中的平均情况是什么样呀？他们的问题可以同样表述为：这个指标在行业中的benchmark是多少？ Bubble Chart ：气泡图。一种最多能够表示同一个事物的四个维度（但是一般只用其中三个）的直观的数据可视化方式。这种方式多用在分析流量、用户或者内容的表现上。 Cohort ：没有比较约定俗成的翻译，比较多的翻译是“同期群”。跟Segmentation有点类似，但内涵要多一点，多点排队的意思。Cohort一般是一种分析方法，所以一般不单独出来，而是跟analysis在一起，即cohort analysis——同期群分析。这是一种很重要的分析方法，尤其在分析ROI、用户留存这两个领域。课堂上会详细介绍。 Dimension ：维度。维度是对一指一个事物的不同的方面、特征或者属性。这么说太抽象。简单说，人可以分成男人和女人，性别就是人的一种维度。或者汽车可以分为白色、黑色、红色等，颜色就是汽车的一种维度。维度是最基本的数据结构，任何一个度量（指标）必须要依附于一个具体的维度才有意义。比如说，我说visit=100，这没有任何意义。我说搜索引擎给我的网站带来的visit=100，就有了意义。搜索引擎流量就是维度（即流量来源）的具体的值（就如同男人是性别这个维度的具体的值）。 Filter ：过滤。过滤是指摒弃掉不需要的数据，只留下需要的。过滤都需要遵循一定的规则（这是废话），而且过滤掉的数据往往不能找回。过滤是一种常用的定位某个细分领域的方法，与细分（segmentation）的区别在于，segmentation是把总体分成并列的若干块（segment），而Filter则只保留符合规则的块，而丢弃其他不符合规则的块。 Machine Learning ：专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。 Metric （常用作复数，即Metrics）：通常翻译为度量或者指标，但是因为指标含义更宽泛，例如KPI或者benchmark都可能被称为指标，所以在我的培训中metrics都是用度量来表示，这样更严谨。度量绝大多数都能能用数字表示，比如汽车的速度，速度就是度量。课程中涉及到的度量分为两类，一类是计数度量（比如常见的PV、UV、访次、停留时间等）和复合度量（两个度量四则运算而成，常见的有转化率、跳出率、留存率、活跃率等）。另外有些度量使用布尔量表示，即是或非。度量必须依附于维度才有意义。 Pattern ：指某种会重复出现的模式或规律。Pattern常常用于发现用户行为上的某些趋同特征。比如，我们发现用户都喜欢在晚上10点到11点打开某个app应用，这就是一种pattern。如果我说发现了一个pattern，很兴奋，实际上的意思就是说我发现了一个规律。规律这词，几十年前就有了，pattern这洋文多有逼格呢…… Pivot Table ：数据透视表。微软数据表格工具Excel的一个重要功能，用于快速汇总统计不同维度的数据，是Excel中最常用也是最实用的功能之一。Pivot table有时也直接表述为pivot。 Random ：随机数，或者随机性。但是老外们也用它来形容“混沌”之类的意思。 Segmentation ：细分。这是我们最基本的方法，即把总体按照一定的规则分成并列的若干块。做了segmentation之后，每一个块就是一个segment。所以segmentation和segment不是同义词。Segmentation怎么用？怎么发挥最大价值？课堂上有很多案例。 Supervised Learning ：最常见的一种机器学习（machine learning）的方法。在监督学习中，每个实例都是由一个输入对象（通常为矢量）和一个期望的输出值（也称为监督信号）组成——例如，营销相关的创意、广告出价（排名）、目标人群的各种设置等为输入对象，广告的效果（例如点击率）就是输出值。监督学习算法是分析该训练数据，并产生一个根据已有的数据（输入对象和输出值）推算得出的映射关系，用这一映射关系去推断新的实例的情况。在刚才那个例子中，历史的创意、出价、目标人群设置数据及其相应效果的输出值可以用来推断未来在各种创意、出价和人群设置下的效果，并利用效果的推断不断调优输入对象的设置，从而让机器实现自动化的营销效果优化。 Unique ：Unique是指排重（排除重复）。Unique很少单独用，常用在计数类度量的前面，比如unique visitor，指排除对同一个访问者重复计数之后的访问者数量——同一个人今天到网站一次，明天又来一次，不能就因此变成两个人，unique visitor仍然是1。Unique visitor通常可以简化为visitor，两个可以通用。Unique visitor和unique user是唯一的两个可以加不加unique都算unique的度量。另一个例子是unique impression，即同一个人多次看同一个广告，还是计算为1次。Unique impression和impression是两个不同的度量，因为后者不排重。 Visualization ：数据可视化。是以图表、图形或者动态图形的方式直观展现数据的一种技术和学科。合理恰当的数据可视化能够极大提升数据分析的效率和效果。 Part3：互联网和互联网营销分析技术领域 Attribution ：归因。但是实际上这个词被翻译成“归属”更好。归因是指在多种因素共同（或先后）作用造成的某一个结果时，各种因素应该占有造成该结果的多大的作用，即“功劳应该如何分配以及归属于谁”。为解决归因的问题而建立的模型被称为归因模型，即attribution modeling。但我一直可惜这个词没有翻译好，翻译成归属模型或许更容易理解。 Bots ：机器人。非人产生的流量，都被称为机器流量，即bots traffic。Bots是互联网虚假流量主要的创造者之一。参见条目：Spider。 Cookie ：Cookie并没有真正的中文翻译，cookie是在你浏览网页的时候，网站服务器放在你电脑（或移动设备）的浏览器里面的一个小小的TXT文件。这个文件里面存储了一个标识你这个人的匿名的ID，以及一些与你访问的这个网站有关的一些东西，这样当你下一次访问这个网站的时候，cookie就会知道你又来了，并且记住你上次访问时候的一些状态或者设置。Cookie以及与cookie类似的东西是互联网营销的最重要技术之一，几乎所有识别人和标记人的工作都需要cookie及类cookie技术完成。在这次培训中会有详细的说明。 Dashboard：即仪表板（在GA中被称为信息中心），一个包含并显示有关网站或数字营销活动综合数据的展示页面。仪表板从各种数据源提取信息，并以易于阅读的格式显示信息。 Deep Link ：没有汉语直接对应名词，我觉得直接叫“深链”好了，但不能叫做“内链”，后者是另外一个东西。Deep link历史悠久，过去把能够链接到网站的内页（即非首页的页面）的链接都称为deep link，但此后很快deep link这个词的意义就消失了，因为这样的链接实在太普通，都不需要用一个专用的名词来表述。但随着移动端的app的出现，deep link又“东(si)山(hui)再(fu)起(ran)”，特指那些能够跨过app首屏而直接链接到app的内屏（类似于网站的内页）的链接。嗯？如果这个app还没有安装过怎么办？这两期的公开课会专门讲。 Device ID ：指用户的硬件设备（尤其是指手机设备）的唯一标识代码。Device ID是这一类设备唯一标识代码的总称。安卓上的device ID一般是安卓ID或者UDID，苹果手机的device ID是IDFA。在PC端广告商用cookie追踪受众，在移动端则利用device ID。 Event Tracking ：对用户的行为直接进行定义并追踪的一种追踪方法，广泛应用在Google Analytics、Ptengine、神策分析、AdMaster的SiteMaster等用户数据监测与分析工具中。参见词条：Event。 JavaScript ：简称JS，网站页面上的程序，能够让页面除了展示内容之外，还能实现更多的程序运行和功能。网站分析工具监测代码就是JS代码，将JS代码部署在你要监测的网页中，就可以把用户在页面上的互动访问行为不间断的发送到相应数据分析工具的服务器，从而获取想要的用户数据。 Heat Map ：热图。在一个图上标明这个图上哪些是获得更多关注的部分。关注可以是眼光，也可以是鼠标点击或者手指的指指点点。热图是做行为统计学研究的好可视化工具。大家都看得懂的东西，但用好则要水平。 HTML ：Hypertext Markup Language，即超文本标记语言。HTML是一组代码，用于告诉Web浏览器如何显示网页。每个单独的代码被称为元素或标签。HTML的大多数标记都具有起始和终止元素。 HTTP： Hypertext Transfer Protocol，即超文本传输协议。HTTP是由万维网使用的协议，用于定义数据的格式和传输方式，以及Web浏览器和Web服务器应采取什么措施来响应命令。简单讲就是看到这个东西，就知道是要传输超文本的。而超文本最主要的应用就是网页，这也是为什么网站的域名前面会有http://这样的标识的原因。 HTTPS ：Hypertext Transfer Protocol Secure，即超文本传输协议安全版。是HTTP的安全版本，用于定义数据如何格式化和通过Web传输。HTTPS比HTTP具有优势，因为在抓取网页时发送的数据被加密，增加了一层安全性，以便当数据从服务器发送到浏览器时，第三方无法收集有关网页的数据。不过，这对于我们从事数字营销中的部分数据追踪工作带来了困难。我在课程中会介绍这一协议带来的问题即我们如何解决。 IP ：是Internet Protocol（网络互联协议）的缩写。IP地址就是给每个连接在互联网上的主机分配的一个地址，过去用于判断不同的访问行为属于同一个人（因为都是同一个IP记录产生的访问）。但由于各种动态IP和虚拟IP技术，用它判断用户人数已经很不可行。 Link Tag ：Link Tag特指在流量源头的URL后面加上的标记，用来标明流量源头的名称和属性。最典型的link tag是Google Analytics的UTM格式的标记。目前已经成为标明paid media（花钱购买的广告流量）的标准配置。如何用好它，比你想的丰富，课堂上详解。 Path ：路径。任何构成先后次序的一系列事件或行为都可以用路径来描述。路径分析（path analysis）也是较为常用的一种分析方法。 Pixel ：本意是像素，但是在监测领域，是tracking code（监测代码）的同义词。参见后面的词条：Tracking。 Responsive Web Design ：响应式网页设计，一种允许所有内容无论屏幕尺寸如何设备如何都可以正确显示的创建网站的理念。你的网站将“响应”每个用户的屏幕尺寸。 Spider ：蜘蛛，也称Bot（机器人），Crawler（爬虫）。蜘蛛是一个自动程序，它的作用是访问收集整理互联网上的网页、图片、视频等内容。比如百度蜘蛛会将互联网的各种内容抓取回来并分门别类建立索引数据库，使用户能在百度搜索引擎中搜索到想要的内容。同理，Google使用Bot抓取网站，以便将其排名并添加到Google搜索。当垃圾邮件来源的Bot出于恶意原因访问网站时，有时能在Google Analytics中被显示为垃圾邮件。 Tracking ：翻译为跟踪，就是数据分析工具跟踪用户各种行为的“跟踪”，用户所有的线上行为都可以被跟踪。监测这个词的“监”这个字，就是tracking。而测，则是measurement。所以监测这个汉语词，最准确的翻译就是tracking and measurement。监测需要用一定的技术手段实现，其中核心技术之一就是监测代码（tracking code），是一串可以发挥监测功能的程序（很多都是脚本语言编写，比如JavaScript语言）。 UID ：是User Identification的缩写，即用户ID。 VAST ：即Digital Video Ad Serving Template。一种实现视频程序化广告的基础性协议。目前是4.0版本。 Part4：流量与用户行为领域的名词 Acquisition ：泛指用户获取。在用户运营中使用的极为广泛，做任何产品的运营的第一步就是获取用户，比如在网页端的推广流量的获取、App推广中用户的下载等。 Action ：特指用户需要做出某个动作的交互行为。例如，添加商品到购物车、留言、下载等，都属于action。Action实际上是Engagement的子集。参见词条：Engagement。 Bounce Rate ：跳出率，即进入网站后就直接离开网站的人数所占百分比。例如，如果100人访问网站，其中50人立即离开，网站的跳出率为50％。网站的目标是尽可能低的跳出率，平均值往往在40-60％之间。会在课堂上讲解。 Direct ：翻译为直接访问，比如用户直接在浏览器输入网址访问，或者用户直接点击收藏夹里的网址进行访问，都会被记为直接访问。除了上述情况，从QQ客户端聊天窗口或微信客户端的链接直接访问网站的也会被记为直接访问。 Engagement ：没有特别合适的中文翻译，这个指标指的是用户在网站或APP上的交互程度或者参与度，可以由多个指标组合而成。比如一个网站有很多交互行为，包括下载文档、观看视频、咨询等，那么会根据每个交互的重要程度给每个交互行为赋值，用户每完成一个交互及赋予相应的数值，这样可以判断不同类别用户的交互程度以及不同页面的交互差异。Engagement和其他一些名词比如effectiveness、performance、acquisition等相似，都是泛指性的名词。 Exit ：退出，即用户离开网站或APP的行为，用户离开网站前的最后一个页面称为退出页（exit page），离开APP时所在的最后一个screen叫做exit screen。 Event ：事件。在Google Analytics中，对于action（参见词条：action）的表述使用了event这个词。Event和action并不完全一样，但你可以理解为他们是一回事。微小的差别在于，event是用户自行定义的，它可以不是什么特别重要的行为。而action一般指具有一定意义的标志性的用户交互动作。 Referral：翻译为引荐来源。现实生活中，如果我推荐你使用了某个产品，或者我介绍你加入我们光荣的党，我就是引荐人（referral）。而在数字营销中，referral是指那些给我的网站带来了流量的其他网站，通常这些网站上会有链接到我的网站的链接。如果没有做特殊的标记（如使用link tag标记）或者不是特殊的流量源（比如搜索引擎），那么大部分的流量来源都会被监测工具记录为referral。 Retention ：指用户的留存。如何让用户能够留存，是一个重要的课题。在这两期公开课培训中会跟大家介绍如何提升retention。 Session ：session实际上和visit是一回事。本来，各类工具都是将用户的一次访问（网站）称为visit，但是随着app的普及，visit app听起来很别扭（因为我们都是use app），所以app也就不存在visit了，于是就用session代替。为了统一表述visit和session，有些监测工具把visit改称session。 UI： User Interface，用户界面。UI是用户通过电子设备与内容交互的区域，良好的UI应该是流畅且易懂的。 UX： User Experience，用户体验。 UX是指用户如何与网站或应用（他们点击的位置，他们访问的网页）进行互动。我们可以通过测试页面布局，CTA，颜色，内容等方面的差异来改善转化率的方法来提升UX。拥有良好的UX对于创造良好的业务至关重要，它促进着再营销和用户的参与度。 Visit ：即访问。指对用户对网站的访问，通常以30分钟为区隔。如果超过30分钟在网站上没啥动静，则一次访问结束。 Part5：策略与运营 Funnel ：漏斗。常与conversion一起用，即conversion funnel（转化漏斗），用于分析转化流程的数据模型。参见词条：conversion。 Goal ：目标，是想要达到某种效果，每个网站都会有一些作为目标的交互，比如点击下载说明书、登录、注册、提交订单等。那我们就可以将这些设定为目标，那么这里引出另一概念：转化（conversion）。每完成一次上述的目标，就可以认定为完成一次转化。 KBR ：Key Business Requirement。关键商业需求。是一个企业商业目标中最关键的。KBR决定了一个企业的其他目标，并且也决定了我们应该如何制定digital marketing的目标，以及针对这些目标选用什么样的指标或KPI。 KPI ：Key Performance Indicator的缩写，译为关键绩效指标，是若干个用于衡量业务表现的最重要的度量。不同的商业目标，不同的业务，所对应的KPI不同。如何设置KPI是一门技术，也是一门科学。在这次的培训中也会做详细介绍。 Landing Page ：着陆页，或落地页。用户进入网站或者app后，看到的第一个页面。对于网站而言，由于搜索引擎的存在，可能将流量导入到网站的任何一个页面，因此，一个网站的任何一个页面都有可能是landing page。但对于app而言，一般landing page就是首页。不过由于为app提供的deep link也逐渐发展起来，app的landing page也可能是其中的某一个具体页面。参见词条：deep link。 Performance ：绩效，即通过营销之后获得“战果”。ROI就是一种典型的performance，销售额之类的也是。 Part6：互联网广告领域的名词 Ad Network ：广告网络。它既像是一个行业协会，又像是一个中小publishers（愿意在自己网站和apps上放广告的其实都是publishers。参见词条：publisher）的中介（agency），它帮助建立publishers联合的标准和联合的方法，它代表这些publishers与广告主谈判，它同样与广告主谈价格，提供双方都能接受的定价。愿意进入Ad Network的publisher，签一个协议服从规则就好了，不愿意的，不勉强。如果广告主有广告需求，会发给Ad Network，然后Ad Network会把这个广告散布到各个适合发布这个广告的众多publishers上去。广告主付费之后，相当部分的费用被分配给publisher，Ad Network则自己留存一部分作为自己的“辛苦费”。 Audience ：受众。就是广告的阅览者，普罗大众。受众这个词太书面化了，但是确实没有比这个更明确的词，所以在这两期公开课中都会用这个词。 Awareness ：对品牌或产品的认知。做广告的首要目的，就是让消费者意识到你的品牌或者商品的存在，说白了就是搏存在感。看看近期密集发布的手机在各个新闻app、电商app中频频发力，就知道awareness对广告主有多重要了。 Banner ：广义上是图片或者动画展示类广告的统称。这个词的含义源于上街游行队伍中拉着写有标语的大横幅，后来扩展到互联网广告商，并与display ads同义。 Bid/Bidding ：竞价。搜索引擎PPC广告，或者RTB广告，都需要竞价。类似于拍卖，但需要在预置条件的前提下通过程序来实现。课堂上详细说。 Bidder ：Bidder即竞价者，在PPC广告范畴内，bidder就是普通SEM的操作从业者。在程序化广告范畴内，bidder一般就是DSP服务提供商。 Branding ：品牌推广。 Buzz ：消费者或网民对于品牌、产品等广告主在乎的事情在网上发出的各种声音。与IWOM是一个意思。Buzz是苍蝇蜜蜂之类的嗡嗡声，无数网民每天在网上发出的各种意见，在上帝看来就像苍蝇蜜蜂般嗡嗡作响。 Campaign ：特别难找到准确对应的汉语名词，大意是一次有始有终的营销活动。有始，是指营销活动是从严谨的策划和详细的执行计划开始的，有终，是指营销活动有清晰的执行结束的节点。所以心血来潮的营销“游击战”不能称为campaign，那些几乎永远不停止的营销行为（例如SEM投放）也不能称为campaign。 Content Feeds ：信息流广告。信息流（主要是在社交网站和APP上）是内容并列排列自上而下像瀑布流一般，而在信息流中插入跟信息内容形态一样的广告，这种形式就是信息流广告。课堂上会介绍。 Coverage ：人群覆盖。跟触达非常类似，只是它的含义更模糊一些。往往用百分比来表示，例如，希望reach到的人群是1个亿，而实际reach到的是6000万，那么coverage大约是60%。Coverage不是一个度量，而是一个约定俗成的说法。 Display Ads ：展示广告。展示广告主要指静态的图片广告、动画广告，以及富媒体广告（就是能互动一下的flash神马的）。这一广告形式与文字广告（就是文字链）和视频贴片广告形式是并列的不同类广告形式。 DMP ：Data Management Platform，数据管理平台。程序化广告（programmatic advertising）中为实现定向受众所需要倚仗的数据平台。但它能做的还远远不止这么多。培训课程中会专门涉及。 DSP ：Demand Side Platform（需求方平台）。程序化广告的广告投放管理系统平台以及相应的服务提供方。具体解释这里不多说了，到时候课堂上会详细介绍。 Effectiveness ：效果。这是广告主评估品牌推广类广告好坏的一个关键指标。效果的含义比较广泛，在不同的campaign目标下可能不尽相同。比如，能够覆盖到的人群情况（coverage）可以作为一种效果；或者，人们是否真正对你的品牌产生了认知（awareness）也被称为一种效果。类似的，人们也用performance来表示营销的好坏，二者是近义词，但又不完全相同。Performance更偏重有实际产出的具体效果，因此常常被翻译为“绩效”，例如campaign产生了多少的click，产生了多少的交易等等。因此，effectiveness较为抽象，几乎只在品牌推广中被提起，而performance较为具体，在效果类推广中更为常见。 Efficiency ：效率，即达到某种效果所花费的成本（包括金钱与时间）。品牌推广类营销常用，效果推广类很少提及。 ePR ：通过互联网进行的PR。 Fraud ：作弊，也有更通俗的写法即cheating，但fraud特别指流量作弊。反作弊是anti-fraud。另一个与fraud类似的反面词汇是spam，即垃圾短信、垃圾邮件之类的骚扰垃圾信息。 Inbound Marketing ：入境营销。入境营销是指用于吸引潜在用户的活动和策略，通过内容、教育和通过提供服务、产品或品牌的信任来吸引潜在客户的方式。本质上就是不拿钱砸广告，而是拿吸引你的东西吸引你的一种营销方式。 IP ：Intellectual Property，即知识产权。就是过去说的那些原创的，有知识产权的东西。现在天天出现在各种口语和报道中的这个词指各种在互联网上创作的内容。例如，我的这个公开课也可以称得上是IP。抖音里面你上传的短视频算不算？当然也是咯！与上篇的IP写法一样，意义完全不同。 IWOM ：Internet Word of Mouth的简称。即网络口碑。 Look-alike ：相似人群放大。为了找到更多目标人群，一种方法是，利用DMP，找到与既有目标人群情况（属性）比较类似的人群。这个寻找的过程是通过计算机算法完成的。这个通过寻找相似人群放大目标人群的过程被称为look-alike。关于什么是DMP，请参见词条：DMP。关于什么是目标人群，参见词条：Target Audience。 Minisite/Microsite ：没有对应的汉语名词，而且大家也从来不用汉语描述它。就是指为campaign专门定制的campaign网站，这些网站规模都不大，所以被称为mini（迷你）或者micro（微）。 Native Ads ：原生广告，通俗说是那些看起来就像网站或者app中正常内容一样的广告。原生广告容易和信息流广告混为一谈，但它们并不是一回事。原生广告可以采用信息流来实现，但不仅仅局限于此。 Post-click ：点击后阶段。指流量入口在被用户点击之后的相关用户行为即对应的营销监测与分析体系。 Pre-click ：点击前阶段。指流量入口（尤其是广告）在被用户点击之前（含点击本身）的相关用户行为及对应的营销监测与分析体系。 Pre-roll ：也叫pre-roll ads，即前贴片广告。就是视频播放之前的长达6秒到丧心病狂的120秒的视频广告。 Programmatic ：程序化（广告）。一种革命性的广告运作方式。在课堂中会有详细的介绍。 Publisher ：即广告发布商。愿意在自己网站和apps上放别人广告的其实都是广告发布商。这么文绉绉的名字国内不这么用，国内直接说——媒体。其实媒体这个词是不准确的，因为含义太广。在国外的文章中，媒体的含义和中国不同，我们所说的媒体投放，实际上是透过publisher所做的广告投放。 Reach ：人群触达。如果做互联网广告，能够让广告触达到多少人是广告主关心的。触达实际上等同于unique impression，所以它不是动词，而是一个名词，一个用来记录广告触及到了多少人的计数度量。 ROAS： Return On Ad Spend，即广告支出回报率，数字广告推广的一个指标，显示与广告花费的金额相比的利润。类似于ROI。 RTB ：Real Time Bidding（实时竞价广告），这是程序化广告最重要的一种方式，也是理论上最佳的广告资源变现方案。但具体如何实现，优劣问题，以及国内的情况，课上详细讲。 SSP ：Supply Side Platform（供应方平台）。程序化广告的广告资源管理系统平台以及相应的服务提供方。具体课上介绍。 Survey ：调研。这个词是一个有意思的词，主要在它的发音。作名词的时候重音在前——[ˈsəːveɪ]，作动词的时候重音在后——[səˈveɪ]。 Target Audience ：目标受众。任何人都可能看到你的广告，但只有那些合适的人才会购买你的商品。所以，合适的人就是你的目标受众，是你最希望影响到的那群人。 Verification ：特指广告的验证。验证有两类，一类是验证广告是否真实被投放出去了，以及投放出去之后广告所处的环境是什么。什么是广告所处的环境？——对于PC web上的广告而言，环境就是这个网站以及具体承载广告的这个页面。另一类是验证广告覆盖的人群的情况是不是跟预想的一样。 Viewability ：广告可视性。过去统计广告的曝光的时候，不考虑广告是不是真的被人看到了，所以有些广告处在一个很长的页面的第二屏或者更后面的位置，而某个同学只看了第一屏就离开了的情况下，这个广告其实是根本没有处于屏幕中的，这个同学根本看不到这个广告。在不考虑viewability的情况下，这个广告仍然因此而有增加一次曝光（impression），而若考虑viewability，这个广告不增加一次曝光。 Part7：效果营销领域的名词 Affiliate Marketing ：有时也就直接简称为Affiliate。这个词在国内没有对应的名词，在台湾被译作“联署营销”，但是这个翻译似乎仍然莫名其妙。Affiliate marketing就是典型的代销模式——你的东西，我帮你卖，卖出多少，你给我按照一定比例提成。在互联网上，affiliate marketing变成了我帮你引流量，我给你的流量如果有转化了，你给我提成。国内的亿起发、领克特等就是做affiliate marketing的专门平台。 AOV ：Average Order Value。平均订单价格。 Backlink：反向链接，指一个网站使用html href代码超链接到另一个网站。反向链接由搜索引擎在其SEO排名因素中使用。其基本思想是，如果“网站A”具有来自其他权重高的网站（网站B，C和D）的反向链接，则网站A可以获得从B，C和D传递而来的一定的权重（即搜索引擎认为你的网站有多重要）。 Black Hat：黑帽，俚语，指不道德的数字营销人员或SEO使用作弊策略来提升自己网站排名或打击竞争对手的网站排名，如伪原创，链接农场或负面（反向）SEO等。与之相对应的则是白帽（white hat）。 Churn和Churn Rate ：客户流失和客户流失率。所有需要尽可能让用户反复购买（或付费）的生意，都有这个度量。看名字就知道，这个度量用来描述失去客户的情况。具体如何定义，以及如何分析，在课堂上会有详细说明。 Conversion Rate ：转化率。是指从流量到实际销售转化的能力。与ROI本质是一样的。只是ROI衡量的是现金（收入）对现金（支出）的对比，而转化率衡量的是销售的数量与进入销售漏斗的人数（或者次数）的比例关系。 CTA： Call to Action，号召性用语。网页上的元素，用于将访问者推送到特定的操作或转化。 CTA可以是具有文本，图像或文本的可点击按钮，并且通常使用迫切式动词短语，例如“马上联系”或“立即购买”。 EDM ：Email Direct Marketing（电子直邮营销）的缩写，是利用电子邮件（Email）与受众进行商业交流的一种营销方式，电子邮件营销是网络营销手法中最古老的一种。 GMV ：Gross Merchandise Volume。这是电商经常会用到的词，书面是“毛销售量”，实际就是销售流水。当然，销售流水不等于最后赚到的钱。GMV=1销售额+2取消订单金额+3拒收订单金额+4退货订单金额。GMV是流水，只要你下了订单，生成订单号，就算了GMV。而这个订单转化为平台的实际收入还会有2、3、4这些流失量。下单以后后悔了取消订单，订单送到你面前了后悔了拒收订单，签收订单以后后悔了要退货（这个步骤不同的电商平台计算方法不一样，有的平台是不管退不退货都搜算进销售额中）。总之，人艰不拆，GMV数字大，好看，而且我们监测起来也最容易，所以这是最常用的。 Keyword ：使用搜索引擎竞价排名的广告主设定的关键词，较为结构化，较规范。这些词不可能穷尽用户的search queries，因此搜索引擎会把用户的search queries转变为与之最相近（不过是否真的是最相近，那就只有搜索引擎知道了）的keywords，然后显示搜索的结果。 Lead：销售线索。常常用复数（leads），发音跟中文的“栗子”很像。销售渠道中与潜在客户进行沟通，意图通过电话，电子邮件或在线表单填写进行交易的负责人。 Monetization ：变现。 MRR ：Monthly Reoccurring Revenue，直译是每月都会产生的收入，实际就是用户要交的月费。比如我办了一个158元的包月电话套餐，对于电信公司而言，我就给他们贡献了MRR 158元。 Organic Search ：自然搜索流量源，即用户点击了自然搜索结果产生的流量，而不是点击了竞价排名（PPC）而产生的流量。 Quality Score：质量得分，百度凤巢或者Google Adwords对PPC广告中使用的关键字质量的评级。这些分数主要取决于广告文案的相关性，预期的点击率以及着陆页的质量和相关性。质量得分是确定广告竞价的一个组成部分，获得高分可以以更低的成本获得更高的广告排名。参见词条：SEM、PPC、Landing Page。 Remarketing：再营销，也称为重定向（retargeting）。一种付费广告的形式，允许广告客户向已访问过其网站的客户展示广告。原理是利用第三方cookie或者device ID进行追踪，当某个曾经来过你的网站或者app的访问者出现在与你的再营销广告服务商合作的网站或者app上时，这个网站或者app上的广告位呈现出你的广告。 Search Query ：用户的搜索词。人们在各种搜索框（典型的如搜索引擎的搜索框）内填入的词，这些词可能很不结构化，且非常随意。而keyword，则是使用搜索引擎竞价排名的广告主设定的关键词。 SERP ：Search Engine Result Page。就是搜索引擎的搜索结果页面。 Part8：移动端常用的 ASO ：App Store Optimization。狭义上指针对苹果应用商店的app排名所做的优化工作。广义则指对所有的应用市场的优化。与SEO类似，都是排名优化，只是优化的对象变成了应用市场。 DAU ：Daily Active User（日活跃用户数量）的缩写，通常统计一日（统计日）之内，登录或使用了某个产品的用户数（去除重复登录的用户），是用来衡量产品的用户粘性的重要指标。 H5 ：是HTML5的简称。它实现的功能与Flash类似（用于实现动画和各种酷炫的人机交互界面等），但是比Flash具有更强的兼容性，可扩展性，稳定性以及安全性，因为该技术是HTML的延展，而非如同Flash一样是一个单独创立出来的事物。目前各大互联网钜子们——包括Adobe（Flash的所有者）——都已经加入支持H5，H5在移动端几乎已经完全取代了Flash。 LBS ：Location Based Service，基于位置的服务。低逼格的讲就是用手机定位之后，能否关联一些服务或广告的。当然实际的应用比我说的肯定逼格高很多。 MAU ：Monthly Active User（月活跃用户数量）的缩写，概念与DAU相仿，区别在于时间跨度。MAU除了能衡量用户粘性，还可以分析产品衰退周期。 Screen ：如果说web端用page view来记录页面被浏览的次数，那么screen就是app的页面，screen view就是app的页面浏览的次数。但因为screen没有page这个东西，所以就用screen来表示。我也不知道应该对应什么汉语名词，或者应该用“屏显”？反正相信你懂的。。 Part9：企业、组织机构与产品 Google Analytics ：谷歌分析，简称GA，是全球用户量最大的网站和APP上流量用户行为的监测与分析工具。 Universal Analytics ：简称UA，是GA在2013年左右做的一次大升级版本，目前无论是免费还是付费版的GA，都是基于Universal Analytics的。GA的付费版叫Google Analytics Premium，简称GAP。 GTM ：Google Tag Manager，是谷歌公司用于管理网页上各种广告、监测和分析代码的平台型工具。课堂上会简单介绍。 DCM ：DoubleClick Campaign Manager的简称 (即新版 DoubleClick for Advertisers 7)，DCM 是一个管理及投放广告的全面解决方案，覆盖从广告策划、管理、定位、投放、优化到生成报告等。广告的impression和click等几乎所有的度量，都可以通过它来进行监测。 AdWords ：全称Google Adwords，是谷歌搜索引擎的关键词竞价系统，按点击收费（CPC）。 AdSense ：全称Google Adsense，是谷歌推出的针对网站主（简称发布商）联盟的一个互联网广告服务，通过程序来分析网站的内容，并且投放与网站内容相关的广告。 DAA ：Digital Analytics Association，数据分析协会。美国的互联网营销数据分析行业协会，号称是全球协会，但主要章程和成员都在美国，对其他国家的影响力较小。 IAB ：Interactive Advertising Bureau，美国的互动广告局，也是类似于DAA的行业协会，主要领域是数字广告。这个协会在美国，但对全球数字广告的影响力巨大，尤其是标准和技术上。本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-06 09:10:00

能不能进苹果做AI，就看这20道面试题了 | 数据分析网首页分类阅读行业资讯大数据统�

本文为雷锋字幕组编译的面试专题，原标题 Apple AI Interview Questions — Acing the AI Interview ，作者Vimarsh Karbhari。来源： Cultofmac 4月3日，苹果宣布聘用Google搜索和人工智能主管John Giannandrea，这是苹果在AI技术领域赶上其竞争对手的一个重大举措。一直以来，苹果都在电子技术设备消费领域占有主导地位，根据苹果2018年第一季度的财务会议，它们的服务收入相比去年增长了18%。截至12月季度末，所有服务产品中的付费订阅数量已超过2.4亿。本次聘用的John Giannandrea将直接向Tim Cook汇报工作，这表明AI对苹果公司非常重要，尤其是Siri和苹果服务。面试过程与大多数招聘工程师的其他公司一样，苹果公司也有标准的面试流程。它给你相同的手机屏幕然后进行现场面试。现场大约有4-5次来自团队成员的面试。这个过程也会在这个 Qura answer 中说明。针对苹果公司的资料指南致谢：Apple 苹果如何个性化Siri的调用： Personalized Hey Siri 机器学习杂志（苹果公司机器学习工程师的博客）: Machine Learning Journal Github 库（为了发展自定义的机器学习模型）： Turi Create AI/数据科学相关问题你如何在数百万的产品中获取数百万用户每人的数百个交易，并将这些用户集中到一个有意义的细分市场中？我们对数据进行预筛选以消除诈骗的可能——那么我们如何找到一个可以用来确定诈骗事件的真实表示的数据样本给定一个包含用户ID以及该用户购买的产品ID的表格1B，另一个表格将产品ID和产品名字对应。我们试图去找经常被同一用户一起购买的成对产品，例如葡萄酒和开瓶器，薯片和啤酒。如何找到最欢迎的100对成对产品呢？请详细描述L1正则化与L2正则化的区别，尤其是它们对模型训练过程的不同影响。假设你有10万个文件散布在多个服务器上，而且你想处理所有这些文件。如何在Hadoop上操作？ Python和Scala的区别是什么？阐述 LRU Cache。你将如何设计一个客户端每分钟发送一次位置数据的客户端——服务端模型？你如何将数据从一个Hadoop集群传输到另一个Hadoop集群？ Java中不同的的内存类型是什么？你如何处理那些与处理数百个标题的元数据并行的日常繁琐事务？在数据流和可访问性方面，你如何在核心超载过度复杂文件系统即将计算机能量重定向到cellar dome的边界结构这样一个隐藏的时间框架内衡量成功与否？如果你能拥有一项超能力，那会是什么？你有时间序列传感器，预测下一个数据。使用SQL创建购物篮输出。你的心理物理学实验经验是什么？（基于研究成果的问题）你在表征方面的专长是什么？你通常用它来做什么？在你做研究时你是如何用它来得到有意思的结果？（基于研究成果的问题）你如何对待失败分析？判断一棵二叉树的左右子树是否是镜像的。什么是随机森林？为什么朴素贝叶斯更好？面试题分析苹果公司 AI/DS 面试有许多与Hadoop相关的问题。他们的数据挖掘后端似乎建立在Hadoop上。还有很多问题是基于研究工作和研究成果的。在这点上苹果公司不同于我们之前讨论的其他公司。有很多基于批判性思维和特定情景的问题。划重点清单： 20个AI面试题，本文所有的数据都来自公共资源。雷锋网博客原址： https://medium.com/acing-ai/apple-ai-interview-questions-acing-the-ai-interview-803a65b0e795 翻译 | 周娇廖颖整理 | 凡江作者：雷锋字幕组来源：https://www.leiphone.com/news/201804/Ai8pjW0jxxdx53f8.html 本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。

来源：数据分析网

发布时间：2018-05-05 23:37:00

博士答辩人没来，导师还能赞不绝口！上海交大ACM校友实力演绎学以致用

　　边策萧箫发自凹非寺　　量子位报道公众号 QbitAI 　　疫情之下，我们已经看惯了线上的一切：云毕业典礼、云学术会议、云发布会。　　但这些“云”终究让人感觉没“内味”。　　因为没有身后的 PPT 投影、手舞足蹈的演讲，终归都是没有灵魂的！　　所以，上海交大 ACM 班校友、南加州大学在读博士黄锃用专业知识，给自己办了场特殊的博士论文答辩。　　他只有一个摄像头，家里没有投影仪，却把自己的答辩会办得像在礼堂演讲一样。　　演讲人从 2D 变成 3D，卧室背后的白墙也变成自己展示论文 PPT 的幕布。　　右上角就是真实的黄锃同学，他一边演讲，电脑实时把他变成 3D 模型投影到场景中，导师们看到这一幕不禁笑了，随手就是一个转发。　　在黄锃同学的主页上，我们发现了他的学弟李瑞龙早就开始“整活”，验证了 3D 论文答辩的可行性。　　现在黄锃同学的这项研究已经被 ECCV 2020 收录。　　背后的技术　　黄锃过去就一直从事 3D 图像重建的研究工作，去年他参与的一项研究 PIFu （像素对齐隐式函数）可以从单张图片重建完全纹理的 3D 人体图像。　　但是因为 PIFu 对硬件的要求很高，导致该技术并不能用于实时的图像重建。　　为此，黄锃和团队里的李瑞龙、修宇亮等一起提出了一种新颖的分层表面定位算法，和一种无需显式提取表面网格的直接渲染方法。　　通过从粗到细的方式选择不必要的区域进行评估，成功地将 3D 重建速度提高了两个数量级，同时没有降低质量。　　结果证明，这种从单摄像头实时重建 3D 视频的方法，处理速度可达 15fps，3D 空间分辨率为 256 3 。　　为了减少实时 3D 重建所需的计算量，作者引入了两种新颖的加速技术：基于八叉树的鲁棒表面定位、无网格渲染。　　由于算法流水线的主要瓶颈，是要在过多的 3D 位置上进行估计，因此，减少要估计的点数将大大提高性能。　　八叉树是用于有效形状重构的通用数据表示，它可以分层减少存储数据的节点数量。　　作者提出的这种表面定位算法，保留了原来靠蛮力重建的准确性，而且复杂度与基于朴素八叉树的重建算法相同。　　此外，作者通过直接从 PIFu 生成的视图渲染，来绕过显式网格重建阶段。下图展示了无网格渲染算法的原理，虚线和实线分别表示真实表面和重建表面。　　结合这两种算法，可以实时从任意角度快速渲染 3D 图像。　　该算法还面临一个问题，那就是有些特殊的姿势和视角很难恢复，因为它们只在训练数据集中占据很小的一部分。　　一般的方法是进行数据扩展，但是对于这种 3D 数据来作扩增是很困难的。　　然而，之前的研究证明，改变数据采样分布会直接影响重建的质量，于是作者找到了一种解决训练数据偏差的方法 OHEM。　　其关键思想，是让网络自动发现困难的样本，自适应地更改采样概率。　　最后，作者的方法在没有任何超参数的情况下实现了最快加速，在保持原始重建精度的同时，处理速度从 30 秒减少到 0.14 秒。　　与无网格渲染技术相结合后，处理一帧图像的时间只需 0.06 秒。系统的总体延迟平均为 0.25 秒。　　这种方法不需要搭建搭建具有多个视角摄像头的工作室，让普通人也能用上实时的 3D 演讲视频。　　作者指出，本文的主要贡献点在于：　　1、从单眼视频中实时生成 3D 全身视频，可以在各种姿势和服装类型下构造出完全纹理的衣服，而不受拓扑约束。　　2、提出一种渐进式表面定位算法，可使表面重建比基线快两个数量级，而且不会影响重建精度，在速度和正确性之间做了很好的取舍。　　3、提出无需明确提取表面网格即可直接用于视图合成的渲染技术，进一步提高了整体性能。　　4、提出一种有效的训练技术，可解决合成生成的训练数据不平衡问题。　　和全息投影相比？　　乍一看投影效果，是不是想到了马云今年在人工智能大会上，利用商汤全息投影完成的演讲？　　 △ 来源于微博@澎湃新闻　　虽然也是将人的影响投影到另一处场景中，不过二者的性质完全不同。　　全息投影成像的原理，是利用光的干涉和衍射，再现出物体真实的三维图像记录。　　而这次的虚拟答辩效果，实际上是利用 AI 将摄像头拍到的 2D 人物图像，转换成 3D 的效果。　　也就是说，二者无论是从原理、还是从设备需求来说都不一样。　　不仅如此，应用的场景也有所不同。　　全息投影更侧重于真实场景下「互动」的效果，也就是说，你在线下场景中，可以与一个投影出的 3D 版「真人」互动、或是听一场 3D 全息投影的演唱会等。　　但这次的虚拟 3D 生成技术，则是侧重于在电子设备上将 2D 图像视频模拟出 3D 效果。　　无论是单薄的 2D 视频、还是无法利用视频呈现的 2D 照片，利用这项技术都可以还原出仿真的人物形象。　　也就是说，一台摄像机拍出来的普通 2D 效果，利用这项技术就能转换成效果斐然的 3D 图像。　　关于作者　　用这项技术答辩的黄锃，本科毕业于上海交通大学 ACM 班。而这项实时技术的主要贡献，则来自他合作的两位学弟。　　这篇论文的两个同等贡献的第一作者，分别是两位黄锃的博士一年级学弟李瑞龙、修宇亮。　　李瑞龙毕业于清华基础科学班，在清华获得了物理和数学学士学位，以及计算机科学硕士学位。　　修宇亮则毕业山东大学软件工程学院数字媒体技术专业，本科期间他还是专业第一，之后进入上海交大获得计算机硕士学位。　　至于黄锃自己，他在高中时就曾获得全国中学生物理奥赛金牌，进入上海交大 ACM 班就读后，本科四年均获奖学金，还顺便在数学建模美赛（MCM）上拿了个一等奖。　　本科期间，黄锃曾在微软亚洲研究院实习，师从首席研究员曾文军，参与机器学习、深度神经网络相关的科研课题中。　　 △ 曾文军，图源：微软亚洲研究院　　也是在这里，他开始深入地认识和掌握深度学习的核心概念和技巧，也开始认真思考机器学习的现状和发展。　　李瑞龙、修宇亮、黄锃均师从计算机图形学领域有名的黎颢教授，主要研究方向是结合几何处理和深度学习的虚拟人体重建。　　 △ 黎颢　　博士期间，黄锃曾在 Facebook 实习，共有 9 篇论文发表在论文顶会上，其中 SIGGRAPH 1 篇，ECCV 2 篇，CVPR 2 篇，ICCV 3 篇，ICLR 1 篇。　　黄锃最近的一项研究 ARCH ，则发表在 CVPR 2020 上，这项研究主要是关于穿着衣服人的 3D 可动画化重构。　　而黄锃最「出圈」的研究，是一项名为 PIFu 的 2D 图像转 3D 技术，在国外的社交媒体上被网友拿来模拟了各种 2D 物体图像。　　有日本网友利用 PIFu 的技术，将照片上的奥黛丽·赫本和坂本龙马「请」到了自己的家里。　　3D 的效果还是很不错的。（就是，黑白的图像看起来略有点阴森…）　　论文地址： https://arxiv.org/abs/2007.13988 　　视频介绍： https://www.bilibili.com/video/av753971174/ 　　黄锃个人主页： https://zeng.science/

来源：博客园

发布时间：2020-08-24 17:50:00

我扒了 37 篇硅谷用户增长大神 Andrew Chen 的 Blog，总结出这 8 点干货 | 数据分析网首页分�

本文作者：原子，微信公众号“原子的商业世界”（ID：OMGbusiness）。最近关注了一批硅谷的增长大牛，Andrew Chen 是其中之一。看了他的 blog 收获多多，总结了8点知识模块干货，分享给大家。阅读时给大家个小 tip：请关注他的推导过程，而非仅仅结论。一、Andrew Chen 是谁？ Andrew Chen 的博客专注创业、增长、设计等。增长黑客这个概念，就是因为2012年 Andrew 在他的博客上发表文章《增长黑客是新的营销副总裁》（《Growth Hacker is the new VP marketing》），从而引起业界广泛关注的。二、糟糕点击率法则（The Law of Shitty Clickthroughs）下面是 Andrew 举的一个真实的例子 —— 对比 1994 年 HotWired 和 2011 年 Facebook 的 banner 广告平均点击率： 1994 年 HotWired 点击率: 78% 2011 年 Facebook,点击率：0.05% 可以看到，整整差了 1500 倍！尽管造成这种差异的因素有很多，但基本的趋势是：banner 广告，电子邮件以及许多其他营销渠道的点击率每年都在减少。造成这个趋势的主要原因如下：创新事物吸引力递减。用户开始会对新事物产生兴趣，比如 HotWired 刚上线 banner 广告时，用户点击是为了体验，而当用户逐渐习惯这种广告形式时，就会逐渐忽视它。竞争对手冲击。往往某个营销手段奏效后，竞争对手会紧随其后。而每个个体的营销效果就会被削弱。后期用户质量下降。早期的用户，往往会主动使用产品，因此各方面指标（点击率、注册率、付费率等）表现也会比较出色。而占用户比例大部分的后期用户，往往表现得不那么积极，需要不断被影响，才会使用，因此营销策略的效率也会降低。但是大家并不必担心，因为新的营销渠道也在不断被发现，而这些新渠道往往表现更好。因此，想真正克服“ 糟糕点击率法则”，最有效的方法就是不断挖掘新的营销渠道。三、简化用户抛弃路径（Make users quit your product easily）按照正常逻辑，这一观点估计很多PM都会接受不了。毕竟，我们都想千方百计的“拖”住用户，让他们不能轻松地卸载产品、注销帐号、取消订阅。但是，Andrew 的这一观点背后的核心理念是：每一个初创企业都是一个向“产品/市场契合（product/market fit）”不断靠拢的迭代学习过程，需要非常高保真的信号来告诉你是否朝着正确的方向发展。先来解释一下“产品/市场契合”（product/market fit）。马克.安德森（对，就是投资了Facebook、Twitter、LinkedIn 等公司的那个硅谷教父）是这么说的：在朝“产品/市场契合”方向发展的迭代过程中，需要数据提供决策支持。数据越好，决策自然就越好。那么，问题来了，什么样的数据可以拿来衡量用户是否对你的产品满意呢？答案是：明确型数据。比如：进行了一次购买使用了一次搜索功能填写了表格等等而和其对应的，是暗示型数据，即：与购买人群具有相似的人口统计特征阅读和相似用户一样的内容等等相比于明确型数据，暗示型数据的价值要低得多。如果想收集数据来驱动决策，那最好使用明确型数据，不管它是积极的还是消极的。实际上，如果只关注积极数据，那有50%的数据就被忽略了，而这会阻碍你达到“产品/市场契合”。因此，我们应该“简化用户抛弃路径”。一句话：让暴风雨来得更猛烈些吧！四、梅特卡夫定律（Metcalfe’s Law）梅特卡夫定律是计算机网络先驱、3Com公司的创始人梅特卡夫提出的，该定律为：网络价值以用户数量的平方的速度增长。用公式表示，如果网络中总人数是n，网络价值是n×n=n²。其背后的含义是这样的：如果网络中的每个新节点与每个预先存在的节点连接，那么当你获得节点时，你就非线性地增加了每个人与其他人的连接数量。更深度的解释，可以看下图：随着网上用户的数量增加（N越大），网络的价值会加速增长，跟N2成正比；而用户获取成本是线性变化的，跟N成正比。达到某一个临界点后，价值将会远远超越成本。这个定律对于社交平台来讲，即是好事，又是坏事。当你的用户从100增长到200时，你的价值从10k上涨到40k，而反之亦然。因此，如何把握这个定律，是我们每个人都该思考的事情。五、上瘾的科学（The science of addiction）相信爱学习的大家已经知道不少让用户上瘾的奖励机制，比如货币奖励、等级激励、情感奖励等等。在这里，给大家讲一下 Andrew 更深入的分析。奖励机制可以分为以下4种：这 4 种奖励机制，效果结论如下：比例机制比间隔机制产生更多的用户回应率。变化机制比大多数固定机制产生更多的用户回应率。变化比例产生的用户回应率最高。（比如赌场里的老虎机）在设置用户奖励时，大家可以参考这个结论，相信你的效率会更高。六、“最小化可行产品”和“最小化期望产品”（MVP versus MDP）不同类型的公司会有不同的首要切入点——以业务为导向的公司会最先评估可行性，考虑指标、收入和市场规模；以技术为导向的公司会先研发一个核心技术，然后围绕它建立业务；以用户为导向的公司会先关注目标用户的背景和行为，并围绕这一点建立产品体验。因此，最小化可行产品（MVP）往往围绕着业务——用来验证其商业模式。比如，你可以测试着陆页的注册率、尝试预售商品等等。在产品里应当涉及价格和付款信息，因为它有助于评估产品的真实可行性。但是，如果是以用户为导向，就该建立“最小化期望产品（MDP）”，即：建立为用户提供高价值、高满意度用户体验所必需的最基本的产品。要建立 MDP，就需要交付产品体验的核心，而不是仅仅提供一个着陆页，这样才有助于用户全面评估你的产品。你要找出的是给用户提供价值的指标，而非转化率和收入。这里举几个“最小化可行产品”和“最小化期望产品”的例子。如果你建立了一个病毒式社交网络，有盈利但用户流失严重 —— 你建立的是MVP而非MDP。如果你建立的相亲网站能让很多用户以20美元/月的价格购买，但他们找不到合适的对象 —— 你建立的是MVP而非MDP。如果你制作了一款让你的朋友和家人喜爱并沉迷的棋盘游戏，但你无法让游戏公司分发它 —— 你建立的是MDP而非MVP。可以看出，到底是该建立“最小化可行产品”还是“最小化期望产品”，取决于你的核心模式。七、病毒性品牌与病毒性行动（Viral Branding versus Viral Action）病毒营销分为病毒性品牌与病毒性行动。 1、病毒性品牌一般说的病毒营销，其实就是病毒性品牌。也就是“做一件很酷的事，让大家都愿意去谈论它”。这样的例子有很多，比如：网易云音乐的“红色乐评列车” 新世相的“逃离北上广”和“地铁丢书大作战” 百雀羚的《一九三一》神长图网易云课堂和三联听周刊的分销海报这些现象级的病毒传播，需要足够的创意，因此可复制性较低，一般公司很难做到。 2、病毒性行动这个病毒营销方式就是深耕“产品”，也就是“做一些容易传播给别人的事情。” 在这种情况下，关注更多的是病毒传播的机制，而非传输的内容。对于许多产品而言，这意味着你需要让用户更高效地在社交媒体上传播你的信息。这类的例子也有很多，比如： YouTube给用户提供可以快速把视频复制粘贴到其他网站的代码。网易蜗牛阅读可以让用户直接把好句子保存成图片。得到可以生成带有用户昵称的邀请函。这些传播，依靠的并不是很酷的创意，他们是建立在产品内的，依靠的是自传播。八、产品死亡循环（The Product Death Cycle）可以看到，这个死亡循环一共有3步，下面我们就来详细了解下每一步： 1、没人使用产品对于初创产品来说，这个现象非常常见。面对这个困境采取的方法，有可能是使产品陷入死亡循环的开端。 2、向用户调研缺失的功能当你问用户“你觉得什么功能缺失？”时，就完全是用户导向而非有一个产品前瞻了，而这是个重大的错误。原因如下：已有用户的观点并不能代表更庞大的非使用用户群体，这些观点反而会误导你。产品的问题往往不单是功能的缺失，还有可能是定价过高、宣传不到位、或者定位不准等等。 3、上线缺失的功能如果寄希望于通过加上缺失的功能，就有用户来使用，那就大错特错了。产品和用户发生交互，是在最初用户的几次访问中，而这几次的交互关系至关重要，比如向用户展现“Aha moment”。上线缺失的功能，并不能替代用户体验最薄弱的环节。假设上线的功能就是解决核心体验，那就要看有没有提升整体UI流程，否则用户是不会买单的。想要打破“产品死亡循环”，就需要多问几个“Why”，比如“这足以影响用户体验么？还是仅仅是个很酷但却小众的功能？”只有这样，才能找到最根本的原因。而解决的方法也常常是一系列的：市场、定价、渠道、内容，甚至是战略等等。九、用户说“拜拜”的 25 个理由（25 exit points）社交产品中，用户生命周期可以分为以下5个阶段：下面就根据这5个阶段，告诉大家用户 say goodbay 的25个理由。 1、首次体验 “我不知道这个网站是干啥的” “这个网站不适合我” “颜色/设计/图标看起来怪怪的” “我已经用了X了” “我不想注册” 2、只有个别好友 “我没有时间去参与” “我很孤独，没有什么偶遇” “我忘记了密码” “我不知道如何与人交谈” “我仅仅每几个月才登陆一次” 3、有了更多好友 “这个网站上好多怪蜀黍” “我不认识的人总骚扰我” “我的朋友们，没有坚持用这个的”。 “我从这个网站收到的邮件太多了” “我只有3个朋友，好无聊” 4、好友数突破社交规模临界值 “这个网站占用了我太多的时间” “好友里有太多我不认识的人” “人们根据我的照片和事件跟踪我！” “发生了太多夸张的事情” “收到了太多通知” 5、成为大V “网站没有我真正需要的功能 X！“ “将要上线的功能Y会破坏这个网站生态！“ “我在网站上做了很多，但得不偿失。” “我很无聊，因为在网站里没事可做” “成为网站新手看起来更有趣” 最后，强烈推荐大家多关注硅谷创业和增长大神们，比如 Jack Dorsey、Neil Patel、Sean Ellis 等等。毕竟，他们都是在商业、增长领域早早完成“1万小时”练习的人。本文为专栏文章，来自：数据驱动增长，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/51631.html 。

来源：数据分析网

发布时间：2018-05-02 09:13:00

<上一页 2 3 4 5 6 7 8 9 10 11 12 下一页 >

咨询电话(周一至周五9：00-18：00)