大数据 (一)数据采集 3 - u011495642的博客 -CSDN 博客
时间: 2019-12-07来源:
原创
大数据(一)数据采集 3 2018-09-27 03:33:03 望隐少年 阅读数 4594 收藏 分类专栏: 大数据 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/u011495642/article/details/82861012 数据采集3: 关于pandas的函数都在官方API有写,哪个参数不会用首先应该去查这个 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.interpolate.html
 
-------------------------------------------------------------0---------------------------------------------------------------------
  1.df.interpolate() 插值函数(即填充空白值更平滑的方法,因为某些数据需要平滑过渡, 比如温度不能骤降或者骤升)
在数据采集2里面我们详解了fillna的用法,但是尽管它可以用前一个值或后一个值来填补相邻位置的空白值, df.fillna()这种填充往往是不合理的,比如说温度不能骤升骤降,的空白值显然是用两个点的平均值更合理。
 
(1) df.interpolate() 插值函数 取平均数
关于interpolate插值的用法,英文的值得参考: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.interpolate.html
它有很多参数,这里不一一列举, method 默认的话是线性插值 ,大家可能忘了线性插值了,就是用两点间的直线去近似原函数。所以两个相邻的点之间如果有NaN的话,这个NaN会被填补为两点的平均数。 method  : {‘linear’, ‘time’, ‘index’, ‘values’, ‘nearest’, ‘zero’,‘slinear’, ‘quadratic’, ‘cubic’, ‘barycentric’, ‘krogh’, ‘polynomial’, ‘spline’, ‘piecewise_polynomial’, ‘from_derivatives’, ‘pchip’, ‘akima’}
 
(2)df.interpolate(method = 'time' )  根据时间间隔来计算 使数值更平滑
df的index索引一定得是时间格式的,df它会查你的索引,这样就能计算出来时间差。
例如: 这样温度它也会按时间计算线性插值
 
-------------------------------------------------------------------- 1 ---------------------------------------------------------------------------------------- 2.如何处理 不可能出现的值(df.replace()或数据校验方法-->转化为NaN---> fillna()或interpolate()  ) 现在是有值,只是值不能用,那就需要先转化为空白值,再填充它。
  (1)df.replace()
有时候数据库里会用特别极端的值代替不可能出现的数据,我们需要通过df.replace() 来替换为NaN。
以下例子有5种用法,第1种替换单个值为NaN,第2种一次替换多个值为NaN,第3种按列替换为NaN
第4种 我可以对每一列用正则表达式(对整个表直接用regex很容易刷掉有效数据),比如说天气就不适合出现数字,年龄不适合出现字母。有这些内容的我都给它替换成NaN。
第5种,我不替换为NaN了,我替换成一个list,都给比较合理的值。 import numpy as np import pandas as pd df = pd.read_csv("~/weather_data.csv") # 1. Replace special values for the entire dataframe new_df = df.replace('-99999', np.NaN) new_df # 2. Replace multiple special values at one time for the entire dataframe new_df = df.replace(['-99999','-99991'], np.NaN) new_df # 3. columns new_df = df.replace({'temperature':'-9999','weather':'0'}, np.NaN) new_df # 4. regular expression (regex) new_df = df.replace({'temperature':'[A-Za-z]'},'weather':'[0-9]',regex = True) new_df # 5. Replace Values with a list of Values new_df = df.replace(['-99999','-99991'], ['35','7']) new_df (2)通过数据校验方法转化为NaN,这种方式更通用,覆盖面积更大。
  总结: 处理步骤: (1)通过【df.replace()或者数据校验】方法,将不符合要求的无效值标记为NaN。  (2)有了NaN值,就可以通过fillna()和interpolate()两种方法来填充NaN的值
 
-------------------------------------------------------------------- 2---------------------------------------------------------------------------------------- 3.如何处理Outliers(极端值)
极端值对数据整体的影响很大。
 
首先我们怎么 认定一个数据是极端值呢 ,有几种办法:
(1) 计算标准化值 z-value
公式:z=(x-μ)/σ,z就是standardized value,也叫z-value。
μ是指服从 正态分布 的随机变量的平均值,σ是标准差。
然后还有一个T作为阈值, 如果和标准化值的距离 大于这个阈值的话,就是极端值 。
(2) percentile 百分线: 我们划一条百分线,高于百分之多少我们就算它是极端值。
这种方式叫做percentile.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
其次我们怎么 替换(修正)极端值 :
(1)T*标准差+平均值
这意味着所有的outliers(翻译为野点或极端值)都是同一个值来替代
(2)选一个不超过percentile线的,但最接近percentile线的值。
意味着边界内最大值来替换边界外的值 
(3)删除所有极端值
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
再说如何 发现极端值的方法(其实和如何认定极端值是差不多的,只是加了个绝对中位差的方法) :
(1) MAD(Median Absolute Deviation) :绝对中位差 。
简单来说,绝对中位差较标准差而言对“野”点(outlier)更加的鲁棒(更加抗异常)。在标准差的计算中,数据点到其均值的距离要求平方,因此对偏离较为严重的点偏离的影响得以加重,也就是说 “野”点严重影响着标准差的求解,而少量的“野”点对绝对中位差的影响不大。
计算方法:
解释下这个公式的计算步骤,其实非常简单:
给一组原始数据,先计算所有数据的中位数 A,然后用原始数据的每个值和A做差,对差取绝对值之后再取一次中位数即可。
通过和绝对中位差比较,差的比较多的就是极端值,具体怎么规定的我还没有做过例子。
(2)Percentile
 
为了加深理解,现在实际动手做一下:
(1)percentile方式发现极端值的方法(注意percentile是numpy的方法,因为涉及到数值计算了) def percentile_based_outlier(data, threshold=95): diff = (100 - threshold) / 2.0 minval, maxval = np.percentile(data, [diff, 100-diff]) return (data < minval) | (data > maxval)
np.percentile(data,[x1,x2]) 意思是,这条线我划在 2.5%和97.5%,意思是在data这个list里 求2.5%和97.5%分别对应的数据,最后返回小于min和大于max的outlier。
运行结果:True的都是极端值
 
(2)MAD 绝对中位差方式
解释下这个函数,如果是一维数组(它用的len=1 所以是一维),points就给每个元素都加括号来提升维度。比如原来是一维8列,现在就变成8个一维数组,每个一维数组只有一列,实际上就是8行一列。shape[0]为8,shape[1]为1。
 
换成二维数组,我们就可以开始算中位数,0表示按列来算中位数。
中位数我们按列来算,因为要照顾一维数组转成二维数组的情况。每列都算出中位数之后,放到一个median数组里。
然后用points减去中位数的差,我们要求的是绝对值,所以他按照行来取平方再开方,就是绝对值了。这个绝对值再取中位数就可以得到绝对中位差。
然后我们用 T=0.6745*diff /绝对中位差   会获得一个值叫做Z-Score。Z分数还有另外一个计算公式,0.6745这个我反而没听说过,如果谁知道请告诉我一下,先不记了如果以后用会提到的。 def mad_based_outlier(points, thresh=3.5): if len(points.shape) == 1: points = points[:,None] median = np.median(points,axis=0) diff = np.sqrt(np.sum((points - median)**2,axis = -1)) med_abs_deviation = np.median(diff) modified_z_score = 0.6745 * diff / med_abs_deviation retrun modified_z_score > thresh v = mad_based_outlier(users['Age']) v = mad_based_outlier(np.array([34,345,1231,1245,43656,3434])) z分数(z-score): 也叫标准分数(standard score), 是一个分数与平均数的差再除以标准差的过程。 公式: z=(x-μ)/σ。其中x为某一具体分数, μ为平均数,σ为标准差。
 
~~~~~~~~~··~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·
插播:a是8行一列的二维数组。
axis=-1的作用,和axis=1并无区别,都是按照行来算的,这样的话相当于按行计算每一行的和,分别是0-7。所以最后输出的是一维数组。而axis=0则是按照列,所以最后加成了一个元素。而如果毫无方向的话,就是直接取元素了,加完也就没有维度了,直接是28。
 
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 
这里必须插播一下shape(维度)属性的解释:
shape属性是numpy.array特有的,只有通过np创建的数组才有shape属性。
在一维数组里,shape就代表一维数组的列数。
 
假如是一个包含3个二行三列的二维数组,shape的值就是[3,2,3] 其中shape[0]是二维数组个数,
shape[1]是二维数组行数,shape[2]是二维数组列数。
可以看到,shape[0]表示最外围的数组的维数,shape[1]表示次外围的数组的维数,数字不断增大,维数由外到内。
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~··
再插播: 从list, tuple对象中创建 - array() array()  - 创建多维数组。 np.array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)
object — list或tuple对象。强制参数。
dtype — 数据类型。可选参数。
copy — 默认为True,对象被复制。可选参数。
order — 数组按一定的顺序排列。C - 按行;F - 按列;A - 如果输入为F则按列排列,否则按行排列;K - 保留按行和列排列。默认值为K。可选参数。
subok — 默认为False,返回的数组被强制为基类数组。如果为True,则返回子类。可选参数。
ndmin — 最小维数。可选参数。
注:array函数的参数必须是由 方括号 括起来的列表,而不能使用多个数值作为参数调用array。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
我再插播:
没看懂  这一步,于是我就在jupyter上试了一下 if len(points.shape) == 1: points = points[:,None]
看起来是升数组维度的方法,但是没有None就达不到效果,和使用np.newaxis效果确一模一样,都起到了升维的作用。
· a[:, np.newaxis] # 给a最外层中括号中的每一个元素加[] a[np.newaxis, :] # 给a最外层中括号中所有元素加[] 我发现None放在前面和后面,效果都和np.newaxis完全一样。
·
 
但是,如果不加这个None的话,就不会升维度。
 
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·
关于:dtype https://blog.csdn.net/starter_____/article/details/79173303
属性dtype In [49]: arr=np.arange(5) In [50]: arr Out[50]: array([0, 1, 2, 3, 4]) In [51]: arr.dtype Out[51]: dtype('int32') 函数dtype( )
作用:结构化数组类型并加以使用
语法:numpy.dtype(object, align, copy) 参数 含义 Object 被转换为数据类型的对象。
Align 如果为true,则向字段添加间隔,使其类似 C 的结构体。
Copy 是否生成dtype对象的新副本,如果为flase,结果是内建数据类型对象的引用。
In [53]: np.dtype(np.int32) Out[53]: dtype('int32')
结构化数据类型 In [54]: student = np.dtype([('name','S20'), ('age', 'i1'), ('marks', 'f4')]) In [55]: print student [('name', 'S20'), ('age', 'i1'), ('marks', '<f4')]
将其应用于 ndarray 对象 In [56]: a = np.array([('abc', 21, 50),('xyz', 18, 75)], dtype = student) In [57]: print a [('abc', 21, 50.) ('xyz', 18, 75.)]
文件名称可用于访问 name,age,marks 列的内容 In [60]: print a['name'] ['abc' 'xyz'] In [61]: print a['marks'] [ 50. 75.] In [62]: print a['age'] [21 18] astype( )函数
作用:转换数据类型dtype In [66]: arr=np.arange(5) In [67]: arr.dtype Out[67]: dtype('int32') In [68]: float_arr=arr.astype(np.float64) In [69]: float_arr.dtype Out[69]: dtype('float64') In [70]: float_arr Out[70]: array([ 0., 1., 2., 3., 4.])
 
 
---------------------------------------------------------------------------------------------------------------------------------------------------------
回来了 ...把数据采集3补充完
——————————————————————————————-—————————————— 4. 元数据
元数据就是描述数据的数据,非结构化的数据结构化的过程,需要定义一些元数据,你得知道一个数据的格式,你才知道怎么用它。
元数据分类:
(1)技术元数据 Technical Metadata /Schema
一个数据有几个字段,每个字段叫什么,格式是什么,每个值的范围和限定。这些都是硬性的。
(2)业务元数据  Business Metadata 
除了数据的描述,还包含数据的归类、用法、业务上如何去用。(实际开发用的不多,但是数据搜索时有用,PB级大数据环境下 我根本不知道我的数据在哪个表里,如果可以基于业务元数据去搜索就容易很多。比如说找某个公司某个业务的数据)
我觉得这块听太多没意义,以后做项目都会用到的,大概了解即可。
——————————————————————————————————————
 
 
 
  文章最后发布于: 2018-09-27 03:33:03
展开阅读全文

发表评论 添加代码片 HTML/XML objective-c Ruby PHP C C++ JavaScript Python Java CSS SQL 其它 还能输入 1000 个字符
3 .1 数据 采集(一) - 数据 采集的步骤与方法
06-13 阅读数 5816 简介数据采集就是搜集符合数据挖掘研究要求的原始数据(RawData)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、... 博文 来自: Orange_Spotty_Cat的博客 大 数据 之 数据 采集
07-30 阅读数 7165 大数据之数据采集大数据体系一般分为:数据采集、数据计算、数据服务、以及数据应用几大层次。在数据采集层,主要分为日志采集和数据源数据同步。日志采集根据产品的类型又有可以分为:-浏览器页面的日志采集-客户... 博文 来自: 不止思考 大 数据 (一) 数据 采集 2
09-26 阅读数 918 每日牢骚:      写之前,先说两句题外话。第一是9月23日就想更新博客的,但是一直拖到现在,确实这两天有不可抗力。第二就是今天有个刺激,一个很不起眼的同事只学了三个月的机器学习就拿到了新浪的Off... 博文 来自: u011495642的博客 大 数据 采集技术综述
06-05 阅读数 1万+         近年来,以大数据、物联网、人工智能、5G为核心特征的数字化浪潮正席卷全球。随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的... 博文 来自: Master-TJ的个人博客 【 数据 采集】-目前比较流行的几种 数据 采集方式
02-12 阅读数 1万+ 总的来说目前互联网常用的数据采集分为APP采集和web端采集对于APP采集最常用的方式就是通过集成SDK,进行埋点采集对于这种方式,目前分为有无埋点采集,可视化埋点采集,手工埋点采集大类分别针对于:日... 博文 来自: 一步一脚印 大 数据 采集技术概述
06-25 阅读数 786 大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、... 博文 来自: 大数据基础学习 标准大 数据 采集系统 03-11
采集百度地图,搜狗地图,高德地图上全国各地商家信息,包括商家名称,电话,地址,根据条件限制搜索具体信息 下载 从入门到精通,Java学习路线导航(附学习资源)
09-16 阅读数 8327 引言最近也有很多人来向我"请教",他们大都是一些刚入门的新手,还不了解这个行业,也不知道从何学起,开始的时候非常迷茫,实在是每天回复很多人也很麻烦,所以在这里统一作个回复吧。Java学习路线当然,这里... 博文 来自: java_sha的博客 大 数据 学习(一、爬取 数据 )
05-01 阅读数 1068 开始我的大数据学习在将大数据的环境搭建好后,也是考虑到了一个问题那就是数据从哪里获取.我刚入手大数据也是没有数据的。推荐大家使用python自己学习爬虫爬取海量的数据进行分析....... 博文 来自: u011485916的博客 玩转大 数据 系列之一: 数据 采集与同步
01-02 阅读数 8 数据的采集和同步,是先将数据从设备、或者本地数据源采集、同步到阿里云上,然后在阿里云上对数据进行分析和处理,最终完成您的业务要求。本文向您介绍阿里云各产品的数据采集和同步的操作实战文章,您可以根据您使... 博文 来自: weixin_33907511的博客 一文读懂大 数据 平台——写给大 数据 开发初学者的话!
04-26 阅读数 6924 一文读懂大数据平台——写给大数据开发初学者的话! 文|miao君导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据... 博文 来自: starzhou的专栏 大 数据 实时采集系统
08-07 阅读数 1787 实时采集,我们采用flume框架,我们同样在windows上安装flume。1、到Apache的Flume官网(http://flume.apache.org/download.html)下载apac... 博文 对于大 数据 采集系统,主要分为哪三类系统?
04-04 阅读数 1296 一、系统日志采集系统。许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中... 博文 来自: 多智时代的博客 网络路由知识大全
07-10 阅读数 122 1、如果ping域名的时候出现ping:unknown host xxx.xxx但是ping IP地址的时候可以通的话可知是dns服务器没有配置好,查看一下配置文件/etc/resolv.conf,... 博文 来自: $好记性还是要多记录$ 学会了这些技术,你离BAT大厂不远了
08-26 阅读数 1704 每一个程序员都有一个梦想,梦想着能够进入阿里、腾讯、字节跳动、百度等一线互联网公司,由于身边的环境等原因,不知道 BAT 等一线互联网公司使用哪些技术?或者该如何去学习这些技术?或者我该去哪些获取这些... 博文 大 数据 采集平台的架构分析
01-15 阅读数 1101 随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:  Apache Flume  Fluentd  Logstash  Chukwa  Scribe  Splunk ... 博文 来自: 何成俭的博客 大 数据 概述及其生态圈(三) 数据 采集
09-07 阅读数 3038 本节主要讲解大数据技术中的数据采集技术。数据采集,顾名思义,就是从各种系统每天产生并存放在各类数据库,文件系统的数据,或者服务器每天产生各种日志文件,又或者是各种图像、音频、视频文件等,把相应的数据采... 博文 来自: m1213642578的专栏 面试官,不要再问我三次握手和四次挥手
10-08 阅读数 14万+ 三次握手和四次挥手是各个公司常见的考点,也具有一定的水平区分度,也被一些面试官作为热身题。很多小伙伴说这个问题刚开始回答的挺好,但是后面越回答越冒冷汗,最后就歇菜了。见过比较典型的面试场景是这样的:面... 博文 来自: 猿人谷 德国 IT 薪酬大揭秘!
10-06 阅读数 7951 作者 |德国IT那些事责编 | 伍杏玲“所有脱离工龄、级别、职位、经验、城市以及裙带关系来谈论工资,都是耍流氓!”——佛洛依德一般来说IT行业公司,资历是按等级划分的。级别越高,员工拥有的权力和承担的... 博文 来自: CSDN资讯 500行代码,教你用python写个微信飞机大战
10-16 阅读数 6万+ 这几天在重温微信小游戏的飞机大战,玩着玩着就在思考人生了,这飞机大战怎么就可以做的那么好,操作简单,简单上手。帮助蹲厕族、YP族、饭圈女孩在无聊之余可以有一样东西让他们振作起来!让他们的左手/右手有节... 博文 来自: Python专栏 别再翻了,面试二叉树看这 11 个就够了~
09-13 阅读数 7万+ 写在前边数据结构与算法:不知道你有没有这种困惑,虽然刷了很多算法题,当我去面试的时候,面试官让你手写一个算法,可能你对此算法很熟悉,知道实现思路,但是总是不知道该在什么地方写,而且很多边界条件想不全面... 博文 来自: 一个不甘平凡的码农 大 数据 抓取采集框架
07-14 阅读数 9514 大数据抓取采集框架随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的... 博文 来自: sunscheung的博客 史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
10-29 阅读数 6万+ 网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用... 博文 来自: 程序员宜春的博客 大 数据 — 数据 收集系统介绍(Flume,Sqoop)
08-29 阅读数 2123 概述大数据,数据收集是非常重要的一块知识体系。数据收集,一般会对不同的数据,拥有不同的手机方式,那么常见的数据来源有什么呢?非结构化数据。一般有用户访问日志、图片、视屏、网页等信息。半结构化数据。一般... 博文 来自: mapbar_front的博客 数据 采集-技术基础网站
07-30 阅读数 1077 http://www.site-digger.com/html/articles/ 博文 来自: 不抛弃、不放弃:Aaron莫言 不就是SELECT COUNT语句吗,竟然能被面试官虐的体无完肤
10-21 阅读数 2万+ 数据库查询相信很多人都不陌生,所有经常有人调侃程序员就是CRUD专员,这所谓的CRUD指的就是数据库的增删改查。在数据库的增删改查操作中,使用最频繁的就是查询操作。而在所有查询操作中,统计数量操作更是... 博文 来自: HollisChuang's Blog 一站式大 数据 平台,大 数据 采集技术方法
01-16 阅读数 204 数据储存技术、网络技术的迅猛发展,为大数据时代的到来准备了物质基础。物联网的本质就是更多采集数据的入口和节点;云计算培养了服务的商业模式和集中建设降低单位计算和存储成本。大数据在如此的社会背景下产生并... 博文 来自: weixin_44463136的博客 大 数据 采集
04-03 阅读数 4490 一、大数据的来源1.人类活动2.计算机3.物理世界二、大数据采集设备1.科研数据(1)大型强子对撞机(2)射电望远镜(3)电子显微镜2.网络数据我们可以利用数据中心采集网络中的数据。三、大数据采集方法... 博文 来自: tian16的博客 元 数据 管理系统解决方案及产品调研-数仓系列(一)
06-30 阅读数 9543 元数据管理系统产品选型分析1 概述 需要给目前数据仓库适用一套元数据管理系统,目的减少人为的维护工作量、web页面协同工作(多人统一入口使用)、元数据权限管理等 1.1 应用背景 目前数据仓库没有专业... 博文 来自: xiaohai798的专栏 大 数据 工程师面试题(七)
02-26 阅读数 3万+ 9.面试问题:1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂)2.hadoop的namenode宕机,怎么解决先分析宕机后的损失,宕机... 博文 来自: NLP学习者,通用人工智能实践者 我花了一夜用 数据 结构给女朋友写个H5走迷宫游戏
09-21 阅读数 20万+ 起因又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满!而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,... 博文 来自: bigsai 对计算机专业来说学历真的重要吗?
09-27 阅读数 12万+ 我本科学校是渣渣二本,研究生学校是985,现在毕业五年,校招笔试、面试,社招面试参加了两年了,就我个人的经历来说下这个问题。这篇文章很长,但绝对是精华,相信我,读完以后,你会知道学历不好的解决方案,记... 博文 来自: 启舰 六大主流大 数据 采集平台架构分析
03-27 阅读数 412 日志收集的场景DT时代,数以亿万计的服务器、移动终端、网络设备每天产生海量的日志。中心化的日志处理方案有效地解决了在完整生命周期内对日志的消费需求,而日志从设备采集上云是始于足下的第一步。随着大数据越... 博文 来自: weixin_34000916的博客 C语言实现推箱子游戏
09-29 阅读数 7万+ 很早就想过做点小游戏了,但是一直没有机会动手。今天闲来无事,动起手来。过程还是蛮顺利的,代码也不是非常难。今天给大家分享一下~一、介绍开发语言:C语言开发工具:Dev-C++ 5.11日期:2019年... 博文 来自: ZackSock的博客 如何优化MySQL千万级大表,我写了6000字的解读
10-21 阅读数 3万+ 这是学习笔记的第2138篇文章千万级大表如何优化,这是一个很有技术含量的问题,通常我们的直觉思维都会跳转到拆分或者数据分区,在此我想做一些补充和梳理,想和大家做一些这方面的经验总结,也欢迎大家提出建议... 博文 来自: 杨建荣的学习笔记 只要一小时,零基础入门Docker
12-22 阅读数 1729 Docker是什么?Docker是一个虚拟环境容器,可以将你的开发环境、代码、配置文件等一并打包到这个容器中,并发布和应用到任意平台中。比如,你在本地用Python开发网站后台,开发测试完成后,就可以... 博文 来自: 丝丝air的博客 10 个最难回答的 Java 问题
08-27 阅读数 451 1.为什么等待和通知是在 Object 类而不是 Thread 中声明的?一个棘手的 Java 问题,如果 Java编程语言不是你设计的,你怎么能回答这个问题呢。Java编程的常识和深入了解有助于回答... 博文 来自: aaa13268的博客 GitHub开源的10个超棒后台管理面板
09-21 阅读数 5万+ 目录1、AdminLTE2、vue-Element-Admin3、tabler4、Gentelella5、ng2-admin6、ant-design-pro7、blur-admin8、iview-ad... 博文 来自: 不脱发的程序猿 大 数据 (一) 数据 采集4(由于 数据 无法下载暂时未更新)
09-27 阅读数 71 每日牢骚:既然数据一晚上都没搞下来,如果坚持下去既浪费时间,又破坏继续学的心情,得不偿失。直接把视频的意思先看懂,然后先直接学下面的课了,别为了那一点一点知识把整个大数据的学习进度都破坏了。 ————... 博文 来自: u011495642的博客 爬虫小程序 - 爬取王者荣耀全皮肤
09-04 阅读数 1万+ 你也想要王者荣耀全皮肤吗? 博文 动态规划入门到熟悉,看不懂来打我啊
11-26 阅读数 1万+ 2.1斐波那契系列问题 2.2矩阵系列问题 2.3跳跃系列问题 3.1 01背包 3.2 完全背包 3.3多重背包 3.4 一些变形选讲 2.1斐波那契系列问题 在数学上,... 博文 从入门到精通,Java学习路线导航
11-12 阅读数 7万+ 引言 最近也有很多人来向我"请教",他们大都是一些刚入门的新手,还不了解这个行业,也不知道从何学起,开始的时候非常迷茫,实在是每天回复很多人也很麻烦,所以在这里统一作个回复吧。 Java学习路线 当然... 博文 如何优雅的爬妹子网
11-23 阅读数 1万+ from urllib import request import os from user_agents import ua_list import time import random impor... 博文 花了20分钟,给女朋友们写了一个web版群聊程序
11-28 阅读数 1万+ 参考博客 [1]https://www.byteslounge.com/tutorials/java-ee-html5-websocket-example 博文 Java入门学习路线目录索引(持续更新中)
10-08 阅读数 1万+ 新增: Redis 入门 【Redis缓存】- 入门——Redis介绍和环境搭建【Redis缓存】- Redis数据结构、基本命令操作、持久化【Redis缓存】- Java客户端Jedis Sp... 博文 程序员必须掌握的核心算法有哪些?
10-21 阅读数 8万+ 由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,... 博文 python 程序员进阶之路:从新手到高手的100个模块
10-23 阅读数 6万+ 在知乎和CSDN的圈子里,经常看到、听到一些 python 初学者说,学完基础语法后,不知道该学什么,学了也不知道怎么用,一脸的茫然。近日,CSDN的公众号推送了一篇博客,题目叫做《迷思:Python... 博文 Python——画一棵漂亮的樱花树(不同种樱花+玫瑰+圣诞树喔)
10-22 阅读数 5万+ 最近翻到一篇知乎,上面有不少用Python(大多是turtle库)绘制的树图,感觉很漂亮,我整理了一下,挑了一些我觉得不错的代码分享给大家(这些我都测试过,确实可以生成) one 樱花树 动... 博文 这应该是把计算机网络五层模型讲的最好是文章了,看不懂你打我
10-25 阅读数 2万+ 帅地:用心写好每一篇文章! 前言 天各一方的两台计算机是如何通信的呢?在成千上万的计算机中,为什么一台计算机能够准确着寻找到另外一台计算机,并且把数据发送给它呢? 可能很多人都听说过网络通信的 5 ... 博文 HTML CSS整理笔记
10-26 阅读数 2万+ 常见字体单位: 1.em 移动端常用的字体尺寸单位,说白em就相当于“倍”,比如设置当前的div的字体大小为1.5em,则当前的div的字体大小为:当前div继承的字体大小*1.5。 但当div进行嵌... 博文 史上最全的mysql基础教程
10-28 阅读数 2万+ 启动与停止 启动mysql服务 sudo /usr/local/mysql/support-files/mysql.server start 停止mysql服务 sudo /usr/loc... 博文 为什么你学不会递归?告别递归,谈谈我的经验
10-28 阅读数 4万+ 可能很多人在大一的时候,就已经接触了递归了,不过,我敢保证很多人初学者刚开始接触递归的时候,是一脸懵逼的,我当初也是,给我的感觉就是,递归太神奇了! 可能也有一大部分人知道递归,也能看的懂递归,但在实... 博文 有哪些让程序员受益终生的建议
10-28 阅读数 6万+ 从业五年多,辗转两个大厂,出过书,创过业,从技术小白成长为基层管理,联合几个业内大牛回答下这个问题,希望能帮到大家,记得帮我点赞哦。 敲黑板!!!读了这篇文章,你将知道如何才能进大厂,如何实现财务自... 博文 大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
10-28 阅读数 16万+ 大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频... 博文 linux系列之常用运维命令整理笔录
11-02 阅读数 1万+ 本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢... 博文 大学四年,我把私藏的自学「学习网站/实用工具」都贡献出来了
10-29 阅读数 8万+ 在分享之前,先说说初学者如何学习编程,这个话题想必非常的重要,要学好编程,给你一些学习网站也好、实用工具也好,但前提是你知道如何去学习它。 见过很多初学者,以及小鹿我刚开始学习的时候,也是自己瞎摸索,... 博文 中国麻将:世界上最早的区块链项目
10-29 阅读数 5万+ 中国麻将:世界上最早的区块链项目 最近区块链这个玩意又被市场搞的很是火热,相信大部分人都不太清楚这玩意到底是怎么样的一个概念,它来了,它来了,它到底是啥~ 国家都开始发文支持了,下面是一个通俗易懂的... 博文 比特币原理详解
10-29 阅读数 4万+ 一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是... 博文 Python 基础(一):入门必备知识
10-30 阅读数 2万+ Python 入门必备知识,你都掌握了吗? 博文 兼职程序员一般可以从什么平台接私活?
10-31 阅读数 7万+ 这个问题我进行了系统性的总结,以下将进行言简意赅的说明和渠道提供,希望对各位小猿/小媛们有帮助~ 根据我们的经验,程序员兼职主要分为三种:兼职职位众包、项目整包和自由职业者驻场。 所谓的兼职职位众... 博文 Ngrok: 超简单的内网穿透,了解一下 ?
10-31 阅读数 1万+ 【1】什么是内网穿透? 首先,我们生活中的网络从应用上可以分为内网和外网; 内网就是你自己的网络环境,就你自己能访问,比如你本地测试进行的localhost; 外网就不言而喻了,你看网页,视频等... 博文 反射全解
10-31 阅读数 1万+ 反射的概念 反射的引入: Object obj = new Student(); 若程序运行时接收到外部传入的一个对象,该对象的编译类型是Object,但程序又需要调用该对象运行类型的方法: ... 博文 死磕C语言指针
11-01 阅读数 1万+ 兜兜转转还是逃不过 C 语言,这该死的缘分。 先看一眼我的西野七濑 学习自:https://zhuanlan.zhihu.com/p/89121683 1 指针 1.1 指针是乜嘢 指针... 博文 Python十大装B语法
11-02 阅读数 7万+ Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并... 博文 数据库优化 - SQL优化
11-01 阅读数 1万+ 从一个示例入手,带你一步一步掌握SQL优化的技巧! 博文 送给单身猿们的表白神器
11-07 阅读数 1万+ 问天下男生,有谁想单身?又有谁想单身一辈子? 虽然本人也是单身狗,但是也是有一个远大的理想,哈哈,大白天的我又开始做梦了 原网址:http://wfhuang.coding.me/LoveJuan... 博文 python学习目录
11-07 阅读数 2万+ 这是我学习python的一套流程,从入门到上手 一、Python入门、环境搭建、变量、数据类型 二、Python运算符、条件结构、循环结构 三、Python函数 四、做一次综合练习,做一个控制台... 博文 刷了几千道算法题,这些我私藏的刷题网站都在这里了!
11-08 阅读数 3万+ 遥想当年,机缘巧合入了 ACM 的坑,周边巨擘林立,从此过上了"天天被虐似死狗"的生活… 然而我是谁,我可是死狗中的战斗鸡,智力不够那刷题来凑,开始了夜以继日哼哧哼哧刷题的日子,从此"读题与提交... 博文 JavaScript 为什么能活到现在?
11-08 阅读数 7996 作者 | 司徒正美 责编 |郭芮 出品 | CSDN(ID:CSDNnews) JavaScript能发展到现在的程度已经经历不少的坎坷,早产带来的某些缺陷是永久性的,因此浏览器才有禁用Ja... 博文 别翻了,这篇文章绝对让你深刻理解java类的加载以及ClassLoader源码分析【JVM篇二】
12-01 阅读数 1万+ 点进文章的盆友不如先来做一道非常常见的面试题,如果你能做出来,可能你早已掌握并理解了java的类加载机制,若结果出乎你的意料,那就很有必要来了解了解java的类加载机制了。代码如下嗯哼?其实上面程序并... 博文 项目中的if else太多了,该怎么重构?
11-11 阅读数 2万+ 介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if... 博文 Nginx 原理和架构
11-09 阅读数 7060 Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx... 博文 致 Python 初学者
11-13 阅读数 5万+ 欢迎来到“Python进阶”专栏!来到这里的每一位同学,应该大致上学习了很多 Python 的基础知识,正在努力成长的过程中。在此期间,一定遇到了很多的困惑,对未来的学习方向感到迷茫。我非常理解你们所... 博文 你真的了解RESTful API吗?
11-11 阅读数 6828 前不久,在网上看到一个段子,一个码农去面试,面试官问什么是RESTful API,这看似一个很简单的常识问题,码农却哑巴了。下面来看一下他们的对话: 面试官:了解RESTful吗? 我:听说过。 面试... 博文 YouTube排名第一的励志英文演讲《Dream(梦想)》
11-12 阅读数 1万+ Idon’t know what that dream is that you have, I don't care how disappointing it might have been as y... 博文 “狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
11-13 阅读数 4万+ 一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作... 博文 程序员:我终于知道post和get的区别
11-14 阅读数 4万+ 是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎... 博文 Java世界最常用的工具类库
11-20 阅读数 1万+ Apache Commons Apache Commons有很多子项目 Google Guava 参考博客 博文 程序员把地府后台管理系统做出来了,还有3.0版本!
11-17 阅读数 3万+ 第一幕:缘起 听说阎王爷要做个生死簿后台管理系统,我们派去了一个程序员…… 996程序员做的梦: 第一场:团队招募 为了应对地府管理危机,阎王打算找“人”开发一套地府后台管理系统,于是... 博文 python json java mysql pycharm android linux json格式 c# ef通用数据层封装 c# queu task c# timeout单位 c#中indexof(c c#常量定义规则 c#发送按键 c#记住帐号密码 c#mvc框架搭建 c#改变td值 c#怎么读取html文件 没有更多推荐了, 返回首页
©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 望隐少年 TA的个人主页 > 私信 关注 原创 140 粉丝 90 获赞 59 评论 24 访问 21万+ 等级: 周排名: 1万+ 积分: 3730 总排名: 1万+ 勋章: 持之以恒
授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累! 1024勋章
#1024程序员节#活动勋章,当日发布原创博客即可获得

最新文章 chrome自动代理检测(这玩意并没什么用,还会影响你访问某些网页) 日记---2019.3.11 14场分析 物理机ping不通虚拟机 解决Linux系统下,出现“不在sudoers文件中,此事将被报告”的问题
分类专栏 反思 1篇 java 7篇 web 9篇 大数据 6篇
归档 2019年4月 1篇 2019年3月 3篇 2019年2月 2篇 2019年1月 2篇 2018年12月 18篇 2018年11月 78篇 2018年10月 44篇 2018年9月 7篇 2018年7月 1篇 2018年6月 9篇 2018年5月 9篇 2018年4月 6篇 2018年3月 37篇 2018年2月 7篇 2018年1月 2篇 展开
热门文章 Beeline连接报错:Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000/default
阅读数 7891 如何学习大数据!!我要做大数据!
阅读数 7491 为什么linux安装程序 都要放到/usr/local目录下
阅读数 7237 Seafile深入学习(十五)之 服务器配置文件总结
阅读数 7164 查看集群基本情况(重要)!! 查看hadoop集群有多少节点(hdfs fsck /)
阅读数 7061
最新评论 Hive Explain(quer...
weixin_45278353: 请问这是用的zeepline吗?怎么调试出来这个执行计划的,谢谢! mvn package打一个jar包
Tong_gold: 可以具体一点吗 最好有图片 Beeline连接报错:Could...
qq_44600331: 曹泥嘛就很有灵心了。 感觉到了你深深的无奈 解决HMaster启动后几秒之内马...
qq_37813043: 说了一堆废话 如何学习大数据!!我要做大数据!
weixin_43059285: 叼


点赞 取消点赞
0 海报
分享海报说明 评论
目录
收藏 手机看 上一篇 下一篇 更多 上一篇 下一篇 打赏
打赏 望隐少年
“你的鼓励将是我创作的最大动力” 5C币 10C币 20C币 50C币 100C币 200C币 确定

分享到微信朋友圈 ×
扫一扫,手机浏览

热门排行