JAVA高级面试进阶训练营视频教程

admin · 发表于 2021-4-19 10:59:04

异常值概念：是指那些远离正常值的观测，即“不合群”观测。异常值的出现一般是人为的记录错误或者是设备的故障等，异常值的出现会对模型的创建和预测产生

严重的后果。当然异常值也不一定是坏事，有些情况下，通过寻找异常值就能够给业务带来良好的发展，如销毁“钓鱼”网站，关闭“薅羊毛”用户的权限等。

异常值的判定方法：

1.n个标准差法

2.箱线图法

标准差法，就是用以样本均值+样本标准差为基准，如果样本离平均值相差2个标准差以上的就是异常值

箱线图法：以上下四分位作为参考， x > Q3+nIQR 或者 x < Q1 - nIQR 简单地理解，就是如果样本值不在上下四分位+标准差范围内，就是异常值

两种异常值判定是，如数据近似服从正态分布是，优先选择n个标准差法，因为数据的分布相对比较对称：否则优先选择箱线图法，因为分位数并不会受极端值的影响。

异常数据处理方法：

1.删除法（前提是异常观测的比例不能太大）

2.替换法（可以考虑使用低于判别上下限的最大值或最小值，均值或中位数替换等）

python处理异常值实例：

原数据（部分）：

代码：

import pandas as pd
sunspots = pd.read_table(r'D:\sunspots.csv',sep = ',')
xbar = sunspots.counts.mean()
xstd = sunspots.counts.std()
print('标准差法异常值上限检测:\n',any(sunspots.counts > xbar + 2 * xstd))
print('标准差法异常值下限检测:\n',any(sunspots.counts < xbar - 2 * xstd))

#异常值箱线图法
Q1 = sunspots.counts.quantile(q = 0.25)
Q3 = sunspots.counts.quantile(q = 0.75)
IQR = Q3 -Q1
print('箱线图法异常值上限检测:\n',any(sunspots.counts > Q3 + 1.5*IQR))
print('箱线图法异常值下限检测:\n',any(sunspots.counts < Q1 - 1.5*IQR))

out:

如上结果所示，不管是标准差检验法还是箱线图法，都发现太阳黑子数据中存在异常值，而且异常值都是超过上限临界值的。接下来，通过绘制太阳黑子数量的直方图和核密度曲线图，用于检测数据是否近似服从正态分布，进而选择一个最终的异常值判别方法：

import matplotlib.pyplot as plt
plt.style.use('ggplot')
sunspots.counts.plot(kind='hist',bins = 30,density = True)
sunspots.counts.plot(kind='kde')
plt.show()

如上图所示，不管是直方图还是核密度曲线，所呈现的数据分布形状都是有偏的，并且属于右偏。基于此，这里选择箱线图法来判定太阳黑子数据中的那些异常值。接下来要做的就是选用删除法或替换法来处理这些异常值，删除法就跟上篇我们讲过的一样处理方式，下面介绍一下替换法，即使用上限下限的最大最小值来替换，代码如下：(接异常值检测部分代码)

print('异常值替换前的数据统计特征：\n',sunspots.counts.describe())
UL = Q3 + 1.5 * IQR
print('判别异常值的上限临界值:\n',UL)
replace_vaule = sunspots.counts[sunspots.counts < UL].max()
print('用以替换异常值的数据:\n',replace_vaule)

sunspots.counts[sunspots.counts > UL] = replace_vaule
print('异常值替换后的数据统计特征：\n',sunspots.counts.describe())

out：

经过判别异常值，得知，如果一年内太阳黑子超过 148.85时即为异常值年份，对于这些年份的异常值使用141.7替换。

本篇知识导图：

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶训练营视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万大数据入门到精通学习路线	年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

pandas - 异常值处理

浏览过的版块