作者:刘子豪,李凌,叶枫 单位:四川省计算机学会;中国科学院成都分院 出版:《计算机应用》2019年第02期 页数:5页  (PDF与DOC格式可能不同) PDF编号:PDFJSJY2019020230 DOC编号:DOCJSJY2019020239 下载格式:PDF + Word/doc 文字可复制、可编辑
  • 为了高效地从海量的水文传感器数据中检测出异常值,提出一种基于SparkR的水文时间序列异常检测方法。首先,对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型(ARIMA)在SparkR平台上进行预测;然后,对预测的结果计算置信区间,将在区间范围以外的判定为异常值;最后,基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估。以在滁河获取的水文传感器数据为实验数据,分别在运行时间和异常值检测效果这两个方面进行了实验。结果显示:利用SparkR对百万级数据进行计算时,利用双节点计算的时间要长于单节点;但是对千万级数据进行计算时,双节点比单节点计算时间上更少,最多减少了16. 21%,且评估过后的灵敏度由之前的5. 24%提高到了92. 98%。实验结果表明,在SparkR下,根据水文数据的特点并结合预测检验和聚类校验的方法对千万级水文时间序列进行检测时,能有效提高传统方法的计算效率,并且在灵敏度方面相比传统方法也有显著提升。

    提示:百度云已更名为百度网盘(百度盘),天翼云盘、微盘下载地址……暂未提供。