【机器学习光速入门】
前言在正式开始做 “异常新闻检测” 的科研训练之前,需要机器学习、深度学习有一定基础
为此,打算先做一个快速入门,在对所学知识有一定了解之后,再回头补一些基础的理论性较强的知识
该笔记作于 《2018年3天快速入门python机器学习【黑马程序员】》的观看学习过程中
一、特征工程0. 梗概
1. sklearnScikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一。
简单高效的数据挖掘和数据分析工具
可供大家在各种环境中重复使用
建立在 NumPy ,SciPy 和 matplotlib 上
开源,可商业使用 - BSD许可证
Scikit-learn is an open source machine learning library that supports supervised and unsupervised learning. It also provides various tools for model fitting, data preprocessing, model selection and eva ...
【机器学习】异常检测:PyOD库中的算法
一. PyOD概览1. 简介PyOD 是一个全面的、可扩展的 Python 工具包,用于检测多变量数据中的异常对象,是当下最流行的Python异常检测工具库。
这一检测过程通常被称为离群点检测或异常检测。
PyOD 库包含了超过 30 种异常检测算法,具体常用算法如下:
分类
缩写
全称
线性模式
PCA
Principal Component Analysis
线性模型
MCD
Minimum Covariance Determinant
线性模型
OCSVM
One-Class Support Vector Machines
基于近邻
LOF
Local Outlier Factor
基于近邻
kNN
k Nearest Neighbors
基于近邻
HBOS
Histogram-based Outlier Score
基于概率
ABOD
Angle-Based Outlier Detection
异常集成
IForest
Isolation Forest
异常集成
Feature Bagging
Github地址: pyod
文 ...
【机器学习】2021异常检测顶会论文一览
本文整理了 2021 年AAAI、ICML等顶会收录的异常检测领域的论文
论文整合网站 paperdigest
AAAI 2021 Accepted-Paper-List
ICML 2021 Accepted-Paper-List
ICLR 2021 Accepted-Paper-List
paper
source
author
LREN: Low-Rank Embedded Network for Sample-Free Hyperspectral Anomaly Detection
AAAI
Kai Jiang, Weiying Xie, Jie Lei, Tao Jiang, Yunsong Li
GAN Ensemble for Anomaly Detection
AAAI
Xiaohui Chen, Xu Han, Liping Liu
Anomaly Attribution with Likelihood Compensation
AAAI
Tsuyoshi Ide, Amit Dhurandhar, Jiri Navratil, Moninder ...
【机器学习】异常检测文献阅读:基于K-Means的IForest
本文梳理论文 《K-Means-based isolation forest》
希望通过梳理这篇论文理清思路,以便获得启发
论文地址:https://www.sciencedirect.com/science/article/pii/S0950705120301064#tbl1
1 摘要异常处理是数据科学领域中的重要问题,然而现有的异常检测模型还都有待提高:
不够高效
只能应用于单一领域
以非直觉(nonintuitive)的方式运行
在这篇论文中,我们对经典的 Isolation Forest 进行了分析,并且在它的基础上提出了基于 K-Means 的 IFoest
该方法的优点:
高效检测各种类型的异常值
使用户直观确定所分析数据集中单个样本的异常分数
能够在决策树构件的步骤中拟合数据
2 预备知识2.1 K-Means2.1.1 算法描述:k-means 算法是无监督学习领域最为经典的算法之一。
在数据中选取多个点作为初始化的样本中心,所有样本选择距离自己最近的样本中心进行聚类,并在新生成的类中依据类中样本间的距离重新选择样本的样本中心,选择好新的样本中心后再根据所有 ...
【机器学习】异常检测文献阅读:IsolationForest拓展
本文梳理基于 Isolation Forest(IF)的若干拓展算法
关于 IF 的相关知识我在之前的文章【机器学习】异常检测文献阅读:关键算法篇 中进行了梳理
Extended Isolation Forest
论文地址:https://ieeexplore.ieee.org/document/8888179
GitHub:https://github.com/sahandha/eif
Rotated Isolation Forest
论文地址:https://ieeexplore.ieee.org/document/9177718
Fuzzy Set-Based Isolation Forest
论文地址:https://ieeexplore.ieee.org/document/9177718
Efficient Anomaly Detection by Isolation Using Nearest Neighbour Ensemble
论文地址:https://ieeexplore.ieee.org/document/7022664
1 Ex ...
【机器学习】基于深度学习的异常检测概览
1 深度异常检测分类
1.1 Deep learning for feature extraction
Assumptions
Advantages
Disadvantages
Deep learning for feature extraction
深度学习模型提取的特征保留了有助于区分异常实例与正常实例的具有辨识性的信息
1. 可用大量最新和现成的深度学习模型 2. 可以提供强大的降维功能 3. 易于实现
1. 特征提取和异常评分脱节 2. 预训练的深度模型仅限于特定类型的数据
1.2 Learning feature representations of normality
Assumptions
Advantages
Disadvantages
AE(AutoEncoders)
正常实例比异常实例更易在被压缩的空间中重建
1. 简单易懂,适用于不同的数据类型 2. 可以利用多种不同类型的强大 AE 变体进行异常检测
1. 训练数据中的不规则性(infrequent regularities)和异常值本身的存在可能会影响所学习到的特征表示 ...
【机器学习】异常检测文献阅读:概览和综述篇
在科研训练老师的推荐下,选择走上这条未知的道路——NLP,更具体一点又或者是文档中的异常检测(Outlier Detection)。
前几天看到阿里达摩院的青橙奖颁布全程记录的视频,心中似乎、可能、大概对科研有了那么一丢丢兴趣。也看到一个关于本科生、研究生、博士生学习区别的视频,视频中假设人类全部已知的知识在一个有固定半径的圆内,本科生便是对圆内一个方向进行探索,研究生可以接触到这个方向的边界,博士生则是努力把这个方向的圆往外括出一个小凸点。
若不必苦于为生计东奔西走,用十年、用一生去解决一个问题,去探索一片未知领域,去拓宽人类的知识边界,又何尝不是一件值得去做的事情呢?
感谢老师能够提供相关的指导,为我用心整理了出一些需要研读的文献。这个系列文章就是为了记录 OD文献 阅读过程中的所学、所思、所想……
1. A Survey of Outlier Detection Methodologies.1.1 Article
Paper Title
Venue
Year
Author
Materials
A survey of outlier detection methodo ...
【机器学习】异常检测文献阅读:关键算法篇
1 k-NN2 LOF(Local Outlier Factor)2.1 Article
Abbreviation
Paper Title
Venue
Year
Author
Materials
LOF
LOF: identifying density-based local outliers
ACM SIGMOD Record
2000
Markus M. Breunig、Hans-Peter Kriegel、Raymond T. Ng、Jörg Sander
PDF
2.2 AimIn this paper, we contend that for many scenarios, it is more meaningful to assign to each object a degree of being an outlier. This degree is called the local outlier factor (LOF) of an object.
2.3 Key Notes
Definition 1: (Hawkins-Outlier)
An o ...
【服务器购买及部署】初识服务器
第一次相遇
……
很高兴认识你!
服务器必知整个服务器就相当于是一个远程的Linux电脑
为什么要有一个自己的服务器
作为敲代码为生的程序员,写博客是日常,可以记录不断增长的技术栈和学习开发过程中遇到的各种问题,这时候就需要将自己的博客网站部署到服务器上
发布自己的项目
熟练Linux操作(联系Linux命令行操作的好方法)
将自己的远程仓库、远程数据库、远程tomcat等等搭载在服务器上
……
如何购买服务器阿里云了解一下:https://cn.aliyun.com/
云服务器一般都很贵,动辄上千上万一年
啊?家里有矿啊
那没事了
还可以考虑一下两种购买方式:
学生机
要求:是在校学生/年龄在24岁以下,没错就是我了hhh
1.在阿里云首页直接搜索学生机
2.一年也就114,也就是差不多一年黄钻或者QQ会员的价钱!相对来说便宜了好多!(做QQ的贵族不如做程序员中的贵族)
两种套餐对比:
公网宽带对比宽带方面轻量应用服务器5M峰值宽带,而ECS云服务器只有1M;但是轻量应用服务器是限制流量的,每月100 ...
【数据结构与算法】树:平衡二叉树
为什么需要平衡二叉树?
首先我们思考一个问题,为什么要学习平衡二叉树(AVL),是二叉排序树(BST)不香嘛?
哎,确实,确实不香。
二叉排序树存在一个致命缺点,如下图所示这种情况:
emmmm,这确实也是一个二叉排序树,但是乍一看,害,这不整一条链表过来装树嘛!
在这种情况下,二叉排序树退化成一条链表
链表的特点是什么?(给你三秒种反应)
3
2
1
对了!增删快、查找慢,这与我们建立二叉排序树的初衷相悖
为此,我们引入了今天的主角,平衡二叉树(Self-balancing binary search tree)!
基本介绍
平衡二叉树也叫平衡二叉搜索树,又被称为AVL树,可以保证查询效率较高
具有以下特点:
是一颗空树或左右两个子树的高度差的绝对值不超过1
左右两个子树都是一颗平衡二叉树
平衡二叉树的实现方法:红黑树(HashMap、TreeMap底层都有用到)、AVL、替罪羊树、Treap、伸展树
应用实例每当 平衡二叉树满足:$$|rightHeight() - leftHeight()| > 1$$时,不再是一颗平衡二叉树,需要进行旋转操作使其恢复平衡。 ...