考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

孤立森林(Isolation Forest)是一种基于树的无监督异常检测算法。不同于寻找这种“叶子纯度最高”的划分,它通过随机选择特征和切分点来切割数据。对于一个待检测样本,通过其在树中的“平均路径长度”(Average Path Length)来判断是否异常。以下关于路径长度与异常评分的说法,正确的是:
A. 路径越长,说明该样本越难被隔离,因此越可能是异常点(Outlier)。
B. 孤立森林构建的是完全二叉树,所有样本的路径长度在期望上是相等的,差异主要来自随机性。
C. 路径长度与异常程度无关,主要看落入的叶子节点中包含的训练样本数量。
D. 路径越短,说明该样本只需极少的切分就能被孤立,因此越可能是异常点(Outlier)。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

孤立森林的核心直觉是:“异常点是疏离的(Isolated)”。 正常样本通常密集聚集,需要经过很多次随机切割才能将其与其他点分开(路径长);而异常点通常远离密集区域,可能只需要随机切一两刀(Root -> Split -> Leaf)就独立成为一个叶子节点(路径短)。因此,期望路径长度 E(h(x)) 越小,异常评分(Anomaly Score)越高。考察对特定树模型(非梯度提升类)决策路径物理含义的理解。