9个机器学习算法常见距离计算公式
发布网友
发布时间:2024-10-23 11:26
我来回答
共1个回答
热心网友
时间:3分钟前
学习目标1 欧式距离(Euclidean Distance):
直观而言,这是衡量两点在空间中直线距离的最常见方式,我们从小学到高中接触到的两点距离计算多基于此。
举例:
曼哈顿距离(Manhattan Distance):
实际驾驶在曼哈顿街区从一个十字路口到另一个十字路口的总距离,即为“曼哈顿距离”,亦称“城市街区距离”。
举例:
切比雪夫距离 (Chebyshev Distance):
国际象棋中,国王从格子(x1,y1)移动到格子(x2,y2)最少需要的步数即为切比雪夫距离。
举例:
闵可夫斯基距离(Minkowski Distance):
定义为一组距离度量公式的概括性表达。两个n维变量间距离的计算基于参数p,其中p决定了距离的具体形式。当p=1时,为曼哈顿距离;p=2时,为欧式距离;当p趋向无穷大时,切比雪夫距离。
小结:
1. 闵氏距离包括了曼哈顿距离、欧式距离和切比雪夫距离,但存在缺点:在不同单位的量纲处理上不加区分,且未考虑各量的不同分布。
标准化欧氏距离 (Standardized Euclidean Distance):
改进方法,通过标准化各维度的分布,解决上述问题。
举例:
余弦距离(Cosine Distance):
通过比较两向量的方向差异衡量其相似度,范围在[-1,1],余弦值越接近1表示向量方向越一致。
举例:
汉明距离(Hamming Distance):
衡量两个等长字符串之间的差异,通过计算最少的替换次数。在信息编码等领域有应用。
举例:
杰卡德距离(Jaccard Distance):
衡量两个集合的区分度,基于它们的交集与并集的比例。
举例:
马氏距离(Mahalanobis Distance):
考虑样本间的协方差,排除量纲差异,衡量样本间的相似度,与欧式距离相比更加全面。
举例:
小结:
马氏距离考虑了变量间的相关性,且量纲无关。在计算两个样本集间的相似度时,它能更准确地反映出差异。