财讯中国

人工智能之K近邻算法(KNN)

来源:网络 2021-12-27 19:56:23

前言:人工智能机器学习有关算法内容,请参见公众号“科技优化生活”之前相关文章。人工智能之机器学习主要有三大类:1)分类;2)回归;3)聚类。今天我们重点探讨一下K近邻(KNN)算法。 ^_^

K近邻KNN(k-Nearest Neighbor)算法,也叫K最近邻算法,1968年由 Cover 和 Hart 提出,是机器学习算法中比较成熟的算法之一。K近邻算法使用的模型实际上对应于对特征空间的划分。KNN算法不仅可以用于分类,还可以用于回归。

KNN概念:

K近邻算法KNN就是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K近邻算法使用的模型实际上对应于对特征空间的划分。

通俗地讲,就是“物以类聚,人以群分”。

分类策略,就是“少数从属于多数”。

算法描述:

KNN没有显示的训练过程,在测试时,计算测试样本和所有训练样本的距离,根据最近的K个训练样本的类别,通过多数投票的方式进行预测。具体算法描述如下:

输入:训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)},其中xi∈Rn,yi∈{c1,c2,...,cK}和测试数据x

输出:实例x所属的类别

1) 根据给定的距离度量,在训练集T中找到与x距离最近的k个样本,涵盖这k个点的x的邻域记作Nk(x)。

2)在Nk(x)中根据分类规则(如多数表决)确定x的类别y:

核心思想:

当无法判定当前待分类点是从属于已知分类中的哪一类时,依据统计学的理论看它所处的位置特征,衡量它周围邻居的权重,而把它归为到权重更大的那一类中。

kNN的输入是测试数据和训练样本数据集,输出是测试样本的类别。

KNN算法中,所选择的邻居都是已经正确分类的对象。KNN算法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

算法要素:

KNN 算法有3个基本要素:

1)K值的选择:K值的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用,但容易发生过拟合;如果 K 值较大,优点是可以减少学习的估计误差,但缺点是学习的近似误差增大,这时与输入实例较远的训练实例也会对预测起作用,使预测发生错误。在实际应用中,K 值一般选择一个较小的数值,通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时,误差率不会超过贝叶斯误差率的2倍,如果K也趋向于无穷,则误差率趋向于贝叶斯误差率。

2)距离度量:距离度量一般采用 Lp 距离,当p=2时,即为欧氏距离,在度量之前,应该将每个属性的值规范化,这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。

对于文本分类来说,使用余弦(cosine)来计算相似度就比欧式(Euclidean)距离更合适。

3)分类决策规则:该算法中的分类决策规则往往是多数表决,即由输入实例的K个最临近的训练实例中的多数类决定输入实例的类别。

算法流程:

1)准备数据,对数据进行预处理。

2)选用合适的数据结构存储训练数据和测试元组。

3)设定参数,如K。

4)维护一个距离由大到小的优先级队列(长度为K),用于存储最近邻训练元组。随机从训练元组中选取K个元组作为初始的最近邻元组,分别计算测试元组到这K个元组的距离,将训练元组标号和距离存入优先级队列。

5)遍历训练元组集,计算当前训练元组与测试元组的距离,将所得距离L与优先级队列中的最大距离Lmax。

6)进行比较。若L>=Lmax,则舍弃该元组,遍历下一个元组。若L

7)遍历完毕,计算优先级队列中K个元组的多数类,并将其作为测试元组的类别。

8)测试元组集测试完毕后计算误差率,继续设定不同的K值重新进行训练,最后取误差率最小的K值。

算法优点:

1)KNN从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。

2)由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

3)算法本身简单有效,精度高,对异常值不敏感,易于实现,无需估计参数,分类器不需要使用训练集进行训练,训练时间复杂度为0。

4)KNN 分类的计算复杂度和训练集中的文档数目成正比,即,如果训练集中文档总数为n,那么KNN的分类时间复杂度为O(n)。

5)适合对稀有事件进行分类。

6)特别适合于多分类问题(multi-modal),对象具有多个类别标签,kNN比SVM的表现要好。

算法缺点:

1)当样本不平衡时,样本数量并不能影响运行结果。

2)算法计算量较大;

3)可理解性差,无法给出像决策树那样的规则。

改进策略:

KNN算法因其提出时间较早,随着其他技术的不断更新和完善,KNN算法逐渐显示出诸多不足之处,因此许多KNN算法的改进算法也应运而生。算法改进目标主要朝着分类效率和分类效果两个方向。

改进1:通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。

改进2:将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比(1/d),即和该样本距离小的邻居权值大,称为可调整权重的K最近邻居法WAKNN(weighted adjusted K nearestneighbor)。但WAKNN会造成计算量增大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

改进3:事先对已知样本点进行剪辑(editing技术),事先去除(condensing技术)对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

考虑因素:

实现 K 近邻算法时,主要考虑的因素是如何对训练数据进行快速 K 近邻搜索,这在特征空间维数大及训练数据容量大时是非常必要的。

应用场景:

K 近邻算法应用场景包括机器学习、字符识别、文本分类、图像识别等领域。

结语:

K近邻算法KNN,也叫K最近邻算法,是机器学习研究的一个活跃领域。最简单的暴力算法,比较适合小数据样本。K近邻算法使用的模型实际上对应于对特征空间的划分。KNN算法不仅可以用于分类,还可以用于回归。KNN算法在人工智能之机器学习、字符识别、文本分类、图像识别等领域有着广泛应用。

关键词: 人工智能 KNN

相关新闻

走安顺进定西 海信冰箱再现教育扶贫“山海情”
2022-01-17 13:48:41
最强性能二合一轻薄本ROG幻X 1月24日即将开启预约
2022-01-17 13:48:30
小米竖向折叠屏 价格有惊喜主打女性市场
2022-01-17 13:48:19
QQ飞车手游S联赛总决赛 真我GT2系列成2022官方指定用机
2022-01-17 13:48:08
免费获得小米有品会员!小米有品有鱼App3月停运给用户送福利
2022-01-17 13:47:57
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-17 13:46:06
【手慢无】240GB固态秒杀促销 仅售168元
2022-01-17 12:12:24
AMD新款Radeon Pro专业卡:终于用上6nm
2022-01-17 12:12:16
《永劫无间》再曝新英雄 顾清寒傲立雪中
2022-01-17 12:12:07
三星新品发布会2月9日召开 S22系列即将登场
2022-01-17 12:12:00
12月显卡出货量下降19%,还是涨价的锅
2022-01-17 12:11:52
Intel i5-12400性能暴涨30%!还是超频管用
2022-01-17 12:11:44
黑鲨和玩家同在!新机沿用SSD存储?
2022-01-17 12:11:36
是买不起的样子:3090ti起步2万3
2022-01-17 12:11:27
无线充电加持!曝iPad Pro 6升级M2处理器
2022-01-17 12:11:19
宁德时代:不差钱还融资是为了增产
2022-01-17 12:11:11
好评94%!7万在线!《战神》PC版疯了
2022-01-17 12:11:00
【必买】支持MagSafe磁吸功能 魅族PANDAER“黑化独角兽”手机壳支持iPhone 13系列
2022-01-17 12:10:53
腾讯游戏:寒假打游戏的时间最多14个小时
2022-01-17 12:10:43
1小时游玩假?腾讯春节防沉迷日历发布
2022-01-17 12:10:34
2月9日亮相 Galaxy S22全新配色将来袭
2022-01-17 12:10:23
京东2022年将招聘超2万高校毕业生
2022-01-17 12:10:15
美国拍卖5G频谱 运营商投入超300亿美元
2022-01-17 12:10:06
8088元起 微软Surface Pro 8 商用版正式开售
2022-01-17 12:09:58
起售或是250欧元 Redmi Note 11将在欧洲发布
2022-01-17 12:09:50
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-17 12:08:06
好料好味道,有礼有年味——京味客祝您虎年福礼满满
好料好味道,有礼有年味——京味客祝您虎年福礼满满
2022-01-17 10:59:35
iPad Pro 6曝光:配置拉满 3月发布 7000起
2022-01-17 10:58:23
非公RTX 3090 Ti显卡海外竟上架:最贵2.9万 翻了一倍
2022-01-17 10:58:14
三星2月9日发布S22系列:真机在官网曝光
2022-01-17 10:58:03
三星S21手机限时立减1450 现3549 今晚截止
2022-01-17 10:56:24
2022年第五届CRO全球责任峰会成功举办
2022年第五届CRO全球责任峰会成功举办
2022-01-17 10:55:22
三星全年卖3亿台手机:卖最多的不是S21
2022-01-17 10:55:01
售价过万!曝三星Galaxy S22 Ultra有1TB版
2022-01-17 10:54:49
2022年PS5必买游戏榜单:照着买没错
2022-01-17 10:54:40
【手慢无】新装机神器 i5-12400F处理器1499元热销
2022-01-17 10:54:30
英特尔13代酷睿或将增大缓存容量 L2 + L3达到68 MB
2022-01-17 10:54:20
功耗爆表 i5-12400超频至 5.2 GHz
2022-01-17 10:54:07
配有手写笔 moto G Stylus手机视频曝光:屏幕开孔位于中央
2022-01-17 10:53:50
小米MIX FOLD2真机上手图曝光 内屏无挖孔
2022-01-17 10:53:38
通话变吵闹?iPhone13移除电话降噪功能
2022-01-17 10:53:25
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-17 10:49:36
周秉钧韩银山一行参观广东东江纵队纪念馆
周秉钧韩银山一行参观广东东江纵队纪念馆
2022-01-17 09:21:35
小米新机海外发售:竟然比小米12 Pro强
2022-01-17 09:09:34
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-17 09:08:04
iPad Pro 6曝光:升级M2处理器并支持120HZ高刷新率
iPad Pro 6曝光:升级M2处理器并支持120HZ高刷新率
2022-01-17 08:41:04
苹果新旗舰AR设备曝光:可支持8K分辨率,售价超万元
苹果新旗舰AR设备曝光:可支持8K分辨率,售价超万元
2022-01-17 08:38:24
三星S22 Ultra曝光:12GB+512GB版本售价超万元
三星S22 Ultra曝光:12GB+512GB版本售价超万元
2022-01-17 08:33:04
成本上升!曝AMD EPYC处理器涨价10%~30%!
成本上升!曝AMD EPYC处理器涨价10%~30%!
2022-01-17 08:31:18
中国区12月显卡出货量出炉:七彩虹近20万出货量稳坐第一
中国区12月显卡出货量出炉:七彩虹近20万出货量稳坐第一
2022-01-17 08:28:59
Intel i5-12400全核超频5.2GHz:最大加速功耗117W
Intel i5-12400全核超频5.2GHz:最大加速功耗117W
2022-01-17 08:27:51
微信iOS版更新加入语音暂停功能:长语音消息可暂停并继续播放
微信iOS版更新加入语音暂停功能:长语音消息可暂停并继续播放
2022-01-17 08:26:14
低级错误!火狐浏览器无法上网原因竟是程序员大小写搞错了
低级错误!火狐浏览器无法上网原因竟是程序员大小写搞错了
2022-01-17 08:24:11
藏起来我就用不了了?教你如何在Win11上找出隐藏IE浏览器
藏起来我就用不了了?教你如何在Win11上找出隐藏IE浏览器
2022-01-17 08:22:23
一键切换不用愁!Win11必备小工具让体验更顺手
一键切换不用愁!Win11必备小工具让体验更顺手
2022-01-17 08:18:40
想让Win11运行Win10开始菜单 下载这个小程序 1秒解决
2022-01-17 07:42:21
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-17 07:40:45
专业卡也用上6nm?AMD新款Radeon Pro专业卡曝光
2022-01-17 06:11:37
PC画质居然更优秀?《战神4》三平台对比
2022-01-17 06:11:29
显卡盲盒!800块有机会抽到RTX3090
2022-01-17 06:11:22
Intel 13代酷睿缓存或将提升至68MB
2022-01-17 06:11:14
三星Galaxy S22发布会将在2月9日23:00开启
2022-01-17 06:11:07
Powerbeats用户集体起诉苹果
2022-01-17 06:10:59
史上最烂《战地》续作!外挂都不想为其更新
2022-01-17 06:10:52
44万人强力围观 小米之家山西分舵开了个话题直接上热搜
2022-01-17 06:10:44
Win11测试出现乱码!中文阅读受到影响
2022-01-17 06:10:34
雷蛇灵刃14发布:标配锐龙9 6900HX 顶配3080Ti 售价1.3万
2022-01-17 06:10:25
美国玩家也氪金!《原神》2021年在美国狂赚近25亿人民币
2022-01-17 06:10:17
小米平板5系列全量更新MIUI13 不会更新的看这里
2022-01-17 06:10:09
苹果首次允许App内第三方支付
2022-01-17 06:10:00
十年了!Windows11新音量调节指示器
2022-01-17 06:09:52
买得起Kindle看不起书 到底谁在为电子水墨屏买单?
2022-01-17 06:09:44
摩托罗拉新机曝光 搭载骁龙SM8475+125W快充
2022-01-17 06:09:34
威刚秀肌肉!PCIe 5.0固态读取速度恐怖!14GB/s
2022-01-17 06:09:25
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-17 06:08:02
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-16 22:46:35
曝iPhone 14全系标配120Hz:起售价还是5999
2022-01-16 21:09:44
ROG新品!在CES推出42英寸显示器 OLED面板
2022-01-16 21:09:33
12代酷睿新品!雷神推出游戏/设计新主机
2022-01-16 21:09:21
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-16 21:08:01
Moto新机曝光,即将开启两亿像素新时代
2022-01-16 19:41:57
小米11系列开启推送MIUI 13系统,公测反馈良好
2022-01-16 19:41:44
红魔7跑分、配置曝光,单核1219,多核3732
2022-01-16 19:40:37
Redmi K50 高配版有望搭载索尼 IMX766 传感器
2022-01-16 19:40:15
解决镀金端子氧化发黑问题 苹果将推新版Lightning充电线
2022-01-16 19:40:02
120Hz高刷 OPPO平板电脑现身跑分网站
2022-01-16 19:39:51
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-16 19:38:29
2000元到手 骁龙680版Redmi Note11要来
2022-01-16 18:10:05
2月9日见!三星S22系列手机发布会定档
2022-01-16 18:09:49
小米 11 Ultra开启内测NFC“读写勿扰”与“解锁后使用”功能
2022-01-16 18:09:35
后置四摄 红米Redmi Note 11S渲染图曝光
2022-01-16 18:09:21
曝真我GT2 Pro春节前上市 20日举行预沟通会
2022-01-16 18:08:02
现磨咖啡5元一杯 蜜雪冰城讨好小镇青年
2022-01-16 17:18:11
又一家中资企业打入日本加密货币市场 Amber数亿日元买下持牌交易所
2022-01-16 17:17:59
电动车 没有新革命
2022-01-16 17:17:47
电动车“私桩共享可行吗”引热议 威马汽车创始人给答案
2022-01-16 17:17:37
防疲劳、还是导航信号?高速路上的绿色激光灯有什么用?
2022-01-16 17:17:25
AT&T、Dish和T-Mobile投入数十亿美元购买更多5G频谱
2022-01-16 17:17:14
美国税局可能会对NFT和加密货币征收不同的税
2022-01-16 17:17:03
虚拟偶像满足粉丝想象?专家预警或影响结婚生子
2022-01-16 17:16:50

热门文章

热点专题