一、核心思想
无监督学习就是让计算机自己在没有标准答案的情况下发现数据中的结构:
给算法提供”线索” — 训练数据只有输入信息,没有预先设定的标签或正确答案
学习目标:算法需要自己探索数据内部隐藏的结构、模式或分组,发现数据中”自然”存在的相似性、关联性或类别。
二、典型应用场景
应用领域 | 数据类型 | 发现目标 | 业务价值 |
---|---|---|---|
🛒 客户分群 | 购买行为、偏好数据 | 客户群体 | 精准营销、个性化推荐 |
🚨 异常检测 | 网络流量、交易记录 | 异常模式 | 欺诈检测、系统监控 |
📊 数据可视化 | 高维业务数据 | 低维表示 | 决策支持、趋势分析 |
🛍️ 推荐系统 | 用户行为、商品属性 | 关联规则 | 交叉销售、用户体验 |
🧬 基因分析 | 基因表达数据 | 基因功能模块 | 疾病研究、药物开发 |
三、主要问题类型
聚类分析 (Clustering)
目标:将相似的数据点分组
Cheetsheet入口:
- 🔸 K-Means 聚类 - 最经典的聚类算法
降维技术 (Dimensionality Reduction)
目标:将高维数据映射到低维空间,保留重要信息
Cheetsheet入口:
- 🔸 主成分分析 (PCA) - 线性降维经典方法