原文:
www.kdnuggets.com/2016/09/great-algorithm-tutorial-roundup.html
KDnuggets 最近进行了一项调查,询问我们的读者“你在过去 12 个月中用于实际数据科学应用的方法/算法是什么?”
844 名选民参与了投票,以下是前 10 个算法:
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作
结果已被总结,并提供了一些分析,在这篇文章中,如果你想进一步了解哪些算法被哪些类型的受访者、受访者的地点等报告,这是一篇很好的阅读材料。
因此,我们认为以下资源可能对那些希望填补对这些特定算法以及机器学习算法一般知识空白的读者有所帮助。
关于算法基础,包括上述图表中概述的许多顶级报告算法,以下帖子是很好的起点:
-
机器学习工程师需要知道的 10 种算法
阅读这份现代机器学习算法的入门列表,每个工程师都应该了解这些重要的算法。
-
前 10 大数据挖掘算法解析
由顶级研究人员选择的前 10 大数据挖掘算法在这里进行了解释,包括它们的功能、算法背后的直觉、算法的可用实现、为什么使用它们以及有趣的应用。
-
机器学习关键术语解析
12 个重要机器学习概念的概述,以简明、直接的定义风格呈现。
-
这篇经典文章考察了不同机器学习模型的优缺点,包括贝叶斯学习、图形模型、凸损失优化、统计学习等。
接下来是对调查中排名前 10 的算法的精选教程和附加信息。
回归
-
线性回归简明指南 – 第一部分
这篇线性回归入门文章讨论了一个具有一个预测变量的简单线性回归模型,然后将其扩展到具有至少两个预测变量的多重线性回归模型。
-
线性回归简明指南 – 第二部分
线性回归入门的第二部分超越了第一部分涵盖的话题,讨论了线性、正态性、异常值以及其他感兴趣的话题。
-
军事晋升中的回归与相关性:教程
一份清晰且写得很好的教程,涵盖了回归和相关性的概念,重点讨论了军事指挥官晋升作为应用案例。
聚类
-
数据科学 102:K-means 聚类不是免费的午餐
K-means 是一种广泛使用的聚类分析方法,但它的基本假设和缺陷是什么?我们探讨了在非球形数据和大小不均的聚类中的表现。
-
期望最大化 (EM) 算法教程
这是关于期望最大化算法的简短教程,及其在多变量数据参数估计中的应用。
决策树/规则
-
决策树:灾难性的教程
在这里获取决策树的简明概述,这是最近一项调查中最常用的 KDnuggets 读者算法之一。
-
处理不平衡类别、SVM、随机森林和决策树的 Python 实践
处理不平衡类别、实现 SVM、随机森林和决策树的概述。
可视化
-
4 条精彩数据可视化课程
从该领域的知名专家那里获得数据可视化的建议,并通过这 4 个课程获得创建自己精彩可视化的洞察。
-
设计更佳数据可视化的三条简单决策
用决心开始你的新年,以制作更好的数据可视化:可视化数据,移除图表图例,并尝试新事物。
k-最近邻
-
使用 Python 实现自己的 k-最近邻算法
对于最常用的机器学习算法之一——k-最近邻算法的详细解释,以及从零开始在 Python 中实现它。通过这个动手编码练习提升你的算法理解。
主成分分析(PCA)
-
营养与主成分分析:教程
对主成分分析(PCA)的全面概述,并提供了在营养领域的示例应用。
-
PCA 和层次聚类的比较
高维数据集的图形表示是探索性数据分析的基础。我们研究了两种最常用的方法:结合层次聚类的热图和主成分分析(PCA)。
统计学
-
数据科学需要掌握哪些统计学主题才能脱颖而出?
这是一个建议的数据科学技能和统计概念的列表,按复杂性递增的顺序排列。
-
数据科学的中心极限定理
这篇文章是对中心极限定理的入门解释,以及它为什么对数据科学家重要(或应该重要)。
-
理解大数法则和赌徒谬误
大数法则是数据科学家实践中的一个重要概念。在这篇文章中,通过使用伯努利过程的简单模拟方法演示了大数法则的经验法则。
随机森林
-
随机森林:犯罪教程
在这里了解随机森林,这是根据最近的调查,KDnuggets 读者最常用的算法之一。
-
深度学习何时优于 SVM 或随机森林?
关于深度神经网络何时可能优于支持向量机或随机森林的一些建议。
-
在 Python 中处理不平衡类别、SVM、随机森林和决策树
处理不平衡类别的概述,以及在 Python 中实现 SVM、随机森林和决策树。
时间序列/序列
-
周期性大数据流中的异常检测简单方法
我们描述了一种简单且可扩展的算法,能够检测具有周期性模式的时间序列中的稀有和潜在异常行为。它的表现类似于 Twitter 更复杂的方法。
-
利用时间序列分析进行预测维护中的异常检测
我们如何预测一些我们从未见过的事情,一个历史数据中没有的事件?这需要分析视角的转变!了解如何标准化时间并对传感器数据进行时间序列分析。
文本挖掘
-
用 Python 挖掘 Twitter 数据 第一部分:数据收集
这是一个 7 部分系列的第一部分,专注于挖掘 Twitter 数据以满足各种用例。第一篇文章奠定了基础,并集中于数据收集。
-
文本挖掘 101:主题建模
我们介绍了主题建模的概念,并解释了两种方法:潜在狄利克雷分配和 TextRank。这些技术在其工作方式上非常巧妙——自己试试吧。
这里有一些文章将机器学习算法的一些概念结合起来,或利用它们进行不同或新颖的方法。
-
前 10 位 Quora 机器学习作者及其最佳建议
Quora 上顶级机器学习作者提供了关于如何在该领域追求职业、学术研究,以及选择和使用适当技术的建议。
-
数据科学和机器学习的前 10 个 IPython Notebook 教程
一份包含 10 个有用 Github 仓库的列表,这些仓库由 IPython(Jupyter)笔记本组成,专注于教授数据科学和机器学习。Python 是这里的明确目标,但通用原则是可以转移的。
-
掌握 Python 机器学习的 7 个步骤
网上有很多免费的 Python 机器学习资源。该从哪里开始?如何继续?通过 7 个步骤从零到 Python 机器学习专家!
-
为什么从头实现机器学习算法?
尽管机器学习库涵盖了你可以想象的几乎所有算法实现,但通常仍然有充分的理由编写自己的代码。继续阅读以了解这些理由。
-
使用 SQL 进行统计分析
本文涵盖了如何使用 SQL 执行一些基本的数据库内统计分析。
一如既往,我们感谢我们的客座博主在机器学习以及数据科学其他领域的持续出色贡献。
相关:
-
人工智能、大数据和数据科学的 10 种算法类别
-
理解深度学习的 7 个步骤
-
深度学习的真相