大数据频道 频道

初学者须知:机器学习领域三条黄金定律

  【IT168 评论】如果,你现在还是机器学习领域的门外汉,那你在学习过程中多少会有一些疑惑。虽然,机器学习处于技术领域的前沿,但对于不同背景和领域的开发人员来说很难赶上,开发人员应该怎么做呢?

  市面上已经出现了针对机器学习的培训和课程,普遍价格不菲。今天,我们来看看Google Developers团队提供的两个有用工具:the Rules of ML和Machine Learning Glossary(ML规则和机器学习术语表)。对于从事机器学习的人来说,这是一个难以置信的丰富资源,无论是初学者还是仅为学习ML技能。

  机器学习三条黄金定律

  机器学习是一门相当新的学科,所以实际上并没有太多硬性规定。但是,有很多指导方针和有用的概括可以遵循。

  谷歌科学家Martin Zinkevich认为,机器学习的规则和工具只是让技术人员成为更棒的开发者,而不是机器学习专家。机器学习与工程有很大关系,而与算法有关较少。这并不是说ML算法不是必需的和有用的,只是作为开发人员,许多问题都可以通过工程或计算机科学的背景来解决。

  Martin Zinkevich对所有ML问题都有一个非常基本的方法:

  1.确保管道是坚实的端到端;

  2.以合理的目标开始;

  3.以简单的方式添加基本功能;

  4.确保管道保持稳定。

  遵循这种方法涵盖了很多理由,日益增加的复杂性意味着你正在为未来制造障碍。记住所有开发项目的法则——保持简单和愚蠢。在开始ML管道之前有三条简单的黄金法则:

初学者须知:机器学习领域三条黄金定律

  规则1:不要害怕在没有机器学习的情况下推出产品

  你需要机器学习吗?你真的需要吗?毫无疑问,机器学习现在技术上非常酷,非常热门,但不要让它成为问题的唯一解决方案。机器学习具有非常明确的成功参数,它可能无法满足您的项目需求,或者并不适合。

  此外,根据定义,机器学习需要大量数据。您可能无法访问正确的数据集,甚至无法访问任何数据集。

  规则2:设计和实施指标

  指标非常重要。没有测量依据,你怎么知道项目是否有效?你怎么能确定是否有问题?这是数据收集的起点。当你设计一个项目时,应该尝试是否可以从一开始就收集数据,从一开始收集更容易获得用户许可。拥有丰富的历史数据可以更容易地证明,机器学习的应用实际上对系统产生了哪些影响。

  现在也是投资一个体面的存储系统的好时机,用于收集想要的所有数据。

  规则3:选择复杂的启发式机器学习

  启发式是解决问题的方法。简单的启发式算法很容易实现,复杂的就不那么容易了。机器学习比复杂的启发式更容易更新。

初学者须知:机器学习领域三条黄金定律

  谷歌发布Machine Learning Glossary(机器学习词汇表)

  Google开发团队发布了全面的机器学习词汇表。 技术术语多半比较复杂,谷歌用一张非常有用的参考表(词汇表官方地址:https://developers.google.com/machine-learning/glossary/ 可能无法直接访问,可以Github上直接搜索Machine Learning Glossary)来简化名称,这些参考表清楚地解释了我们所说的cross-entropy, one-hot encoding和a softmax。

  坦率地说,我觉得这非常有用,因为计算机科学中存在很多重叠术语。清晰度对于编写干净的代码至关重要。编写干净的代码不仅有效, 它有助于未来的开发者继续学习更新。

  结论

  机器学习可能很困难,但是有很多选项可以让初学者更容易。这些来自谷歌开发团队的工具对于初学者以及希望提高ML技能的人来说都非常有用。

0
相关文章