很多情况下,我们会提供资金,让拥有数据科学专业知识的外部机构开发试点项目。近年来,我们有幸为客户开展了许多不同的数据科学项目。很多时候,我在项目开始时就已经构思好了哪些类型的机器学习技术适合。但根据我的经验,这类试点项目最重要的成功因素并非使用最先进的算法,而是项目的设计方式。
然后我计算这个几乎微不足道的模型的得分。在某些情况下,得分出奇的好,但在大多数情况下,通过允许模型使用几个解释因素并使用更高级的算法,仍然可以获得很多好处。为什么不立即从更高级的算法开始呢?有几个原因。首先,简单的模型可以快速测试我们是否正确地提出了问题。其次,如果项目的目标是创建一个可操作的工具,那么该工具的开发可以立 最近的手机号码数据 即围绕基线预测器开始。然后可以快速推出对简单模型的改进,并且独立于工具的开发。最后,简单模型可以用作验证更复杂模型的基线。如果我们立即开始使用高级算法并取得了不错的结果,那么假设这是由于高级模型的特性似乎是合理的。但有时使用更简单的模型也可以获得几乎同样好的结果。在这种情况下,通常更倾向于使用简单的模型,因为与更复杂的模型相比,简单的模型通常更容易理解预测是如何进行的,因此更复杂的模型有时被称为“黑盒模型”。
这或许只是一句无关紧要的话,但与任何形式的科学项目一样,如果实施不周,数据科学项目可能会遭遇惨败。除了数据科学项目之外,我还经常参与软件工程项目。我们在软件工程项目中运用的最佳实践,例如测试、一致的编码风格、逻辑设计和版本控制,我也会运用到我的数据科学项目中。务必确保始终清晰地说明某些结果是如何实现的。此外,所有结果都必须易于重现。手动操作数据是大忌。