客户通常多年来积累了大量数据;例如,多年来存储了所有交易的记录,或者存储了高频传感器数据的时间序列。原则上,这是一个良好的开端,但如果数据从未用于任何类型的分析,则数据往往会受到严重污染。例如,数据缺失、数据输入错误、传感器网络技术问题、对数据进行的手动操作等等。一旦我开始探索数据,这些问题就会显现出来,但并不总是清楚如何解决这些错误。通过做出某些假设,我通常可以对数据进行大量清理,但这可能是一项非常耗时的任务。
重要的是,客户要意识到错误数据的后果。首先,基于错误数 最近的手机号码数据 据训练的机器学习模型无法提供可靠的预测,并可能导致错误的见解。在一定程度上,你可以通过使用所谓的“稳健”方法来避免这种情况,例如,使用中位数而不是平均值,或者在估算模型参数时使用RANSAC 算法,但这种衡量方法并不总是足够的。其次,训练有素的机器学习模型在进行预测时期望输入是正确的。如果它得到了错误的输入,那么结果就毫无意义。
因此,尽可能保持数据库健康无误至关重要。为了防止将来更多错误数据进入数据库,客户必须以不同的方式处理数据。必须更加关注数据。例如,在写入数据库的应用程序中实施健全性检查,或主动监控数据库内容。