短信预约提醒成功
数据科学对模型建立的要求也可以概括为三点:模型预测效果好,模型参数稳定且“正确”,模型结果易于解释。
(1) 该模型预测效果良好,是数据科学成功的关键。
对数据科学建模的要求是什么?模型的预测效果取决于其假设是否满足。从数学角度看,任何模型除了假设部分,其其他推导都是严格的数学计算,是无可挑剔的。所以模型假设,就像模型的阿基里斯之踵,是它唯一的薄弱环节。当问题情景或数据满足模型假设时,模型的效果不会差,否则,预测效果无法保证。但在实际生产中,对于一个具体的问题,几乎不可能找到一个模型,其假设是100%满足的。此时,我们需要避免重和轻,尽量避免通过特征提取等手段违背那些对结果有很大影响的假设。这就是为什么“所有的模型都是错误的,但其中一些是有用的”。
(2) 除了用于预测未知数据外,该模型的另一个重要功能是分析现有数据
对数据科学建模的要求是什么?例如,哪个变量对结果的影响最大,或者某个变量对结果的影响是正面的还是负面的。这些分析结果在很大程度上依赖于模型参数的估计,而模型参数的准确性直接决定了分析结果的质量。但问题是模型参数的估计不是很可靠。例如,从训练数据中随机选择两个不同的数据子集A和B,然后分别用这两个数据集训练同一模型。几乎不可能得到相同的参数估计。从数学的角度看,这说明模型参数的估计值实际上是一个随机变量,具体值取决于模型训练中使用的数据。所以我们要求这些估计是“正确的”:它们围绕参数的真实值上下波动(即,它们的期望值等于参数的真实值)。我们还要求这些估计是稳定的:波动的范围不应该太大(也就是说,它们的方法相对较小)。这样,参数估计的“不可靠性”就可以控制在可接受的范围内。
(3) 数据科学家建立模型并不是数据科学项目的终点。
对数据科学建模的要求是什么?为了充分发挥数据的价值,有必要将模型结果应用到实际生产中,比如建立手机银行应用程序的实时反欺诈系统,或者利用新建的交通事故风险模型对汽车保险进行定价。这个过程不仅涉及理解模型的数据科学家,还涉及更多非技术性的商业人士。后者往往是使用该模式的主力军,比如根据反欺诈系统的结果,对可疑用户进行人工审计,或者向客户解释其车险为何比其他人贵。为了帮助他们更好地理解模型的结果,有必要将复杂而深刻的模型翻译成直观的通用语言。这就要求模型具有可解释性和易解释性。
以上就是《对数据科学建模的要求是什么?这才是体现数据分析师严谨的时刻》的全部内容,从文字中我们可以看到,在数据科学的实践中,我们将使用更复杂的机器学习或统计模型对数据进行精细的分析和预测。如果你想学习更多数据分析知识,可以点击下方资料下载链接。