Scikit-learn 学习笔记(1)统计推断

这个系列是我通过阅读 Scikit-learn 的文档,结合自己的理解和掌握的知识,重新把文档描述出来。希望能加深自己的理解,希望能帮到有需要的人。

学习材料:https://scikit-learn.org/stable/tutorial/statistical_inference/index.html

目标

机器学习要解决的任务包括有:

  • 对于有标签的观测结果,构建一个统一的预测函数,不但能描述此前的多次观测结果,还能判断未来的观测结果属于哪一类
  • 从无标签的观测结果中,学习归纳出数据的内在结构和形式

途径

为了实现 上述学习目标 ,一种比较有效的方法是统计学习方法:统计推断(statistical inference)。

统计推断是由于总体的特征难以得到,只能通过有限的观测值来推断总体的特征。这么做的逻辑是:

  • 每一次的观测值一定携带着有关总体的信息,通过统计的方法,就能把有关总体的信息尽可能多地提取出来。
  • 观测值又不能完全体现有关总体的信息,所以利用观测值的统计结果代替总体的特征,总会有一定的信息损失。
  • 如果我们能将信息的损失程度加以量化,就能寻找一种方法,将损失程度降到最低。

总体的特征又有两个方面:

  • 确定分布时,需要估计分布的参数
  • 未知分布时,需要对总体的做出假设

捐助本站

为了保证阅读体验,本站不安放广告。但是,租用服务器和编写文章需要个人资金和时间的投入。

如果您觉得文章对您有用,请考虑捐助小站(金额不限),以期待更多原创文章。捐助记录

本站是个人网站,若无特别说明,文章均为原创,并采用 署名协议 CC-BY-NC 授权。
欢迎转载,惟请保留原文链接,且不得用于商业用途。

相关文章