> 文章列表 > 数据分析-统计基础

数据分析-统计基础

数据分析-统计基础

day1:集中趋势,离散测度,均值,中位数,众数,方差等。点估计,区间估计等相关的知识

现代数据分析:把数据放到一个数据空间中,通过这个空间的个各种形变与分析而挖掘除数据底层所携带的信息

一:数据类型

        类型1:离散型数据:离散随机变量是指一个只取有限个或可数无限个数值的随机变量。通常用古典概型来描述

                     连续性数据:连续随机变量是指一个取任何实数的概率都为零的变量。通常用集合概型来描述

         类型2:横截面数据:一个时间点或一个时间段内取到的所有数据

                      时间序列数据:当带有时间属性,那么数据就带有了某种相关性

                      面板数据:既有时间属性,又有空间属性(例:去年一年企业在全国各大城市的销量数据)

           类型三:

排序 计算 数据类型 举例

NO

NO         定类型 国籍

YES

NO 定序型 健康状况
YES                 YES 数值型 时间

二:数学模型

        2.1什么是数学模型:从数学角度看,基于统计数据的拟合函数的方法

        2.2:分析模型

                

                 挖掘模型:只能挖掘未来,不能分析过去

                 统计模型:既能挖掘未来,又能分析过去

        2.3回归模型:

              2.3.1:  最简单的回归模型是一元线性回归模型:

                

                 举例:

                       1. •𝐿𝑂𝐿胜率=𝛽0+𝛽1练习时间+𝜖LOL胜率=β_0+β_1 练习"时间"+ϵ

                        练习时间每多一分钟,会使胜率提高𝛽1β_1个百分点

                        2.皮肤光泽=𝛽0+𝛽1燕窝摄入量+𝜖皮肤光泽度=β_0+β_1 燕窝摄入量+ϵ

                          每多吃一斤燕窝,会使皮肤光泽提高𝛽1β_1度。

                2.3.2:回归模型扩展

                        

三:线性代数

        3.1向量

                

        3.2:向量的坐标

                

        3.3向量运算

                向量的加法2维空间内,就是求给定2个向量所围成的平行四边形的对角线

                        

                

              向量的数乘:将给定向量按比例缩放(拉伸),负数表示反向拉伸。

                        

              3.4线性组合:

                        将一个向量组中的向量做数乘后相加,即得到该向量组的一个所谓的线性组合

                                        

                3.4:张成空间

                        含义:所有可以表示为给定向量的线性组合的向量集合,被称为给定向量张成(span)的空间                

                        若给定多个向量,移除其中一部分而不减小张成空间,是为线性相关

                        如果所有向量都给张成空间增加了维度,是为线性无关