搜索
您的当前位置:首页正文

人民大学统计学在职的题目库统计的综述答案详解详解

来源:榕意旅游网
实用标准文案

1中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:1 一、 (20分) 随机抽取20块手机电池,测得其使用寿命数据如下(单位:小时): 1008 1002 983 1010 993 1013 995 998 998 999 1000 1005 1007 1008 977 1011 1011 995 1015 996 列出描述上述数据所适用的统计图形,并说明这些图形的用途。 直方图:直观的展示一组数据(电池使用寿命)的分布情况。 箱线图:直观反映原始数据(电池寿命)的数据分布的特征,如偏态,是否有离群点。 二、 (20分)方差分析中有哪些基本假定?这些假定中对哪个假定的要求比较严格? 1、方差分析有3个基本假定: (1)正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本; (2)方差齐性:各个总体的方差必须相同; (3)独立性:每个样本数据是来自因子各水平的独立样本 精彩文档

实用标准文案

2、对独立性要求比较严格,独立性得不到满足会对方差分析结果有较大影响,对正态性和方差齐性的要求相对比较宽松。 三、 (20分)某种食品每袋的标准重量是100克,从该批食品中抽取一个随机样本,检验假设H0:100,H1100。 (1) 如果拒绝H0,你的结论是什么?,如果不拒绝H0,你的结论是什么? (2) 能否得到一个样本能够证明该食品的平均重量是100克?请说明理由。 (3) 如果由该样本得到的检验的P0.03,你的结论是什么?0.03这个值是犯第Ⅰ类错误的概率,是实际算出来的显著性水平,你怎样解释这个P值? (1)拒绝H0:该种食品每袋的平均重量不是100g 不拒绝H0:提供的样本不能证明该种食品每袋的平均重量不是100g (2)不能,样本得出的结论只能是拒绝或不拒绝原假设,并不能直接确定原假设为真 (3)结论:若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;但若给定显著性水平为0.01,则不能拒绝原假设 P值: 如果该种食品每袋的平均重量是100g,样本结果会像实际观测那样极端或更极端的概率仅为0.03 四、 (20分)在建立多元线性回归模型时,通常需要对自变量进行精彩文档

实用标准文案

筛选。 (1) 请谈谈你对变量筛选的必要性的看法。 (2) 列出变量筛选的方法,请简要说明这些方法的特点。 (1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致多重共线性,增加自变量还会导致判定系数R2增大,从而高估模型拟合优度。 (2)变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下: 向前选择:从没有自变量开始,不停向模型中增加自变量,直到增加不能导致SSE显著增加为止。 向后剔除:从所有自变量开始,不停从模型中剔除自变量,直到剔除不能导致SSE显著减小为止。 逐步回归:结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除。如此反复,直到增加变量不能导致SSE显著减少为止。 五、 (20分)如果一个时间序列包含趋势、季节成分、随机波动,适用的预测方法有哪些?对这些方法做检验说明。 可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解法等进行预测。 (1)Winter指数平滑模型 精彩文档

实用标准文案

包含三个平滑参数,即(取值均在0~1),以及平滑值、趋势项更。 新、季节项更新、未来第k期的预测值L为季节周期的长度,对于季度数据,L=4,对于月份数据,L=12;I为季节调节因子。平滑值消除季节变动,趋势项更新是对趋势值得修正,季节项更新是t期的季节调整因子,是用于预测的模型。 使用Winter 模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。 使用Winter 模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。 (2)引入季节哑变量的多元回归 对于以季度记录的数据,引入3个哑变量 ,其中=1(第1季度)或0(其他季度),以此类推,则季节性多元回归模型表示为: 其中b0是常数项,b1是趋势成分的系数,表示趋势给时间序列带来的影响,b2、b3、b4表示每一季度与参照的第1季度的平均差值。 (3)分解预测 第1步,确定并分离季节成分。计算季节指数,然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。 第2步,建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。 第3步,计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。 精彩文档

实用标准文案

2中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:2 一、 (20分)在某小学随机抽取35名小学生,调查他们每周购买零食的花费情况,得到的数据如下(单位:元): 24 17 26 29 38 6 28 44 39 8 30 17 26 32 40 10 20 27 43 33 15 4 28 35 26 47 25 17 26 45 16 36 29 37 5 列出描述上述数据所适用的统计量,并说明这些统计量的用途。 平均数:用于度量对象的一般水平。 中位数(分位数):用中间(某个)位置上的值代表数据水平,也用于度量对象的一般情况,且不受极值的影响具有稳定性。 方差(标准差):用于描述一组数据的差异水平,越大说明数据的分布越分散不稳定。 偏态系数:用于描述数据分布的不对称性,越接近0越对称。 峰度系数:用于描述数据分布峰值高低,大于0为尖峰,精彩文档

实用标准文案

小于0为扁平分布。 二、 (20分)简要说明t分布和F分布在推断统计中应用。 t分布:当正态总体标准差未知时,在小样本的条件下对总体均值的估计和检验要用到t分布。描述样本均值分布,用于对两个样本均值差异进行显著性测试、估算置信区间等。 F分布:通常用于比较不同总体的方差是否有显著差异。应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。 三、 (20分)什么是P值?要证明原假设不正确,如何确定合理的P值? P值:犯第I类错误的真实概率,也称观察到的显著性水平。是当原假设为真时,得到的样本结果会像实际观测结果这样极端或者更极端的概率。 若要证明原假设不正确,则由样本得到的P值应小于给定的显著性水平。 四、 (20分)某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果: 方差分析表 差异源 精彩文档

SS df MS F P-value 实用标准文案

组间 210 0.245946 组内 3836 — — 总计 2 — — — (1) 完成上面的方差分析表。 (2) 组装方法与组装产品数量之间的关系强度如何? (3) 若显著性水平0.05,检验三种方法组装的产品数量之间是否有显著差异? (1) 差异P-valu源 SS df MS F e 组间 2*210=420 I-1=2 210 0.245946 组内 3836 30-3=27 =142.07 — — 420+3836=29 — — — 4256 (2) 从P值来看,组装方法与组装产品数量之间的关系强度较弱。 (3) 原假设:三种方法每小时组装的产品数量没有差异 若显著性水平为0.05,则P>0.05,因此不能拒绝原假设,即不能证明三种方法组装的产品数量之间有显著差异。 总计 五、 (20分)简要说明分解预测的基本步骤。 第1步,确定并分离季节成分。计算季节指数,然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。 第2步,建立预测模型并进行预测。对消除了季节成分的时间精彩文档

实用标准文案

序列建立适当的预测模型,并根据这一模型进行预测。 第3步,计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。 精彩文档

实用标准文案

3中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:3

一、 (20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表: 要对各名运动员进行综合评价,使用的统计量有哪些?简要说明这些统计量的用途。 (1)集中趋势:指一组数据向某一中心值靠拢的程度,它可以反映选手射击成绩中心点的位置 平均数:一组数据相加后除以数据的个数得到的结果。若各组数据在组内是平均分布的,则计算的结果还是比较准确的,否则误差会比较大。(如中国选手发挥很稳定,适合使用平均数判断其成绩) 中位数:一组数据排序后处于中间位置上的变量值,但不受极端值的影响。(如波兰选手大多数成绩比较平均,但有一枪打到8.1,会严重影响其平均值,但不会影响中位数) (2)离散程度:各变量值远离其中心值的程度,它可以反映选手发挥的稳定性 标准差:方差的平方根,能够很好的反映出数据的离散程度,若选精彩文档

实用标准文案

手的平均成绩差异不大,可以通过直接比较标准差的方式进行衡量 离散系数:一组数据的标准差与其相应的平均数之比,离散系数越大则数据的离散程度也大,若选手的平均成绩差异很大,则需要计算离散系数比较稳定性 极差:一组数据的最大值与最小值之差,它容易受极端值的影响,不能反映中间数据的分散情况,但可从另一方面选手是否存在发挥异常 (3)分布形状 峰态:峰态是对数据分布平峰或尖峰程度的测度,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。通过对选手的峰态分布情况分析,可看出成绩分布是否平均。 偏态:偏态是对数据分布对称性的测量,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程度越大。通过对选手的偏态分布情况情况分析,可看出选手成绩分布是否对称,是否受比赛时长影响。 二、 (20分)为什么说假设检验不能证明原假设正确? (1)假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据(证据的强弱取决于P值的大小)。因此,当拒绝原假设时,表明样本提供的证据证明它是错误的;当没有拒绝原假设时,我们也没法证明它是正确的,因为假设检验的程序没有提供它正确的证据。 (2)假设检验得出的结论都是根据原假设进行阐述的。我们要么拒绝原假设,要么不拒绝原假设。当不能拒绝原假设时,我们也不能说“接受原假设”,因为没有足够的证据拒绝原假设并不等于你已经证明了原假设时真的,它仅仅意味着目前我们还没有足够的证据证明原假设,只表示目前的样本提供的证据还不足以拒绝原假设。 (3)假设检验通常是先确定显著性水平α,这等于控制了第Ⅰ类错误的概率;但犯第Ⅱ类错误的概率β却是不确定的。在拒绝H0时,犯第Ⅰ类错误的概率不超过给定的显著性水平α;当样本结果精彩文档

实用标准文案

显示没有充分理由拒绝原假设时,也难以确定第Ⅱ类错误发生的概率。因此,在假设检验中采用“不拒绝H0”而不采用“接受H0”的表述方法,这样在多数场合下便避免了第Ⅱ类错误发生的风险。 三、 (20分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取36班公共汽车,得到平均行驶的时间为26分钟,标准差为8分钟。 (1) 说明样本均值服从什么分布?依据是什么? (2) 计算平均行驶时间95%的置信区间。 (3) 解释95%的置信水平的含义。 (z0.051.645,z0.0251.96,t0.051.860,t0.0252.306) (1)样本均值服从正态分布。通过中心极限定理:设从均值为,方差为(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值、方差的正态分布。一般统计学中的n30为大样本,本题中抽取了36个样本,因此样本均值服从正态分布。 (2)已知n=36,=26,s=8,置信区间95%所以=平均行驶时间95%的置信区间为: = 261.96 x = 262.61 即(23.39,28.61) =1.96 (3)一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平。如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么用该方法构造的区间称为置信水平为精彩文档

实用标准文案

95%的置信区间。 四、 (20分)设单因素方差分析的数学模型为:yijiij。解释这一模型的含义,并说明对这一模型的基本假定。 单因素方差分析指的是只有一种处理因素在影响结果,或者说只有一个自变量在影响因变量的情况。 (1)设任何一次实验结果都可以表示成如下形式:Yi=μ+εi 其中Yi是第i次实验的实际结果,μ是该结果的最佳估计值,其实就是总体均值,εi是均值和实际结果的偏差也就是随机误差(2)假定εi服从均值为0,标准差为某个定值的正态分布,把以上形式按照方差分析进行推广,假设我们要研究几种水平之间的差异,每种水平抽取一定样本并收集相关数据,那么模型公式可以表示为:Yij=μi+εij 其中Yij是第i组水平的第j个样本的实际结果,μi是第i组的均值,εij是第i组第j个样本相对于实际结果的偏差。同样假定εi服从均值为0,标准差为某个定值的正态分布,如果这i组水平没有差异,则Yij应等于总体均值加上随机误差项。 (3)为了方便统计推断,模型公式改为如下形式:Yij=μ+αi+εij 其中μ表示不考虑分组时的总体均值,αi表示第i组的附加效应,即在第i组时的均值改变情况,例如αi=10,表示第i组的均值要比总体均值多10,如果这i组均值并无差异,那么α1=α2=α3=.....=αi,反之则不等,据此我们可以建立假设: H0:i取任意值时,αi=0 H1:i取任意值时,至少有一个αi<>0 结合差异分解的方差分析思路,我们发现αi实际上就是处理因素导致的差异。 精彩文档

实用标准文案

五、 (20分)在多元回归中,判断共线性的统计量有哪些?简要解释这些统计量。 (1)自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。 (2)容忍度(Tolerance):以每个自变量作为应变量对其他自变量进、行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。 (3)方差膨胀因子(Variance inflation factor, VIF): j1,2,,mVIFj1(1Rj2) 其中 Xj与其余(m-1)个自变量线性回归的决定系数。值Rj2为 越大,多元共线程度越严重。 4、特征根(Eigenvalue):主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当对应的方差比大于0.5时,可认为多元共线性严重存在 精彩文档

实用标准文案

4中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:4

一、 (20分)在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中,最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示: 运动员 庞 伟 秦钟午 9.3 9.5 10.3 10.5 10.3 10.3 决赛成绩 10.4 10.3 10.7 10.1 10.4 10.8 10.7 9.3 9.9 10.6 9.4 10.2 9.9 9.8 根据上表计算的韩国运动员秦钟午的平均环数是10.05环,标准差是0.445环。比较分析哪个运动员的发挥更稳定。 (1)平均数、标准差:庞伟的平均环数=10.22环,标准差是0.507;秦钟午的平均环数=10.05环,标准差是0.445环,由于庞伟的平均环数明显大于秦钟午,因此只比较标准差不能说明二人的稳定性 (2)中位数:庞伟的中位数=10.35,秦钟午的中位数=10,同样可以看出庞伟的成绩更优秀一些 (3)极差:庞伟的极差=1.4,秦钟午的极差=1.4,两者极差相同 (4)离散系数:庞伟的离散系数=0.0496,秦钟午的离散系数=0.0443 综上所述,选手庞伟的成绩更优秀,但秦钟午的发挥更稳定。 二、 (20分)什么是统计意义上的显著性?为什么说统计上显著不一定就有现实意义? 精彩文档

实用标准文案

(1)在假设检验中,拒绝原假设称样本结果在“统计上是显著的”;不拒绝原假设则称结果是“统计上不显著的”。“显著的”在这里的意思是指非偶然的,它表示这样的样本结果不是偶然得到的,同样,结果是不显著的则表明这样的样本结果很可能是偶然得到的。 (2)在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著。当P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义。因为在假设检验中的“显著”仅仅是“统计意义上的显著”。P值与样本的大小密切相关,样本量越大,检验统计量的值也就越大,P值就越小,就越可能拒绝原假设。因此,当样本量很大时,解释假设检验的结果需要小心,因为在大样本情况下,总能把与假设值的任何细微差别查出来,即使这种差别几乎没有任何实际意义。因此,在实际检验中,不能把“统计意义上的显著性”与“实际意义上的显著性”混同起来。 三、 (20分)简要说明判断一组数据是否服从正态分布的统计方法。 (1)图示法 1. P-P图 以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,以样本值表现为直角坐标系的散点。如果数据服从正态分布,则样本点应围绕第一象限的对角线分布。 2. Q-Q图 以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为直角坐标系的散点。如果数据服从正太分布,则样本点应围绕第一象限的对角线分布。 3. 直方图(频率直方图) 判断方法:是否以钟型分布,同时可以选择输出正态性曲线。 4. 箱线图 判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布。 5. 茎叶图 精彩文档

实用标准文案

判断方法:观察图形的分布状态,是否是对称分布。 (2)偏度、峰度检验法 峰态:峰态是对数据分布平峰或尖峰程度的测度,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。 偏态:偏态是对数据分布对称性的测量,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程度越大。 (3)非参数检验 非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk( W检验)。当样本数N<2000时,shapiro-wilk的W统计量检验正态性;当样本数N>2000时,Kolmogorov-Smirnov的D统计量检验正态性;检验时,根据样本计算一个统计量即检验统计量D。它把样本分布的形状和正态分布相比较,比较得出一个数值p(0实用标准文案

单因素方差分析:研究一个分类型自变量对一个数值型因变量的影响,如本项目中就是研究四个不同地区对平均消费水平的影响。 区别:T检验属于均值分析,它是用来检验两类母体均值是否相等。均值分析是来考察不同样本之间是否存在差异,即两个不同地区之间消费水平是否存在显著差异;而方差分析则是评估不同样本之间的差异是否由某个因素起主要作用,即消费水平的显著差异是否是由地区不同引起的。并且通过单因素方差分析只能得出4组数据是否存在显著差异,并不能得出具体是哪几个地区之间有显著差异。 Kruskal-Wallis 检验。 用于检验多个独立总体是否相同的一种非参数检验方法。 原假设: 四个地区平均消费水平相等,备择假设: 四个地区平均消费水平不全相等。不需要方差分析的正态分布且方差相等的 假设。该检验可用于顺序数据也可用于数值型数据 (2)我选择用单因素方差分析,因为本项目共分为4组数据,只要求分析他们之间是否存在显著差异,并不用确定具体差异如何存在的。原假设为:四个地区之间的平均消费水平没有显著差异。若最终拒绝原假设,则说明四个地区之间的平均水平存在显著差异。即证明了题目中的要求。 因为对四个地区的分布和方差未知,选择非参数方法。 五、 (20分)一家房地产评估公司想对某城市的房地产销售价格y(元/m2)与地产的评估价值x1(万元)、房产的评估价值x2(万元)和使用面积x3(m2)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评估数据,由统计软件给出的部分回归结果如下(显著性水平为95%): 方差分析 回归 残差 总计 精彩文档

df SS MS F Sig. 46.70 3.879E-08 3 87803505.46 29267835.15 16 10028174.54 19 97831680 626760.91 实用标准文案

Intercept X Variable 1 X Variable 2 X Variable 3 Coefficients 148.7005 0.8147 0.821 0.135 标准误差 574.4213 0.512 0.2112 0.0659 t Stat 0.2589 1.5913 3.8876 2.0503 P-value 0.799 0.1311 0.0013 0.0571 对所建立的回归模型进行综合评价。 (1)线性回归方程为 ˆ的意义是,在其它自变量 其中第i (i1,2,3)个回归系数iˆ个单位。保持不变时,xi每变动一个单位,y就平均变动i例如在房产的评估价值和使用面积都不变的情况下,地产的评估价值每上升1万元,房地产销售价格就上升8147元。 (2)设=0.05,由p值=3.879*关系是显著的。 (3)第1,2,3个回归系数显著性检验p值分别是 0.1311>,0.0013<,0.0571> 故第2个回归系数显著,第1、3个回归系数不显著。 (4)多重判定系数 <知,回归方程的线性 它反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的优劣程度。此处明回归拟合效果很好。 (5)估计标准误差 精彩文档

,表实用标准文案

sy是y的标准差的估计,反映了y(房地产销售价格)的波动程度。 (6)有用。虽然该变量的部分系数没通过显著性检验,但并不意味着该变量没用,它在经济解释上可能还是有一定意义的,方程总体显著,说明方程包含该变量总体上是有用的。也可能是多重共线性造成了不显著。 精彩文档

实用标准文案

5中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:5 一、 (20分)为研究大学生的逃课情况。随机抽取350名大学生进行调查,得到的男女学生逃课情况的汇总表如下。 是否逃课 逃过课 未逃过课 合计 男 84 78 162 女 88 100 188 合计 172 178 350 (1) 这里涉及的变量有哪些?这些变量属于什么类型? 涉及的变量有性别、是否逃课。是否逃课及性别为分类型变量,不同性别的逃课和非逃课人数,为数值变量。 (2) 描述上述数据所适用的统计图形有哪些? 可以用条形图、复式条形图, 饼图、复式饼图,环形图。 二、 (20分)现从一批零件中随机抽取16只,测得其长度(单位:厘米)如下: 15.1 14.5 14.8 14.6 15.2 14.8 14.9 14.6 14.8 15.1 15.3 14.7 15.0 15.15.1 14.7 (1) 如果要使用t分布构建零件平均长度的置信区间,基本的假定条件是什么? 在小样本(n<30)情况下 ,对钟体均值得估计都是建立在总体服从正太分布假设前提下。当正态总体的未知,样本均值经过标准化后服从自由度为n-1的t分布,用样本方差 s2代替总体精彩文档

实用标准文案

方差。 (2) 构建该批零件平均长度的95%的置信区间。 样本均值平均长度为x=14.9,95%的置信区间为xt1-2(n1)s/n14.92.1310.247656/414.90.132(14.77,15.03) ,即 (3)能否确定该批零件的实际平均长度就在你所构建的区间内?为什么?(注:t2(n1)t0.025(15)2.131) 不能。因为该样本所构造的是一个特定的区间,不再是随机区间。只能说在95%置信水平下,该区间是大量包含真值的区间中的一个。也可能是少数几个不包含参数真值的区间中的一个。 三、 (20分)在假设检验中,当不拒绝原假设时,为什么一般不采取“接受原假设”的表示方式? 1、假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据 2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着没有得出明确的结论 3. 假设检验中通常是先确定显著性水平,这就等于控制了第Ι类错误的概率,但犯第Ⅱ类错误的概率却是不确定的。 四、 (20分)简要说明2分布在统计中的应用。 卡方分布应用很广,常用于假设检验和置信区间的计算,比如应用到独立性检验中,同质性检验、适合性检验等等 精彩文档

实用标准文案

独立性检验:主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题 拟合优度检验:检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题 同质性检验:检验两个或两个以上总体的某一特性分布,也就是各“类别”的比例是否统一或相近 适合性检验:检验某一类分类资料所在总体的分布是否符合某个假设或理论的分布 【感觉简答题可以适当写多点,也可以只说检验名字】 五、 (20分)简要说明解决多元回归中共线性的方法。 1:变量的选择方法:向前选择、向后剔除、逐步回归。 2:岭回归方法:有偏估计 3:主成分分析:降维,提取信息 4:偏最小二乘回归法:原理与主成分方法相似 精彩文档

实用标准文案

6中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:6 一、 (20分)一家电视台为了解观众对某档娱乐节目的喜欢程度,对不同年龄段的男女观众进行了调查,得到喜欢该档娱乐节目的观众比例(单位:%)如下: 年龄段 20岁以下 20—30岁 30—40岁 40—50岁 50岁以上 男性 5 25 16 12 6 女性 6 32 15 12 8 (1) 这里涉及的变量有哪些?这些变量属于什么类型? 有分类变量和数量变量。分类变量有性别,年龄段。数量变量有各年龄段的男女人数。 (2) 描述上述数据所适用的统计图形有哪些? 可以用条形图和饼图【直方图用于连续变量的这里最好不用】 二、 (20分)假定总体共有1000个个体,均值32,标准差5。从中抽取容量为100的所有简单随机样本。样本均值x的期望值和标准差各是多少?得出上述结论所依据的是统计中的哪一个定理?请简要叙述这一定理。 样本均值的期望值为32,标准差为0.5 精彩文档

实用标准文案

是中心极限定理,定理如下 设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布 三、 (20分)在假设检验中,利用P决策与利用统计量决策有什么不同? P值:如果能把犯第Ⅰ类错误的真实概率算出来,就可以直接用这个概率做出决策。而不需要管什么事先给定的显著性水平α,这个犯第Ⅰ类错误的真实概率就是P值。 统计量检验是根据事先确定的显著性水平α围成的拒绝域作出决策,不论检验统计量的值是大是小,只要把它落入拒绝域就拒绝原假设H。否则就不拒绝H。这样,无论统计量落在拒绝域的什么位置,你也只能说犯第一错误的概率为α,而用P值检验则能把犯第Ⅰ类错误的真实概率算出来。P 值决策优于统计量决策。 P 值决策提供了更多的信息。 四、 (20分)简要说明方差分析的基本原理。 方差分析被解释为检验多个总体均值是否相等的统计方法,这种解释侧重于方差分析的过程和形式。 本质上,方差分析研究的是分类自变量对数值因变量的影响 方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义 精彩文档

实用标准文案

五、 (20 分)比较说明指数曲线和直线的异同。 一、相同点:指数曲线模型和直线模型都可以对时间序列进行拟合;都可以进行参数估计和假设检验;都可以对于未来的时点进行预测。 二、不同点: 1、直线为线性的,指数曲线为非线性的。 2、两者适用于不同特点的时间序列; 线性趋势是时间序列按一个固定的常数(不变的斜率)增长或下降,指数曲线是时间序列各期观察值按一定的增长率增长或衰减; 3、两者的模型表达式不同; 4、系数的求解方法不同。直线用最小二乘法求得。指数曲线,需先采取线性化手段将其化为对数直线形式,根据最小二乘法,求解出系数的对数,再取其反对数。 5、两者的预测方法不同,直线趋势可以用 Holt 指数平滑和一元线性回归法预测,指数曲线可以用指数模型来预测。 精彩文档

实用标准文案

7中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:7 一、 (20分)一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题 (1) 是男生的体重差异大还是女生的体重差异大?为什么? (2) 粗略地估计一下,男生中有百分之几的人体重在55kg到65kg之间? (3) 粗略地估计一下,女生中有百分之几的人体重在40kg到60kg之间? (1)女生的体重差异大。 男生体重的离散系数是V1=5/60=0.083 女生体重的离散系数是V2=5/50=0.1 离散系数大的离散程度也就大,V2> V1,因此,女生的体重差异大 (2)设男生的体重为X1,X1~N(60,52) 设Z1=(X1-60) / 5 男生体重在55kg到65kg之间的概率为P,则 P(55X65)=P(-1Z11)=68% 因此,男生有68%的体重在55~65kg之间。 (3)设女生的体重为X2,则X2~N(50,52), 设Z2=(X2-50)/ 5,则Z2~N(0,1) 精彩文档

实用标准文案

P(40X2 60)=P(-2Z22)=95% 故女生有95%的体制在40~60kg之间。 二、 (20分)叙述评价估计量的标准。 评价估计量的标准主要有3个。 <1> 无偏性。无偏性是指估计量抽样分布的期望值等于被估计的总体参数。设总体参数为,所选择的估计量为^,如果E(^)=,则称^为的无偏估计量。 <2>有效性。有效性是指估计量的方差尽可能小。一个无偏估计量并不意味着它就非常接近被估计的总体参数,估计量与参数的接近程度是用估计量的方差来度量的。对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。 <3>一致性。一致性是指随着样本量的增大,点估计量的值越接近总体参数。一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。样本均值的标准误差x=/n与样本量的大小有关,样本量越大,x的值就越小。因此,大样本量给出的估计量更接近总体均值u,从这个意义上来说,样本均值是总体均值的一个一致估计量。 三、 (20分)一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买,两家供货商生产的灯泡使用寿命的方差大小基本相同,价格也很相近,房地产公司购进灯泡时考虑的主要因素就是使用寿命。其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。如果在精彩文档

实用标准文案

1500小时以上,在房地产公司就考虑购买。由36只灯泡组成的随机样本表明,平均使用寿命为1510小时,标准差为193小时。 (1) 如果是房地产开发公司进行检验,会提出怎样的假设?请说明理由。 (2) 如果是灯泡供应商进行检验,会提出怎样的假设,请说明理由。 (1) 设灯泡的平均使用寿命为u H0:u1500(使用寿命符合标准) H1:u<1500(使用寿命不符合标准) 房地产开发公司倾向于证明灯泡的使用寿命小于1500个小时。因为这会损害公司的利益(如果房地产公司非常相信灯泡的使用寿命在1500小时以上,也就没有必要抽检了)通常备择假设用于表达研究者倾向于支持的看法,因此,备择假设为u< 1500小时,原假设为u1500。 (2)设灯泡的平均使用寿命为u. H0: u  1500 H1: u > 1500 灯泡供应商倾向于支持灯泡的使用寿命大于1500小时,所以备择假设为:u > 1500;原假设为:u  1500 四、 (20分)什么是判定系数?它在回归分析中的主要作用是什么? 1.判定系数是对估计的回归方程拟合优度的度量。引起y值变化的这种波动称为变差。变差主要有两种:一是自变量x的变化引起y变化,这部分的平方和称为回归平方和;二是除x以外的其他随机因素导致y变化,这部分变差的平方和称为残差平方和。变差的平方和 = 回归的平方和+残差的平精彩文档

实用标准文案

方和 判定系数(R2)=回归的平方和(SSR)/ 变差的平方和(SST) 2.判定系数测度了回归直线对观测数据的拟合程度。回归直线拟合的好坏取决于SSR/SST比值的大小。各观测点越靠近直线,值越大,直线拟合的越好;值越小,直线拟合的越差。 五、 (20分)说明t分布的适用条件,如何判断某个过程产生的数据满足这一条件? 1.当正态总体的标准差未知时,在小样本的条件下对总体均值的估计和检验要用到t分布 2.正态性:可以划出样本数据的直方图和茎叶图或者P-P图,Q-Q图检验数据的正态性 小样本:当样本的数量小于30个,当成小样本处理 精彩文档

实用标准文案

8中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:8 一、 (20分)在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。 (1) 你认为该用什么样的统计量来反映投资的风险? (2) 如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票? (3) 如果你进行股票投资,你会选择商业类股票还是高科技类股票? (1)方差或标准差 (2)风险小的股票应选商业类股票 精彩文档

实用标准文案

(3)如果选择风险小的股票,选择商业类股票,如果选择高收益的股票,选择高科技类股票。 二、 (20分)某种感冒冲剂规定每包重量为12克,超重或过轻都是严重问题。从过去的生产数据得知0.6克,质检员抽取25包冲剂称重检验,平均每包的重量为11.85克。假定产品重量服从正态分布。 (1) 根据上述检验计算出的P0.02,感冒冲剂的每包重量是否符合标准要求(0.05)? (2) 说明上述检验中可能犯哪类错误?该错误的实际含义是什么? (1) 不符合标准 P= 0.02<0.05点评人:原假设为H0:产品符合标准要求,由于P值小于0.05,因此拒绝原假设,即,每包重量不符合标准要求。【P为犯第一类错误的概率,即原假设正确,实际拒绝的概率为0.02,位于拒绝域内,推翻H0】 (2)可能犯第Ⅰ类错误(错误)。原假设是正确的,实际确拒绝了原假设。 三、 (20分)简述方差分析的基本假定。 正态性:每种处理所对应的总体都应服从正态分布。 方差齐性:各个总体的方差必须相等。 独立性:每个样本数据都来自不同处理的独立样本。 方差分析对独立性的要求比较严格,若该假设得不到满足,方差分析的结果会受到较大影响。而对正态性和方差齐性的要求相对较宽松,当正态性不满足和方差略有不齐时,对分析的结果影响不是很大。 精彩文档

实用标准文案

四、 (20分)怎样自相关图和偏自相关图来识别ARIMA(p,d,q)模型中的参数? 第一步:将序列平稳化。只有平稳序列才能建立ARIMA模型,当原始序列不平稳时,通过差分可以将其平稳化。 第二步:识别模型的阶数。如果原始序列(或差分序列)的偏自相关系数有p个明显的峰值,在p个值后截尾,而它的自相关函数呈现出指数衰减或正弦衰减,呈现出拖尾,为AR(p)序列,模型为ARIMA(p,0,0).如果序列的自相关函数有q个明显的峰值,在q个值后截尾,而它的偏自相关函数呈指数或正弦衰减,呈现出拖尾,为MA(q)序列,模型为ARIMA(0,0,q).如果序列的自相关图和偏自相关图的前p个条和前q个条没有固定规律,其后都是趋渐于0而不是突然变为0,都呈现出拖尾,模型为ARMA(P,Q),“I”的取值取决于差分的阶数。 第三步:模型诊断。如果模型正确,模型预测产生的误差是白噪声序列,残差序列的自相关图没有什么固定模式。书上245页 五、 (20分)什么是回归中的置信区间估计和预测区间估计?两个区间的宽度是否一样?x取何值时两个区间宽度最窄? 平均值的置信区间估计:是对x的一个给定值x0,求出y的平均值的估计区间。 个别值的预测区间估计:是对x的一个给定值x0,求出y的一个个别值的估计区间。 两个区间的宽度是不一样的。预测区间要比置信区间宽一精彩文档

实用标准文案

些。 当x=x时,两个区间的宽度最窄,此时,两个区间也都是最准确的。 精彩文档

实用标准文案

9国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:9

一、 (20分)为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。 (1) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同? (2) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同? (3) 哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的? 解:(1)、如果抽样是随机的,抽样样本数目对样本平均值没有决定作用,答案是不确定的; (2)、如果抽样是随机的,抽样样本数目对样本方差、标准差没有决定作用,答案是不确定的; (3)、不确定,都有可能。 二、 (20分)在参数统计分析中,应用t分布、分布和F分布的假定条件是什么? 如何判断样本数据是否满足假定条件。 2精彩文档

实用标准文案

解:(1)t分布:设X1服从标准正态分布N(0,1),X2服从自由度为n的X1分布,且X1与X2相互独立,则称变量t=服从的分布为自由度X2n2为n的t分布。期望 E(T)=0 方差D(T)=n/(n-2),n>2; 2分布:设 X1,X2,......Xn相互独立,都服从标准正态分 布N(0,1),则称随机变量X=X1+X2+....+Xn服从自由度为n的分布。期22222望E(X)=n,D(X)=2n; F分布:设X1服从自由度为n的分布,X2服从自由度为222X1mm的分布,且X与X相互独立,则称变量F= F分布。 X2n 服从212 (2)正态性检验及独立性检验。 三、 (20分)由于时间和成本对产量变动的影响很大,所以在一种新的生产方式投入使用之前,生产厂家必须确信其所推荐新的生产方法能降低成本。目前生产中所用的生产方法成本均值为每小时200元。对某种新的生产方法,测量其一段样本生产期的成本。 (1) 在该项研究中,建立适当的原假设和备择假设。 (2) 当不能拒绝H0时,试对所做的结论进行评述。 (3) 当可以拒绝H0时,试对所做的结论进行评述。 解:(1)、原假设:H0:新的生产方法成本的均值不低于200元/每小时;备择假设:小时。 H1:新的生产方法成本的均值低于200元/每精彩文档

实用标准文案

(2)、当不能拒绝H0时,说明并没有把握说明新的生产方法能降低生产成本; (3)、当可以拒绝H0时,说明新的生产方法可以降低生产成本,可以采用新的方法生产。 四、 (20分)列出度量下述测度变量间的关系所使用的统计量。 (1) 两个分类变量。 (2) 两个数值变量。 (3) 两个顺序变量。 (4) 一个分类变量与一个数值变量。 解:分类变量分为有序变量、无序变量及二分类,在差别性检验中二分类变量和无序变量都可以用卡方统计量检验,不过一个是四方格、一个是R×C列联卡方,有序变量也即等级资料得用秩和检验。有序变量中可用多元回归来检验假设,对于无序变量使用logistics回归。 (1)统计量;(2)、相关系数;(3)、等级相关系数;(4)、F统计量。 F检验和t检验有何不同? 五、 (20分)在多元线性回归分析中,2解:(1)、F检验是对模型整体显著性水平的检验,而t检验只是对单独变量的显著性水平的检验。 (2)、F检验显著,说明模型拟合效果显著,但并不能说明每个变量都显著。 精彩文档

实用标准文案

10中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:10

一、 (20分)在2008年8月北京举办的第29届奥林匹克运动会上,获得金牌总数前三名的国家及奖牌数如下。要描述这一数据,可以使用的图形有哪些?说明它们在描述这一数据中的用途。 排名 1 2 3 国家 中国 美国 俄罗斯 金 51 36 23 银 21 38 21 铜 28 36 28 总 100 110 72 列出适合展示上述数据的图形并说明这些图形的用途。 解:(1)、直方图或者条形图:能够直观的表明各个国家在金、银、铜牌上的奖牌数量。 如果以国家为横坐标,以奖牌数为纵坐标,能够直观的比较不同国家或得奖牌总数的情况; 如果以奖牌种类为横坐标,以国家为纵坐标,能够直观的看到每个国家获得各种奖牌的情况; (2)、饼图或者环形图:能够清楚的比较各个国家获得金、银、铜奖牌的比例。 二、 (20分)某企业生产的产品需用纸箱进行包装,按规定供应商提供的纸箱用纸的厚度不应低于5毫米。已知用纸的厚度服从正态分布,一直稳定在0.5毫米。企业从某供应商提精彩文档

实用标准文案

供的纸箱中随机抽查了100个样品,得样本平均厚度x4.55毫米。 (1) 在0.05的显著显著性水平上,是否可以接受该批纸箱?该检验中会犯哪类错误?该错误的含义是什么? (2) 抽查的100个样本的平均厚度为多少时可以接收这批纸箱?此时可能会犯哪类?该错误的含义是什么? (注:z0.0251.96,z0.051.645) 解:(1)、由题可知,纸箱的厚度服从N(,0.52), x4.55,5 n=100, 建立假设:H0:5 H1:5 ux-4.55-4.5559实用标准文案

与总体理论分布的拟合优度;(2)同一总体的两个随机变量是否独立;(3)二或多个总体同一属性的同素性检定即,独立性检验、同质性检验、适合性检验等。 四、(20分)在多元线性回归分析中,如果某个回归系数的t检验不显著,是否就意味着这个自变量与因变量之间的线性回归不显著?为什么?当出现这种情况时应如何处理? 解:(1)、不是。因为在多元线性回归模型中,如果多个自变量之间存在较强的相关性,或者因为数据收集的基础不够宽,造成多个自变量之间存在相关性时,此时在进行单个变量的t检验时,有可能会通不过检验,即该多元线性回归模型存在多重共线性。 (2)、当模型检验不显著时,需要进行判别(1、系数估计值的符号是否不对2、是否存在某些重要的自变量t值低,而R方不低3、是否出现当一不太重要的解释变量被删除后,回归结果显著变化)、检验(相关性检验)模型中是否出现多重共线性,需要通过:1、增加数据;2、对模型施加某些约束条件;3、删除一个或几个共线变量;4、将模型适当变形;5、主成分回归;6、向前选择、向后剔除、逐步回归等方法去除共线性,选出合适的自变量来反应因变量的变化情况。 而在处理多重共线性的时候需要注意:1、多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;2、严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。3、如果模型仅用于预测,则只要拟合程度好,可不处理多重共线精彩文档

实用标准文案

性问题,存在多重共线性的模型用于预测时,往往不影响预测结果; 五、(20分)下表是某贸易公司近几年的出口额数据: 年份 2002 2003 2004 2005 006 2007 2008 出口额(万美元) 13 19 24 35 58 88 145 (1) 从图形上判断,出口额时间序列含有什么成分? (2) 要预测该公司的出口额,应采用哪种趋势线?该趋势线的特点是什么? (3) 根据上面的数据拟合的指数曲线方程为:ˆ8.02(10.4904这里的0.4909的具体含义是Y)t,t什么? 解:(1)、以看出,出口额随着时间的增长,成曲线增长趋势。 ,由图可ˆ8.0202 (2)、如下图所示,用指数方程Ye0.3994t拟合出口额的t增长趋势,拟合的R值高达0.9896。 精彩文档

实用标准文案

(3)、方程中的0.4904的含义是:出口额增长率。 精彩文档

实用标准文案

11中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:11

一、 (20分)A、B两个班各有50名学生,统计学考试成绩的描述统计量如下: 统计量 平均数 中位数 25%四分位数 75%四分位数 标准差 最小值 最大值 A班 74.4 75 67 80 10.6 44 96 B班 68.5 67 56 83 17.4 35 100 (1) 画出两个班考试成绩的箱线图,并比较分布的特征。 (2) 根据统计量对两个班考试成绩的特点进行分析。 (3) 两个班考试成绩的最低分和最高分是否属于离群点? 解:(1) 精彩文档

实用标准文案

从图中可以看出,A班学生各科的平均考试成绩较高,且各学科成绩之间离散程度也较小,B班学生各科的平均考试成绩相对较低,且各学科成绩之间离散程度也较大;图中用“O”标出的最小值是A班同学考试成绩的最低分,被视为A班学生考试成绩的离群点。 (2) A班学生各科的平均考试成绩较高,B班学生各科的平均考试成绩相对较低;两个班成绩平均数和中位数基本相等,说明两个班级考试成绩分布接近对称;A班学生各科成绩的极差和四分位差均小于B班,说明B班学生各科成绩中间的数据及两端的数据均比A班学生成绩分散;A班学生考试成绩的离散系数小于B班学生考试成绩的离散系数,故A班学生考试成绩的离散程度小于B班。 (3)A班学生考试成绩最低分属于离群点。 精彩文档

实用标准文案

二、 (20分)谈谈你对方差分析的理解。 解:方差分析是分析各分类自变量对数值因变量影响的一种统计方法。自变量对因变量的影响也称为自变量效应,而影响效应的大小则体现为因变量的误差里有多少是由于自变量造成的。因此,方差分析是通过对数据误差的分析来检验这种效应是否显著。 【复核补充】方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”, 用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,其基本思想是通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和。 三、 (20分)某厂产品的优质品率一直保持在40%,近期质检部门来厂抽查,共抽查了50件产品,其中优质品为9件。 (1) 在0.05的显著显著性水平上,能否认为其优质品率仍保持在40%? 精彩文档

实用标准文案

(2) 该检验中可能犯哪类错误?其含义是什么? (3) 根据上述检验计算出的P0.564,解释这个P值的具体含义。 (注:z0.0251.96,z0.051.645) 解:依题意建立的原假设和备择假设为: H0:40%;H1:40% 根据抽样结果计算得:p 检验统计量为: z918%。 500.180.40.4(10.4)503.175 利用Excel中的NORMSDIST函数得到双尾检验的P=0.001498。显著性水平为0.05时不拒绝H0,没有证据表明优质品率不是40%。 【复核改】根据显著性水平α=0.05,=1.96,|z|=3.175>1.96,因此拒绝原假设,优品率没有保持在40%。 (2)可能犯第II类错误,是指原假设是错误的,却没有拒绝它。 【复核改】可能犯第I类错误,是指原假设是正确的却拒绝了原假设:即优品率保持为40%,却认为不是,犯这个错误的可能性为5%。 (3)P=0.564的实际含义是:如果该企业优质品率是40%,检验结果却认为不是40%,犯这一错误的概率为0.564。 ,xk,k个自变量分别为x1,x2,四、 (20分)设因变量为y,则多元线性回归模型可表示为:y01x12x2kxk。 (1) 对这一模型的假设有哪些? (2) 如果模型中存在多重共线性,会对结果产生哪些影响? 精彩文档

实用标准文案

(3) 解决多重共线性的方法有哪些?对各方法进行简要评述。 解:(1)在多元线性回归模型中,对误差项ε有三个基本假定: 1、 正态性。ε是一个服从正态分布的随机变量,且期望值为0,,xk的值,y的即E(ε)=0.意味着对于给定的x1,x2,期望值为E(y)01x12x2kxk。 ,xk的所有值,ε的方2、 方差齐性。对于自变量x1,x2,差2都相同。 ,xk一组特定值,他所对3、 独立性。对于自变量x1,x2,,xk任意一组其他值所对应的ε不相应的ε与x1,x2,,xk的值,因变量y也是关。同样,对于给定的x1,x2,一个服从正态分布的随机变量。 (2)首先,变量之间高度相关时,可能会给回归的结果造成混乱,甚至会把分析引入歧途。 其次,多重共线性可能对参数估计值的正负号产生影响,特别是i的正负号有可能同预期的正负号相反。 (4) 逐步回归是避免多重共线性的有效方法之一,先通过向前选择法选择变量,不过在新增加一个自变量后,它会对模型中所有的变量重新进行考察,看有没有可能剔除某个自变量。如果在新增加一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。按此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加变精彩文档

实用标准文案

量已经不能导致SSE显著减少(这个过程可以通过F检验来完成)。 逐步回归法的特点是:在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中被剔除的自变量在后面的步骤中也可能重新进入模型中。 五、 (20分)使用主成分分析和因子分析时应注意哪些问题? 首先,只有当原始变量之间有较强的相关关系是,降维的效果才回明显,否则不适合进行主成分分析和因子分析。 其次,主成分和因子的选择标准应基于定量分析的结果,并结合具体问题而定,在某种程度上取决于研究者的知识和经验,而不是方法本身。 再次,即使得到了满意的主成分或因子,在运用它们对实际问题进行评价、排序等分析师,仍然要保持谨慎,因为主成分和因子比较是高度抽象的量,无论如何,它们的含义都不如原始变量清晰。 最后,因子分析可以看做主成分分析的推广和拓展,而主成分分析则可以看作因子分析的一个特例。目前因子分析在实践中应用广泛,而主成分分析通常只作为大型统计分析的中间步骤,几乎不再单独使用。 精彩文档

实用标准文案

12中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:12

一、 (20分)下表是2006年北京、上海和天津按收入法计算的地区生产总值(按当年价格计算)数据。 地 区 北 京 天 津 上 海 劳动者报酬 3496.57 1383.36 3756.56 生产税净额 1161.55 775.09 1623.36 固定资产折旧 1251.09 595.09 1730.51 营业盈余 1961.07 1605.61 3255.94 描述上述数据的图形有哪些?简要说明这些图形的用途。 解:可以用帕累托图,按各类别出现的频数多少排序后绘制的条形图,可以看出哪类频数出现的多,哪类出现的少。 可以用环形图,每个样本用一个环来表示,样本中每一类别的频数比例用环中的一段表示。因此环形图可显示多个样本各类别频数所占的相应比率。 二、 (20分)一家超市某种牛奶的日销售量服从正态分布,未知。根据已往经验,其销售量均值为60箱。该超市在最近一周进行了一次促销活动,以促进销售。一周的日销量数据(单位:箱)分别为:64,57,49,73,76,70,59。 a) 检验促销活动是否有效(0.01)。 b) 该检验中可能犯哪类错误?其含义是什么? c) 根据上述检验计算出的P0.1576,解释这个P值的具体含精彩文档

实用标准文案

义。 (注:z0.0052.58,t0.005(71)3.143) 解:a)促销活动是否有效,即是否大于60,因此属于右侧检验,假设为:H0:60,H1:60 【复核补充】检验统计量为:t=2.899实用标准文案

为1,第二个最小的数秩为2,依此类推,最大的数据秩为N,若两个数据相同,取其秩的平均数。 2、 分别对两个样本的秩求出平均秩WX和Wy,并对其差距进行比较,如果差距较大,意味着一组样本的秩普遍偏小,另一组样本的秩普遍偏大,此时原假设可能不成立。 3、 计算样本一中每个秩大于样本二的每个秩的个数UYX,并对UYX和Uxy进行比较:如果UYX和Uxy相差较大,则原假设就有可能不成立。 4、 根据UYX和Uxy计算Wilcoxon W统计量和Man-Whitney U统计量,先分别求出两个样本的秩和,设样本一的秩和为Wx,样本二的秩和为Wy,若mn,检验统计量W=Wx;若m=n,检验统计量W为第一个变量值所在样本租的W值。Mann=Whitney U统计量定义为: U=Wk(k1)2 式中,k为W对应样本组的样本数据个数。 5、计算出统计量P值并做出决策。若P实用标准文案

H1:男性与女性喜好不一致 2、计算卡方值 3、设定α水平,进行显著性水平检验 4、若卡方<卡方α,故拒绝H0,即男性与女性喜欢该档娱乐节目的比例不一致 四、 (20分)在因子分析中,因子数量的确定通常需要考虑哪些因素? 解:因子数量的确定与主成分分析类似,可以根据因子方差的贡献率来选择。一般情况下,累计贡献率达到80%以上的前几个因子可以作为最后的公因子。从特征根角度看,一般要求因子对应的特征根要大于1,因为特征根小于1说明该公因子的解释力度太弱,还不如使用原始变量的解释力度大。实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验。 五、 (20分)在多元线性回归中,选择自变量的方法有哪些? 向前选择法、向后剔除法、逐步回归法。 向前选择法是从模型中没有自变量开始,分别拟合因变量y对k个,xk)的一元线性回归模型,共有k个,然后自变量(x1,x2,找出F统计量的值最大的(或P值最小的)模型及其自变量xi,并将该自变量首先引入模型(如果所有模型均无统计上的显著性,则运算过程终止,没有模型被拟合)。其次,在模型已经引入xi的基精彩文档

实用标准文案

础上,在分别拟合引入模型外的k-1个自变量(x1,...xi1,xi1,xk)的回归模型,即自变量组合为xix1,...xixi1,xixi1,xixk的k-1个回归模型,分别考察这k-1个模型,大的(或者P值最小的)自变量xj引入模型,如果除xi之外的k-1个自变量中没有一个是统计上显著的,则运算终止。如此反复,直至模型外的自变量均无统计显著性为止。 向后剔除法,拟合因变量对所有k歌自变量的线性回归模型。考察p(p实用标准文案

精彩文档

实用标准文案

13中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:13 一、 (20分) 下面是测量的30袋食品重量的绝对误差数据(单位:克): 6.1 4.7 6.5 6.2 7.7 6.4 5.5 7.1 6.1 5.3 5.7 6.1 5.3 4.0 4.8 3.2 3.9 1.9 4.9 3.8 5.3 2.6 5.3 5.5 5.8 2.7 6.8 7.4 5.6 3.3 (1) 适合描述该组数据分布的图形有哪些?说明这些图形的主要特点。 直方图,用矩形的宽度和高度来表示频数分布 箱线图,可以方便的看出数据的分布特征 茎叶图,不仅可以看到分布,还能保留原始数据 (2) 适合描述该组数据分布特征的统计量主要有哪些?说明这些统计量的特点。 均值:反映了测量的30袋食品的平均重量水平情况; 中位数:反映了测量的30袋食品的重量的中间水平情况; 四分位数:反映了测量的30袋食品的重量按照大小顺序排列后处于25%、50%及75%的水平情况; 众数:反映了测量的30袋食品的重量出现最多次水平情况; 极差:反映了测量的30袋食品的重量中最重与最轻间差异水平情况; 四分位差:反映了测量的30袋食品的重量按照大小顺序排列后中间50%的数据的离散水平情况; 精彩文档

实用标准文案

方差:反映了测量的30袋食品的重量与均值间的离散程度; 二、 (20分)从3个总体中各抽取容量不同的样本数据,检验3个总体的均值之间是否有显著差异,得到的方差分析表如下(0.05): 差异源 P-value 组间 A 2 388 C 0.011 组内 450 9 B 总计 1226 11 (1) 计算出表中A、B、C三个单元格的数值。 A=776 B=50 C=7.76 (2) A、B两个单元格中的数值被称为什么?它们所反映的信息是什么? A代表组间平方和,反映了组间各水平间均值的差异 B代表组内均方误差,反映了组内估值与真值间差异程度 (3) 在0.05的显著性水平下,检验的结论是什么? 组间差异显著,拒绝H0 F0.95(2,9)=4.26,F>4.26,故拒绝原假设,认为3个总体的均值之间有显著性差异。 SS df MS F 三、 (20分)谈谈那个置信水平和置信区间的理解。 置信水平:在重复构造的总体参数的多个置信区间中包含总体参数真值的次数所占的比例(真值落入置信区间的概率,即显著性水平) 置信区间:由样本统计量构造出的总体参数在一定置信水平下的估计区间 四、 (20分)要建立一个多元线性回归模型,谈谈你的建模思路。 1. (处理数据)、确定变量间的关系 精彩文档

实用标准文案

2. 建立多元线性回归模型 3. 对模型进行检验(模型及自变量显著性的检验)、用估计方程预测 4. 残差分析:检验模型假定(预测效果的检验)。 5、模型的解释。 五、 (20分)聚类分析时对变量或数据有哪些基本要求? 1. 要选择与分类目标有关的变量 2. 各变量的取值不应该有数量级上的过大差异 3. 各变量之间不应该有强的相关关系 精彩文档

实用标准文案

14中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:14 一、 (20分)为分析不同地区的消费者与所购买的汽车价格是否有关,一家汽车企业的销售部门对东部地区、中部地区和西部地区的400个消费者作了抽样调查,得到如下结果: 汽车价格 东部地区 中部地区 西部地区 10万元以下 20 40 40 10—20万元 50 60 50 20—30万元 30 20 20 30万元以上 40 20 10 列出描述上述数据所适用的统计图形,并说明这些图形的用途。 环形图 显示多个样本各类别所占的相应的比例 复式饼图 是简单饼图的嵌套,展示多个分类变量的构成比较 复式条形图 显示不同类别的频数或者分布情况 二、 (20分)从一批零件中随机抽取16只,测得其评价长度为14.9cm,标准差为0.25cm。 (1) 如果要使用t分布构建零件平均长度的置信区间,基本的假定条件是什么? 总体服从正态分布。 (2) 构建该批零件平均长度的95%的置信区间。 14.9±2.131*0.25/√16=14.9±0.133=[14.767,15.033] (3) 能否确定该批零件的实际平均长度就在你所构建的区间内?为什么? 不能确定。因为这个95%的置信区间是根据目前的样本计算的,是一个常数区间,实际零件长度要么在这一区间内,精彩文档

实用标准文案

要么不在这一区间内,但是否在其中并不知道。(置信水平) (注:t2(n1)t0.025(15)2.131) 三、 (20分)某汽车制造公司想了解广告费用(x)对销售量(y)的影响,收集了过去10年有关广告费用(单位:万元)和销售量(单位:辆)的数据,希望建立二者之间的线性回归方程,并通过广告费用来预测汽车的销售量。通过计算得到下面的部分结果: 回归平方和(SSR) 755456 残差平方和(SSE) 37504 回归方程的截距 348.94 回归方程的斜率 14.41 (1) 写出销售量与广告费用的直线回归方程,并解释回归系数的实际意义。 Y=14.14X+348.94, 广告费用每增加1万元,汽车销售量平均增加14.41辆 (2) 计算判定系数R,说明汽车销售量的变差中有多少是由于广告费用的变动引起的? 2R2SSR=95.27% , 在汽车销售量的总变差中,有SST95.27%是由销售量与广告费用之间的线性关系引起的。 (3) 计算估计标准误差se,并解释其实际意义。 SeSSE =68.47 n2它表示,用广告费用预测汽车销售量时,平均的预测误差为68.47辆 精彩文档

实用标准文案

四、 (20分)简述分解法预测的基本步骤。 (1)确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数,以消除季节成分 (2)建立预测模型并进行预测。对消除季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。 (3)计算出最后的预测值。将回归预测值乘以相应的季节系数得到最终的预测值。 五、 (20分)对于聚类分析回答下面的问题: (1) 解释Q型聚类和R型聚类的含义 Q型聚类:根据变量对所观察样本进行分类的聚类方法 R型聚类:根据样本对多个变量进行分类的聚类方法 (2) 聚类分析与判别分析有何不同? 聚类分析是无监督分类,不知道数据点的类别标签,需要自己自动分出来;判别分析是有监督的,本身已经知道每个数据点属于哪个类,它的任务是找到最佳的分类方法。 聚类分析又称群分析、点群分析。根据研究对象特征对研究对象进行分类的一种多元分析技术, 把性质相近的个体归为一类, 使得同一类中的个体都具有高度的同质性, 不同类之间的个体具有高度的异质性。根据分类对象的不同分为样品聚类和变量聚类。 判别分析是一种进行统计判别和分组的技术手段。根据一定量精彩文档

实用标准文案

案例的一个分组变量和相应的其他多元变量的已知信息, 确定分组与其他多元变量之间的数量关系, 建立判别函数, 然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组。 判别分析中的因变量或判别准则是定类变量, 而自变量或预测变量基本上是定距变量。依据判别类型的多少与方法不同, 分为多类判别和逐级判别。判别分析的过程是通过建立自变量的线性组合(或其他非线性函数), 使之能最佳地区分因变量的各个类别。 精彩文档

实用标准文案

15中国人民大学接受同等学历人员申请硕士学位考试试题 招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:15

一、 (20分)为研究上市公司对其股价波动的关注程度,一家研究机构对在主板、中小板和创业板上市的200家公司进行了调查,得到如下信息: 上市公司的类型 主板企业 中小板企业 创业板企业 关注 50 35 25 不关注 70 15 5 列出分析上述数据所适用的统计方法。 答:上述数据可采用列联表与2独立性检验进行分析。 如题中表格所示,行变量为“上市公司类型”,列变量为“是否关注”,这是一个2×2(2×3)列联表。通过2独立性检验来证明两个变量是否相关。 假设:H0:上市公司类型与其对股价波动是否关注无关 H1:上市公司类型与其对股价波动是否关注有关 设RT是给定单元格(如第i行第j列的单元格ricj)所在行的合计频数,CT是所在列的合计频数,n是上市公司数量200,根据以下公式: P(ricj)P(ri)P(cj)(fe(RTCT)()nnRTCT)()n nnRTCT120110如:f1()()n()()20066nn200200fe为任意打印格的期望频数,f1为第一个单元格的期望频数 以此类推,可得出如下期望频数计算表(括号给出的为期望频数): 上市公司的类型 主板企业 精彩文档

关注 50(66) 不关注 70(54) 合计 120 实用标准文案

中小板企业 创业板企业 合计 235(27.5) 15(22.5) 25(16.5) 5(13.5) 110 90 250 30 200 (f0fe)2根据独立性检验的统计量(f0为观察频数,fe为期望频数,fe该统计量服从自由度为(r-1)(c-1)的2分布,r为行数,c为列数),得出: (5066)2(7054)2(3527.5)2665427.5(1522.5)2(2516.5)2(513.5)2 22.516.513.53.884.742.052.54.385.3522.92自由度为2。 Excel中使用【CHIDIST】函数CHIDIST(22.9,2)计算2的右尾概率为0.0000106,小于0.05,拒绝原假设,表明上市公司类型与其对股价波动是否关注有关。 二、 (20分)由30辆汽车构成的一个随机样本,测得每百公里的耗油量数据(单位:公升):判断该种汽车的耗油量是否近似服从正态分布的方法有哪些?简要说明这些方法。 答:判断数据是否服从正态分布,可以通过绘制数据频数分布的直方图或茎叶图、或对数据作正态概率图P-P图和Q-Q图的方法来判断,也可以使用K-S检验。 直方图或茎叶图,若数据近似服从正态分布,则图形的形状与正态曲线应该相似。 P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的。 Q-Q图是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的。 K-S检验是非参数检验的一种,可以将某一变量的累积分布函数与特定的分布函数(如正态分布函数)进行比较。 三、 (20分)简述时间序列的构成要素。 答:时间序列构成要素有四种,它们是趋势(T)、季节变动(S)、周期性或循环波动(C)和不规则波动(I)。 趋势也称为长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的变动。它是由某种固定性的因素作用于序列而形成的。它可以是线性的,也可以是非线性的。 季节变动是指时间序列呈现出的以年为周期长度的固定变化模式,这种模式年复一年出精彩文档

实用标准文案

现。 循环波动是指时间序列呈现出的非固定长度的周期性变动。它不同于趋势变动,不是朝着单一的方向持续运动,也不同于季节变动,季节变动有比较固定的规律,且变动周期为一年,而循环波动则无固定的规律,变动周期多为一年以上,且周期长短不一。周期性通常是由于经济环境的变化而引起的。 不规则波动是时间序列中除去趋势、季节变动和循环波动之后的随机波动。不规则波动通常是夹杂在时间序列中,致使时间序列产生一种波浪形或振荡式波动 四、 (20分)用一个电子秤对一个标准重量为10克的物体称重100次,以核对电子秤的准确性。设为这个电子秤读数的均值,即10。检验假设H:10,0(a)电子秤是准确的;(b)电子秤是不准确的;(c)电H1:10,考虑以下三个结论:子秤可能是准确的。 (1) 如果拒绝H0,那么三个结论中那个最好? 答:(b)结论最好。 (2) 如果没有拒绝H0,那么三个结论中那个最好? 答:(c)结论最好。 (3) 能否通过假设检验来证明这个电子秤是准确的?请说明理由。 答:不能。 “电子秤是准确的”是原假设。假设检验的目的主要是收集证据拒绝原假设,假设检验只提供不利于原假设的证据。当不能拒绝原假设时,也不能说“接受原假设”,因为没有足够的证据证明原假设是真的,而仅仅意味着目前还没有足够的证据拒绝原假设。 另外,假设检验通常是先确定显著性水平α(即犯第Ⅰ类错误的概率),这就等于控制了犯第Ⅰ类错误的概率,但犯第Ⅱ类错误(即原假设是错误的却没有拒绝原假设)的概率β是不确定的。通常情况下β的值无法知道,在不拒绝原假设时,也有发生第Ⅱ类错误的风险。 因此假设检验不能证明原假设正确,即不能通过假设检验来证明这个电子秤是准确的。 五、 (20分)为研究人均国内生产总值(GDP)与人均消费水平之间的关系,在全国范围内随机抽取7个地区,得到2008年的人均国内生产总值(单位:元)和人均消费水平(单位:元)的统计数据,设人均GDP作自变量(x),人均消费水平作因变量(y),经初步计算,用最小二乘法得到下面的回归结果(0.05): ˆ734.69 方程的截距:0回归平方和:SSR814.8 精彩文档

实用标准文案

ˆ0.31 回归系数:1(1) 义。 残差平方和:SSE30.3 写出人均GDP与人均消费水平的线性回归方程,并解释回归系数的实际意ˆˆx734.690.31x ˆ答:线性回归方程:y01ˆ0.31表示人均GDP每变动1元,人均消费水平变动0.31元。 回归系数1(2) 答:R=2计算判定系数R,并说明它的实际意义。 2SSRSSR814.80.964196.41% SSTSSRSSE814.830.3222判定系数R测度了回归直线对观测数据的拟合程度。若所有观测点都落在直线上,残差平方和SSE=0,R=1,拟合是完全的。R越接近1,回归直线的拟合程度就越好。本题中,R=96.41%表示在人均消费水平的总变差中,有96.41%可以由人均消费水平和人均GDP的线性关系解释。 (3) 计算估计标准误差se,并说明它的实际意义。 2答:seˆ)(yyii2n2SSE30.32.4617 n272估计标准误差se是度量各观测点在直线周围分散程度的一个统计量,它反映了实际观测值与回归估计值之间的差异程度。各观测点越靠近直线,回归直线对各观测点的代表性就越好,se就越小,根据回归方程进行预测也就越准确。若各观测点都落在直线上,则se=0,此时用自变量来预测因变量是没有误差的。本题中se=2.4617的实际意义是,根据人均GDP来预测人均消费水平时,平均的预测误差为2.4617元。 (4) 计算相关系数,说明人均GDP与人均消费水平之间的关系强度。 2答:相关系数记为r,在一元线性回归中,相关系数r是判定系数R的平方根。因此r=0.9818。 r1说明两个变量之间的线性关系强;r0说明两个变量之间的线性关系弱。本题中r=0.9818>0.8,表示人均GDP与人均消费水平高度相关。 精彩文档

实用标准文案

16中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:16

一、 (20分)下表是2006年北京、上海和天津按收入法计算的地区生产总值(按当年价格计算)数据。 地 区 北 京 天 津 上 海 劳动者报酬 3496.57 1383.36 3756.56 生产税净额 1161.55 775.09 1623.36 固定资产折旧 1251.09 595.09 1730.51 营业盈余 1961.07 1605.61 3255.94 描述上述数据所用的统计方法有哪些?简要说明这些方法的用途。 答:条形图,以地区为项目展示3个地区各种生产总值构成成分的对比情况。 环形图,展示3个地区生产总值中各种构成成分所占比例。 矩阵散点图,比较4个变量中两两之间的关系。 雷达图,展示3个地区在4个变量上的差异或相似程度。从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域。利用它可以研究多个样本之间的相似程度。 轮廓图,也可展示3个地区在4个变量上的差异或相似程度。用横轴表示各样本(或变量),纵轴表示每个样本的多个变量(或样本)的取值,将不同样本的同一个变量的取值用折线连接。 二、 (20 分)由25辆汽车构成的一个随机样本,测得每百公里的耗油量数据如下(单位:公升): 9.19 9.63 10.10 9.70 10.09 10.01 8.82 9.43 10.03 9.85 9.60 10.50 10.12 9.49 9.37 9.78 9.35 9.54 9.36 9.68 8.82 8.65 8.51 9.14 9.75 列出分析上述数据所适用的统计方法,并进行简要说明。 精彩文档

实用标准文案

答:可以通过平均数、众数和中位数、方差来反映数据的集中程度;使用离散系数来分析数据的离散程度;使用偏态、峰态描述数据分布的形状。 也可以利用图标大致了解数据分布的形状和特征。如生成频数分布表或绘制数据频数分布的直方图、茎叶图、箱线图、垂线图、误差图等。 1、平均数、众数和中位数是评价数据的集中趋势的,可以作为数的平均水平或代表值,三者特点和差异如下: 众数:不受极端值影响。具有不惟一性,数据较多时有意义,且有明显峰值时应用。 中位数:不受极端值影响。数据分布偏斜程度较大时应用。 平均数:易受极端值影响。利用了全部数据信息,数学性质优良,数据对称分布或接近对称分布时应用较好。当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性 2、方差、离散系数,都是用来评价数据的离散程度的。 3、频数分布表:先将样本数据按照耗油量分成不同组别,然后统计出各组别的数据频数(即该组别耗油量出现次数)。 4、直方图,用于展示定量数据分布的一种常用图形,它是用矩形的宽度和高度来表示频数分布。通过直方图可以观察数据分布的大体形状,如分布是否对称。 茎叶图,把每个数字分成2部分,通常是以数据的高位数值作为茎,叶只保留该数值的最后一个数字。如9.19分成91和9(单位为0.01),10.01分成100和1(单位为0.01)。茎确定后,叶子的长度代表了数据的分布。茎叶图不仅可以看出数据的分布,还能保留原始数据的信息。 箱线图,由一组数据的最大值、最小值、中位数、两个四分位数着5个值绘制而成。它不仅可用于反应一组数据分布的特征,比如,分布是否对称,是否存在离群点等,还可以进行多组数据分布特征的比较。 垂线图,可用于展示多个变量或多个样本取值的分布状况。将本题中的数据用一条垂线连接起来,用垂线的长度以及垂线上的各个点来反映耗油量数据的分布状况。 误差图,以均值为中心,加减一定倍数的标准差(也可以是加减一定倍数的标准误差)绘制而成的。可用于展示多个样本或分类的不同取值的分布状况和离散状况。 三、 (20分)检验如下假设:H0:100,H1:100。根据样本数据得到的P0.04。 (1) 请你做出决策,并说明理由。 答:拒绝原假设。 P值是关于数据的概率,反映的是在总体的许多样本中某一类数据出现的经常程度,它是当原假设正确时,得到目前这个样本数据的概率。本题可以这么描述,如果总体精彩文档

实用标准文案

均值真的是100的话,那么从该总体中抽出一个样本数据的概率仅为0.04。也就是说如果原假设正确的话,几乎不可能抓到这样的样本数据,既然抓到了,就说明原假设是不对的。因此拒绝原假设。 (2) 对检验结论进行评述。 答:用P值进行决策的规则是:如果P<α,拒绝H0越小,拒绝原假设的理由就越充分。 一般来说,P<0.1,代表有一些证据不利于原假设;P<0.05,代表有适度证据不利于原假设;P<0.01,代表有很强证据不利于原假设。实际上,有了P值,就不用太关心时限给定的额显著性水平,只要决策者认为这么大的P值就算是显著了,就可以拒绝原假设。统计上要求P值不大于0.1。 四、 (20分)一家集团公司有用多家分公司,为研究销售收入(单位:万元)与销售利润(单位:万元)之间的关系,集团公司抽取12家分公司,得到年销售收入和销售利润的数据。集团公司想建立销售收入与销售利润之间的一元线性回归模型,并通过销售收入预测销售利润。经回归得到下面的有关结果(0.05): 回归统计 Multiple R 0.9735 方差分析 回归 残差 总计 参数估计和检验 Intercept X Variable 1 Coefficients 6.604 0.070 标准误差 5.044 0.008 t Stat 1.309 8.513 P-value 0.261 0.001 df 1 4 5 SS 1192.993 65.840 1258.833 MS 1192.993 16.460 F 72.478 Sig. 0.001 R Square 0.9477 标准误差 4.0571 如果P>α,不拒绝H0P值,。根据上述回归结果,对所建立的回归模型进行分析。 答: 判定系数R Square是对估计的回归方程拟合程度的度量。R Square越接近1,回归直线的拟合程度越好。本题回归统计表中的判定系数R Square=0.9477,实际意义是在销售收入取值的总变差中,有94.77%可以由销售收入和销售利润之间的线性关系来解释。因此回归方程的拟合程度较高。 方差分析主要用于对回归模型的线性关系进行显著性检验。根据方差分析表中精彩文档

实用标准文案

sig=0.001,接近于0,表明销售收入与销售利润之间的线性关系显著。 参数估计和检验表给出了检验统计量t=8.513,以及统计量的P值=0.001<α,因此拒绝H0,这表明自变量销售收入对因变量销售利润的影响是显著的。 ˆ6.6040.07x。回归系数0.07表示,广告费用没变是否要写出回归方程:y动(增加或减少)1万元,销售收入平均变动(增加或减少)0.07万元。 五、 (20分)简要说明聚类分析和判别分析的异同(20分) 答:聚类分析是对已有数据进行分类,分多少类一般是未知的,判别分析是主要是对已有数据建模,对新的数据进行分类,类别是确定好的。 事先不知道存在什么类别,完全按照反应对象特征的数据把对象进行分类,在统计上称为聚类分析,事先有了某种分类标准后,判定一个新的研究对象应该归属到哪一类别,在统计上称为判别分析。

精彩文档

实用标准文案

17中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:17 一、 (20分)随机抽取10个消费者,得到他们在超市一次购物所花费的金额(元)数据如下:254,55,159,63,264,68,69,70,138,485。 分析该组数据所适用的统计方法有哪些?对这些方法做简要说明。 平均数、众数和中位数、方差、离散系数、偏态和峰态 其中平均数、众数和中位数是评价数据的集中趋势的,可以作为数的平均水平或代表值,三者略有差异。三者特点和差异如下 众 数 不受极端值影响 具有不惟一性 数据较多时有意义,且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 利用了全部数据信息,数学性质优良 精彩文档

实用标准文案

数据对称分布或接近对称分布时应用较好 当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性 方差、离散系数都是可以评价数据的离散程度的。 二、 (20分)谈谈你对原假设和备择假设的理解,并举例说明你的看法。 原假设是无罪假设,他通常是研究者想要手机证据推翻的假设,比如事件A等于事件B,事件A与事件B相关,两者均值相等,方差相等; 备择假设是无法证明原假设情况下的选择,比如不等于,不相关,不相等(还可以是大于或小于)。 1.在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立; 2.等号“=”总是放在原假设上; 3.假设必须与结论相同或者与结论是对立的。 复查建议:课本P96的描述,原假设所表达的含义总是指变量之间没有关系,被择假设所表达的总是变量之间有关系。与上述答案有出入。 三、 (20分)对于一个平稳序列或可平稳化的序列,可供选择的预测方法有哪些?谈谈你对这些方法的认识。 平稳序列或可平稳化的序列,可供选择的预测方法有:简单平均、移动平均、简单指数平滑、Box-Jenkins方法。 1.简单平均预测:是指将过去各数据之和除以数据总点数,求得算术平均数,为预测值。这种预测方法简单,当预测对象变化较小且无明显趋势时,可采用此法进行短期预测。 2.移动平均预测:选择固定长度的移动间隔,对时间序列逐期移动求得平均数作为下一精彩文档

实用标准文案

期预测值。 3.简单指数预测:是加权平均的一种特殊形式,他是将t期的实际值Y(t)和t期的平滑值S(t)加权平均作为t+1的预测值。 4.Box-Jenkins方法:经典的回归预测是通过解释变量(自变量)来预测被解释变量(因变量)的一种模型,用回归模型进行解释时,预测者需要事先知道有哪些因素(自变量)影响被预测变量(因变量),但现实中通常不知道这些影响因素有哪些,这事需要使用ARIMA模型,该模型需要利用时间序列过去的观测值来进行预测,无需解释变量。 四、 (20分)简述评价估计量的标准。 无偏性,有效性,一致性。无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。一致性是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。 五、 (20分)一家餐饮连锁店拥有多家分店。管理者认为,营业额的多少与各分店的营业面积和服务人员的多少有一定关系,并试图建立一个回归模型,通过营业面积和服务人员的多少来预测营业额。为此,收集到10家分店的营业额(万元)、营业面积(平方米)和服务人员数(人)的数据。经回归得到下面的有关结果(0.05)。 Multiple R Square Adjusted R Square 标准误差 R 0.9147 0.8366 0.7899 60.7063 方差分析 回归 精彩文档

df SS MS F Sig. 2 132093.20 66046.60 17.922 0.002 实用标准文案

残差 总计 7 9 25796.80 3685.26 157890.00 参数估计和检验 Coefficients Intercept -115.288 X Variable 0.578 1 X Variable 3.935 2 标准误差 t Stat P-value 110.568 -1.043 0.332 0.503 0.699 1.149 5.628 0.288 0.001 对所建立的回归模型进行评价。 从 Multiple R=0.9147 模型效果不错。(课本175页) 从方差分析来看,模型整体显著性强。 从参数估计来看,X Variable 2 较为显著。(<0.05) 精彩文档

实用标准文案

18中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:18 一、 (20分)一组数据的分布特征可以从哪几个方面进行描述? 平均数、众数和中位数、方差、离散系数、偏态和峰态 其中平均数、众数和中位数是评价数据的集中趋势的,可以作为数的平均水平或代表值,三者略有差异。三者特点和差异如下 众 数 不受极端值影响 具有不惟一性 数据较多时有意义,且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 利用了全部数据信息,数学性质优良 数据对称分布或接近对称分布时应用较好 当要用样本信息对总体进行推断时,平均数就更显示出它的各种优良特性 方差、离散系数都是可以评价数据的离散程度的。 复查建议:建议用课本P38的整体描述。数据分布的特征可以从三个方面进行描述:一精彩文档

实用标准文案

是数据的水平,反映数据的集中程度;二是数据的差异,反映各数据的离散程度;三是分布的形状,反映数据分布的偏态和峰态。 个人认为本题目的是说明从哪些方面描述,而不是具体问用哪些统计量来描述。 二、 (20分)一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此抽取一个简单随机样本。请回答以下问题。 (1) 讨论样本均值的抽样分布。 (2) 讨论不同情形下,估计的假定条件及其所使用的统 计分布。 1)如果总体是正态分布,无论样本大小,样本均值均服从正态分布;如果总体是非正太分布,大样本情况下,样本均值服从正态分布,小样本情况下,样本均值不服从非正太分布。(65页) 2)A.样本均值: a1.大样本情况下,服从正态分布; a2.小样本情况下,正态总体σ^2已知时,服从正态分布,σ^2未知时,使用t分布 B.比例:大样本时,服从正态分布 C.方差:正态总体,使用x^2分布 三、 从一批零件中随机抽取36个,测得其平均长度为150厘米,标准差为2.4厘米。 (1) 解释95%的置信水平 (2) 若置信水平为确定该种零件平均长度的95%的置信区间。 (3) 在上面的估计中,你使用了统计中的哪一个重要定理?请简要解释这一定理。 (注:z2z0.0251.96) 1)95%的置信水平是指总体参数值落在样本统计值某一区间的概率为95%。置信水平是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概精彩文档

实用标准文案

率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 2)确定95%置信区间,而2.5%和97.5%的置信区间z值为1.96.因此置信区间为(150-2.4*1.96,150+2.4*1.96) 3)用到的定理为中心极限定理。 设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布 四、 (20分)机抽取的15家超市,对它们销售的同类产品集到销售价格、购进价格和销售费用的有关数据(单位:元)。设销售价格为y、购进价格为x1、销售费用为x2,经回归得到下面的有关结果(0.05): 方差分析 回归 残差 总计 df SS MS F Sig. 2 61514.17 30757.09 12.88 0.0010 12 28646.76 2387.23 14 90160.93 Coefficients 637.07 0.18 1.59 t P-valuStat e 5.66 0.0001 2.33 0.0380 4.71 0.0005 参数估计和检验 Intercept X Variable 1 X Variable 2 标准误差 112.63 0.08 0.34 (1) 计算判定系数R2,并解释其实际意义。 (2) 计算估计标准误差se,并解释其意义。 (3) 根据上述结果,你认为用购进价格和销售费用来预测销售价格是否都有用?请说明理由。 精彩文档

实用标准文案

(1) 判定系数R^2=SST/SSR=61514.17/90160.93=68.23%,表明在销售价格总变差中,有68.23%可由销售价格与购进价格和销售费用之间的线性关系来解释,说明回归方程的拟合程度一般。(177页) (2) 估计标准误差se=sqrt(SSE)= sqrt(2387.23)=48.86,表示用购进价格和销售费用来预测销售价格时,平均的预测误差为48.86元。 (3) 都有用。因为两个回归系数检验的P值均小于0.05,都是显著的。 五、 (20分)什么是非参数检验?它的应用场合是什么? 非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验. 应用场合: 1、待分析数据不满足参数检验所要求的假定,因而无法应用参数检验。例如,我们曾遇到过的非正态总体小样本,在t-检验法也不适用时,作为替代方法,就可以采用非参数检验。 2、仅由一些等级构成的数据,不能应用参数检验。例如,消费者可能被问及对几种不同商标的饮料的喜欢程度,虽然,他们不能对每种商标都指定一个数字来表示他们对该商标的喜欢程度,却能将几种商标按喜欢的顺序分成等级。这种情形也宜采用非参数检验。 3、所提的问题中并不包含参数,也不能用参数检验。例如,我们想判断一个样本是否为随机样本,采用非参数检验法就是适当的。 4、当我们需要迅速得出结果时,也可以不用参数统计方法而用非参数统计方法来达到目的。一般说来,非参数统计方法所要求的计算与参数统计方法相比,完成起来既快且易。有些非参数统计方法的计算,就算对统计学知识不熟练的人,也能在收集数据时及时予以完成。 精彩文档

实用标准文案

精彩文档

实用标准文案

19中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:19 一、 (20分)甲乙两个班各有40名学生,期末统计学考试成绩的分布如下: 考试成绩 优 良 中 及格 不及格 人数 甲班 3 6 18 9 4 乙班 6 15 9 8 2 列出适合展示上述数据的图形,并说明这些图形的用途。 条形图:展示数据多少 饼图:展示比例 二、 (20分)某城市的餐饮业管理协会估计,餐馆的月平均用水量为100吨。一家研究机构认为实际用水量要高于这个数字。该研究机构随机抽取了36家餐馆,记录了每个餐馆的月用水量(单位:吨),经初步计算得到样本数据的部分描述统计量如下: 平均 标准误差 样本标准差 样本方差 107 4.99 29.96 897.77 (1) 确定餐馆月平均用水量95%的置信区间。 精彩文档

实用标准文案

置信区间=107±1.96*29.96/6=【97.22,116.78】 (2) 餐馆实际月平均用水量在你所建立的置信区间里吗?请说明原因。 可能在也可能不在,置信区间是一个随机区间,它会因样本数的不同而不同,而且不是所有数区间都包含总体参数的真值,95%置信区间定义是如果做了100次抽样,大概在95%次找到区间包含真值。 (3) 如果要检验研究机构看法是否正确,应该如何建立原假设和备择假设?并谈谈拒绝和不拒绝原假设的含义。 原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有: (1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。 拒绝原假设:拒绝原假设称样本结果在“统计上是显著的”,“显著的”在这里的意义是指“非偶然的”,它表示这样的样本结果不是偶然得到的。 不拒绝原假设:没有足够的证据拒绝原假设,但并不等于已经“证明”了原假设是真的,它仅仅意味着目前还没有足够的证据拒绝原假设,只是目前这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着没有得出明确的结论 三、 (20分)研究表明,期末考试成绩的高低与概率统计的考试成绩密切相关,而且与期末复习时间的多少也有很强的关系。根据随机抽取的15名学生的一个样本,得到统计学考试分数、概率统计的考试分数和期末统计学的复习时间(单位:小时)数据,经回归得到下面的有关结果(0.05): 方差分析 精彩文档

df SS MS F Sig. 实用标准文案

回归 残差 总计 2 12 14 A(482.4) B(241.2) D(6.92) 0.01 418.46 900.86 C(34.87) 参数估计和检验 Intercept X Variable 1 X Variable 2 Coefficients -15.533 0.703 1.710 标准误差 33.695 0.203 0.676 t Stat P-value -0.461 3.465 2.527 0.653 0.005 0.027 (1) 计算出方差分析表中A、B、C、D单元格的数值。 A=482.2; B=241.2; C=34.87; D=6.92 A=900.86-418.46 B=SS/df C=SS/df D=B/C (2) 计算判定系数R2,并解释其实际意义。 R=SSR/SST=482.4/(482.4+418.48)=0.535 判定系数R为回归平方和占总平方和的比例。用以度量回归方程的拟合优度。R=0.535为统计学考试分数的变差由概率统计的考试分数和期末统计学的复习时间的变动引起,拟合程度中等。 222(3) 计算估计标准误差se,并解释其意义。 se=(418.46/12)*0.5=5.91 标准无法se是残差均方的平方根。是误差项的标准差的估计。sqrt(34.87)=5.91 四、 (20分)简要说明方差分析的基本原理。 方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个: 精彩文档

实用标准文案

(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。

(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。

总偏差平方和 SSt = SSb + SSw。

组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。

MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。

五、 (20分)谈谈你对时间序列预测的答题思路。

时间序列建模基本思路是:①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。②根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。

精彩文档

实用标准文案

20中国人民大学接受同等学历人员申请硕士学位考试试题

招生专业:统计学 考试科目:统计思想综述

课程代码:123201 考题卷号:20 一、 (20分)一家物业公司需要购买大一批灯泡。市场上有两种比较知名品牌的灯泡,物业公司希望从中选择一种。为此,为检验灯泡的质量,从两个供应商处各随机抽取了60个灯泡的随机样本,进行“破坏性”试验,得到灯泡寿命数据经分组后如下: 灯泡寿命(小时) 供应商甲 供应商乙 700~900 12 4 900~1100 14 34 1100~1300 23 19 1300~1500 11 3 合计 60 60 (1) 画出两个供应商灯泡使用寿命的直方图直。 精彩文档

实用标准文案

(2) 计算甲供应商灯泡使用寿命的平准数和标准差。 平均数=(800*12+1000*14+1200*23+1400*11)/60=1110 标准差=203.11 (3) 已知乙供应商灯泡使用寿命的平均数为1070小时,标准差为58.74小时。物业公司应该选择哪个供应商的灯泡?请简要说明你的理由。 应该选乙供应商的,标准差小,产品更稳定。 二、 (20分)按着生产标准,某种食品的每袋重量为85克。一家食品生产商声称,他们所生产的该种食品每袋的平均重量要不低于85克。为检验食品生产商的说法是否属实,管理部门随即抽取9袋食品,测得每袋的平均重量为85.4克,标准差为2.5克。假定该种食品的重量服从正态分布。 (1) 提出原假设和备择假设,并说明理由。 (2) 该检验所使用的分布是什么?使用该分布的假定条件是什么? (3) 若该检验的P值为0.323522,请说明这个P值的含义。 (1)H0:u>=85 H1:u<85 (管理方对生产商的说法进行检验,因而想要收集的证据用以支持每袋低于8克的假设,即:u<85) (2)该检验使用t分布(n<30,假定食品总量服从正态分布,方差未知) (3)t=(85.4-85)/(2.5*sqrt(9))=0.053 p值过大,不能拒绝原假设,没有充足的证据证明平均重量小于85精彩文档

实用标准文案

克 三、 (20分)解释2拟合优度检验和2独立性检验,并说明其用途。 X拟合优度检验,是利用X统计量来判断某个分类变量各类别的观察频数分布与某一理论频数或期望分布是否一致,他也可以用与判断个类别的观察频数分布是否符合某一理论分布,如泊松分布或正态分布等。 独立性检验是对列联表中的两个分类变量进行分析,通常是判断两个变量是否独立。 2拟合优度检验是为了所得数据是否适合某个假设模型或者服从某种分布;2独立性检验则是为了检验列联表中每个变量之间是否独立 四、 (20分)多重共线性对回归模型有哪些影响?判断多重共线性的判别方法主要有哪些? 当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。 首先,变量之间高度相关时,可能会使回归的结果造成混乱,甚至会把分析引入歧途 其次,多重共线性可能对参数估计值的正负号产生影响,特别是β的正负号有可能同预期的正负号相反 判断共线性:可以利用自变量之间的容忍度、方差扩大因子等来进行判断 五、 (20分)在时间序列预测中,Box-Jenkins方法的基本思想是什么?它与经典的回归方法有何不同? 精彩文档

实用标准文案

经典的回归预测是通过解释自变量来预测因变量的一种模型。用回归模型预测时,需要事先知道有哪些自变量影响因变量。但实际上我们通常是不知道这些自变量有哪些。Box-Jenkins方法提供了一种方式,他利用时间序列过去的观测值来进行预测,不需要自变量。方步骤如下: 1、根据收集的材料,画出时间序列图,判断时间序列的成分 2、选择预测方法 3、对预测方法进行评估 4、选择模型并进行预测

精彩文档

因篇幅问题不能全部显示,请点此查看更多更全内容

Top