1中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:1 一、 (20分) 随机抽取20块手机电池,测得其使用寿命数据如下(单位:小时): 1008 1002 983 1010 993 1013 995 998 998 999 1000 1005 1007 1008 977 1011 1011 995 1015 996 列出描述上述数据所适用的统计图形,并说明这些图形的用途。 直方图:直观的展示一组数据(电池使用寿命)的分布情况。 箱线图:直观反映原始数据(电池寿命)的数据分布的特征,如偏态,是否有离群点。 二、 (20分)方差分析中有哪些基本假定?这些假定中对哪个假定的要求比较严格? 1、方差分析有3个基本假定: (1)正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本; (2)方差齐性:各个总体的方差必须相同; (3)独立性:每个样本数据是来自因子各水平的独立样本 精彩文档
实用标准文案
2、对独立性要求比较严格,独立性得不到满足会对方差分析结果有较大影响,对正态性和方差齐性的要求相对比较宽松。 三、 (20分)某种食品每袋的标准重量是100克,从该批食品中抽取一个随机样本,检验假设H0:100,H1100。 (1) 如果拒绝H0,你的结论是什么?,如果不拒绝H0,你的结论是什么? (2) 能否得到一个样本能够证明该食品的平均重量是100克?请说明理由。 (3) 如果由该样本得到的检验的P0.03,你的结论是什么?0.03这个值是犯第Ⅰ类错误的概率,是实际算出来的显著性水平,你怎样解释这个P值? (1)拒绝H0:该种食品每袋的平均重量不是100g 不拒绝H0:提供的样本不能证明该种食品每袋的平均重量不是100g (2)不能,样本得出的结论只能是拒绝或不拒绝原假设,并不能直接确定原假设为真 (3)结论:若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;但若给定显著性水平为0.01,则不能拒绝原假设 P值: 如果该种食品每袋的平均重量是100g,样本结果会像实际观测那样极端或更极端的概率仅为0.03 四、 (20分)在建立多元线性回归模型时,通常需要对自变量进行精彩文档
实用标准文案
筛选。 (1) 请谈谈你对变量筛选的必要性的看法。 (2) 列出变量筛选的方法,请简要说明这些方法的特点。 (1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致多重共线性,增加自变量还会导致判定系数R2增大,从而高估模型拟合优度。 (2)变量筛选有向前选择、向后剔除、逐步回归等方法。特点如下: 向前选择:从没有自变量开始,不停向模型中增加自变量,直到增加不能导致SSE显著增加为止。 向后剔除:从所有自变量开始,不停从模型中剔除自变量,直到剔除不能导致SSE显著减小为止。 逐步回归:结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除。如此反复,直到增加变量不能导致SSE显著减少为止。 五、 (20分)如果一个时间序列包含趋势、季节成分、随机波动,适用的预测方法有哪些?对这些方法做检验说明。 可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解法等进行预测。 (1)Winter指数平滑模型 精彩文档
实用标准文案
包含三个平滑参数,即(取值均在0~1),以及平滑值、趋势项更。 新、季节项更新、未来第k期的预测值L为季节周期的长度,对于季度数据,L=4,对于月份数据,L=12;I为季节调节因子。平滑值消除季节变动,趋势项更新是对趋势值得修正,季节项更新是t期的季节调整因子,是用于预测的模型。 使用Winter 模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。 使用Winter 模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。 (2)引入季节哑变量的多元回归 对于以季度记录的数据,引入3个哑变量 ,其中=1(第1季度)或0(其他季度),以此类推,则季节性多元回归模型表示为: 其中b0是常数项,b1是趋势成分的系数,表示趋势给时间序列带来的影响,b2、b3、b4表示每一季度与参照的第1季度的平均差值。 (3)分解预测 第1步,确定并分离季节成分。计算季节指数,然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。 第2步,建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。 第3步,计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。 精彩文档
实用标准文案
2中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:2 一、 (20分)在某小学随机抽取35名小学生,调查他们每周购买零食的花费情况,得到的数据如下(单位:元): 24 17 26 29 38 6 28 44 39 8 30 17 26 32 40 10 20 27 43 33 15 4 28 35 26 47 25 17 26 45 16 36 29 37 5 列出描述上述数据所适用的统计量,并说明这些统计量的用途。 平均数:用于度量对象的一般水平。 中位数(分位数):用中间(某个)位置上的值代表数据水平,也用于度量对象的一般情况,且不受极值的影响具有稳定性。 方差(标准差):用于描述一组数据的差异水平,越大说明数据的分布越分散不稳定。 偏态系数:用于描述数据分布的不对称性,越接近0越对称。 峰度系数:用于描述数据分布峰值高低,大于0为尖峰,精彩文档
实用标准文案
小于0为扁平分布。 二、 (20分)简要说明t分布和F分布在推断统计中应用。 t分布:当正态总体标准差未知时,在小样本的条件下对总体均值的估计和检验要用到t分布。描述样本均值分布,用于对两个样本均值差异进行显著性测试、估算置信区间等。 F分布:通常用于比较不同总体的方差是否有显著差异。应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。 三、 (20分)什么是P值?要证明原假设不正确,如何确定合理的P值? P值:犯第I类错误的真实概率,也称观察到的显著性水平。是当原假设为真时,得到的样本结果会像实际观测结果这样极端或者更极端的概率。 若要证明原假设不正确,则由样本得到的P值应小于给定的显著性水平。 四、 (20分)某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果: 方差分析表 差异源 精彩文档
SS df MS F P-value 实用标准文案
组间 210 0.245946 组内 3836 — — 总计 2 — — — (1) 完成上面的方差分析表。 (2) 组装方法与组装产品数量之间的关系强度如何? (3) 若显著性水平0.05,检验三种方法组装的产品数量之间是否有显著差异? (1) 差异P-valu源 SS df MS F e 组间 2*210=420 I-1=2 210 0.245946 组内 3836 30-3=27 =142.07 — — 420+3836=29 — — — 4256 (2) 从P值来看,组装方法与组装产品数量之间的关系强度较弱。 (3) 原假设:三种方法每小时组装的产品数量没有差异 若显著性水平为0.05,则P>0.05,因此不能拒绝原假设,即不能证明三种方法组装的产品数量之间有显著差异。 总计 五、 (20分)简要说明分解预测的基本步骤。 第1步,确定并分离季节成分。计算季节指数,然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。 第2步,建立预测模型并进行预测。对消除了季节成分的时间精彩文档
实用标准文案
序列建立适当的预测模型,并根据这一模型进行预测。 第3步,计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。 精彩文档
实用标准文案
3中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:3
一、 (20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表: 要对各名运动员进行综合评价,使用的统计量有哪些?简要说明这些统计量的用途。 (1)集中趋势:指一组数据向某一中心值靠拢的程度,它可以反映选手射击成绩中心点的位置 平均数:一组数据相加后除以数据的个数得到的结果。若各组数据在组内是平均分布的,则计算的结果还是比较准确的,否则误差会比较大。(如中国选手发挥很稳定,适合使用平均数判断其成绩) 中位数:一组数据排序后处于中间位置上的变量值,但不受极端值的影响。(如波兰选手大多数成绩比较平均,但有一枪打到8.1,会严重影响其平均值,但不会影响中位数) (2)离散程度:各变量值远离其中心值的程度,它可以反映选手发挥的稳定性 标准差:方差的平方根,能够很好的反映出数据的离散程度,若选精彩文档
实用标准文案
手的平均成绩差异不大,可以通过直接比较标准差的方式进行衡量 离散系数:一组数据的标准差与其相应的平均数之比,离散系数越大则数据的离散程度也大,若选手的平均成绩差异很大,则需要计算离散系数比较稳定性 极差:一组数据的最大值与最小值之差,它容易受极端值的影响,不能反映中间数据的分散情况,但可从另一方面选手是否存在发挥异常 (3)分布形状 峰态:峰态是对数据分布平峰或尖峰程度的测度,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。通过对选手的峰态分布情况分析,可看出成绩分布是否平均。 偏态:偏态是对数据分布对称性的测量,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程度越大。通过对选手的偏态分布情况情况分析,可看出选手成绩分布是否对称,是否受比赛时长影响。 二、 (20分)为什么说假设检验不能证明原假设正确? (1)假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据(证据的强弱取决于P值的大小)。因此,当拒绝原假设时,表明样本提供的证据证明它是错误的;当没有拒绝原假设时,我们也没法证明它是正确的,因为假设检验的程序没有提供它正确的证据。 (2)假设检验得出的结论都是根据原假设进行阐述的。我们要么拒绝原假设,要么不拒绝原假设。当不能拒绝原假设时,我们也不能说“接受原假设”,因为没有足够的证据拒绝原假设并不等于你已经证明了原假设时真的,它仅仅意味着目前我们还没有足够的证据证明原假设,只表示目前的样本提供的证据还不足以拒绝原假设。 (3)假设检验通常是先确定显著性水平α,这等于控制了第Ⅰ类错误的概率;但犯第Ⅱ类错误的概率β却是不确定的。在拒绝H0时,犯第Ⅰ类错误的概率不超过给定的显著性水平α;当样本结果精彩文档
实用标准文案
显示没有充分理由拒绝原假设时,也难以确定第Ⅱ类错误发生的概率。因此,在假设检验中采用“不拒绝H0”而不采用“接受H0”的表述方法,这样在多数场合下便避免了第Ⅱ类错误发生的风险。 三、 (20分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取36班公共汽车,得到平均行驶的时间为26分钟,标准差为8分钟。 (1) 说明样本均值服从什么分布?依据是什么? (2) 计算平均行驶时间95%的置信区间。 (3) 解释95%的置信水平的含义。 (z0.051.645,z0.0251.96,t0.051.860,t0.0252.306) (1)样本均值服从正态分布。通过中心极限定理:设从均值为,方差为(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值、方差的正态分布。一般统计学中的n30为大样本,本题中抽取了36个样本,因此样本均值服从正态分布。 (2)已知n=36,=26,s=8,置信区间95%所以=平均行驶时间95%的置信区间为: = 261.96 x = 262.61 即(23.39,28.61) =1.96 (3)一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平。如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么用该方法构造的区间称为置信水平为精彩文档
实用标准文案
95%的置信区间。 四、 (20分)设单因素方差分析的数学模型为:yijiij。解释这一模型的含义,并说明对这一模型的基本假定。 单因素方差分析指的是只有一种处理因素在影响结果,或者说只有一个自变量在影响因变量的情况。 (1)设任何一次实验结果都可以表示成如下形式:Yi=μ+εi 其中Yi是第i次实验的实际结果,μ是该结果的最佳估计值,其实就是总体均值,εi是均值和实际结果的偏差也就是随机误差(2)假定εi服从均值为0,标准差为某个定值的正态分布,把以上形式按照方差分析进行推广,假设我们要研究几种水平之间的差异,每种水平抽取一定样本并收集相关数据,那么模型公式可以表示为:Yij=μi+εij 其中Yij是第i组水平的第j个样本的实际结果,μi是第i组的均值,εij是第i组第j个样本相对于实际结果的偏差。同样假定εi服从均值为0,标准差为某个定值的正态分布,如果这i组水平没有差异,则Yij应等于总体均值加上随机误差项。 (3)为了方便统计推断,模型公式改为如下形式:Yij=μ+αi+εij 其中μ表示不考虑分组时的总体均值,αi表示第i组的附加效应,即在第i组时的均值改变情况,例如αi=10,表示第i组的均值要比总体均值多10,如果这i组均值并无差异,那么α1=α2=α3=.....=αi,反之则不等,据此我们可以建立假设: H0:i取任意值时,αi=0 H1:i取任意值时,至少有一个αi<>0 结合差异分解的方差分析思路,我们发现αi实际上就是处理因素导致的差异。 精彩文档
实用标准文案
五、 (20分)在多元回归中,判断共线性的统计量有哪些?简要解释这些统计量。 (1)自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。 (2)容忍度(Tolerance):以每个自变量作为应变量对其他自变量进、行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。 (3)方差膨胀因子(Variance inflation factor, VIF): j1,2,,mVIFj1(1Rj2) 其中 Xj与其余(m-1)个自变量线性回归的决定系数。值Rj2为 越大,多元共线程度越严重。 4、特征根(Eigenvalue):主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当对应的方差比大于0.5时,可认为多元共线性严重存在 精彩文档
实用标准文案
4中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:4
一、 (20分)在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中,最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示: 运动员 庞 伟 秦钟午 9.3 9.5 10.3 10.5 10.3 10.3 决赛成绩 10.4 10.3 10.7 10.1 10.4 10.8 10.7 9.3 9.9 10.6 9.4 10.2 9.9 9.8 根据上表计算的韩国运动员秦钟午的平均环数是10.05环,标准差是0.445环。比较分析哪个运动员的发挥更稳定。 (1)平均数、标准差:庞伟的平均环数=10.22环,标准差是0.507;秦钟午的平均环数=10.05环,标准差是0.445环,由于庞伟的平均环数明显大于秦钟午,因此只比较标准差不能说明二人的稳定性 (2)中位数:庞伟的中位数=10.35,秦钟午的中位数=10,同样可以看出庞伟的成绩更优秀一些 (3)极差:庞伟的极差=1.4,秦钟午的极差=1.4,两者极差相同 (4)离散系数:庞伟的离散系数=0.0496,秦钟午的离散系数=0.0443 综上所述,选手庞伟的成绩更优秀,但秦钟午的发挥更稳定。 二、 (20分)什么是统计意义上的显著性?为什么说统计上显著不一定就有现实意义? 精彩文档
实用标准文案
(1)在假设检验中,拒绝原假设称样本结果在“统计上是显著的”;不拒绝原假设则称结果是“统计上不显著的”。“显著的”在这里的意思是指非偶然的,它表示这样的样本结果不是偶然得到的,同样,结果是不显著的则表明这样的样本结果很可能是偶然得到的。 (2)在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著。当P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义。因为在假设检验中的“显著”仅仅是“统计意义上的显著”。P值与样本的大小密切相关,样本量越大,检验统计量的值也就越大,P值就越小,就越可能拒绝原假设。因此,当样本量很大时,解释假设检验的结果需要小心,因为在大样本情况下,总能把与假设值的任何细微差别查出来,即使这种差别几乎没有任何实际意义。因此,在实际检验中,不能把“统计意义上的显著性”与“实际意义上的显著性”混同起来。 三、 (20分)简要说明判断一组数据是否服从正态分布的统计方法。 (1)图示法 1. P-P图 以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,以样本值表现为直角坐标系的散点。如果数据服从正态分布,则样本点应围绕第一象限的对角线分布。 2. Q-Q图 以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为直角坐标系的散点。如果数据服从正太分布,则样本点应围绕第一象限的对角线分布。 3. 直方图(频率直方图) 判断方法:是否以钟型分布,同时可以选择输出正态性曲线。 4. 箱线图 判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布。 5. 茎叶图 精彩文档
实用标准文案
判断方法:观察图形的分布状态,是否是对称分布。 (2)偏度、峰度检验法 峰态:峰态是对数据分布平峰或尖峰程度的测度,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。 偏态:偏态是对数据分布对称性的测量,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程度越大。 (3)非参数检验 非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk( W检验)。当样本数N<2000时,shapiro-wilk的W统计量检验正态性;当样本数N>2000时,Kolmogorov-Smirnov的D统计量检验正态性;检验时,根据样本计算一个统计量即检验统计量D。它把样本分布的形状和正态分布相比较,比较得出一个数值p(0
实用标准文案
单因素方差分析:研究一个分类型自变量对一个数值型因变量的影响,如本项目中就是研究四个不同地区对平均消费水平的影响。 区别:T检验属于均值分析,它是用来检验两类母体均值是否相等。均值分析是来考察不同样本之间是否存在差异,即两个不同地区之间消费水平是否存在显著差异;而方差分析则是评估不同样本之间的差异是否由某个因素起主要作用,即消费水平的显著差异是否是由地区不同引起的。并且通过单因素方差分析只能得出4组数据是否存在显著差异,并不能得出具体是哪几个地区之间有显著差异。 Kruskal-Wallis 检验。 用于检验多个独立总体是否相同的一种非参数检验方法。 原假设: 四个地区平均消费水平相等,备择假设: 四个地区平均消费水平不全相等。不需要方差分析的正态分布且方差相等的 假设。该检验可用于顺序数据也可用于数值型数据 (2)我选择用单因素方差分析,因为本项目共分为4组数据,只要求分析他们之间是否存在显著差异,并不用确定具体差异如何存在的。原假设为:四个地区之间的平均消费水平没有显著差异。若最终拒绝原假设,则说明四个地区之间的平均水平存在显著差异。即证明了题目中的要求。 因为对四个地区的分布和方差未知,选择非参数方法。 五、 (20分)一家房地产评估公司想对某城市的房地产销售价格y(元/m2)与地产的评估价值x1(万元)、房产的评估价值x2(万元)和使用面积x3(m2)建立一个模型,以便对销售价格作出合理预测。为此,收集了20栋住宅的房地产评估数据,由统计软件给出的部分回归结果如下(显著性水平为95%): 方差分析 回归 残差 总计 精彩文档
df SS MS F Sig. 46.70 3.879E-08 3 87803505.46 29267835.15 16 10028174.54 19 97831680 626760.91 实用标准文案
Intercept X Variable 1 X Variable 2 X Variable 3 Coefficients 148.7005 0.8147 0.821 0.135 标准误差 574.4213 0.512 0.2112 0.0659 t Stat 0.2589 1.5913 3.8876 2.0503 P-value 0.799 0.1311 0.0013 0.0571 对所建立的回归模型进行综合评价。 (1)线性回归方程为 ˆ的意义是,在其它自变量 其中第i (i1,2,3)个回归系数iˆ个单位。保持不变时,xi每变动一个单位,y就平均变动i例如在房产的评估价值和使用面积都不变的情况下,地产的评估价值每上升1万元,房地产销售价格就上升8147元。 (2)设=0.05,由p值=3.879*关系是显著的。 (3)第1,2,3个回归系数显著性检验p值分别是 0.1311>,0.0013<,0.0571> 故第2个回归系数显著,第1、3个回归系数不显著。 (4)多重判定系数 <知,回归方程的线性 它反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的优劣程度。此处明回归拟合效果很好。 (5)估计标准误差 精彩文档
,表实用标准文案
sy是y的标准差的估计,反映了y(房地产销售价格)的波动程度。 (6)有用。虽然该变量的部分系数没通过显著性检验,但并不意味着该变量没用,它在经济解释上可能还是有一定意义的,方程总体显著,说明方程包含该变量总体上是有用的。也可能是多重共线性造成了不显著。 精彩文档
实用标准文案
5中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:5 一、 (20分)为研究大学生的逃课情况。随机抽取350名大学生进行调查,得到的男女学生逃课情况的汇总表如下。 是否逃课 逃过课 未逃过课 合计 男 84 78 162 女 88 100 188 合计 172 178 350 (1) 这里涉及的变量有哪些?这些变量属于什么类型? 涉及的变量有性别、是否逃课。是否逃课及性别为分类型变量,不同性别的逃课和非逃课人数,为数值变量。 (2) 描述上述数据所适用的统计图形有哪些? 可以用条形图、复式条形图, 饼图、复式饼图,环形图。 二、 (20分)现从一批零件中随机抽取16只,测得其长度(单位:厘米)如下: 15.1 14.5 14.8 14.6 15.2 14.8 14.9 14.6 14.8 15.1 15.3 14.7 15.0 15.15.1 14.7 (1) 如果要使用t分布构建零件平均长度的置信区间,基本的假定条件是什么? 在小样本(n<30)情况下 ,对钟体均值得估计都是建立在总体服从正太分布假设前提下。当正态总体的未知,样本均值经过标准化后服从自由度为n-1的t分布,用样本方差 s2代替总体精彩文档
实用标准文案
方差。 (2) 构建该批零件平均长度的95%的置信区间。 样本均值平均长度为x=14.9,95%的置信区间为xt1-2(n1)s/n14.92.1310.247656/414.90.132(14.77,15.03) ,即 (3)能否确定该批零件的实际平均长度就在你所构建的区间内?为什么?(注:t2(n1)t0.025(15)2.131) 不能。因为该样本所构造的是一个特定的区间,不再是随机区间。只能说在95%置信水平下,该区间是大量包含真值的区间中的一个。也可能是少数几个不包含参数真值的区间中的一个。 三、 (20分)在假设检验中,当不拒绝原假设时,为什么一般不采取“接受原假设”的表示方式? 1、假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。因为假设检验只提供不利于原假设的证据 2. 假设检验得出的结论都是根据原假设进行阐述的。当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的。没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意为着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。“不拒绝”的表述方式实际上意味着没有得出明确的结论 3. 假设检验中通常是先确定显著性水平,这就等于控制了第Ι类错误的概率,但犯第Ⅱ类错误的概率却是不确定的。 四、 (20分)简要说明2分布在统计中的应用。 卡方分布应用很广,常用于假设检验和置信区间的计算,比如应用到独立性检验中,同质性检验、适合性检验等等 精彩文档
实用标准文案
独立性检验:主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题 拟合优度检验:检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题 同质性检验:检验两个或两个以上总体的某一特性分布,也就是各“类别”的比例是否统一或相近 适合性检验:检验某一类分类资料所在总体的分布是否符合某个假设或理论的分布 【感觉简答题可以适当写多点,也可以只说检验名字】 五、 (20分)简要说明解决多元回归中共线性的方法。 1:变量的选择方法:向前选择、向后剔除、逐步回归。 2:岭回归方法:有偏估计 3:主成分分析:降维,提取信息 4:偏最小二乘回归法:原理与主成分方法相似 精彩文档
实用标准文案
6中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:6 一、 (20分)一家电视台为了解观众对某档娱乐节目的喜欢程度,对不同年龄段的男女观众进行了调查,得到喜欢该档娱乐节目的观众比例(单位:%)如下: 年龄段 20岁以下 20—30岁 30—40岁 40—50岁 50岁以上 男性 5 25 16 12 6 女性 6 32 15 12 8 (1) 这里涉及的变量有哪些?这些变量属于什么类型? 有分类变量和数量变量。分类变量有性别,年龄段。数量变量有各年龄段的男女人数。 (2) 描述上述数据所适用的统计图形有哪些? 可以用条形图和饼图【直方图用于连续变量的这里最好不用】 二、 (20分)假定总体共有1000个个体,均值32,标准差5。从中抽取容量为100的所有简单随机样本。样本均值x的期望值和标准差各是多少?得出上述结论所依据的是统计中的哪一个定理?请简要叙述这一定理。 样本均值的期望值为32,标准差为0.5 精彩文档
实用标准文案
是中心极限定理,定理如下 设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布 三、 (20分)在假设检验中,利用P决策与利用统计量决策有什么不同? P值:如果能把犯第Ⅰ类错误的真实概率算出来,就可以直接用这个概率做出决策。而不需要管什么事先给定的显著性水平α,这个犯第Ⅰ类错误的真实概率就是P值。 统计量检验是根据事先确定的显著性水平α围成的拒绝域作出决策,不论检验统计量的值是大是小,只要把它落入拒绝域就拒绝原假设H。否则就不拒绝H。这样,无论统计量落在拒绝域的什么位置,你也只能说犯第一错误的概率为α,而用P值检验则能把犯第Ⅰ类错误的真实概率算出来。P 值决策优于统计量决策。 P 值决策提供了更多的信息。 四、 (20分)简要说明方差分析的基本原理。 方差分析被解释为检验多个总体均值是否相等的统计方法,这种解释侧重于方差分析的过程和形式。 本质上,方差分析研究的是分类自变量对数值因变量的影响 方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义 精彩文档
实用标准文案
五、 (20 分)比较说明指数曲线和直线的异同。 一、相同点:指数曲线模型和直线模型都可以对时间序列进行拟合;都可以进行参数估计和假设检验;都可以对于未来的时点进行预测。 二、不同点: 1、直线为线性的,指数曲线为非线性的。 2、两者适用于不同特点的时间序列; 线性趋势是时间序列按一个固定的常数(不变的斜率)增长或下降,指数曲线是时间序列各期观察值按一定的增长率增长或衰减; 3、两者的模型表达式不同; 4、系数的求解方法不同。直线用最小二乘法求得。指数曲线,需先采取线性化手段将其化为对数直线形式,根据最小二乘法,求解出系数的对数,再取其反对数。 5、两者的预测方法不同,直线趋势可以用 Holt 指数平滑和一元线性回归法预测,指数曲线可以用指数模型来预测。 精彩文档
实用标准文案
7中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:7 一、 (20分)一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题 (1) 是男生的体重差异大还是女生的体重差异大?为什么? (2) 粗略地估计一下,男生中有百分之几的人体重在55kg到65kg之间? (3) 粗略地估计一下,女生中有百分之几的人体重在40kg到60kg之间? (1)女生的体重差异大。 男生体重的离散系数是V1=5/60=0.083 女生体重的离散系数是V2=5/50=0.1 离散系数大的离散程度也就大,V2> V1,因此,女生的体重差异大 (2)设男生的体重为X1,X1~N(60,52) 设Z1=(X1-60) / 5 男生体重在55kg到65kg之间的概率为P,则 P(55X65)=P(-1Z11)=68% 因此,男生有68%的体重在55~65kg之间。 (3)设女生的体重为X2,则X2~N(50,52), 设Z2=(X2-50)/ 5,则Z2~N(0,1) 精彩文档
实用标准文案
P(40X2 60)=P(-2Z22)=95% 故女生有95%的体制在40~60kg之间。 二、 (20分)叙述评价估计量的标准。 评价估计量的标准主要有3个。 <1> 无偏性。无偏性是指估计量抽样分布的期望值等于被估计的总体参数。设总体参数为,所选择的估计量为^,如果E(^)=,则称^为的无偏估计量。 <2>有效性。有效性是指估计量的方差尽可能小。一个无偏估计量并不意味着它就非常接近被估计的总体参数,估计量与参数的接近程度是用估计量的方差来度量的。对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。 <3>一致性。一致性是指随着样本量的增大,点估计量的值越接近总体参数。一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。样本均值的标准误差x=/n与样本量的大小有关,样本量越大,x的值就越小。因此,大样本量给出的估计量更接近总体均值u,从这个意义上来说,样本均值是总体均值的一个一致估计量。 三、 (20分)一家房地产开发公司准备购进一批灯泡,公司打算在两个供货商之间选择一家购买,两家供货商生产的灯泡使用寿命的方差大小基本相同,价格也很相近,房地产公司购进灯泡时考虑的主要因素就是使用寿命。其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。如果在精彩文档
实用标准文案
1500小时以上,在房地产公司就考虑购买。由36只灯泡组成的随机样本表明,平均使用寿命为1510小时,标准差为193小时。 (1) 如果是房地产开发公司进行检验,会提出怎样的假设?请说明理由。 (2) 如果是灯泡供应商进行检验,会提出怎样的假设,请说明理由。 (1) 设灯泡的平均使用寿命为u H0:u1500(使用寿命符合标准) H1:u<1500(使用寿命不符合标准) 房地产开发公司倾向于证明灯泡的使用寿命小于1500个小时。因为这会损害公司的利益(如果房地产公司非常相信灯泡的使用寿命在1500小时以上,也就没有必要抽检了)通常备择假设用于表达研究者倾向于支持的看法,因此,备择假设为u< 1500小时,原假设为u1500。 (2)设灯泡的平均使用寿命为u. H0: u 1500 H1: u > 1500 灯泡供应商倾向于支持灯泡的使用寿命大于1500小时,所以备择假设为:u > 1500;原假设为:u 1500 四、 (20分)什么是判定系数?它在回归分析中的主要作用是什么? 1.判定系数是对估计的回归方程拟合优度的度量。引起y值变化的这种波动称为变差。变差主要有两种:一是自变量x的变化引起y变化,这部分的平方和称为回归平方和;二是除x以外的其他随机因素导致y变化,这部分变差的平方和称为残差平方和。变差的平方和 = 回归的平方和+残差的平精彩文档
实用标准文案
方和 判定系数(R2)=回归的平方和(SSR)/ 变差的平方和(SST) 2.判定系数测度了回归直线对观测数据的拟合程度。回归直线拟合的好坏取决于SSR/SST比值的大小。各观测点越靠近直线,值越大,直线拟合的越好;值越小,直线拟合的越差。 五、 (20分)说明t分布的适用条件,如何判断某个过程产生的数据满足这一条件? 1.当正态总体的标准差未知时,在小样本的条件下对总体均值的估计和检验要用到t分布 2.正态性:可以划出样本数据的直方图和茎叶图或者P-P图,Q-Q图检验数据的正态性 小样本:当样本的数量小于30个,当成小样本处理 精彩文档
实用标准文案
8中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:8 一、 (20分)在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。 (1) 你认为该用什么样的统计量来反映投资的风险? (2) 如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票? (3) 如果你进行股票投资,你会选择商业类股票还是高科技类股票? (1)方差或标准差 (2)风险小的股票应选商业类股票 精彩文档
实用标准文案
(3)如果选择风险小的股票,选择商业类股票,如果选择高收益的股票,选择高科技类股票。 二、 (20分)某种感冒冲剂规定每包重量为12克,超重或过轻都是严重问题。从过去的生产数据得知0.6克,质检员抽取25包冲剂称重检验,平均每包的重量为11.85克。假定产品重量服从正态分布。 (1) 根据上述检验计算出的P0.02,感冒冲剂的每包重量是否符合标准要求(0.05)? (2) 说明上述检验中可能犯哪类错误?该错误的实际含义是什么? (1) 不符合标准 P= 0.02<0.05点评人:原假设为H0:产品符合标准要求,由于P值小于0.05,因此拒绝原假设,即,每包重量不符合标准要求。【P为犯第一类错误的概率,即原假设正确,实际拒绝的概率为0.02,位于拒绝域内,推翻H0】 (2)可能犯第Ⅰ类错误(错误)。原假设是正确的,实际确拒绝了原假设。 三、 (20分)简述方差分析的基本假定。 正态性:每种处理所对应的总体都应服从正态分布。 方差齐性:各个总体的方差必须相等。 独立性:每个样本数据都来自不同处理的独立样本。 方差分析对独立性的要求比较严格,若该假设得不到满足,方差分析的结果会受到较大影响。而对正态性和方差齐性的要求相对较宽松,当正态性不满足和方差略有不齐时,对分析的结果影响不是很大。 精彩文档
实用标准文案
四、 (20分)怎样自相关图和偏自相关图来识别ARIMA(p,d,q)模型中的参数? 第一步:将序列平稳化。只有平稳序列才能建立ARIMA模型,当原始序列不平稳时,通过差分可以将其平稳化。 第二步:识别模型的阶数。如果原始序列(或差分序列)的偏自相关系数有p个明显的峰值,在p个值后截尾,而它的自相关函数呈现出指数衰减或正弦衰减,呈现出拖尾,为AR(p)序列,模型为ARIMA(p,0,0).如果序列的自相关函数有q个明显的峰值,在q个值后截尾,而它的偏自相关函数呈指数或正弦衰减,呈现出拖尾,为MA(q)序列,模型为ARIMA(0,0,q).如果序列的自相关图和偏自相关图的前p个条和前q个条没有固定规律,其后都是趋渐于0而不是突然变为0,都呈现出拖尾,模型为ARMA(P,Q),“I”的取值取决于差分的阶数。 第三步:模型诊断。如果模型正确,模型预测产生的误差是白噪声序列,残差序列的自相关图没有什么固定模式。书上245页 五、 (20分)什么是回归中的置信区间估计和预测区间估计?两个区间的宽度是否一样?x取何值时两个区间宽度最窄? 平均值的置信区间估计:是对x的一个给定值x0,求出y的平均值的估计区间。 个别值的预测区间估计:是对x的一个给定值x0,求出y的一个个别值的估计区间。 两个区间的宽度是不一样的。预测区间要比置信区间宽一精彩文档
实用标准文案
些。 当x=x时,两个区间的宽度最窄,此时,两个区间也都是最准确的。 精彩文档
实用标准文案
9国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:9
一、 (20分)为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。 (1) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同? (2) 哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同? (3) 哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的? 解:(1)、如果抽样是随机的,抽样样本数目对样本平均值没有决定作用,答案是不确定的; (2)、如果抽样是随机的,抽样样本数目对样本方差、标准差没有决定作用,答案是不确定的; (3)、不确定,都有可能。 二、 (20分)在参数统计分析中,应用t分布、分布和F分布的假定条件是什么? 如何判断样本数据是否满足假定条件。 2精彩文档
实用标准文案
解:(1)t分布:设X1服从标准正态分布N(0,1),X2服从自由度为n的X1分布,且X1与X2相互独立,则称变量t=服从的分布为自由度X2n2为n的t分布。期望 E(T)=0 方差D(T)=n/(n-2),n>2; 2分布:设 X1,X2,......Xn相互独立,都服从标准正态分 布N(0,1),则称随机变量X=X1+X2+....+Xn服从自由度为n的分布。期22222望E(X)=n,D(X)=2n; F分布:设X1服从自由度为n的分布,X2服从自由度为222X1mm的分布,且X与X相互独立,则称变量F= F分布。 X2n 服从212 (2)正态性检验及独立性检验。 三、 (20分)由于时间和成本对产量变动的影响很大,所以在一种新的生产方式投入使用之前,生产厂家必须确信其所推荐新的生产方法能降低成本。目前生产中所用的生产方法成本均值为每小时200元。对某种新的生产方法,测量其一段样本生产期的成本。 (1) 在该项研究中,建立适当的原假设和备择假设。 (2) 当不能拒绝H0时,试对所做的结论进行评述。 (3) 当可以拒绝H0时,试对所做的结论进行评述。 解:(1)、原假设:H0:新的生产方法成本的均值不低于200元/每小时;备择假设:小时。 H1:新的生产方法成本的均值低于200元/每精彩文档
实用标准文案
(2)、当不能拒绝H0时,说明并没有把握说明新的生产方法能降低生产成本; (3)、当可以拒绝H0时,说明新的生产方法可以降低生产成本,可以采用新的方法生产。 四、 (20分)列出度量下述测度变量间的关系所使用的统计量。 (1) 两个分类变量。 (2) 两个数值变量。 (3) 两个顺序变量。 (4) 一个分类变量与一个数值变量。 解:分类变量分为有序变量、无序变量及二分类,在差别性检验中二分类变量和无序变量都可以用卡方统计量检验,不过一个是四方格、一个是R×C列联卡方,有序变量也即等级资料得用秩和检验。有序变量中可用多元回归来检验假设,对于无序变量使用logistics回归。 (1)统计量;(2)、相关系数;(3)、等级相关系数;(4)、F统计量。 F检验和t检验有何不同? 五、 (20分)在多元线性回归分析中,2解:(1)、F检验是对模型整体显著性水平的检验,而t检验只是对单独变量的显著性水平的检验。 (2)、F检验显著,说明模型拟合效果显著,但并不能说明每个变量都显著。 精彩文档
实用标准文案
10中国人民大学接受同等学历人员申请硕士学位考试试题
招生专业:统计学 考试科目:统计思想综述
课程代码:123201 考题卷号:10
一、 (20分)在2008年8月北京举办的第29届奥林匹克运动会上,获得金牌总数前三名的国家及奖牌数如下。要描述这一数据,可以使用的图形有哪些?说明它们在描述这一数据中的用途。 排名 1 2 3 国家 中国 美国 俄罗斯 金 51 36 23 银 21 38 21 铜 28 36 28 总 100 110 72 列出适合展示上述数据的图形并说明这些图形的用途。 解:(1)、直方图或者条形图:能够直观的表明各个国家在金、银、铜牌上的奖牌数量。 如果以国家为横坐标,以奖牌数为纵坐标,能够直观的比较不同国家或得奖牌总数的情况; 如果以奖牌种类为横坐标,以国家为纵坐标,能够直观的看到每个国家获得各种奖牌的情况; (2)、饼图或者环形图:能够清楚的比较各个国家获得金、银、铜奖牌的比例。 二、 (20分)某企业生产的产品需用纸箱进行包装,按规定供应商提供的纸箱用纸的厚度不应低于5毫米。已知用纸的厚度服从正态分布,一直稳定在0.5毫米。企业从某供应商提精彩文档
实用标准文案
供的纸箱中随机抽查了100个样品,得样本平均厚度x4.55毫米。 (1) 在0.05的显著显著性水平上,是否可以接受该批纸箱?该检验中会犯哪类错误?该错误的含义是什么? (2) 抽查的100个样本的平均厚度为多少时可以接收这批纸箱?此时可能会犯哪类?该错误的含义是什么? (注:z0.0251.96,z0.051.645) 解:(1)、由题可知,纸箱的厚度服从N(,0.52), x4.55,5 n=100, 建立假设:H0:5 H1:5 ux-4.55-4.5559 与总体理论分布的拟合优度;(2)同一总体的两个随机变量是否独立;(3)二或多个总体同一属性的同素性检定即,独立性检验、同质性检验、适合性检验等。 四、(20分)在多元线性回归分析中,如果某个回归系数的t检验不显著,是否就意味着这个自变量与因变量之间的线性回归不显著?为什么?当出现这种情况时应如何处理? 解:(1)、不是。因为在多元线性回归模型中,如果多个自变量之间存在较强的相关性,或者因为数据收集的基础不够宽,造成多个自变量之间存在相关性时,此时在进行单个变量的t检验时,有可能会通不过检验,即该多元线性回归模型存在多重共线性。 (2)、当模型检验不显著时,需要进行判别(1、系数估计值的符号是否不对2、是否存在某些重要的自变量t值低,而R方不低3、是否出现当一不太重要的解释变量被删除后,回归结果显著变化)、检验(相关性检验)模型中是否出现多重共线性,需要通过:1、增加数据;2、对模型施加某些约束条件;3、删除一个或几个共线变量;4、将模型适当变形;5、主成分回归;6、向前选择、向后剔除、逐步回归等方法去除共线性,选出合适的自变量来反应因变量的变化情况。 而在处理多重共线性的时候需要注意:1、多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;2、严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。3、如果模型仅用于预测,则只要拟合程度好,可不处理多重共线精彩文档 实用标准文案 性问题,存在多重共线性的模型用于预测时,往往不影响预测结果; 五、(20分)下表是某贸易公司近几年的出口额数据: 年份 2002 2003 2004 2005 006 2007 2008 出口额(万美元) 13 19 24 35 58 88 145 (1) 从图形上判断,出口额时间序列含有什么成分? (2) 要预测该公司的出口额,应采用哪种趋势线?该趋势线的特点是什么? (3) 根据上面的数据拟合的指数曲线方程为:ˆ8.02(10.4904这里的0.4909的具体含义是Y)t,t什么? 解:(1)、以看出,出口额随着时间的增长,成曲线增长趋势。 ,由图可ˆ8.0202 (2)、如下图所示,用指数方程Ye0.3994t拟合出口额的t增长趋势,拟合的R值高达0.9896。 精彩文档 实用标准文案 (3)、方程中的0.4904的含义是:出口额增长率。 精彩文档 实用标准文案 11中国人民大学接受同等学历人员申请硕士学位考试试题 招生专业:统计学 考试科目:统计思想综述 课程代码:123201 考题卷号:11 一、 (20分)A、B两个班各有50名学生,统计学考试成绩的描述统计量如下: 统计量 平均数 中位数 25%四分位数 75%四分位数 标准差 最小值 最大值 A班 74.4 75 67 80 10.6 44 96 B班 68.5 67 56 83 17.4 35 100 (1) 画出两个班考试成绩的箱线图,并比较分布的特征。 (2) 根据统计量对两个班考试成绩的特点进行分析。 (3) 两个班考试成绩的最低分和最高分是否属于离群点? 解:(1) 精彩文档 实用标准文案 从图中可以看出,A班学生各科的平均考试成绩较高,且各学科成绩之间离散程度也较小,B班学生各科的平均考试成绩相对较低,且各学科成绩之间离散程度也较大;图中用“O”标出的最小值是A班同学考试成绩的最低分,被视为A班学生考试成绩的离群点。 (2) A班学生各科的平均考试成绩较高,B班学生各科的平均考试成绩相对较低;两个班成绩平均数和中位数基本相等,说明两个班级考试成绩分布接近对称;A班学生各科成绩的极差和四分位差均小于B班,说明B班学生各科成绩中间的数据及两端的数据均比A班学生成绩分散;A班学生考试成绩的离散系数小于B班学生考试成绩的离散系数,故A班学生考试成绩的离散程度小于B班。 (3)A班学生考试成绩最低分属于离群点。 精彩文档 实用标准文案 二、 (20分)谈谈你对方差分析的理解。 解:方差分析是分析各分类自变量对数值因变量影响的一种统计方法。自变量对因变量的影响也称为自变量效应,而影响效应的大小则体现为因变量的误差里有多少是由于自变量造成的。因此,方差分析是通过对数据误差的分析来检验这种效应是否显著。 【复核补充】方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”, 用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,其基本思想是通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和。 三、 (20分)某厂产品的优质品率一直保持在40%,近期质检部门来厂抽查,共抽查了50件产品,其中优质品为9件。 (1) 在0.05的显著显著性水平上,能否认为其优质品率仍保持在40%? 精彩文档 实用标准文案 (2) 该检验中可能犯哪类错误?其含义是什么? (3) 根据上述检验计算出的P0.564,解释这个P值的具体含义。 (注:z0.0251.96,z0.051.645) 解:依题意建立的原假设和备择假设为: H0:40%;H1:40% 根据抽样结果计算得:p 检验统计量为: z918%。 500.180.40.4(10.4)503.175 利用Excel中的NORMSDIST函数得到双尾检验的P=0.001498。显著性水平为0.05时不拒绝H0,没有证据表明优质品率不是40%。 【复核改】根据显著性水平α=0.05,=1.96,|z|=3.175>1.96,因此拒绝原假设,优品率没有保持在40%。 (2)可能犯第II类错误,是指原假设是错误的,却没有拒绝它。 【复核改】可能犯第I类错误,是指原假设是正确的却拒绝了原假设:即优品率保持为40%,却认为不是,犯这个错误的可能性为5%。 (3)P=0.564的实际含义是:如果该企业优质品率是40%,检验结果却认为不是40%,犯这一错误的概率为0.564。 ,xk,k个自变量分别为x1,x2,四、 (20分)设因变量为y,则多元线性回归模型可表示为:y01x12x2kxk。 (1) 对这一模型的假设有哪些? (2) 如果模型中存在多重共线性,会对结果产生哪些影响? 精彩文档 实用标准文案 (3) 解决多重共线性的方法有哪些?对各方法进行简要评述。 解:(1)在多元线性回归模型中,对误差项ε有三个基本假定: 1、 正态性。ε是一个服从正态分布的随机变量,且期望值为0,,xk的值,y的即E(ε)=0.意味着对于给定的x1,x2,期望值为E(y)01x12x2kxk。 ,xk的所有值,ε的方2、 方差齐性。对于自变量x1,x2,差2都相同。 ,xk一组特定值,他所对3、 独立性。对于自变量x1,x2,,xk任意一组其他值所对应的ε不相应的ε与x1,x2,,xk的值,因变量y也是关。同样,对于给定的x1,x2,一个服从正态分布的随机变量。 (2)首先,变量之间高度相关时,可能会给回归的结果造成混乱,甚至会把分析引入歧途。 其次,多重共线性可能对参数估计值的正负号产生影响,特别是i的正负号有可能同预期的正负号相反。 (4) 逐步回归是避免多重共线性的有效方法之一,先通过向前选择法选择变量,不过在新增加一个自变量后,它会对模型中所有的变量重新进行考察,看有没有可能剔除某个自变量。如果在新增加一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。按此方法不停的增加变量并考虑剔除以前增加的变量的可能性,直至增加变精彩文档 实用标准文案 量已经不能导致SSE显著减少(这个过程可以通过F检验来完成)。 逐步回归法的特点是:在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中被剔除的自变量在后面的步骤中也可能重新进入模型中。 五、 (20分)使用主成分分析和因子分析时应注意哪些问题? 首先,只有当原始变量之间有较强的相关关系是,降维的效果才回明显,否则不适合进行主成分分析和因子分析。 其次,主成分和因子的选择标准应基于定量分析的结果,并结合具体问题而定,在某种程度上取决于研究者的知识和经验,而不是方法本身。 再次,即使得到了满意的主成分或因子,在运用它们对实际问题进行评价、排序等分析师,仍然要保持谨慎,因为主成分和因子比较是高度抽象的量,无论如何,它们的含义都不如原始变量清晰。 最后,因子分析可以看做主成分分析的推广和拓展,而主成分分析则可以看作因子分析的一个特例。目前因子分析在实践中应用广泛,而主成分分析通常只作为大型统计分析的中间步骤,几乎不再单独使用。 精彩文档 实用标准文案 12中国人民大学接受同等学历人员申请硕士学位考试试题 招生专业:统计学 考试科目:统计思想综述 课程代码:123201 考题卷号:12 一、 (20分)下表是2006年北京、上海和天津按收入法计算的地区生产总值(按当年价格计算)数据。 地 区 北 京 天 津 上 海 劳动者报酬 3496.57 1383.36 3756.56 生产税净额 1161.55 775.09 1623.36 固定资产折旧 1251.09 595.09 1730.51 营业盈余 1961.07 1605.61 3255.94 描述上述数据的图形有哪些?简要说明这些图形的用途。 解:可以用帕累托图,按各类别出现的频数多少排序后绘制的条形图,可以看出哪类频数出现的多,哪类出现的少。 可以用环形图,每个样本用一个环来表示,样本中每一类别的频数比例用环中的一段表示。因此环形图可显示多个样本各类别频数所占的相应比率。 二、 (20分)一家超市某种牛奶的日销售量服从正态分布,未知。根据已往经验,其销售量均值为60箱。该超市在最近一周进行了一次促销活动,以促进销售。一周的日销量数据(单位:箱)分别为:64,57,49,73,76,70,59。 a) 检验促销活动是否有效(0.01)。 b) 该检验中可能犯哪类错误?其含义是什么? c) 根据上述检验计算出的P0.1576,解释这个P值的具体含精彩文档 实用标准文案