1、第七章 含有定性信息的多元回归模型 -虚拟变量一、虚拟变量的基本含义二、虚拟变量的引入三、虚拟变量的设置原则四、虚拟因变量的模型-二值选择的线性概率模型一、虚拟变量的基本含义l 许多经济变量是 可以定量度量 的, 如: 商品需求量、价格、收入、产量等。l 但也有一些影响经济变量的因素 无法定量度量 ,如: 职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。l 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们 “量化 ”。这种 “量化 ”通常是通过引入 “虚拟变量 ”来完成的。根据这些因素的属性类型,构造只取 “0”或 “1”的人工变量
2、,通常称为 虚拟变量 ( dummy variables),记为 D。l 例如 ,反映文化程度的虚拟变量可取为 :1, 本科学历D=0, 非本科学历l 一般地,在虚拟变量的设置中:l 基础类型、肯定类型取值为 1;l 比较类型,否定类型取值为 0。概念:同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析 ( analysis-of variance: ANOVA) 模型 。一个以性别为虚拟变量考察企业职工薪金的模型:其中: Yi为企业职工的薪金, Xi为工龄,Di=1,若是男性, Di=0,若是女性。二、虚拟变量的引入虚拟变量做为解释变量引入模型有两种基本方式: 加法方式 和 乘
3、法方式 。上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定 E(i)=0,则企业女职工的平均薪金为:1. 加法方式企业男职工的平均薪金为:几何意义: 假定 20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差 2。l 可以通过传统的回归检验,对 2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02又例 :在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上。 这时需要引入两个虚拟变量:模型可设定如下:在 E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:l 高中以下: