如何进行社会调查
一、选定调查题目
课题的选择是社会调查的出发点,决定着调查的目标和方向。好的选题是调查调查成功的首要条件。爱因斯坦说:“提出一个问题,往往比解决一个问题更重要。因为解决问题也许仅是数学或者是实际上的技能而已。而提出新的问题、新的可能性,从新的角度去看旧的问题,却需要有创造性的想像力,而且标志着科学的真正进步。”
选题的标准
(1)重要性。是指研究的问题有意义或价值,即有无理论价值或实践价值。用途(用处)越大、价值越大的问题越是好问题。
(2)创造性。指研究问题应该具有某种新的东西,具有与众不同的地方,自己的独特性。由于已经基本没有那种尚未开垦的处女地,找到最具创新的问题最为困难。因此,对大多数研究者来说,创新性的问题更经常的是在研究思路、研究角度、研究方法、依据的理论、研究对象、研究内容等某一方面或某几方面与前人研究不同的地方、独到的地方。知识积累、独特之处
(3)可行性。是指研究者是否具备了进行或完成某一研究课题所需要的主、客观条件。主客观条件限制越多,可行性就越差。研究者主观方面限制主要包括:生活阅历、知识结构、研究经验、组织能力、操作技术等限制,甚至还包括性别、年龄、语言体力等纯生理因素限制。客观方面限制是进行研究时受到的外在环境或条件的限制。如研究时间不够、研究经费不足、有关文献资料不能取得、所涉及的单位和部门不能给予必要的支持和配合、研究问题违反有关国家政策法令或社会伦理道德、或违反被研究者生活习俗宗教信仰等都会阻碍研究课题进行。所以选择研究课题时仅仅前面二个标准是远远不够的,还必须把可行性标准放到重要位置,一项研究无论多么具有新意,多么具有价值,如果不具有可行性,最多也只能是“伟大的空想”。
建议根据自己的主客观条件在参考选题中选择合适题目。
二、界定调查的范围
(1)调查问题不能太宽和太窄
就“有意义的问题”选择以后,我们需要对其进行界定和表述。调查的问题应该限定在一定的范围之内,不能“太宽”,也不能太窄。而“什么是‘宽’和‘太宽”,“什么是‘窄’和‘太窄”’取决于其他方面的因素,如调查的时间、地点、调查者人数、被调查者人数、调查事件的多寡、调查的方法类型等。假设在几周的时间内、在没有经费支持的情况下调查“中国大学生的民族精神认知情况调查”,就显然“太宽”了,而如果他她将调查的问题改成“四川农业大学大学生的民族精神认知情况调查”,就比较可行了。再如“高校校园文化建设对大学生影响的调查”就“太宽”了,而对“XX农业高校校园文化建设对大学生影响的调查”就比较合适了。
(2)具体界定调查范围
有的调查问题不是因为调查者时间或资金不足,而是因为问题本身的范围限定得不清楚,使人难以明白调查的重点和边界所在。比如,对“XX大学的教学工作”进行调查,而“教学工作”这个概念的范围十分宽泛,既可以包括本科生和研究生的教学工作,也可以指成人教育中的教学工作;既可以包括教师对教材的选择和编写,也可以指教师的具体教学活动;即可以包含教师与学生在课堂上的互动,也可以指教师在课外对学生的辅导。如果对自己究竟要探讨其中哪些方面的内容不太清楚,在调查问题中没有给予明确的界定,因此感觉调查没有重点,不知道从哪里人手。再如“对XX农业高校校园文化建设对大学生影响的调查”,往往也会因为校园文化建设对大学生有哪些影响界定不清,影响调查。因为这种影响包括对大学思想政治教育影响、对学校管理工作影响、对学生健康价格影响、对学生社会化的影响、对学生创造力发展的影响、对学生间人际关系和谐影响等等。
鉴于此,调查范围必须清楚具体地界定出来。
(3)准确表达调查问题
由于语言具有形成现实的作用,调查问题的语言表述直接影响到调查的焦点和覆盖范围。确定了调查问题的范围以后,我们需要对其进行语言表述。比如,“XX社区公共文化建设现状调查”的表述就比较准确。
三、明确调查对象
在调查中,需要明确的主要就是调查的具体单位,即具体指出调查单位究竟是农民、工人、学生、政府官员、私营企业主或其他特定的个人,还是家庭、国有企业、农村、大学、城市、国家等社会组织,还是竞争、游行等社会现象,还是电影、唱片、文学作品等社会产物,或者是其他任何与社会有关不可以观察的事物。调查中具体选择哪些调查对象由调查问题决定。如“农村居民文化娱乐现状调查”的调查对象主要是农村居民,包括农村不同收入、不同文化程度的居民,为了与城镇进行对比,还要调查本区域内城市居民。
调查对象不明确,就没有办法设计很好的问卷。比如,“马克思主义辩证法思想对人们生活影响”的调查,不清楚向那些对象去调查就不能很好地设计问卷。是对一般的农民群众进行调查、工人进行调查,还是对学生、干部和教育工作者进行调查?不同调查对象对调查问卷的内容和形式的要求存在一些差异。
四、概念的操作化
所谓操作化就是要把我们无法得到的有关社会结构、制度或过程.以及有关人们行为、思想和特征的内在事实,用代表它们的外在事实来替换,以便于通过后者来研究前者。或者说,操作化就是将抽象的概念转化为可观察的具体指标的过程。它是对那些抽象层次较高的概念进行具体测量所采用的程序、步骤、方法、手段的详细说明。比如,将抽象概念“同情心”转化为“主动帮助盲人道街”、“主动给讨饭者钱物”、“主动向灾区捐款”,就是操作化的一个例子。
1.社会现象的测量
(1)怎么测量
以人的思想、情感、意志、行为和结果作为测量的客体,常常以人的行为作为测量的主要客体。如“马克思主义辩证法思想对人们生活影响状况调查”,就要从辩证法对人们生活理想(目标)确定、生活态度(积极还是消极)、生活方式几方面影响进行调查。当然对生活方式的影响又要通过对生活行为、生活问题的态度反映出来。所以对这一问题调查需要马克思主义辩证法基本观点(联系观点、发展观点、矛盾观点、矛盾普遍性与特殊性的观点、具体问题具体分析、两点论重点论、因果关系、必然性与偶然性、现实性与可能性、内容和形式、现象和本质等方面)设计问题,进行问卷调查或访谈。
对于人的主观方面的认识或态度的测量,既可以通过人行为表现出来,又可以通过对某种行为或某种观点的态度体现出来。比如,“关于社会主义核心价值体系认知情况调查”就是这样。我们不仅可以围绕社会主义核心价值体系的内容进行一些知识问答,而且更主要的是通过设计一些问题,由人们对问题态度或行为选择来测量人们对的社会主义核心价值的情况。
(2)测量层次
①定类测量
定类测量在本质上是一种分类体系,即将研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其类别。在社会研究中,对诸如人们的性别、职业、婚姻状况、宗教信仰等等待征的测量,都是常见的定类层次的测量。它们分别将被研究者划分成“男性与女性”、“工人、农民、教师、商人……”或者“未婚者、已婚者、离婚者……”、“佛教、天主教……不信教”等各种不同的群体或类别。
由于定类测量实质亡是一种分类体系,因而必须注意所分的类别既要具有穷尽性,又要有互斥性。即所分的类别既要相互排斥,互不交叉至叠,又对各种可能的情况包罗无遗。这样,我们所测量的每—个对象都会在我们的分类体系中占据一个类别,且仅仅只会占据一个类别、比如,将性别分为“男性”和“女性”两类,将职业分为“工人”、“农民”、“干部”、“专业技术人员”、“商人”、“其他”六类等等。
②定序测量
定序测量是以某种逻辑顺序将研究对象排列出高低或大小,确定其等级及次序。或者说,定序测量可以控某种特征或标准将对象区分为强度、程度或等级不同的序列。比如,测量人们的文化程度.可以将他们分为文盲、半文盲、小学、初中、高中、大专、大学及以上等等,这是一种由低到高的等级排列;测量城市的规模,可以将它们分为特大城市、大城市、中等城市、小城市等等,这则是一种大到小的等级排列。在社会研究中,研究者可以用定序测量来对人们的社会地位、生活水平、住房条件、工作能力等等特征进行类似的等级排列。
定序测量不仅能够像定类测量一样,将不同的事物区分为不同的类别,而且还能反映事物或现象在高低、大小、先后、强弱等序列上的差异。
③定距测量
定距测量也称为等距测量或区间测量。它不仅能够社会现象或事物区分为不同的类别、不同的等级,而且可以确定它们相互之间不同等级的间隔距离和数量差别。比如,测量收入水平,可以算出收入增长了多少或收入差距多少。
④定比测量
定比测量也称为等比测量或比例测量。定比测量所得到的数据既能进行加减运算,又能进行乘除运算。比如,收人增长率、就诊率、文化消费比率、恩格尔系数等等。
测量层次要求我们收集不同类型的资料,以便进行深入分析。由于低层次测量的所有功能,即它既可以测量低层次测量可以测量的内容,也可以测量低层次测量所无法测量的内容,高层次的测量还可以作为低层次测量处理(上述四种测量的层次由低到高,逐渐上升),而低层次测量不能测量高层次所测量的内容,所以,要尽可能地收入高层次的测量数据,以便进行深入分析。
2.概念操作化
操作化有两个方面的工作,一是澄清和界定概念,二是发展测量指标。
(1)界定概念
在具体操作上,我们首先耍弄清概念定义的范围。在采用或给出某个具体的定义之前,可以先看看其他的研究者对这一概念所下的定义是怎样的。而对于那些并未对该概念下正式的定义的研究来说,我们就需要从其对概念的运用中来确定他对这一概念的界定。当我们通过收集和查询,了解到有关这一概念的各种不同的定义,从而对这一定义的大致范围有所理解以后,便可以对这些定义进行分类。比如“老年人”的操作定义则为“指60周岁以上的公民”,国际上则指“65岁以上的人”。
其次,决定一个定义。列出了有关这一概念的各种类型的定义,或者总结出各种定义中最具共同性的元素后,就该我们决定采取哪一种定义方式了。我们面临各种不向的选择:既可以直接采用一个现成的定义(即从现有的各种定义中确定一个自认为比较科学、比较确切的),也可以在现有定义的基础上自己创造出一个新的定义;采用现成的定义时,既可以用—个十分经典的定义,也可以用一个比较现代一些的定义。需要特别注意的是、这种选择应该以研究者进行具体社会研究的需要为标准,哪种定义方式最适合研究的目的,就应该重点考虑这种定义方式。
(2)发展测量指标
概念的澄清和界定只是解决了概念名义定义的内涵问题,即相当于给我们划定了概念内涵的具体范围。对于经验性的社会研究来说,还需要对其进行操作化,使其转化成能具体观察和测量的事物。接下来的任务就是要寻找与这些内涵相对应的经验指标。这一工作更为具体,也更具有挑战性。通常的做法是:
①列出概念的维度。许多比较抽象的概念往往具有若干不同的方面或维度。或者说,一个抽象的概念往往对应于现实生活中的一组复杂的现象,而不仅仅只对应于一个单纯的可直接观察到的现象。比如,“社会和谐”包括政治、经济、文化、社会、人与自然方面的和谐;“人与人关系的和谐”包括行为和谐、心理和谐。“农民基本素质”,包括思想道德素质和科学文化素质。
②建立测量指标。通常,我们可以采取下列两种方式来发展概念的指标:
第一种方式是寻找和利用前人已有的指标。尤其是对于一些测量人格、态度方面的量表,往往经过多次的运用和修改,常常可以成为我们可用的指标。当然许多前人的指标不一定完全适合我们的概念,需要作一定的修改和补充。用前人的指标具有可与其他研究所得结果进行比较的优点,同时,这种做法比每个研究者都发展一套自己特定的指标的做法,更有利于社会知识的积累和形成。
第二种方式是研究者先进行一段时间的探索性研究。采用实地观察和无结构式访问的方式,进行资料收集的初步工作。尤其是与被研究者中的关键人物进行比较深入的交谈,从这些人那里获得符合实际的答案。这样做可以帮助调查者从被研究者的角度、用被研究者的眼光来看待事物,了解被研究者的所思所想,以及他们考虑问题的方式。所有这些都会对研究者发展出测量概念的指标提供极大的帮助。
3.几个操作化的例子
(1)精神文明建设状况
组织机构建设
基础设施、美化设施、宣传教育设施建设
队伍建设(队伍组成、文化水平、宣传方法等)
制度建设
建设内容(爱国主义教育、社会主义荣辱观教育、马克思主义教育、中国特色社会主义共同理想教育、社会公德教育、家庭美德教育、职业道德或敬业精神教育、遵纪守法教育)
建设方法
建设效果及原因
加强和改进精神文明建设的建议
(2)老年人生活状况
收入与消费状况
文化生活状况
居住状况
婚恋自主情况
健康、医疗状况
养老方式状况
家庭及社会关怀情况
(注意:要有总体情况调查,不同群体老人生活情况)
(3)居民收入与消费状况
收入状况:
收入总量及增长幅度
收入来源及变化(工资收入、经营性收入、财产性收入、转移性收入)
实际可支配收入
消费状况:
消费总水平及其增幅
消费结构(食品、衣着、居住、家庭设备用品及服务(包括耐用品和奢侈品)、医疗保健、交通通信、教育文化娱乐、其它(如社会保险消费))
储蓄情况(含蓄的动机、储蓄的数量及其变化)
(注意:不同群体的收入与消费状况)
(4)就业心态
就业观念(是否愿意就业、是否从众)
就业意向
就业信心
就业心态调适(是否失落、是否存在压力,及对失落、压力的调适情况)
(5)居民医疗状况(看病难、看病贵)
医疗卫生资源状况:
医疗卫生资源投入状况
医疗机构覆盖率
医疗卫生队伍情况
医疗卫生设备
医疗服务质量
医疗资料共享情况
居民医疗状况:
就诊率
药品价格
医院取药率
自费率
60岁以上老人医疗负担
低收入家庭医疗费用
医疗保险状况(参保率、报销种类和比例、医疗保障水平等)
大病致贫率
社会医疗求助状况:
社会医疗求助制度
社会医疗求助组织
社会医疗求助能力
进行操作化受已有认识水平制约。查阅相关文献,进行研究性学习是弥补自身认知水平不足的重要途径。
五、进入调查区域或单位
1.进入方式
进入调查现场一般采取两种方式:一是通过被访者的上级领导介绍,二是通过自我介绍或熟人朋友介绍。
无论采取哪一种方式,都必须做好有关各方面的协调工作。它主要包括两个方面:
(1)依靠被调查单位或地区的有关组织,争取他们的支持和帮助,尽可能在不影响或少影响他们工作的前提下,合理安排调查任务和进程。
注意:在村镇干部将调查者带入受访者家庭后,一定要请求其离开,影响提问和回答,从而影响调查效果。
(2)密切联系全部被访者,努力争取他们的充分理解和合作,并在可能的条件下给予他们必要的帮助(带上学生证,向被调查人员说明调查目的,作出保密和尊重个人隐私的承诺,与被访人员接近感情(在语言、行为、表情、衣着方面))。
有时可能会因为安全问题不愿意接受访问,但在一个门里、一个门外、一问一答的情况下做完调查也是有的。所以遇到拒访以后,一定要分析拒访的原因,争取和受访者沟通,力争得到受访者支持。
2.入户调查时间
在调查实践中调查员不得不在周一到周五的傍晚进行访问,因为大多数有工作者晚上才下班回来。通常晚上七点左右吃完晚饭,五点半到七点半这段时间通常是做饭或吃饭的时间,接受访问的难度增加,拒访率增加。但如果被访者无须操持家务接受调查的可能性还是比较高的。晚上九点办以后,出于安全的考虑一般都会结束调查。
周末调查员基本上全天都可以进行调查,因为理论上被访者都是在家的,调查时间一般分为上午九点到十二点,下午一点到六点,晚上七点到十点。但不同地区、不同季节、不同调查对象的作息时间是有差异的。比如城市和农村、北方和南方、老人和青年人的作息时间都存在差别。
注意:入户调查时尽量避免其他家庭成员的影响。
3.被拒绝的预案
如果找不到被访者或拒绝访问,如果随意更换样本,很可能使调查结果偏离调查方案,影响代表性。因而,事先应对拒访或样本丢失情况作出预案,如事先多抽取一些样本,或确定更换样本的规则。
六、几种调查方法
1.访问调查
访问法是最普遍的社会调查方法之一。在汉语中“访“是指“探望、寻求”,“问”就是指询问。访问法是访问者通过口头交谈的方式向被访问者了解社会情况的方法。
(1)访问法分类
访问因研究的性质、目的或对象的不同而有不同的方式。根据访问者与被访问者间的交流方式,可分为直接访问和间接访问。前者是访问者与被访问者面对而的交谈;后者是通过电话对访问者进行访问。根据一次被访问的人数,访问可分为个别访问和集体座谈;按照访问过程的控制程度,访问又可分为结构式访问和无结构式访问。
①结构式访问
结构式访问又称标准化访问,它是一种高度控制的访问,即按照事先设计的、有一定结构的访问问卷进行的访问。这种访问的特点是:选择访问对象的标准和方法、访淡中提出的问题、提问的方式和顺序以及被访问者回答的记录方式都是统一的。
②无结构式访问
又称非标准化访问,与结构式访问相反,它事先不制定统一的问卷、表格和访问程序,而是只给访问者一个题目,由访问者与被访问者就这个题目自由交谈。访问对象可以随便提出自己的意见,而无需顾及访问者的需要。访问者的问题也是在访问过程中边谈边形成边提出的。在这种形式的交谈中,被访问者提供的许多事物与想法往往是访问者不曾料到的,因而常给访问者以很大启发,深化他对部题的了解,找到问题的关键。
无结构式访问可依据访问的目的,访问内容和实施方法的不同,分为下述几个类型,重点访问,深度访问和客观陈述。
重点访问又称集中访问,它是集中于某一经验及其影响的访问。深度访问又称临床式访问,它是为搜寻特定经验(如盗窃过程)及其行为动机的主观资料所做的访问,常用于个案调查。客观陈述法又称非引导式访问,其最大特色是让被访人对他自己和他所处的社会环境进行一番考察,再客观陈述出来,即访问者鼓励被访问者把自己的信仰、价值观念,行为以及他所生活的社会环境客观地加以描述。
(2)访谈控制的方法
提问控制和表情动作控制是两项主要的控制手段。
①提问控制
对内容转换的控制。即当访谈内容从一个方面转换到另一个方面时,访谈员要有意识地帮助访谈者实现这种转换,不能在被访谈者没有任何心理准备情况下突然转换论题。提问控制的方法是先顺着被访谈者谈话内容进行简短归纳总结,让被访谈者在这方面思路打上句号,然后提出新的问题。
对问题的重述和追问
当感觉到被访问者对问题含义不解、不清楚,或有误解时,可通过重复问题来帮助他理解;当对被者的问答有疑问时,也可通过重复其回答和追问来确证;当感觉到被访问者问答不全时,可通过停顿不语或追问来诱导被访问者继续谈下去。
掌握好发问或插话的时机
在被访问者叙述的过程中,出了十分重要的细节,一般不插问,插话也不要过多,以免打断被访问者思路。
②表情动作控制
用动作中断被访问者谈话。通过送水、点烟的动作打断被访问者扯远的话题便是一例。
要表现出礼貌、虚心、诚恳、耐心的表情。
要对被访谈者谈话表示关注,即使走了题,或语言表达效果较差也是如此。
访谈员的表情要适合被访问者回答的内容。要对被访者喜怒哀乐表现出同感。
要恰当用眼,专心用耳。既不能只顾做笔记,也不能一直盯着被访者。
谈话结束时一定要热忱地向被访者表示感谢。
(3)开好调查会
座谈会是一种集体访问方法,即将许多调查对象放在一起同时进行访问,也就是通常所说的“开调查会”。
开调查会是调查研究的重要方法。不论是进行典型调查或者进行其他形式的调查,都必须把调查会开好。毛泽东说:“开调查会,是最简单易行又最忠实可靠的方法,我用这个方法得了很大的益处,这是比较什么大学还要高明的学校。”(《毛泽东选集》第3 卷第748页)
①做好会前的准备工作。调查会开得如何,收获大小,和事先准备工作做得怎样,有密切关系。准备工作包括要拟好调查纲目,并确定参加调查会的具体人选,请最了解情况,掌握第一手材料的人参加。如果要调查的问题不止一个,而是若干个,那来可以开若干次调查会,逐个问题进行调查。一次调查会最好围绕一两个问题,以免主题分散。不然,漫无边际,泛泛而谈,收不到好的效果。每一次调查会围绕什么问题,从哪几个方面了解这个问题。最好事先拟出具体的细目,用书面的形式发给参加调查会的人。并且要给他们时间准备。这样做是为了避免搞“突然袭击”,临时通知人来开调查会,而参加者不知道调查会的意图和内容或者虽然知道内容,伹没有时间准备意见和材料。同时,又要请参加调查会的同志注意,与会发言完全可以不受调查纲目的限制,要讲什么问题和意见,就可以讲什么问题和意见。
②参加调查会的人数,每次不必多,三,五人最多六,七人,因为人多了易受拘束,发言不易普遍,也不便于展开讨论。有时还可能因为参加者中间有不同意见,而使有的人不便讲出真实的意见。
③选择调查对象。请什么人参加调查会呢?要邀请真正了解情况,能够促供材料的人参加,不要搞清一色。毛泽东根据他在民主革命时期搞农村调查的经验说道“到会的人,应是真正有经验的中级和下级的干部,或老百姓。我在胡南五县调查和井冈山两县调查,找的是各县中级负责干部,寻邬县找的是一部分中级干部,一部分下级干部,一个穷秀才,一个破产了的商会会长,一个在知县衙门管钱粮的已经失了业的小官史,他们都给了我很多闻所来闻的知识。使我第一次懂得中国监狱全部腐败情形的,是在湖南衡山县作调查时该县的一个小狱吏。兴国调查和长冈、才溪两乡调查,找的是乡级工作同志和普通农民。”(《毛泽东选集》第3 卷第748页)毛泽东的这个经验对于在社会主义时期开调查会也是适用的。因为真正了解实际情况、真正有经验的干部和群众,对我们所要调查的事物和问题,或者是直接的参加者,或者是从不同方面有所接触.因而他们不仅有生动、丰富的感性认识和大量、可靠的第一手材料,而且对于问题的症结以及解决问题的办法,也往往有真知灼见。
④要开好调查会,最重要的是要有甘当小学生的精神和虚心学习的态度。毛泽东说;参加调查会的“这些干部、农民、秀才、狱吏、商人和钱粮师爷,就是我的可敬爱的先生,我给他们当学生是必须恭谨勤劳和采取同志态度的,否则他们就不理我,知而不言,言而不尽。” “没有满腔的热忱,没有跟睛向下的决心,没有求知的渴望,没有放下臭架子、甘心当小学生的精神,是一定不能做,也一定做不好的。”(《毛泽东选集》第3 卷第748页)毛泽东的这段话,大家都很熟悉。但是,真正做到这一点并不容易,必须下定决心并经过一番切实的努力。所有去开调查会的同志都有这个问题,尤其是上级机关和领导同志下去开调查会,由于种种原因更有这个问题。因为即使你不摆官架子,群众心目中尚且会把你当作“官”看待,何况你自觉或不自觉地摆出一种架子呢?还有一点值得注意的是,上级机关的同志,尤其是领导同志,到下级机关或基层单位去开调查会,下级机关或基层单位的有关同志为了表示支持和尊重,一般都要专门接待、安排,目的是为调查提供方便,但在客观上则可能给下去调查的同志增添了解情况的障碍。比如说,省里某领导同志如果到农村去开调查会,则往往有地、县、乡、村等各级同志的陪同。越是上级机关,越是高级领导者,则陪同者越多,甚至前呼后拥一大群。并不是说要完全避免有人陪同,但是,要注意适当,不要由于这些安排影响调查的深人。尤其应当注意在这种情况下,要开好调查会,真正同到会的人促膝谈心,展开讨论,听到真实情况和群众的心里话,态度的问题就显得更加重要。这个问题不解决,即使到了基层,也请有实践经验的干部和群众来开了调查会,但他们可能知而不言,言而不尽,所了解的情况就可能不全面、不深入,甚至是虚假的。这种事例屡见不鲜,教训是不少的。1958年刮浮夸风时,不少问题就在调查者的眼皮底下,而情况又虚假到违反常识的地步,仍然没有被发现。原因之一就是群众不敢向调查者讲心里话,不敢反映真实情况。可见,真正放下架子采取虚心学习的态度是十分重要的。
⑤要开好调查会,还要注意方法问题。一个具体的方法就是要口问手记。不仅参加调查会的一般同志要作纪录,领导同志即调查会的主持者也要作记录。因为这本身也是一种学习的态度,也表明对发言者的尊重和对发言内容的重视,更主要的是亲自作记录,有利干集中注意力,便于从中发现问题和线索,听不明白的地方即可提问,还便于会后对调查材料进行思考和分析。
所谓口问,不仅是指根据调查纲目进行询问,还包括引导调查深入的提问以及展开讨论时的提问。
参加调查会的同志即使事先看到调查纲目,作了准备,但其发言仍可能面面俱到,或一般地介绍基本情况和工作过程及作法,或重要的地方几句带过,次要的地方谈得很多。这种情况在调查过程中是经演常可能遇到的,不应苛求干参加调查会的同志。
然而开调查会又不能停留在了解一般情况或比较表面的经验和问题上面;必须把事情的始末原由、来龙去脉搞清楚,对矛盾的各个侧面进行深入了解,进而把握事物的本质,并找到解决矛盾的办法,这里除了要有“每事问”以及“打破沙锅问到底”的精神之外,还必须在开调查会时用心听,用心思考,随时从与会者的发言中捕捉重要的思想(经验,体会.问题.办法)和材料,或者发现能把调查引向深入的重要线索。常常有这种情况:发言的同志讲到了很值得注意的思想和经验,或者是提出了很重要的问题和办法,但本人并没有明确认识到它门的价值和作用,因而没有展开去谈,只是轻描淡写地谈过去。调查会主持者就要善于发现这样的思想、经验、问题和办法,及时抓住这些东西,引导深入地谈下去。虚心学习和用心提问是一致的。不虚心学习,不善于吸取好的思想,不善于发现线索,就提不出问题或者提不到点子上。不用心思考,提不出问题,调查停留在表面现象上面,也不是真正虚心地向到会的人学习。所以要开好调查会,除了虚心之外,还必须用心。开调查会的过程是很紧张的脑力劳动,很紧张的学习、思考的过程,就象学生认真听老师讲课一样,听不懂,听不明白的就要提问。提问的态度应是同志式的,是学生向老师提问,而不应当作为上级向下级提问,更不应当采取“审查”式的提问。同时要注意防止粗枝大叶,切不可听到似懂非懂的东西也放过去,不懂装懂,囫囵吞枣。
以上就是说,调查会应当开成讨论式的调查会。这样才能开得生动活泼,从中得到最基本的情况和最起码的知识。同到会的人展开讨论,还包括另一个重要的方面,就是对问题解决办法的讨论。当然,在现实生活中所要调查的问题都是比较复杂的,一般不是通过一两次调查会就能够找到解决问题的正确答案。而且参加调查会的同志由于各种原因,意见可能不一致,所提出的办法也可能有局限性和片面性,但是,这些都 不要紧。应当把各种意见和办法都记录下来,作为调查会之后进行分析阶究的资料。
在调查会上听到的重要情况、思想(经验、体会、问题、办法)和资料(包括数字统计材料),可能记录不完全、不准确,也可能由于发言者受时间限制或其它缘故,而没有能够畅所欲言。所以在调查会结束时,可以向与会同志要一些他们原来已经有的文字总结材料和数字统计资料。如果有必要也可以根据调查的需要,当场列出一些数字统计项目或画出统计表的栏目,请到会同志带回去帮助搜集材料。对于还有话要讲以及有很好的意见而没有详细展开讲的同志,调查会主持者还可以约请他们单独再谈。
调查一个问题,一般不止开一次调查会。如果需要开若干次,那末除了调查开始时要研究各次调查会的参加者以及调查的范围、中心以外,在每一次调查会以后,还必须紧接着对调查的进展情况进行研究,看看哪些方面的情况和问题已经清楚了,哪些还不清楚,需要再深入了解调查工作本身存在什么问题,如何改进等。在此基础上修订、补充原来的调查计划,确定下一次调当会的内容。
⑥开调查会是重要的调查方法,并不是唯一的调查方法。开调查会可以而且应当同其他的调查方法相结合。陈云同志在《清浦农村调查》一文中写道:“我听了公社党委两次汇报,召开了十次专题座谈会”,“这些座谈会有几次主要是向农民做调查,有几次是和公社党委交换意见。我自己还去农民家中跑了若干次,观察他们养猪,种自留地,住房和吃饭等情况。”在开调查会的前,到工人、农民、基层干部及其他调查对象的家里去观察他们的住房、吃饭等生活情况,到有关的生产、工作场地去观察他们的生产活动和工作情况,这是很必要、很重要的调查方法。
调查需要一面听,一面看,只听不看,感性知识不完全,而且不易于判断听来的材料是否真实,甚至还容易上当。通过亲自看可以获得较全的感性的认识,充实,检验从调查会所听到的材料,还可以密切同群众的关系。很可能从这种直接的观察、直接的接触中,了解到更具体.更真实的情况。这是对开调查会的一种重要的补充。
开调查会或实地观察、接触群众都要十分注意观察群众和基层干部的情绪。例如,仔细观察农民住房,吃饭,劳动等具体情况,以及他们言谈行动所表现出来的真实情绪,往往比一大篇议论更能反映当时当地农村工作的成效和各项政策的实施情况。
访谈法要想取得很好的调查效果需要进行深入调查,需要把问题逐步引向深入,而且也不是一次访谈或调查会就能达到的,同时要结合听汇报、实地观察等方法,特别是往往要作典型调查,鉴于些,本次社会实践调查建议采取问卷调查的形式,以便更多地收集资料,为写下几千字的调查报告作准备。
2.抽样调查
抽样调查是调查应用的常见模式,是一种非全面的调查,它是从调查对象的全体中抽取一部分单元作为样本,根据对所抽取的样本进行的调查,获得有关总体目标量的了解。
抽样调查具有节约费用、时效性强、可以承担全面调查无法胜任的项目、有助于提高调查数据质量。
社会科学中的抽样调查法可以分为概率抽样和非概率抽样两类。
(1)非概率抽样
①非概率抽样及其应用
非概率抽样是按照其他非概率标准进行的抽样。
非概率抽样的运用具体体现在几个方面,一个重要的应用是调查结果可用于了解情况、形成想法。有时的调查目标并不是对总体特征进行推断,而是进行探索性研究,发现问题,寻找解决问题途径,非概率抽样就是一个重要途径。非概率抽样的另一个重要应用是充当预调查角色,作为概率抽样的初始步骤。
非概率抽样优点是操作简单,不需要抽样框,经济、快速,调查数据的处理也容易,所以有广阔的应用空间。它的局限是不能计算抽样误差,不能从概率上控制误差,样本数据不能对总体进行推断。由于抽取的样本具有较大随意性,调查人员通常选择那些容易接触的、比较友好的单元进行调查,从而导致调查单元存在系统性差异。
②非概率抽样的类型
偶遇抽样
偶遇抽样又称作方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近的、最容易找到的人作为对象。如为了调查某市交通的情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人选作调查对象。其他类似的偶遇抽样还有:在街头路口拦住过往行人进行的调查;在图书馆阅览室对当时正在阅览的读者进行的调查;在商店门口、展览大厅、电影院等公共场所向进出往来的顾客、观众进行的调查;利用报刊杂志向读者进行的调查;老师以他所教的班级的学生作为样本所进行的调查等等。
这种碰到谁就选谁的抽样方法往往被有些人误认为就是随机抽样:仅从表面上看,二者的确有些相似,都排除了主观因素的影响,纯粹依靠客观机遇来抽取对象。促二者有一个根本的差别,这就是偶遇抽样没有保证总体中的每一个成员都具有同等的被抽中的概率。那些最先被碰到的、最容易见到的、最方便找到的对象具有比其他对象大得多的机会被抽中。正是这一点使我们不能依赖偶遇抽样得到的样本来推论总体。
判断抽样
判断抽样又称立意抽样,它是研究者根据研究的目标和自已主观的分析来选择和确定研究对象的方法。这种抽样首先要确定抽样标准。由于标准的确定带有较大的主观性,所以,此法的运用结果如何往往与研究者的理论修养、实际经验以及对对象的熟悉程度有很大关系。判断抽样的主要优点在于可以充分发挥研究人员的主观能动作用,特别是当研究者对研究总体的情况比较熟悉、研究者的分析判断能力较强、研究方法与技术十分熟练、研究的经验比较丰富时,采用这种方法往往十分方便。但是出于它仍然属于一种非概率抽样。
判断抽样经常被用于以下三种研究场景。首先,研究者用判断抽样来选择特别能提供信息的独特个案。例如,在问卷设计阶段,为检验问题设计是否得当,常有意地选择一些观点差异悬殊的人作为研究对象。又如,为发掘流行的文化议题,研究者在对杂志进行内容分析时,会特别选择一些比较流行的女性杂志作为研究对象,他看中的就是这些杂志领导文化潮流的特点。其次,研究者用判断抽样来选取很难以接近的特殊人群。最后,研究者用判断抽样来选取某种特殊个案类型,以便进行深人探究。例如,选择一些收入远高于农民人均收入水平的农民作为研究对象,深入分析他们的致富途径。这种研究是希望获得对这种类型的深入了解,它的作用在于发现问题,提出假设,而不在于对总体做出概括。因此,无须根据样本对总体进行推论。
配额抽样(定额抽样)
配额抽样首先要根据某些参数值,确定不同总体类别中的样本配额比例,然后按比例在各类别中进行方便抽样。例如,研究者想要用配额抽样方法,抽取一个40人规模的样本。他首先决定用性别和年龄作为决定样本配额的参数值,通过查阅相关资料,了解到总体中男女各占50%,30岁以下、30到60岁之间和60岁以上的比例分别为:25%、50%和25%。实际操作中,可以依据参数值,建立相应样本配额矩阵或表格,然后,按短阵中的配额进行方便抽样。
样本按性别和年龄的配额矩阵表
|
性别 |
合计 |
男 |
女 |
年龄 |
30岁以下 |
5 |
5 |
10 |
30-60岁 |
10 |
10 |
20 |
60岁以上 |
5 |
5 |
10 |
总计 |
20 |
20 |
40 |
配额抽样的逻辑是通过样本配额,使样本结构尽可能与总体结构保持一致,对总体进行“克隆”。不难想象,配额矩阵所依据的总体参数值越多,则样本元素的分类也越细,样本与总体的结构也越接近。但随着参数值的增加,配额短阵的分相会越来越复杂,抽取到符合条件的对象也就越来越困难。配额抽样中经常采用的参数值包括性别、年龄、教育程度、婚姻状况、收入和职业类别等。
配额抽样有两点先天不足,首先,为了不偏离总体,配额矩阵中的数字必须十分准确,要做到这一点、就必须掌握总体的最新资料,但这并不容易做到。对此抽样史上有个很好的例证,盖洛普采用配额抽样,在1936年、1940年、和1944年,成功地预测了美国总统选举结果,但在1948年,他没能正确地预测出杜鲁门会当选总统。造成预测失败的一个主要的原因,就是样本配额没能正确地代表所有地理区域和所有实际去投票的选民。
其次,尽管配额方法是一种改进,但最后抽样仍由访问员根据方便原则执行,他们从某些特定的矩阵格子中选择样本时,有很大的随意性。例如,访问员很可能会访问最先碰列的5位30岁以下的男性,而这5人恰好是刚从同一公司下班走出来。这不仅会降低样本的代表性,而且也无法避免那些想要接受访问的人。正是由于最后采用了方便抽样,使配领抽样与分层抽样具有本质的区别,后者依据随机原则抽样,排除了主观因素,被抽中的研究对象即使是身居高楼、家养恶犬的人,访问员也不能图方便,而不去拜访。
定额抽样与分层抽样虽然都依据某些特征对总体进行分层,但二者的目的不同,抽样方法也不同。定额抽样之所以分层分类,其目的在于要抽选出一个总体的“模拟物”,其方法则是通过主观的分析来确定和选择组成这种模拟物的成员。也就是说,定额抽样注重的是样本与总体在结构比例上的表面一致性。而分层抽样进行分层,一方面是要提高各层问的异质性与同层中的同质件,另一方面也是为了照顾到某些比例小的层次,使得所抽样本的代表促进一步提高,误差进一步减小。而其抽样的方法则是充分依据概率原则,排除主观因素,客观地、等概率地到各层中进行抽样,这与定额抽样中那种“按事先规定的条件,有目的地寻找”的做法是完全不同的。
雪球抽样
雪球抽样也称网络抽样,是一种根据已有研究对象的介绍,不断辨识和找出其他研究对象的累积抽样方法。名称源于滚雪球的类比,雪球开始时可能很小,但当它在潮湿的雪地上滚动时,就会不断粘上新的雪片,越变越大。与此类似,雪球抽样开始时,样本可能只有一个或少数几个人,但在随后的时段里,这儿个人会凭借自己的社会关系,介绍新人加入,新人也有社会关系,于是,随着关系网络的不断扩大,样本也越滚越大,可见雪球抽样是一种多阶段的技术。
雪球抽样特别适合用来对成员难以找到的总体进行抽样,如城市中的散工、无家可归的流浪者和吸毒者等。另外,也可以用雪球抽样对具有一定网络联系的总体进行抽样,例如,可以用这种方法抽取一个高收人人群的样本,开始时,可以先设法找到几个高收入者,而他们肯定会有高收入的朋友,故可以请他们互相介绍,进而找出新的高收入者来。
雪球抽样理想的结果是“雪球”滚到了大于所需样本规模的人群,这时可在某个时点中止“雪球”的滚动。当然,也不排除“雪球”滚到一定数量的对象后,样本就无法再扩大了。这种情况通常是由于“雪球”滚动中,人们互相介绍的对象都属于同—个圈子或关系网络,当圈子里的人统统被介绍完了,“雪球”也就滚不下去了。这时需要找到圈子以外的人,以他们为核心继续“雪球”的滚动,直至“雪球”达到样本规模为止。
2.概率抽样
(1)概率抽样的含义
概率抽样是:在被限定的研究对象中每一个单位都具有同样大的被抽中的概率。比如,如果被界定的研究对象是1000人、1000座房子或1000个小时.我们计划从中抽取100个进行研究,那么所有这些单位的命中率都是十分之一。为了使从样本中获得的研究结果可以推论到总体.我们通常需要比较大的样本,样本的数量取决于研究的精确度要求、总体的规模以及总体的异质程度。概率抽样是按照概率论和数理统计的原理从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征作出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。
在我国,习惯上将概率抽样称为抽样调查。抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。
(2)抽样的优越性
与普查相比,抽样调查具有以下优越性:调查费用较低;速度快;应用范围广;可获得内容丰富的资料;准确性高。存在这些优越性的假设是:部分是含于整体之中的;部分与整体有同样的特征、现象、关系及过程;部分能够为研究者提供一个有关群体生活、群体态度、价值和意见的更为清晰的脉络。
(3)抽样调查的特点
抽样调查有以下三个突出特点:
1按随机原则抽选样本;
2总体中每一个单位都有一定的概率被抽中;
3可以用一定的概率来保证将误差控制在规定的范围之内。
(3)抽样的一般程序
虽然不同的抽样方法具有本同的操作要求,但它们通常都要经历这样几个步骤;
①界定总体
界定总体就是在具体抽样前,首先对从中抽取样本的总体范围与界限作明确的界定。这一方面是出抽样的目的所决定的。因为抽样虽然只对总体中的一部分个体实施,但其目的却是为了描述和认识总体的状况与特征,是为了发现总体中存在的规律性,因此必须事先明确总体的范围;另一方面,界定总体也是达到良好的抽样效果的前提条件。如果不清楚明确地界定总体的范围与界限,那么,即使采用严格的抽样方法,也可能抽出对总体严重缺乏代表性的样本来。
在这方面最为著名的例子是1936年美国总统大选的民意测验。总统选举投票前,《文摘》杂志寄出一千万张询问投票倾向的明信片,然后依据收回的二百万份结果极其自信地预测共和党候选人兰登将以领先15%的得票率战胜民主党候选人罗斯福而当选总统。然而,选举结果使预测者们大失所望:获胜者不是兰登,而是罗斯福,并且其得票率反超过兰登20%!《文摘》杂志的声誉一扫而光,不久就因此而关了门。是什么原出导致《文摘》杂志的预测失败了呢?除了抽样方法上的非随机性以及邮寄方式上的原因外,对抽取样本的总体缺乏清楚的认识和明确的界定也是极为重要的原因。因为它当时抽样所依据的并不是美国全体已登记的选民名单,而是依据电话号码薄和汽车登记簿来编制抽样框,再从这些号码上进行抽取的。这样一来,那些没有家庭电话和私人汽车的选民就被排除在其抽样的总体之外了。而在当时,由于1933年开始的美国经济大萧条的影响,一方面大量人口滑落到下等阶层,另—方面,此时的劳动阶层选民希望选个民主党人当总统,因而很多人出来投票。结果,这些未被抽到民意测验中的较穷的选民压到多数地投了罗斯捅的票,使《文摘》杂志的预测遭到惨败。
这一实例告诉我们,要有效地进行抽样,必须事先了解和掌握总体的结构及各方面的情况,并依据研究的目的明确地界定总体的范围,样本必须取自明确界定后的总体,样本中所得的结果.也只能推广到这种最初已作出明确界定的总体范围中。
注:总体界定须全面、无遗漏。如某大学学生,包括全日制本、专科学生、研究生和各类非全日制学生。
②制定抽样框
这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框:例如,如果我们要在某大学进行一项该校大学生职业观的抽样调查.那么,第一步是要先对总体进行界定。比如说:本次调查的总体是该大学所有在读的全日制本科生和研究生。这样,该校那些专科生、夜大生以及其他一些不符合上述界定的学生就被排除在总体之外。而制定抽样框这一步的工作,就是要收集全校各系所有在读本科生及研究生的花名册,并按一定的顺序将全部花名册上的名单统一编号,形成一份完整的、无重复、无遗漏的总体成员名单,即抽样框,从而为下一步抽取样本打下基础。
需要注意的是,当抽样是分几个阶段、在几个不同的抽样层次上进行时,则要分别建立起几个不同的抽样框。比如,为了解某市小学生的学习情况,需要从全市500所小学中抽取10所小学,再从每所抽中的小学中抽取3个班级,最后从每个抽中的班级中抽取10名小学生。那么,就要分别收集并排列全市500所小学的名单、每所抽中的小学里所有班级的名单,以及每个抽中的班级中所有学生的名单,形成3个不同层次的抽样框。
③决定抽样方案
从前面有关抽样类型的介绍中,我们已经了解到具体的抽样方法有好几种。而从后面几节对这些方法的介绍中我们将会看到,各种不同的抽样方法都有自身的特点和适用范围:因此,对于具有不同研究目的、不同范围、不同对象和不同客观条件的社会研究来说,所适用的抽样方法也不一样。这就需要我们在具体实施抽样之前,依据研究的目的要求、依据各种抽样方法的特点以及其他有关因素来决定具体采用哪种抽样方法。除了抽样方法的确定以外,还要根据研究的要求确定样本的规模以及主要目标量的精确程度。
④实际抽取样本
实际抽取样本的工作就是在上述几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个的抽样单位,构成样本。依据抽样方法的不同,以及依据抽样框是否可以事先得到等因素,实际的抽样工作既可能在研究者到达实地之前就完成,也可能需要到达实地后才能完成。也就是说,可能是先抽好样本,再下去直接对预先抽好的对象进行调查或研究,也可能是一边抽取样本一边就开始调查或研究。
比如,若在一所大学中抽取200名学生进行调查,当这所学校的学生总数不是很大,且很容易弄到全校学生的花名册时,就可以事先从这份花名册中(即抽样框中)抽取出200名学生的名单;然后等其他准备工作均已做好,正式开始调查时,再按照事先已抽好的名单找到这200名学生进行调查,但当研究的总体规模较大,且抽样是采取多阶段方式进行时,就得边抽样边调查了。比如前述的某市小学生学习情况的课题项目。虽然500所小学中全体学生的名单并非完全不能弄到,但其数量实在太大,实际抽样也十分麻烦。这时往往来取多阶段抽样的方法。那么,从500所小学中随机抽取10所小学的工作可以争先完成,而从每所抽中的小学中抽取3个班级、以及从每个抽中的班级中抽取10名小学少的工作,则往往是到了实地(即具体小学)后再进行。
到实地进行抽样时,往往是直接由调查员按预先制定好的操作方式或具体方法执行。比如,要抽取居民家庭时,往往是先抽好居委会,然后制定出具体操作方式:“楼房按单元抽,一个单元抽—户;平房按排抽,一排抽一户;两种抽样都采取简单随机抽样的方法,每个调查员随身带20张写好号码的小纸片装在口发中,模到什么号码就抽取所对应的家庭。”这样,调查员就可以一边抽样一边调查了。
⑤评估样本质量
一般情况下,样本的抽出并不是抽样过程的结束。完整的抽样过程还应包括样本抽出后对样本进行的评估工作。所谓样本评估,就是对样本的质量、代表性、偏差等等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致的失误。评估样本的基本方法是:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。若二者之间的差别很小,则可认为样本的质量较高,代表性较大;反之,若二者之间的差别十分明显,那么样本的质量和代表性就一定不会很高。举例来说,如果我们从一所有4000名学生的大学中抽取200名学生作为样本,同时,我们从学校有关部门那里得到下列统计资料:全校男生占学生总数的78%、女生占22%;本省学生占64%,外省学生人36%;那么,我们可以对抽出的200名学生进行这两方面分布情况的统计。假定样本得到的结果为:男生占76%,女生占24%;本省学生占67%,外省学生占33%。两相对比,不难发现二者之间的差距很小,它在一定程度上说明,样本的质量和代表性较高。从这样的样本中得到的结果就能较好地反映和体现总体的情况。当然,用来进行对比的指标越多越好,各种指标对比的结果越接近越好。
(4)几种具体的随机抽样方式
①简单随机抽样
简单随机抽样也称为单纯随机抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。即抽样时不进行任何分组、排列,使总体中的任何个体都同样有被抽取出平等机会,即对总体中的所有分子都一视同仁,毫无例外。
简单随机抽样一般可采用掷硬币、掷骰子、抽签、查随机数表等办法抽取样本。在统计调查中,由于总体单位较多,前三种方法较少采用,主要运用后一种方法。
按照样本抽选时每个单位是否允许被重复抽中,简单随机抽样可分为重复抽样和不重复抽样两种。在抽样调查中,特别是社会经济的抽样调查中,简单随机抽样一般是指不重复抽样。
简单随机抽样是其它抽样方法的基础,因为它在理论上最容易处理,而且当总体单位数N不太大时,实施起来并不困难。但在实际中,若N相当大时,简单随机抽样就不是很容易办到的。首先它要求有一个包含全部N个单位的抽样框;其次用这种抽样得到的样本单位较为分散,调查不容易实施。因此,在实际中直接采用简单随机抽样的并不多。
利用随机数表进行抽样的步骤:
(1)先取得一份总体所有元素的名单(即抽样框)。
(2)将总体中所有元素一一按顺序编号。
(3)根据总体规模是几位数来确定从随机数表中选几位数码。
(4)以总体的规模为标准,对随机数表中的数码逐一进行伤员并决定取舍。
(5)根据样本规模的要求选择出足够的数码个数。
(6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。
②分层抽样
分层抽样又称为分类抽样、或类型抽样,它首先是将总体的N个单位分成互不交叉、互不重复的k个部分,我们称之为层;然后在每个层内分别抽选n1、n2、......nk个样本,构成一个样本的一种抽样方式。例如,某企业有2000人,欲抽取100人进行调查。釆用分层抽样时,可先按性别分为两层,分别抽取50名男职工和50名女职工。也可按年龄分为青年、中年、老年三层,每层抽取33人。或同时按年龄性别分为六层,即青年男工、青年女工.中年男工、中年女工、老年男工、老年女工。还可以按工人、干部、技术人员分层,按车间分层。
分层的作用主要有三:一是为了工作的方便和研究目的的需要;二是为了提高抽样的精度;三是为了在一定精度的要求下,减少样本的单位数以节约调查费用。因此,分层抽样是应用上最为普遍的抽样技术之一。
按照各层之间的抽样比是否相同,分层抽样可分为等比例分层抽样与非等比例分层抽样两种。
实际上,分层抽样是科学分组与抽样原理的有机结合,前者是划分出性质比较接近的层,以减少标志值之间的变异程度;后者是按照抽样原理抽选样本。因此,分层抽样一般比简单随机抽样和等距抽样更为精确,能够通过对较少的样本进行调查,得到比较准确的推断结果,特别是当总体数目较大、内部结构复杂时,分层抽样常能取得令人满意的效果。
分层抽样的优点
分层抽样方法的一个优点,就是在不增加样本规模的前提下降低抽样误差,提高抽样的精度。前面我们曾经指出,总体的同质性程度越高,样本就越容易反映和代表总体的特征和面貌;而总体的异质性积度越高,样本对总体的反映和代表就越因难,对抽样的要求也越高。采用分层抽样的最基本目的,正是在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到更好的抽样效果。用统计的语言来说,通过分层,使得各层内元素之间的变异程度变小,各个层内的方差变小(比总体的方差要小),因而在样本规模相同时,分层抽样的抽样误差往往比简单随机抽样的抽样误差要小。
分层抽样方法的另一个优点,就是非常使于了解总体内不同层次的情况,以及对总体中不同的层次进行单独研究,或者进行比较。比如,在“大学生思想状况调查”中,研究者“为了能分析比较城乡差别,提高抽样精度,并能保证城市分析具有足够的样本容量”.他们采取了各个省在省内进一步按城乡分域(实际上是作为研究域的层),分别进行抽样的做法,并使城乡两域的样本规模相等。这表明,该采用的是不按比例的分层抽样方式。
分层抽样的运用
在实际运用分层抽样的方法时面的问题:研究者需要考虑下列两个方面的问题:
第一,分层的标准问题。同一个总体可以按照不同的标准进行分层,或者说.根据不问的标准可以将—个总体分成不同的类别或层次。那么,在实际抽样中究竟应该按什么标准来分层呢?通常采用的原则有:(1)以所要分析和研究的主要变量或相关的变量作为分层的标准。比如,若要研究居民的消费状况和消费趋向,可以居民家庭人均收人作为分层标;又如,要了解社会研究中不同职业的人员对社会研究经济改革的看法,就可以以人们的职业作为分层的标准。(2)以保证备层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。比如在工厂进行,可以以工作性质作为分层标准,将全厂职工分为干部、工人、技术人员、勤杂人员等几类来进行抽样。(3)以那些已有明显层次区分的变量作为分层变量;比如,在社会研究中,性别、年龄(当然是分段以后,如老、中、青)、文化程度、职业等等,就经常被用作分层的标难。其他如学生按年级、专业、学校类型分层,城市按入门规模分层等等。
第二,分层的比例问题。分层抽样中有按比例和不按比例分层两种方法。按比例分层抽样是指按各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。即在单位多的类型或层次中所抽的子样本就大一些,在单位少的类型或层次小所抽的子样本就小一些。比如,某厂有工人600人,按性别分层则有男工500人,女工100人。两类工人人数与总体人数的比例分别为5:6与1:6。因此.若要抽60人作样本.那么,按比例的抽法就是根据上述比例,分别从500名男工中随机抽取50人,而从100名女工中随机抽取10人。这样,样本中男女工人之比与总体中男女工人之比完全相同,均为5:1。可以说,样本的性别结构是总体中性别结构的一种缩影。
采取按比例分层抽样的方法,可以确保得到一个与总体结构完全一样的样本:但是,在有些情况下,又不宜采用这种方法。例如,有时总体中有的类型或层次的单位数目太少,若以按比例分层的方法抽样,则有的层次在样本中个案太少,不便于了解各个层次的情况,这时往往要采取不按比例抽样的方法。如上例中,我们可以在500名男[中抽30人,在100名女工中也抽30人。这样,样本就很好地反映出男女两类工人的—般状况,我们也能很好地对织女两类工人的情况进行比较和分析。
需要注意的是,我们采用不按比例分层抽样的方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较,但若要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,即通过调整样本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。比如上例中,若要用30名男工、30名女工的收入资料去推断全厂工人的平均收入时,就需要在男工的收入后乘以5/3,而在女工的收入后乘以1/3,再加总平均,否则就会导致推断的偏误。
③整群抽样
整群抽样是首先将总体中各单位归并成若干个互不交叉、互不重复的集合,我们称之为群;然后以群为抽样单位抽取样本的一种抽样方式。例如,欲在某集团军中调查战士的思想状况,假定该军有3万人,准备抽取1500名战士作调查。这时,可将连队作为抽样样单位,即子群。假定该军有200个连队,每一连有150人,那么从200个连队中随机抽取10个连队,对所抽到的每个连队中的所有战士进行调查,即可了解1500战士情况。
整群抽样特别适用于缺乏总体单位的抽样框。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
整群抽样的优点是实施方便、节省经费;缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。
整群抽样方法的运用,尤其要与分层抽样的方法相区别。当某个总体是出若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差别很大、而每个子群内部的差异不大时,则适合于分层抽样的方法;反之,当不同子群相互之间差别不大、而每个子群内部的异质性程度比较大时,则特别适合于采用整群抽样的方法;
④等距抽样(系统抽样或机械抽样)
等距抽样也称为系统抽样、或机械抽样,它是首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式。
根据总体单位排列方法,等距抽样的单位排列可分为三类:按有关标志排队、按无关标志排队以及介于按有关标志排队和按无关标志排队之间的按自然状态排列。
等距抽样的具体作法是:
(1)将总量的所有个体按一定顺序排列起来。
(2)计算抽样距离。抽样距离是由总体所含个体数目与样本所含的个体数目决定的。设前者为N,后者为n,则抽样距离K=N/n。
(3)在头K个个体中,用完全随机抽样的方法随机抽取一个个个体,设其所在位置为k。
(4)自k开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为:k,k+K,k+2K,……,k+(n-1)K。
例如,设某大学有12000名学生,欲了解其政治思想状况,决定采用等距抽样的方法,从中抽查200名学生。这时的抽样距离k=12000/200=60,用简单随机抽样的方法在前60名学生中抽出第一位学生,设其序号为12,则第二位学生的序号为12+60,即第72号学生,第三位就是(12+2ⅹ60),即为第132号学生,……即每隔60人抽取1人,直至抽足200名学生为止。如抽到最后仍不足样本所要求的样本数目,可以再回头累积抽取。如本例12000名学生抽完后还差一名学生,即第199号学生的号码是11952,再加上60变为12012号,己超过12000,这时从头累加应为第12号学生,但笫12号学生已被抽去,因此递推选13号学生为第200位访问对象。
等距抽样的最主要优点是简便易行,且当对总体结构有一定了解时,充分利用已有信息对总体单位进行排队后再抽样,则可提高抽样效率。
值得注意的是,系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。否则,系统抽样的结果将会产生极大的偏差。因此,我们在使用系统抽样方法时,一定要注意抽样框的编制方法。特别要注意下列两种情况:
一是总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况。比如,我们要抽取若干家庭的样本进行消费状况调查。而家庭户的名单是按每个家庭总收人的多少由高到低顺序排列的。这样,如果有两个研究者都采取系统抽样的方法从这个总体中进行抽样,一个抽到抽样间距中靠前的号码,比如3,而另一个抽到的是抽样间距中靠后的号码,比如间距为40时抽到38。那么,从前一个研究者所抽样本中算出的家庭平均收入,一定大大高于后者所抽样本中算出的家庭平均收入。因为第一个样本中的每一个家庭都要比第二个样本中的每一个家庭在收入等级中靠前35个位置,即前者中的每一个家庭都比后者中的每一个家庭在总收人上高出35户家庭。如果我们事先注意到这种情况,就可以采取措施,打乱其原来的顺序,重新编制总体名单,或者改用其他的抽样方法。
二是总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。比如,前面关于大学生一例中,我们计算出间距为30,如果此时总体名单是按教学班排列、每班正好也是30个左右的学生,并且每班的名单都是按学生学习成绩高低排列,或是按班干部、一般学生、较差学生的顺序排列的。那么,当所抽的初始号靠前时,样本就由各班上成绩优秀的学生组成,或是全由各班的班下部组成;而当所抽的初始号靠得较后时,样本就会由各班中成绩较差的学生、或是各方面表现较差的学生组成。显然,元论是哪种情况,都不符合总体的全面情况,都是一个有着严重偏差的样本。
⑤多阶段抽样
多阶段抽样,也称为多级抽样,是指在抽取样本时,分为两个及两个以上的阶段从总体中抽取样本的一种抽样方式。其具体操作过程是:第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样……,依此类推,直到获得最终样本。
例如,我们要进行一次全国城市居民家庭平均收入水平的调查,可先将城市为抽样单位进行第一阶段的抽样,选出一部城市;然后,以居民委会为抽样单位,从所抽出的城市中抽取一部分街道,这天第二阶段抽样;最后以家庭为抽样单位进行第三阶段抽样,即从已抽出的街道中随机抽出家庭样本。
多阶段抽样区别于分层抽样,也区别于整群抽样,其优点在于适用于抽样调查的面特别广,没有一个包括所有总体单位的抽样框,或总体范围太大,无法直接抽取样本等情况,可以相对节省调查费用。其主要缺点是抽样时较为麻烦,而且从样本对总体的估计比较复杂。
在运用多段抽样方法时,有一点要注意,就是要在类别和个体之间保持平衡。或者,保持合适的比例。举例来说,假设某市共有3万名教师,他们分布在全市10个区的200所学校中。现在要抽取一个由1200名教师织成的样本。如果按照三阶段抽样的方法,我们就可以有下列各种不同的抽样选择:
方案 |
第一阶段 |
第二阶段 |
第三阶段 |
1 |
抽10个区 |
每个区抽4所学校 |
每所学校抽30名教师 |
2 |
抽2个区 |
每个区抽20所学校 |
每所学校抽30名教师 |
3 |
抽10个区 |
每个区抽20所学校 |
每所学校抽6名教师 |
4 |
抽8个区 |
每个区抽15所学校 |
每所学校抽10名教师 |
5 |
抽5个区 |
每个区抽12所学校 |
每所学校抽20名教师 |
6 |
抽4个区 |
每个区抽10所学校 |
每所学校抽30名教师 |
7 |
抽3个区 |
每个区抽10所学校 |
每所学校抽40名教师 |
8 |
抽2个区 |
每个区抽10所学校 |
每所学校抽60名教师 |
9 |
抽1个区 |
每个区抽20所学校 |
每所学校抽50名教师 |
究竟该选择哪 种抽样方案呢?或者说,如何确定每一阶段抽样的单位数目呢?主要考虑的因素有两方面:
第一,各个抽样阶段中的子总体同质性程度。同质性程度越高的子总体,所抽的规模就应相对小一点,反之,则应大一点。比如,如果该市的10个区中,属于不向的区的学校相互之间差别很大,那么就应该加大第一阶段的抽样规模(即应采取方案1)。如果区与区之间的学校在总体上差别不大,而每一个区中,不同的学校相互之间却差别很大,那么就应该减小第一阶段的抽样规模,加大第二阶段的抽样规模(即应采取方案2)。如果区与区之间、学校与学校之间的差别都不大,倒是每所学校个教师与教师之间的差别很大,那么我们就应该尽量加大第三阶段的抽样规模,而相应地减小第一、第二阶段的抽样规模(比如采取方案8或方案9)。
第二,要考虑研究各所拥有的人力和经费。从方案3至方案9,我们来看一下样本所覆盖的区和学校面:所覆盖的区是方案3最大(所有的区),依次减小,方案9最小(仅一个区);所覆盖的学校数目也是从方案3至方案9依次减小(分别为120、60、40、30、20、12),一般来说,在其他条件不变的情况下,样本所覆盖的面越大,样本的代表性也越大。因此,如果仅从这方面考虑,则“大的类别中抽取单元相对较多、而每一单元中抽取个体相对较少”的做法效果较好(即方案3最好,依次递减,方案9最差)。 但是,抽样时我们还应从实践的角度来进行衡量,抽的区越多、抽的学校越多,同时也意味着收集资料时,调查员要奔波的范围越广,所需要的时间、经费越多。而这则是研究者往往最不愿意看到的。所以,如果从这方面来考虑,则“大的类别中相对较少、而每一类中抽取的个体相对较多”的做法效果较好(即方案9最好,依次递减,方案3最差)。
多段抽样的方法适用于总体范围特别大、对象的层次特别多的社会研究。由于它不需要总体的全部名单,各阶段的抽样单位数一般较少,因而抽样比较容易进行。但由于每级抽样时都会产生误差,故这种抽样方法的误差较大,这是它的主要不足。在同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数而适当减少最后阶段的样本数。所以,当研究者的人力和经费允许时,应尽量扩大开头阶段的抽样规模。对于上例来说,就是要尽可能像方案3、4、5那样去设计。
3.影响抽样调查成功的因素
抽样调查成功,首先要求所选择的样本能够代表总体(对于非概率抽样来说样本比较充整地、相对准确地问答研究者的研究问题)。所谓代表就是说,抽取出来的样本从调查所要研究的总体特征来看,能够再现总体的结构。伹社会研究的对象中不存在这种同质总体,任何个体之间都存在着差异,任何部分都无法代替总体。因此,无论采取什么样的选取部分的方法,也无论做得多么仔细,都不可能抽出毫无偏差地代表总体的所有特点和关系的样本。就是说,在用样本来概括和说明总体时要有误差,这一误差的大小可以反映出样本代表性的高低。误差大,样本代表性小;误差小,样本代表性高。即使是普查,由于在进行中受到各种自然成人为因素的影响,结果也不可能是完全精确的。因此重要的不是没有误差,而是能知道误差的大小和控制它的大小,并依据我们要求的精确程度抽取出相应的样本。这就是说,抽样调查的关键是(1)如何判断一个样本误差的大小。(2)怎样才抽到一个我们所要求的精度的样本。遵循随机原则的概率抽样可以保证抽选出代表性较高的样本,并能够计算样本误差的大小及其可信程度。然而,需要指出,狭义的抽样调查对客观条件和抽象程序要求十分严格,使它的应用范围受到限定。当调查总体范围不十分明确时,就不能使用抽象调查;缺乏数理统计人才时也不宜使用。
其次是样本规模 大小适当,能够控制抽样误差。抽样误差就是用样本值去估计总体值时所出现的误差。它是由于抽样本身的随机性所引起的误差。无论采取什么样的抽样方式,这种误差部是不可避免的。但是,在另一方面,抽样误差的大小是可以在样本设计中事先进行控制的。除了抽样误差以外,社会研究小还存在另一种误差,即度量误差,它是指在记录、填答、汇总等工作中所出现的误差。
抽样误差主要取决于总体的分布方差和抽样规模,这两个因素都可以导致抽样误差的增加或降低。当样本规模增加时,样本统计量的随机波动程度就会降低,从而使抽样误差也降低。在简单随机抽样中,人们正是以扩大样本规模的方式来达到降低抽样误差的目的。而分层抽样则是着眼于缩小总体的异质性程度或分布的方差,即通过将总体划分为不同的类别或层次,既使得这些不同类别或层次在样本中都有代表,又使得抽样误差中不存在层间变差成分,而只存在层内变差成分,其效果相当于降低了总体分布的方差,从而降低了样本统计量的随机波动程度,提高了样本统计量估计总体参数的精确度。
有关抽样规模与抽样误差之间的关系问题,我们还应该注意两点:首先,对于比较小的样本来说,样本规模上的很小的一点增加,使会带来精确性方面很明显的增加。其次,而对于比较大的样本来说,同样增加这么多个个案,却收效甚微。比如,要使抽样误差从2%下降到1.5%,则需要增加2000个个案。因此,许多公司通常将他们的样本规模限制在2000之内,因为当样本规模超过了这一点时,花费在所增加的样本规模上的人力、物力,相对于增加估计的精确性来说,就有些得不偿失。
4.影响样本容量的因素
一般情况下,社会研究中样本规模的确定主要受到以下四个方面因素的影响,即:(1)总体的规模;(2)估计的精确性要求;(3)总体的异质性程度;(4)研究者所拥有的经费、人力和时间。(5)样本回收率和有效率
(1)总体的规模
样本规模与总体规模有关,这不难理解。按一般的想法,总体越大时,则样本也要越大,这样才能保证一定的精确度。但是,这种想法只在一定的程度上是正确的。当总体规模大到—定程度时,样本规模的增加与它并不保持同等的增长速度。在其他有关因素一定时,样本规模的增加速度大大低于总体规模的增加速度。换句话说,当总体规模达到一定程度时,样本规模的改变量是很小的。
研究表明,在总体小于1000的情况下,如果样本占总体的比例低于30%,那么,我们最终得到的样本误差会很大。当总体的规模增加的时候,样本比例的作用趋向于越来越小。总体为10000们需要有10%样本比例;当总体为150000的时候,1%的样本比例就已经足够;当总体样本为1000万或1000万上的时候,样本比例的增加实际上不产生作用。
换言之。样本规模绝对数值的重要性大大超过样本占总体比例的重要性。
(2)抽样的精确性
抽样的目的往往是要从样本去推论总体。影响样本规模确定的第二个因素,就与这种推论的可靠性和精确性密切相关。在社会研究中,我们用置信度与置信区间这两个概念来说明样本规模与抽样的可靠件及精确性之间的关系。置信度又称为置信水平,它指的是总体参数值落在样本统计值某一区间的概率,或者说,总体参数值落在样本统计值某一区间中的把握性程度。它反映的是抽样的可靠性程度。比如,置信度为95%,指的是总体值落在样本值某一区间的概率为95%,或者说,在对某一总体进行的同样形式的100次抽样中,总体值将有95次落在样本值周围的某一区间内。一般来说,在其他条件一定的情况下,置信度越高,即推论的把握性越大,则所要求的样本规模就越大。比如说,99%的置信度所要求的样本规模,就比95%的置信度所要求的样本规模要大。
上面在探讨置信度时所说的“某一区间”,叫做置信区间。它是指在一定的置信度下,样本值与总体值之间的误差范围。它所反映的是抽样的精确性程度。范围越大,精确性程度越低;范围越小,精确性程度越高。在其他条件一定的情况下,置信区间越小,即样本值与总体值之间的误差范围越小,则所要求的样本规模就越大。比如,对一个总数为20000的总体,置信度确定为95%时,若置信区间为±5%,则需要377个回答者;若置信区间为±4%,则需要583个回答者;而置信区间为±1%时.则需要6849个回答者。换句话说,此时的样本规模已相当于总体规模的l/3。
一般说来,所希望达到的精确度越高,总体中的不一致性越显著,需要同时分析的变量数目越多,所需的样本规模就越大。在总体规模很小的时候,提高样本的比例的确能够较大地改善抽样的精确度。
(3)总体的异质性程度
总体的异质性程度对所需样本规模的影响也十分明显。总体中成员相互之间不存在差别时,只要了解其中之一就行了。这当然是极端的情况。—般来说,要达到同样的精确性,在同质程度高的总体中抽样时,所需要的样本规模就小一些;而在异质程度高的总体中抽样时,所需要的样本规模就大一些。其主要原因是,同质性越高、表明总体在各种变量上的分布越集中、波动性越小,同样规模的样本对总体的反映就越准确。而异质性程度越高,表明总体在各种变量上的分布越分散,波动性越大,同样规模的样本对总体的反映就会越差。比如,当总体中的个体在收入上的差别比较小,或者说分布比较集中时,所抽取的样本中人均收入值的随机波动就很小,因而抽样误差也就会很小,抽样的精度就会比较高。
与总体异质性程度有关的另一个因素是,当总体中的大部分成员对某个问题的回答或选择与小部分成员的问答或选择不同时, 比如70%的成员选择甲,30%的成员选择乙,则所需要的样本规模些小一些;而当选择两种不同回答的成员比例相差无几时,比如说选择甲、乙的比例都为50%左右,则所需要的样本规模为最大。
(4)研究者所拥有的经费、人力和时间
除了以上几种因素外,研究者所拥有的经费、人力和时间,也对样本规模的大小产生影响。从样本的代表性、抽样的精确性考虑,则样本规模当然是越大越好,但抽样所得到的样本是要用来进行调查的,样本规模越大,同时也意味着所需要投入的人力、物力利时间越多,意味着所可能受到的限制和障碍也越多。因此,从调查的可行性、简便性考虑,样本规模又是越小越好。究竞选择多大规模的样本,研究者往往需要作出选择。而这种选择的一个重要法码,就是研究者所拥有的经费、人力和时间。
(5)样本回收率和有效率
5.样本容量确定
(1)确定样本容量是抽样调查中一个非常重要问题。样本容量过小,会影响样本的代表性,使抽样误差增大而降低了统计推断的精确性;而样本容量过大,虽然减小了抽样误差,但可能增大过失误差,而且无意义地增大经费开支。另外,样本容量与抽样误差之间并不存在直线关系,随着样本容量的增大,抽样误差减小的速度越来小。
统计学中常以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)。之所以这样区分,是因为当样本规模大于30时,其平均值的分布将接近于正态分布。从而许多统计学的公式就可以运用,也可以用样本的资料对总体进行推论;但是,需要注意的是:30个个案的样本对于社会研究来说却常常是不够的。统计学中的大样本与社会研究中的大样本并不是一回事。
根据一些社会研究专家的看法,社会研究中的样本规模至少不能少于100个个案。这是因为,在社会研究中,研究者下仅仅需要以样本整体为单位来计算平均数、标准差、相关系数等等统计量,同时,他们更经常地需要将样本中的个案按不同的指标划分为不同的类别,进而分析不同类别之间的差别,分析不同变量之间的关系:因此,要保证所划分出的每个子类别小都有一定数量的个案,就必须扩大整个样本的规模。比如,要计算某企业职工的平均收入,也许大于30个个案的样本就可以了;但是,如果要进一步计算不同年龄的职工群体(青年工人、中年工人、老年工人)的平均收人,那么,30个个案的样本显然就不能满足统计的需要了。如果将样本中的个案按性别和年龄进一步划分为“青年男性、中年男性、老年男性和青年女性、中年女性、老年女性”六类,再分别计算每一类个案中的平均数、标准差时,所需的样本规模就更要成倍地增加了。
2.样本数目的经验确定
社会科学研究中,常选用的误差界限为5%(样本误差一类是随机误差,一类是系统误差)。
由于±5%在社会科学界是大家普遍接受的精度范围,因此,就普通调查目的而言,样本规模在1000个样本左右就已经够了,如果是一场大规模的社会调查,牵扯到的变量数量很多,我们就需要考虑增加样本的人数。但是,除非有特殊要求,样本的数目一般无需趋过2500个,样本很少超过3000个,超过5000个的极其少见。例如,美国的民意测验,调查总体近1亿人,它的样本数很少超过3000人。
总体规模与样本比重的经验确定
总体规模 |
100人以下 |
100~1000人 |
1000~5000人 |
5000~10000人 |
10000~100000人 |
100000人以上 |
样本占总体比重 |
50%以上 |
50%~20% |
30%~10% |
15%~3% |
5%~1% |
1%以下 |
根据有关研究经验,小型调查样本规模在100-300之间;中型调查样本规模在300-1000之间;大型调查样本规模在1000-2500之间。小型调查通常用于非正式的或要求不高的、总体规模较小的情况。如大学生根据调查方法课进行的调查或硕士研究生论文调查,或者在一所中学进行调查;正式调查一般要达到中等样本规模,这也是目前最多的样本规模。一般情况下,它兼顾到了样本误差大小,研究者人力、财力、物力和时间,以及调查的组织和实施等多方面因素;大型调查主要用于全国性调查项目中。
在实际调查中,我们可能更多的选用非随机调查,但要注意的一个问题是,非随机调查我们是不能推论到总体的,只能作为一个个案进行研究。这一点在撰写调查报告时一定要注意。
3.网络调查
20年来互联网的迅猛发展提高了我国的信息化程度。据CNNIC数据显示,截至2009年6月30日我国网民数量达3.38亿人。把网络调查运用于思想领域,这是信息社会的内在要求。网络民意调查就是利用网络收集民意信息的调查设计、收集资料和分析等活动,把网络调查作为获取社情民意的重要手段,研究目标人群的诉求和立场。
(1)网络民意调查的优势
网络民意调查在组织实施、信息采集、信息处理、调查效果等方面也具有传统的民意信息调查方法所不可比拟的优点。
便捷性。调查的时效性强。比如电子邮件调查法只需几秒钟。调查对象可随意地主动参与。制度、天气、时空等影响减弱,调查的组织更加便捷,范围更广。如人民网在在线调查的第二天便能将调查数据的分析文章见报。调查结果开放共享,马上查看投票信息的阶段性结果。
节俭性。网络民意调查组织方便,费用低廉,仅需一台联网的计算机,调查者通过Web网站在线调查,利用计算机统计软件自动分析信息,减少人力物力消耗,节省印刷、邮寄等费用。调查过程中的信息采集和录入工作在众多网上用户的终端上完成,可以无人执守和不间断地接受调查报表,信息检验和信息处理也由计算机自动完成。
广域性。调查不受时空限制。只要有网络就可以接受调查。它可能访问到高收入、高地位和调查员无法进入的高档生活区中的群体;通过网络邀请到名流要人做客聊天室。新浪、网易和腾讯等大型网站日访问量达几十万,就是说每天可接触访问对象达几十万。因此网络调查样本范围很广。
客观性。调查可以获得敏感信息。其虚拟性和匿名性较好地保护被访者的个人隐私。他们独立坦诚回答问卷,真实地表达自己对重大社会新闻和突发事件的观点。被访者是自愿参与,功利性少。可以避免传统调查中因人为错误导致结论的偏差,数据更加真实可靠。
(2)网络民意调查的劣势
网络民意调查有独特的优势,但从严格、规范的社会调查来看,仍存在局限。
网上可调查样本的数量少,代表性较差。第一,网络普及率低。中国互联网信息中心的统计报告显示,目前我国网友仅占总人口的四分之一,并且结构呈年纪轻、学历高、收入低三大特点。不能代表所有人群。只有提高网络普及度才能从根本上推动网络民意调查的发展。但目前带宽过窄、资费过高已成为制约网络发展的瓶颈。第二,网站访问量有待增加。大约有1亿多网页发布于100万多个域中。网站之间竞争激烈,都想获得高的浏览量。可以加入大型的搜索引擎如Google、Baidu、Yahoo等的列表中方便网友访问。
调查问卷回收率低。美国的问卷回收率也只有15%,我国则更低。
抽样框难以界定。电子邮件调查是以E-mail地址清单作为抽样框的,但是一般网友都有多个邮箱,此时将会产生复合联接问题而影响估计的精度。复合联接即目标总体元素可能联接着多个抽样框单位,在使用复合联接抽样框进行简单随机抽样时,简单估计量将不再是无偏的。因此在确定抽样框时,要考虑用户申请邮箱时提供的身份证号码,尽量消除复合联接的影响,保证总体估计的精度。
专业化程度还很低。调查的商业化、专业化太低。美国的网络调查才占调查总收入的5%,我国更低。网络调查关于Why的问题很少,深层次的探讨还没有展开。网站上的问卷多具娱乐性,或者是对某问题的参考性态度的研究。网络调查的可持续发展要专业化之路。
3.网络民意调查的原则和技巧
克服网络民意调查的缺点,提高调查结果的的质量,及时准确地把握人们的思想动态,必须坚持调查的原则,改进调查的技巧。
(1)研究需要,确定主题。调查主题,就是调查所要说明或解决的问题。好的调查主题可以为决策层提供决策参考,或为发展某方面的基本理论寻找到实践依据。在网络民意调查活动中,调查主题的选择与确定决定着调查研究的总方向和总水平。现实性:指在选择、确定调查主题的时候要针对客观需要,解决现实中亟需解决的问题。适当性:调查主题要与调研的目的或所要解决的实践问题相适应。创造性:即调查主题应具有创新性和独特性,要能够提供新思想、新方法、新观点和新知识。这就要求调查者对本领域的实际情况有比较全面、完整的了解,并且能对本领域的最新进展有一定的认知。
(2)设计科学,避免误导。调查问卷设计是专业性很强的知识性工作,进行民意信息调查最好聘请专业人员。调查中的问题设计实际上隐含着调查者的意图和导向。因此在设问中一定要把握正确的导向。如人民网“群众最喜欢的干部类型调查”就涉及党建问题。又如,“今天你让座了吗”,涉及社会公德问题。主题确定后,答案也应科学、全面、简明,尽可能反映各方面的意见。如,“你更喜欢以下哪种类型的干部(单项)”的选题,设置的答案包括“先说后干”、“光说不干”、“先干后说”、“光干不说”、“这几种类型的干部都需要”五个,简洁明了。同样,答案设计不当,也容易产生误导和偏差。如,有的网络调查竟提出“APEC会议期间,你觉得会有恐怖分子来上海吗?”结果有35.6%的被访者认为“会”。如此设问不利于社会稳定。
(3)题目简明,答题便捷。在网络调查中,问题越多,被访者就越不愿意参与。根据调查目标和研究变量确定合适精练的问题,回答时间一般在10分钟为宜,否则影响调查结果的质量。题目编排要先易后难。答题方式以选择为佳,如点yes或no即可。尽量减少输入的内容。可以通过列表的方式列出需要填答的内容供被访者选择。
(4)精心策划,吸引参与。网络调查离不开被访者的支持与合作。亲切的页面,不断更新的内容,颇具价值的信息,较快的网速及互动的内容将会使网站吸引大量的网友。调查要提供友好的界面、便捷的作答方式。问题简洁明了,还可以利用多媒体,配送图形、图表、音乐动画、视频,使调查过程更丰富多彩、富于情趣,从而增强调查效果。对于积极配合调查的网友要给予奖励,奖品价值不必太高,但覆盖率要高,以激励被访者认真完成并提交问卷
(5)避隐私,智取信息。调查中有些信息涉及个人隐私,如资产、帐号和密码等。如果不是研究必需,就不必调查。如果确实需要,则可通过一些方法巧妙地了解被访者的信息。如:可以用E-mail并附有来客登记的HTML表单,让对方填后发回。有时他们不愿写地址,可以通过邮编了解所在区域;给予奖品,要求对方写明地址以便邮寄;要求对方通过注册才给予访问权限、下载信息、升级服务等。通过这些注册信息了解被访者。
4.电话调查
(1)电话访问的一般做法
①根据调查目的要求设计并印制好电话访问的问卷表,这种问卷表与一般问卷表的较大不同是要特别便于迅速记录答案,而且这些问卷表已经录入专门用来配合电话调查的计算机。
②是挑选和培训一组访问员。
③随机抽取一组电话号码作为调查样本,注意此时应留育一组预备号码,用以在正式抽中的被访者不在家或拒绝合作时替补。
④在电话中,根据访问问卷的内容进行询问,同时记录下被访者的回答。
目前,各个电话调查机构都采用了先进的计算机技术,直接在计算机上记录被调查对象的回答,并很便利地将这些回答结果转换成数据进行统计分析。
尽管电话访问与当面访问在许多方面都比较相似,但二者之间有一点差别十分明显:当面访问中,调查员不仅可以听取被访者的回答.还可以观察到被访者的表情、动作,以判断被访者所提供的资料的正确性和真实性。而在电话调查中,调查员则必须完全依靠自己的听力和交谈来判断这一切。因此,可以说,电话访问的访问员应具有更强的仅靠听觉来分辨事物和情况的能力;另一方面,电话访问不存在当面访问中所存在的那种由于调查员的表情、手势、动作,甚至衣着打扮对被访问者造成的暗示和影响,这是其好的一面,但同时,调交员的语调、语气对被访问者的影响作用则大大加强(调查员的声音成为访问偏差的主要来源)。因此,在电话访问法中进行对调查员的培训工作时,更要强调口齿清楚、语气亲切、语调平和。
电话访问中对调查员的挑选可以从打电活开始,即让被挑选者通过电话与研究者联系,回答研究者的提问。研究者则从电话中的声音、音调、音量、速度、口音、吐字等方面,以及由此所表现出的性格特点等等因素,进行衡量和跳选。
对电话访问员的培训也与对面访调查员的培训有所不同。它的重点不在于如何训练破门,如何进入访问,如何控制访问过程,面在于训练访问员如何应付“意外”情况,如何尽快地设法解决电话访问过程中可能出现的各种问题。若有条件,可用录音、免提电话机和对讲机等设备配合训练。
电话调查的主要优点是简便易行、省时、省钱。特别是对于内容比较简单的调查,电话访问的效果更好。当被调查者是某些专业人员时,电话访问也往往更为合适。因为一般情况下,这些人常常不太愿意别人登门打扰,而对于一个10分钟的电话访问,也许会较好地合作。此外,从专门的电话调查工作室打电话还一个很大的优点,这就是十分便于对调查员进行监督和控制,它使得电话访问的质量比当面访问更容易得到保证。
(2)存在的问题
电话访问的主要问题是被访者的选取及代表性方面的困难。从理论上说,电话访问的结果只能推论到有电话的对象这一总体。而在实践中,电话访问必然会遇到如何抽样舶问题。如果说,总体中每一个成员都有一部电话,而且每部电话的号码都集中在一本电话号码簿上,那么抽样将是十分简单的。但现实情况是,一方面,电话号码簿上的号码并非正好构成我们所希望调查的总体。我们希望调查的是全市居民家庭,而电话号码簿上的许多号码却是各种社会组织、单位的办公电话;另一方面,省许多属于我们调查总体的号码又没有出现在号码簿上,这样我们就无法抽到他们。因此,在运用电话访问的方法时,研究者一定要对总体及样本的情况有清楚的认识,尽量做到抽样的科学性与代表性。
(3)电话采访技巧
(1)通话后注意报出自己的姓名,明确表明自己打电话的目的;
(2)确定对方是否合适通话,应当尊重对方的时间,如果正在忙,不方便采访;
(3)准备工作要充足,通话前先在纸上写出采访要点,调查中要认真口问手记;
(4)适时结束通话,通话时间过长意味着滥用对方的善意和时间。
七、调查中的提问技巧
在社会调查过程中,无论是访谈法还是问卷法,难免会问到一些涉及调查对象个人隐私或触及道德行为规范的敏感问题。如果不能恰当处理,调查对象往往会拒绝回答或故意“说谎”,这样调查数据的真实性及调查结论的可靠性就会受到影响。下面介绍几种提问技巧以降低问题的敏感性,从而提高作答的真实性。
(1)假定法
即用一个假言判断作为前提,然后再询问被调查者的看法。这种方法可避免调查对象因一时冲动而冒然作答,也适用于涉及调查对象与其所在单位利害关系的调查。如问“你有没有调换岗位的想法?”或“如果有可能,你想跳槽吗?”就容易使调查对象产生顾虑,若问“假如允许专业人员自由流动的话,您是否愿意继续留在本单假定法位工作?”则效果会更好些。
(2)转移法
不直接让被调查者回答问题,而是请他对别人的回答作出评价。这不仅有利于调查对象作出较为真实的回答,更可从评价中获悉其对某问题的基本看法。如,“对于上晚自习,一些学生认为应统一组织,一些学生认为应听凭自愿,也有一些学生说干脆晚上就不要开教室门。您认为哪种意见更符合实际?”这样的提问,能在一定程度上降低调查对象的顾虑,有利于得到更符合实际的答案。
(3)泛化法
先指出某个问题或某种行为不是个别行为,而是一种普遍现象,让被调查者对这种普遍现象进行分析泛化法判断,以减轻其心理压力。如,“教育管理部门挪用教育经费决不是个别现象,有的甚至超过了下拨经费的一半。你们单位上年度挪用教育经费金额为:①10万元以下;②10~20万;③30~40万;④40万以上。”
(4)模糊法
即对较敏感的问题设计一些比较模糊的答案,以使被调查者作出真实的回答。如,女性一般对自己的年龄比较敏感,许多人不愿意如实回答。若必须了解被调查群体的年龄情况,就可以这样设计问题:您的年龄是:①20岁以下;②21~25岁;③26~30岁;④31~40岁;⑤41岁以上。这样被调查者就有可能作出真实的回答。
(5)分层法
根据被调查者的不同心理反映,将调查对象分为敏感人群、次敏感人群与非敏感人群。对于非敏感人群,可直接提出敏感性问题;对于敏感人群则要考虑其心理承受能力,相应采取弱化敏感度的方法;对于次敏感人群,可采用略微弱化敏感度的方法。如就“在校大学生结婚的利与弊”进行调查。可预计到青年人思想比较激进,顾虑较少,勇于表露自己的观点,回答率一般比较高;中年人思想比较保守,又受众多客观条件的限制,顾虑较多,不易参与敏感性问题调查,回答率一般比较低;而老年人阅历丰富,顾虑较少,可能愿意合作。因此,应在预计的基础上,分别设计调查问卷。
(6)迂回法
就是在不改变调查核心的前提下,灵活改变提问内容和提问方式,从其他途径获得信息。如某企业在针对其减肥产品的调查中,急需掌握被调查者体重区间的相关数据。但若直接提出体重问题,有些人(尤其是女性)可能出于个人隐私考虑而不愿回答。基于这一点,该企业以被调查者对产品使用效果的评价作为分类标准,将使用过该产品的被调查者划分为两类:满意者划入非敏感人群,不满意者划入敏感人群。对于敏感人群,他们使用联想技法、投影技法等调查方法,层层逼近体重这一核心:“您认为理想的减肥产品应在一个月内减少体重公斤”,“您认为达到满意体重的时间应不超过月”,“您理想的体重为公斤”等,从而达到弱化问题敏感度的目的。再如,调查同学关系是否融洽,如果直接问“是否与同学发生过争吵?”被调查者可能就不愿意回答,但如果问“处理同学分歧的理想方式是什么”同样能调查达到目的。
(7)匿名法
即在调查研究中不要求回答者透露真实身份,使回答者有安全感。匿名法是最常用、最简单的一种方法,但它不适用于个别调查。
在调查研究实践中,为达到调查目的,可以因人因事对调查问题进行处理。但是,不能违背法律法规和道德,不能夹杂私心杂念。
八、调查资料分析
1.整理资料
整理资料就是依据社会调查的目的,运用科学的方法,对调查的原始材料进行初步加工,使之系统化和条理化的过程。运用各种调查方法所取得的资料一般都是零碎的、不集中的、不系统的。通过这些资料,我们很难发现资料中所包含的规律性的东西,也难以对总体对象进行推断。因此,对资料进行整理使之明确化、条理化是扩分必要的。
如果调查者不及时对资料进行整理和分析,堆积如山的资料不仅会使研究者感到无从下手,而且会使研究失去方向,变成纯粹的资料堆积。在实地收集资料的同时对资料进行整理和分析可以起到如下作用:1)强迫研究者逐步缩小研究的范围,尽早就研究的方向和类型作出决定;2)帮助研究者提出一些可以统揽所有资料内容的观点,发展出一些可供进一步分析的问题;3)使研究从原始资料向理论建构的方向过渡;4)帮助研究者在整理资料的基础上了解自己还需要哪些方面的信息,以便下一步有计划地收集资料。
研究者只有自已亲自动手对资料进行一点一点的辨析,才可能沉浸到资料之中,真正与其进行对话。当然,如果整理和分析资料的工作量太大,研究者也可以雇用助手,以减轻自己的负担。但是,自己亲手做和不做是很不一样的,即使是雇用助手自己也应该参与到对主要资料部分的分析之中。
通过按理资料,可以对调查工作进行全面检查;整理资料,是进一步研究资料的基础;理资料,是社会调查积累保存资料的要求。
整理资料的原则:
(1)真实性原则
真实性原则是整理资料的最根本的原则。所谓真实,就是整理后的资料必须是确确实实发生过的客观事实,而不是根据自己的喜好,掐头去尾,添技加叶,主观臆造。如果没有进行调查,最多得不到资料.得不出结论,但如果资料失真,就会得出错误的结论.这比不进行调查更有害。所以真实是整理资料的最根本的要求。
(2)准确性原则
所谓准确是指整理后的资料其事实要准确,尤其是数字资料的准确。如果整理后的资料含糊不清、模棱两可,数据资料互相矛盾,那么根据这样的资料进行分析研究,就不可能得到科学的结论。当然,对准确性的要求要从实际出发,要以能说明问题为标准,并非越精确越好。比如,说明一个国家或地区的外汇储备,以亿元为单位就可以厂;说明一个企业的产值以万元为学位即可。
(3)完整性原则
所谓完整是指整理后的资料必须尽可能全面,以便能客观地反映事实的全貌。如果资料残缺不全,即使资料是真实和准确的,也不会得到正确的结论,使资料失去研究价值。因此,在整理资料时,要从时间、空间和调查项目三个方面加以检查,看它是否全面。
(4)统一性原则
所谓统一是指对各个调查指标要有统一的解释;对调查指标的各项数值,其计算方法和计算单位也要统一。如果对调查指标的解释不一致,计算公式不一致,分组标准不一致,调查资料就失去了统计价值,也就无法进行比较研究。
(5)条理性原则
所谓条理就是整理后的资料要脉胳清晰,有条不紊。堆积如山,杂乱无章的资料等于没有资料。要使资料条理,必须对共进行分类、分组。经过分类、分组,调查资料就如同图书馆书架上的书一样,分门别类,研究时按图索骥,十分方便,这结资料的研究带来很大的便利。
(6)简明性原则
所谓简明是指整理后的资料要尽可能简单、明确。为此,该用文字说明就用文字说明,该用表格的就用表格、该用图表的就用图表,使整理后的资料简明扼要。如果整理后的资料仍就臃肿、庞杂,使人难以一目了然的话,就会给以后的研究工作增加许多困难。
整理资料的一般步骤
社会词查收集到的资料一般可分为文字资料和数字资料,此外还可能会有少量的实物及视听资料。资料的整理主要是指对文字资料和数字资料进行整理。其步骤是:
(1)设计汇总方案
汇总方案的设计主要包括三个方面的内容:①一套综合表,包括一系列分类分组所构成的分组体系。②填表说明,包括汇总的范围、程序、分组方法、指标解释和计算方法。②分类目录。设计汇总方案是资料整理工作有计划进行的前提。
(2)审核原始资料
资料的审核主要是对原始调查资料的审查和核实。其工作是看是否存在虚假现象,看是否存在差错,重点检查资料的真实性、准确性和完整性。
(3)对资料进行分类分组
根据整理方案中所设计的分类标准和分组标志,对原始资料进行分类分组。如果是文字资料,则进行分类;如果是数字资料,则进行分组。不论是分类或分组,都要遵循互斥和完备的原则。
(4)对资料进行汇总
用一定的组织形式和方法对经过分类分组的资料进行汇总,计算各类各组的单位数和合计数.计算各组指标和综合指标。汇总时,既要完整和系统,又要简明和集中。
(5)资料整理结果的显示
资料整理的结果包括两方面的内容:—是文字资料,二是数字资料。文字资料的整理结果一般用汇编的形式来显示,即根据调查目的和要求,确定合理的逻辑结构,以反映调查对象的真实情况。另外,还要对文字资料进行初步加工。数字资料的整理结果一般用统计图表来显示。
2.分析资料
(1)定性资料分析
A.类属分析
“类属分析”指的是在资料中寻找反复出现的现象以及可以解释这些现象的重要概念的一个过程。在这个过程中,具有相同属性的资料被归入同一类别,并且以一定的概念命名。类属的属性包括组成类属的要素、内部的形成结构、形成类属的原因、类属发挥的作用等。
类属分析的基础是比较,因为有比较才有鉴别,才能区别此事物与他事物的异同。比较可以采取很多不同的方式,如同类比较(根据资料的同一性进行比较)、异类比较(根据资料的差异性进行比较)、横向比较(在不同的资料之间进行比较)、纵向比较(对同一资料中的各个部分进行前后顺序的比较)、理论与证据比较(将研究者的初步结论与后续收集到的资料进行比较)等。
通过比较设定了有关的类属以后,我们需要对类属之间存在的关系进行识别,如因果关系、时间前后关系、语义关系、逻辑关系、平行关系、包含关系、下属关系,等等。将类属之间存在的关系建立起来以后,我们还可以发展出一个或数个‘核心类属”。核心类属是所有类属中最上位的意义单位,可以在意义上统领所有其他的类属。与此同时,每一个类属下面还可以进一步发展出下属类属,表示的是该类属所包含的意义维度和基本属性。为了使资料分析直观、明了,我们在建立不同类属之间的关系时可以使用画图的方式,如树枝形主从属结构、网状连接形结构等。例如,在一项对大学毕业生就业的调查中,北京大学课题组对北京市的—些人才洽谈会进行了现场观察和访谈,结果发现用人单位在挑选大学生时使用了很多重要的概念,如:“做人”、“做事”、“敬业精神”、“团队精神”、“职业道德“等。经过讨论和画图,我们将“做人”与“做事”作为“合格的大学生”的两个核心类属,在“做人”这个类属下面我们列下了“敬业精神”、“团队精神”和“职业道德”等下属类属;在“职业道德“这个下位类属里我们又分出了“自我定位”(即不轻易“跳槽”)、“自我评价”(即正确评价自己的能力,不认为自己大材小用)、“自我约束”(即不打招呼就“跳槽”了)等。
B情境分析
“情境分析”指的是:将资料放置于研究现象所处的自然情境之中,按照故事发生的时序对有关事件和人物进行描述性的分析。这是一种将整体先分散然后再整合的方式,首先看到资料的整体情形,然后将资料打碎、进行分解,最后将分解的部分整合成一个完整的、坐落在—个真实情境中的故事。情境分析强调对事物作整体的和动态的呈现,注意寻找将资料连接成一个叙事结构的关键线索。
情境分析的结构可以有很多不同的组成方式,如前因后果排列、时间流动序列、时空回溯、圆周反复等方式、情境分析的具体内容也十分丰富,可以是研究现象中的主题、事件、人物、社会机构、时间、地点、状态、变化等。内容的前后顺序可以按照当事人的言语、事件发生的时间或语意上的联系进行组织。情境分析的具体手段包括轮廓勾勒、片段呈现、个案、访谈片段、观察事件、故事等。对资料进行情境分析的具体操作方式因资料的特性不同而有所不同,我们既可以将—次访谈或一次观察的内容写成一个个情境片断,也可以将对一个人的几次访谈写成一个故事,还可以将几个人的故事连成一体,组成一个综合个案。
对资料进行情境分析的主要思路是:把握资料中把握有关重要信息,找到可以反映资料内容的故事线,发展出故事的有关情节,对故事进行详细的描述。进行情境分析时应该特别注意资料的语言情境和社会文化情境、故事发生的时空背景、叙述者的说话意图、资料所表达的整体意义以及各部分意义之间的相关联系。
(2)定量资料分析
定量资料分析也最复杂的资料分析。它按照性质可以分为两类,一类是对初步整理后的数据进行数学分析,并用统计量对这些资料进行描述,人们称其为描述性分析;另一类是在随机抽样调查的基础上,根据样本及相关资料,对总体进行推断,人们称其为推论性分析。统计分析按照涉及变量的多少又可以分为单变量分析、双变量分析和多变量分析等。资料分析中常见的相对指标分析、集中量数和离中量数分析、因素分析、动态分析等都属于描述性分析,其中集中量数和离中量数分析以及动态分析主要是单变量分析,相对指标分析和因素分析主要是双变量分析、多变量分析;相关和回归分析、抽样推断分析、预测分析、综合评价分析等都属于推论性分析,它们一般是双变量分析或多变量分析。
(1)描述性统计方法
描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
百分比、相对比、比率、图表(圆形图、条形图、曲线图)
变量的中心趋势
集中趋势代表全体变量分布的主要特征或一般水平的某一个典型的变量值或特征值称作集中值或集中趋势。由于集中趋势表明同类现象在一定时间、地点条件下所达到的一般水平与大量单位的综合数量特征,因而在统 计学中集中趋势由均值(平均指标)给出度量。
变量的中心趋势可以用3种方法来量度,即众数、中位数与平均数。
众数(mode)指在一个变量分布中出现频率最高的变量值。如在婚姻状况中,单身者有1000人,已婚者有700人,离婚音有200人,寡居者有100人,因此,众数是单身者;在变量分布2、3、3、3、3、4、4、6、7中,3出现的频率最高,因此,3是这个变量分布的众数。一个变量分布中也可能存在双众数,比如,在变量分布2、3、3、3、3、4、4、5、5、5、5、6、7中,3与5出现的次数最高,而且出现的频率相同,因此,3与5都是众数。
中位数(medtan)专指一个变量分布的中间点。在一个变量分布中,中位数的值处于这样一种情况,50%的个案的值高于它,而另外50%的个案的值低于它。由于中位数是一个变量分布的中间点,因此,它与一个变量所具有的个案总数(N)有关,如果总数为奇数,我们只要找出顺序排列中处于中间位置的个案即可;但是,如果总数为偶数,我们就有了两个处于中间位置的个案,在这种情况下,需要把这两个个案的值相加再除以2以求得中位数。比如,变量分布2、4、4、4、6、7、8、9一共有8个个案,由于总数为偶数,因此,我们需要取两个处于中间位置的个案4与6,将它们相加后除以2求得中位数5。在决定中位数的时候,变量的所有值部必须按大小顺序排列,任何其他方法的排列都会产生错误的中位数。
平均数(mean)是最为常见的描述变量中心趋势的方法,也是我们最熟悉的方法。计算平均数的时候,我们需要把所有个实的值相加再除以个案的总数。
虽然众数、中位数与平均数都量度变量的中心趋势,但是,这三者传达的是不同的信息。假如我们在调查一个单位职工月收入时,得到众数为1000元、中位数为1100元、平均数为1200元的结果,那么,在这个单位中,收入为1000元的职工人数最多,有50%的职工收入在1100元以下.另外Eo%的职工收入在1100元之上;在所有职工的工资完全拉平的情况下,每个职工可以得到1200元。
变量的离散趋势
离散量数分析与集中量数分析相反,离散量数分析指的是用一个特别的数值来反映一组数据相互之间的离散程度。
离散量数与集中量数—起,分别从两个不同的切面描述和揭示一组数据的分布情况,共同反映出资料分布的全面特征。同时,它还对相应的集中趋势(如平均数、众数、中位数)的代表性作出补充说明。
常见的离散量数统计量有极差、方差、标准差、异众比率、四分位差等。
A.极差:最大值与最小值之差。
B.四分互差(内距 Interquartile range)
四分互差(内距 Interquartile range)是把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的变量值由小到大分别叫做第一个四分位值、第二个四分位值和第三个四分位值,第三个四分位值和第一个四分位值之差即为四分互差,即Q = Q3 - Q1(表示数据中间50%的分布范围)。
由于四分互差排除了数列两端各四分之一单位变量值的影响,仅反映分布数列中间部分各单位变量值的最大数与最小数距离中位值的平均离差,所以它与极差相比,受离群值影响较小。(四分互差大,说明中位置代表性差。)
C.方差s2和标准差s
方差(variance)的含义是平均离散平方,它是指数列中各个数值与其算术平均数相减之差的平方和的算术平均数。
方差大,说明数据分散,代表性差。
例:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:
中文系:78 79 80 8l 82
数学系:65 72 80 88 95
英语系:35 78 89 98 100
无论是从团体总分来看,还是从平均得分来看,这三个系代表队的成绩都是相同的。因此,如果仅以集中量数的统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。但从直观上我们不难发现,三个代表队中五名队员的成绩相互之间的差距程度(离散程度)很不一样。虽然他们三个队的平均成绩都是80分,但80分对中文系队同学的代表性最高,而对英语系队同学的代表性最低。
标准差(standard deviation)是方差的正平方根,也称为根方差。
总体方差
总体标准差
样本方差
样本标准差
D.离散系数
是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。离散系数的定义是:标准差与平均数的比值,用百分比表示。其计算公式为:
(CV为离散系数)
例:一项调查得到下列结果,某市人均月收入为92元,标准差为17元,人均住房面积7,5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大
解:人均收入的离散系数为:
人均住房的离差系数为:
E.分布形状
偏度(Skewness)是对分布对称性的反映与测量。当分布非对称或者缺少对称性时就产生了偏度。
在对称分布时,均值=中位值=众值。
在负偏分布时,均值<中位值<众值。(平均数减去中位数为负)
在正偏分布时,众值<中位值<均值。(平均数减去中位数为正)
皮尔逊偏度系数(Coefficient of skewness)
峰度(Kurtosis):是一个表明数据是否集中在均值附近,或是否有许多极端值,且分布在较大范围内。
又细又长的分布称为尖峰分布;又扁又平的分布称为扁峰分布;处于两者之间的形状比较“正常”的分布称为常态峰分布。
变量推论统计
统计推论适用于抽样调查资料的处理。所谓统计推论就是根据局部资料(样本资料)对总体的特征进行推断。一方面由于局部资料来源于总体,因此局部资料的特性在某种程度上能反映总体的特性。例如,总体中女性所占的比例高,那么样本中女性比例高的可能性也大些。但另一方面由于社会资料的随机性,即抽样的结果不是唯一的,又使得一次抽样结果不能恰好就等于总体的结果。更何况当总体参数不知道的情况下,即便碰到了我们也未必知道。这种“抽样结果与总体参数不一致”是随机现象在推论中所特有的。也是进行推论的难点所在。
为了正确的处理局部(抽样)和总体之间的数量关系,以便作到正确的从抽样推论到总体,这就构成了统计推论所要介绍的内容。统计推论的理论基础是概率论。这也正是在统计推论之前,必须学习概率论的缘故。统计推论的内容大体可分两部分:
一是通过样本对总体的未知参数进行估计,简称参数估计。二是通过样本对总体的某种假设(例如参数或分布情况)进行检验。简称假设检验。
(1)参数估计
参数估计,用通俗的话来说,就是根据抽样结果来合理地、科学地猜一猜总体的参数大概是什么?或者在什么范围?
参数估计细分起来又可分作两类:点估计和区间估计。
点估计
所谓点估计就是用样本计算出来的一个数来估计总体的未知参数。出于它只是一个点值,所以称参数的点估计。
区间估计
区间估计则是通过样本计算出来的一个范围来对未知参数进行估计。因此点估计是根据样本,合理的猜一猜总体的参数大概是什么?而区间估计则是根据样本,合理的猜一猜总体的参数在什么范围?
由于真正的参数我们并不知道,因此我们无法知道由样本所计算的点估计值到距离真值有多少,也就是我们无法知道点估计值的精度如何。为此我们想到改用一个范围或一个区间来对来知参数进行估计,例如我们说某村的年平均收入在800元一1000元之间。显然这样的估计方法比之说某村的年平均收入是多少元,猜中的可能性要大得多了。这就是参数的区间估计。对于参数的区间估计,在给出区间估计的同时,还必须指出所给区间包含未知参数的概率是多少。
例如,我们用作为未知参数Q的估计值,那么,区间[]包含参数Q的概率为
其中,区间[]作为置信区间。区间大小,反映了估计的准确性和精确性。为置信概率、置信度或置信系数,表示置信区间估计的可靠性。显然,置信度与显著性水平之和为1。对一个具体问题,如果提出的置信度要求为0.95,那就意味着显著性水平为0.05。
当置信取0.90时,它表示如果独立重复地抽取很多样本,每次样本容量n保持不变的话,那么,平均而言,每100个样本,其中有90个样本算出的区间估计是包含待估参数Q的。在样本容量一定的情况下,置信区间和置信度是相互制约的。置信度俞大(即估计的可能性俞大),则相应的置信区间也放宽(估计的愈不精确),必须把区间估计得小一些。当估计的精确程度提高时,估错的可能性增加了,也就是可靠性或置信度下降了。
区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估价总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。区间估计的结果通常可以采取下述方式来表述:“我们有95%的把握认为,全市职工的月工资收入在182元至218元之间。”或者“全省人口中,女性占犯50%一52%的可能性为99%”。
区间估计中的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。它可以这样来解释:如果从这个总体中重复抽样100次,约有95次所抽样本的统计值都落在这个区间,则说明这个区间估计的可靠性为95%。对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比,即所估计的区间越大,则对这一估计成功的把握性也越大;反之,则把握性越小。实际上,区间的大小所体现的是估计的精确性问题,二者成反比,即区间越大,精确程度越低:区间越小,精确程度越高。从精确性出发,要求所估计的区间越小越好;可从把握性出发,又要求所估计的区间越大越好。因此,人们总是需要在这二者之间进行平衡和选择。在社会统计中,常用的置信度分别为90%、95%和99%,与它们所对应的允许误差()则分别为10%、5%和1%。在计算中,置信度常用1-来表示。下面我们分别介绍总体均值和总体百分比的区间估计方法。
(2)假设检验
假设检验问题是推论统计中的另一种类型。首先需要说明的是,这里的假设不是指抽象层次的理论假设,而是指和抽样手段联系在一起、并且依靠抽样数据进行验证的经验层次的假设,即统计假设。
九、普通调查报告的写作
1.调查报告及其分类
(1)调查报告的概念
调查研究报告是反映调查研究成果的一种书面报告。它以文字、图表等形式将调查研究的过程、方法和结果表现出来。其目的是告诉有关的读者,对于所研究的问题是如何进行调查的,取得了哪些结果,这些结果对于认识和解决这一问题有哪些理论意义和实际意义等等。
(2)调查报告的分类
根据调查研究报告的用途、读者对象等方面的不同,可将调查研究报告分为几种不同类型:以政府政策部门领导和有关实际工作部门人员为读者对象的普遍调查报告,以各学科专业研究人员为读者对象的学术研究报告和以某一课程任课教师为读者对象的学位论文。
普通调查报告往往以了解社会现实情况、解决实际社会问题为主要目的。这类研究报告对于各级政府决策部门和各类实际工作部门了解社会情况、分析社会问题、制定社会政策、开展社会工作有着重要的参考作用。
学术研究报告则着重于对社会现象的理论探讨。即分析各种社会现象的相互关系和因果关系,以及通过对实地调查资料的分析或归纳,达到检验理论和构造理论的目的。
学位论文主要指博士学位论文、硕士学位论文和学士学位论文。硕士学位论文与学士学位论文在形式上与学术研究报告相似,故把它们并在一起讨论,都称为学术研究报告。
2.普通调查报告的格式
普通调查报告与学术研究这两类研究报告在目的、读者对象等方面不同。在撰写的格式和要求上也不完全一样。普通调查报告中往往更强调对调查结果的描述、说明和应用,而对调查的方法、过程及工具等就不大关心。同时,普通调查报告的语言往往也更加大众化,对社会现象的描述和分析也没有十分固定的格式,并且更多地采取直观的方式进行说明。学术研究报告及学位论文则往往需要运用各学科的理论、概念、专业术语等,在形式上也有较固定、严格的格式,结构更加严谨,论述的语言也要求更加严密。
普通调查报告的写作没有固定的格式。不同调查报告的写作要求,主要依据调查的目的、内容、结果、以及调查报告的读者对象和主要用途来决定的。但一般来说,各种调查报告在结构上都可以分为:标题、导言、主体和结尾几个部分。
(1)标题
对于调查报告来说,标题是引起读者注意的关键因素。标题生动、明确、针对性强,就能打动读者、吸引读者。标题平常往往难以引起读者注意。从目前调查报告标题来看,主要有以下几类:
1直接陈述调查对象或调查的问题,使得调查的主要内容一目了然。比如,《关于离婚问题的调查分析》、《当前大学生思想政治状况调查分析》。
2以某种结论式的语言或判断句作为标题。比如《择友不当是青少年犯罪的重要原因》、《家庭结构对儿童成长的影响》、《影响未来养老形式的一个重要因素》等。
3以提问的形式作标题。比如:《他们为什么选择离婚》、《我市为什么会出现乘车难的现象》、《十名婴儿死亡的原因在哪里》等。
4调查报告也有采取双标题的形式,即主标题和副标题形式。主标题以提问式、判断式,警句式表达,而副标题则以一般陈述式表达。例如《他们也有爱的权利——北京市老年人婚姻问题调查》、《独生子女都是“小皇帝”吗?——对武汉市1000名小学生的调查》。
标题的写法可以灵活多样,但有一点要十分注意,就是标题要与报告的内容相符,不能为了引起读者的注意而使用超出报告内容的标题。
(2)导言部分
导言是报告的开关部分,这部分主要扼要说明调查的目的、时间、地点、对象(或范围)和方法,本文所要报告的主要内容是什么。有的调查报告也把调查结论写进这一部分。导言部分的具体写法有下列几种方式:
1联系所调查的现象,说明调查的目的和意义,然后介绍调查的范围和方法。这种写法有利于把握调查报告的主要宗旨和基本精神。
2描述某一社会现象,然后再对这一现象产生的原因或这一现象的影响、作用、意义等提出若干问题。这种写法的效果是引人入胜,增强读者阅读报告的欲望。
3在描述现象、提出问题的同时,直截了当地写明结论,然后再在调查报告的主体部分中用调查资料对这一结论进行论证。
注意:在导言部分必须说明调查方法及采取这种调查方法的原因。
(3)主体部分
调查报告的主体部分,主要是对事实的叙述和议论,所占的篇幅最大、内容最多。因此,在结构上必须精心安排。但主体部分结构安排必须根据调查报告的内容来确定。具体的结构有三种形式:
1根据调查现象本身所具有的时间顺序,从纵向角度描述和分析。这一结构有利于说清某一现象或问题的来龙去脉,使读者既了解了问题的起因,又了解了它的发展、变化和状况。
2根据所调查现象本身所包含的各种不同特征或不同方面,从横的角度来逐一描述、分析和比较。这样可以使与某一现象或问题与有关的各个方面的内容都得到集中讨论。通过对这些方面的分析和描述就能使读者对报告的中心问题有更深刻、更全面的理解。
3将上述两种结构相结合,以其中一种结构为主。比如,在总体结构上按时间顺序,但在每一时期,又分别从不同的方面进行讨论;或在总体上按横的结构,而在每一具体方面描述中又采取纵的结构。
把调查的主要情况、经验或问题归纳为几个问题,分为几个小部分,每个小部分有一个中心,或加小标题来提示、概括这部分的内容,使之眉目清楚。
当然所有这些形式都不是不变的教条,对于每一项具体社会调查研究来说,撰写调查报告的最好方式是根据该项调查的实际情况进行构思。
注意:一定要注意所使用的分析方法能否推论总体,如果不能推论总体只能作为一个个案进行分析,或者对某一问题进行初步探索。
(4)结尾部分
结尾在普通调查报告中的作用主要是小结调杳研究所得到的结果,概括全文,点明主题,并根据这些结果,提出问题和建议,以供有关部门决策时参考。或者通过对调查结果的深入调查分析,说明某一现象或问题的社会的危害性,以便引起有关部门的注意和重视。在写法上,结尾部分要简明扼要,要抓住调查结果中最关键、最有价值的结论,使读者能留下鲜明深刻的印象。
3.撰写调研报告应注意的问题
撰写调研报告应注意下面两个问题
(1)行文要则
第一,用简单的语言写作,并要用例子来解释说明。研究报告应该用常用的语言写作,应该能让非专业的读者进行阅读。尽可能使用简单的语言,少用专业术语。
第二,叙述事实力求客观,避免使用主观或感情色彩较浓的语句。最好用第三人称或非人称代词,而不要用第一人称。
第三,行文时,应以一种向读者报告的口气撰写,而不要表现出力图说服读者同意某种观点或看法,更不能把自己的观点强加于人。
(2)注释
对于报告中引用别人的资料,以及某些不易理解的内容或概念,常常通过加注释来进行说明。
注释的作用主要有:指出所引的资料来源,供读者参考查证;表示作者遵守学术道德,不把别人的成果掠为己有;既可帮助读者解释报告中的疑难,又不使报告中断和过于冗长。注释的形式主要有三种,即夹注、脚注和尾注。夹注即在所引资料之后,用括号括起来,比如“我国15-24岁青年中,有82.3%的人已经就业(见《中国青年报》1986年4月10日)”。脚注即在所引的资料处只注明一注释记号,比如在该资料后的右上角用①、②、③等等来标明,然后在该页的最下端,用小一号的字体分别说明引文的出处、时间等情况。尾注则是将所有脚注都移到文章的结尾处一并排出,而不是分别排在各页之下。