Memo_社会学方法与定量研究
谢宇. 社会学方法与定量研究[M]. 北京: 社会科学文献出版社, 2012.
一版序言
社会之责任,科学之精神,研究之方法,盖治学之基础也,且亦需明晰应用研究与基础研究之区别。
(一)定性划定的定量指标
定性为定量之基础,测量指标之划定即是定性之概括,中国处于社会巨变之中,同西方稳定不同,因而更需要重视既往指标的是否合理。
我在台湾交流与小学期期间,对以党员身份为政治资本指标的划定充满疑虑,而思索已不能代表当下政治资本的测量,需要发展新的测量指标。
(二)方法论与研究过程
定性难于比较,学界也难于形成共识,人类学方法论应对借鉴,人口学定量方法也应引入,此三类社科本不应分家。在实际研究中则需要概念化、研究设计和数据分析,前两者甚至更为重要。
二版序言
(一)中国之独特性
近三十年间经济增长、教育普及、人口转型之巨变,为历史转折点。
谢宇于此感慨中西差异,归于三点:中央至地方的政府作用力大、地方政府与企业结盟、layered paternalism的单位制影响深远,因而中国的不平等有时则源于人为的社会界限。同时,中国既无民主制度,也无自由市场而持续繁荣三十年的特殊性,则需要我们思考,及创新研究框架。
(二)社会科学与自然科学
社会科学研究的独特性,被谢宇归纳为三点:变异性原来、社会分组原理,及社会情景原理。进一步,谢宇区分了类型逻辑思维与总体逻辑思维。
同时,此处谢宇举例《下乡给知青带来好处了么》一文,强调对不同群体异质性问题及其形成的因果推论思考。
当代社会学方法上的矛盾
(一)个人关切点的转移
我曾一度以为,不理解当今主流意识形态则无以理解社会之种种现象,于此处觉的那是政治哲学的议题,而确实偏离社会学真正关切的方向,与社会学探究现象的方法论,转而回于社会这个大整体的本身。
(二)社会学的研究中心
谢宇认为,社会学即以研究variability(变异)为己任。社会学自然是一门及其宽广的学科,而正因如此,其不同领域的多重标准中,往往存在着文化矛盾,以及颇多的方法论矛盾。
Ducan着眼于between-group,暂时忽视within-group,强调实证现实的首要性,逐步在研究中加入复杂性;认为statisticism的量化有时可能会误入歧途,而如何将研究设计概念化,及如何对测量工具改进,是思考的重点。2016.7.20 于致知楼
Duncan的学术成就
(一)World of Being and World of Becoming & Bias and Deviation
1、类型与总体
Here, Xie Yu distinguished the world of being and the world of becoming. We sociology students should consider it seriously. One is the true, real, and a perfect world, and the other is the feeling, touchable, and imperfect world.
Plato’s famous reputation in the science history was mostly caused by his definition of the world of being and the world of becoming, The knowledge is come from the cognition of the world of being,is the scientists’ finding,but not the invention, 真理依附于world of being, only exist in our mind. 而world of becoming是world of being的复制品,world of being是连续的、抽象的,此为Mayr所称的typological thinking(类型逻辑思维)。
由特殊典型推广至总体的类型逻辑思维,直至Darwin的总体逻辑思维出现而有了动摇。Deviation(偏差)不再是不重要的,而恰恰相反是进化的前提,变异是真实的,也即此类思考是总体逻辑思维。
2、偏误与偏差
这里谢宇没有指明偏误(bias)与偏差(deviation),但实际二者有着明显差别,偏误是估计值与真实值之间的差,而偏差是固有属性,是具体值与特定值的差;Darwin的cousin,Galton认为差异不是误差,也即概率误差实际是概念偏差,这同均值一样十分重要,Deviation是分布的属性之一。
也即社科同自科的不同在于,我们研究world of becoming,变异不是我们躲避的,而恰恰是社会的本质。大数定律与中心极限定理都是类型逻辑思维的思考,mean是类型逻辑,average是总体逻辑,差异、变异是社会现实的本质,正因差异的普遍性,普适性的理论几乎不能实现。
(二)量化变异、回归分析与路径分析
如此思考,个体差异永远存在,存在于任何人群中。社会学不应该走自然科学的道路,但量化之具体,是把握这种变异的可靠工具。*于此处颇为感慨,社会科学的道路到底由西方而来,亦需去西方求取,中国社会科学固然发展了些,而推动学科前进的,仍是欧美。而以学术为志业,是于经济、社会之抗争。
将类型逻辑思维与总体逻辑思维引入回归分析,则体现为高斯方法与加尔顿方法的分歧,以及Freedman与Duncan的分歧。
同时,谢宇强调,路径分析中的因果不能强加于结果,路径分析只是解释结果,而非寻找原因。
(三)潜在模型与总体异质性
社会科学统计模型是简约而非结构式的,量化反对普适,只是总结组间差异,暂时忽视组内差异。但到了Duncan的生命后期,他不再赞同早年的数据精简与数据概括的方法,而支持发掘结构模型或潜在模型。
但潜在模型的困境在于,模型会因总体中个体的不同与个体的不确定性而发生变化,这种不同被称为总体异质性(不确定性是不能控制的,比如个体的不配合或胡乱作答,不同则如个体的种族等不能改变的属性的不同),因为总体异质性,导致推论在个体层面是完全不可信的。而他的后期研究为了解决这个困境,完全转向了Rasch模型。
Duncan试图建立的Rasch模型,建立在长期追踪调查上,通过总体异质性(heterogeneity)与总体同质性(homogeneity)的恒定性,来实现二者的相互独立型。而混合模型中的多层次模型、成长曲线模型和潜在分类模型等都是为了解决异质性问题,目前我们依旧无法完全摒弃总体异质性的干扰。
(四)异质性导致的偏误
一般而言,我们的调查都假定了总体同质性,也即拒访的人、缺失的人与受访者是相同的,但显而易见他们必然存在差异,所以scientific sampling重要。
同时,正如谢宇提及的,当组间无法观测,在研究上实际也不具有可比性,但被研究人为的比较,这样造成的比较结果的偏误如何避免。谢宇并未给出答案,而这也是当前社会科学研究因果问题的兴趣所在。
社会科学研究的三个基本原理
(一)三个基本原理
社会科学研究world of becoming,这固然是虚幻的世界,但是常人才是我们研究的东西。社科独特于人类能改变影响他们的自身环境,人的行为是理性的,及historical path dependence,社科研究的基本原理也即Variability Principle, Social Grouping Principle, Social Context Principle.
1、Variability Principle & Heterogeneity
Variability(变异性)原理,也即个体和个体、类型和类型(组与组)之间的差异才是我们研究的东西,研究的是variation与covariation(共变),于此处我们需要警惕spurious correlation(伪相关)。
这里谢宇没有严格区分总体变异性(population variability)与总体异质性(heterogeneity),但通过英文注释,我们可以看到这是两个概念,我的理解是,变异性是指一个流动的过程,而异质性是一个已经的状态,在研究中我们看到的是异质性,而异质性是由变异性产生的。
2、Social Grouping Principle & Parsimony
Social Grouping原理,分组的意义在于能否解释差异,而于此处重要的是Ockham剃刀原则,分组原则在于Parsimony(简化)。简化的代价是误差,与自然科学不同,社会科学的误差是真实存在的缺陷。
3、Social Context Principle
Social Context原则意味着边界,因为个体变异受制于时空界限,社会力量的存在让个体受到宏观条件支配,个体的行为也会影响社会变迁。而这些因素的存在,使社科的研究受制于时空的界限。
(二)Bias与Principle应用
在实际研究中,我们需要警惕causal relation的判定,我们无法找到个体的counterfactual effect,也即个体层面无法推得因果,所以研究的是总体、团体,而必须有假设,比如我们往往假设个体同质性,两组人没有差异。
但直接假设两组人没有差异或过高估计了教育回报率,这些隐藏在研究背后的假设对研究结果有重要影响。于此引出我们常见的两类偏误:heterogeneity bias(异质性偏误)与 endogeneity bias(内生性偏误)。
1、Heterogeneity bias
Heterogeneity bias可能由omitted-variable bias产生(omitted-variable bias的产生原因可参见《因果推理》一节)忽略了参数在截面或时序上的齐次性。
实际上是没有干预情况本就有差异,比如都没读大学,一组人本身就比另一组人好。
2、Endogeneity bias
Endogeneity bias是同一个事情对不同人的影响可能不同,可能由anticipatory behavior(理性期望行为)产生,存在着系统性差异。
实际是由于变量的内在关联,因果关系可能倒置。比如内生性变化导致教育造成社会不平等,谢宇于此处于Bourdieu殊途同归,两组人都读了大学,联想西藏新疆学生与内地学生,虽处同一所大学而教育回报率不同。
3、Principle应用
只有当两类bias都不存在时,才可以做比较。
实验条件下,二者的共同解决方法是random assignment(随机赋值),保证没有干预与干预后两组应该一致。两组人本质差异与读不读大学无关;回报率与读不读大学无关。没有假设难于推广。
进一步,因为实验条件下的这个模型不可估计,需要约束条件,我们以Social Grouping来进一步减弱假设,控制异质性(多元回归的逻辑基础),假设组内无差异,比如同样成绩或家庭背景的人,读大学与没读大学没有差异。
进一步,我们假设共同情境下(同一个时空)有个体同质性,估算地区间、家庭间等差异。可以再个体水平做参数假定,使它遵守一定的参数化分布,也即Bayesian approach,使用嵌套的方法假设同质性;而如果跨越情景的变异是系统的,就采用multi-level model, random coefficient model, hierarchical linear model, growth curve model等。
最后简要总结,只有针对特定总体提出很多假设的结论才可以推广,而我们只研究effects of causes,不研究causes of effects,因为我们identification problem的存在,我们无法穷尽原因。2016.7.23
社会科学与自然科学的关系
社会学的核心是得到知识的手段和方法,对他者言论批判性的简介,也即一种批判性的思维。
社会科学与自然科学在三个层面上截然不同,也即本体论、认识论与方法论。
本体论上,Plato对知识定义为world of being与world of becoming。自然科学研究前者;社会科学研究后者,以了解形成世界为目的。
认识论上,自然科学研究典型现象,社会科学研究所有个案组成的总体状况。社会物理学演进至达尔文,差异与平均值一样重要,差异是世界的本质。总体逻辑思维得到分布,社会科学探索关注变异与共变。
方法论上,相关是前者对后者的影响或因果,回归是弱化相关,将关系拉向均值。实证主义哲学认为自然科学与社会科学并无本质区别,谢宇则更偏于Duncan人口学派,其自称为pragmatic empiricism(实用经验主义)。Lieberson说,社会学贡献在于提供信息,社会学家是历史学家,描述现在的历史。总体逻辑思维在于将理论建立在事实之上。2016.8.1 于和兴路
因果推理
(一)treatment group & control group
谢宇首先区分了treatment group(干预组)与control group。
举例了伪因果推论,性别录取不平等或实际是专业之间男女不平衡,也即是实际关系是性别-专业-录取率。因果关系实际是反事实的问题,不仅考虑组间差异,也要考虑同一组不同情况下的差异。而这种因果实际也假设了treatment group与control group在有无干预下都基本相同。
同时,因果关系是概率性的,涉及同因不同果;嵌套原因等。
(二)omitted-variable bias的产生条件
简单比较的干预回报率会偏高或偏低。这其中涉及忽略变量偏误,而偏误正负涉及了选择性问题。将选择性问题找出,如果某些变量重要,但被我们忽略就会导致忽略变量偏误,解决方法是运用多元统计尽力控制。
忽略变量偏误的产生需要两个条件。一是relevance condition,变量与因变量有关(与果有关);一是correlation condition,变量与自变量有关(与因有关)。
(三)omitted-variable bias方向
bias有三种情况,于此假设忽略变量为Z,原因为X,结果为Y; Z对X关系为C, Z对Y关系为B。
Z是X\Y的决定因素;Z与X同时对Y影响;Z是X对Y的中介变量。
C\B同号,正向偏误;C/B异号,负向偏误。
而propensity score(倾向分数)是对omitted-variable bias的修正。
忽略变量偏误与生态学分析
(一)因果推论的危险
这一部分承接因果推理。因果推理的四个潜在危险,spurious correlation, omitted-variable bias, selection bias, 及表面上的时间顺序。
Selection bias,如高等教育回报率因人而异,或可导致研究对象的selection bias;表面时间顺序,如圣诞节前后消费,是即将的节日促进消费,而不是消费促成了节日。
(二)Ecological fallacy
Ecological fallacy,即将高层次数据应用于低层次推论,理论建立于个人,但数据是汇总层次的,就犯了Ecological fallacy,这源于1950年Robinson的论文,并因此引发了调查革命,尔后的数据渐渐为收集个人为单位的数据。究其根本在于总体异质性,对于如何解决Ecological fallacy,谢宇提及Garry King于1997年出版了A Solution to the Ecological Inference Problem.
谢宇进而举例,判罪不与罪犯种族相关,而实际与被害人种族相关,是为omitted-variable bias,而这个案例实际也是Ecological fallacy,二者的本质相同。
(三)bias的解决model - multi-level analysis
如果数据是多层次的,为了减小bias问题,random effect model既可以用到组间方差,也可以用到组内方差。进一步,引入fixed effect model,但会牺牲很多信息。
Random effect将异质性差异视为随机变量,fixed effect将差异固定不予考虑,这是两个极端所以进而引入了multi-level analysis(多层次分析),这种分析源于Durkheim的social fact理论,人有差异又会受环境影响。条件是自变量同时含有个人与环境两个层次,因变量是个人层次。
其关键在于,个人层次变量与环境交互作用项,如果个人水平变量作用随着环境变化而变化,就可以做multi-level analysis。这个颇为重要,是回归分析中常人不考虑,而极容易造成Ecological fallacy的。2016.8.11 8:10 于齐齐哈尔往哈尔滨动车D12
研究设计和抽样理论的基础
(一)研究设计
根据时间性,研究设计可分成两类,横向与纵向,纵向可以分成trend analysis与longitudinal analysis。
Trend analysis可以被称为汇集的横向分析,是不同时间点对同一总体独立重复抽样的研究。longitudinal analysis是真正的纵向分析,是同一样本不同时间点的重复观察,如美国的NELS。
(二)sampling
至于sampling,有systematic sampling, stratified sampling, cluster sampling etc. 不同抽样方法因地制宜,如层间异质性强,层内同质性强,用stratified sampling。
抽样中为了使样本比例达到我们想要的比例,在stratified sampling基础上可以做oversampling,在一个子总体中抽样多,一个子总体中抽样少。2016.8.29 于和兴路
流动表比较研究的对数可积层面效应模型
Mobility table为显示人的社会地位、职业随时间变化的表格。以职业解构变化说明社会流动特点时,常采用mobility table,将父辈职业与子辈职业交互分类。
美国亚裔的人口统计描述
描述性论文,于我现阶段借鉴意义较少,更偏于政策性论文。2016.8.7 于和兴路
认识中国的不平等
是节叙文武之官僚制、孔孟之科举于大一统帝国之作用。
于知识的检验实为于德行的检验,古之科举,今之高考,皆然。而效率对于大一统帝国而言,本就不是重要的。中国官僚体制的双重性,既对下又对上的双重责任,而中国政府与西方在同人民关系上也截然不同,或究其深处为奴隶制同封建制。
谢宇认为,地方以声誉控制则略为简单,中央外派文人需联络地方势力,而地方势力与政府角力。或可参考国民党初至台湾,与地方之协调,此为初步简易之民主,或曰,民主之先声。2016.8.11 往齐齐哈尔D12动车