Memo_CoD Determinants of Lifespan Inequality

Iñaki Permanyer, Serena Vigezzi, 2024, “Cause-of-Death Determinants of Lifespan Inequality”, Demography, 61(2), 513—540.
这篇方法很有意思,也很容易实施,但论文解释的不够清楚,我在这里通过逐步的推导来使读者理解这一方法。

一、方差的含义与分解

这部分讨论两个方面。第一,拆解方差的基本公式;第二,理解为什么在考虑不同死因时,总体方差可以被分解为内部不平等和均值差异的贡献。

(一)方差的基本公式

方差(Variance)是衡量数据集中的数值偏离其平均值的程度。对于一组数据x1,x2,,xnx_1, x_2, \ldots, x_n,其均值(平均值)为μ\mu,方差VV定义为:

V=1ni=1n(xiμ)2V = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

其中:

  • xix_i是第ii个数据点。
  • μ\mu是数据的均值(即μ=1ni=1nxi\mu = \frac{1}{n} \sum_{i=1}^{n} x_i)。
  • nn是数据点的数量。

(二)方差的基本分解公式

当数据被分为多组时,比如粗死亡率按不同的死亡原因细分。那么,可以对每一组死因单独计算方差,然后综合这些组的方差来理解整体方差的形成。
假设我们有kk个组,每个组cc的样本数量为ncn_c,数据的均值为μc\mu_c。组内数据xcix_{ci}的方差VcV_c为:

Vc=1nci=1nc(xciμc)2V_c = \frac{1}{n_c} \sum_{i=1}^{n_c} (x_{ci} - \mu_c)^2

同理,总体均值μ\mu就是所有组均值的加权平均:

μ=1Nc=1kncμc\mu = \frac{1}{N} \sum_{c=1}^{k} n_c \mu_c

其中N=c=1kncN = \sum_{c=1}^{k} n_c是总样本数量。

上述提供了两个基本方程,即组内方差和组均值。随后,我们观察总体方差VV如何被分解为上述两部分。
第一,将总体方差展开:

V=1Nc=1ki=1nc(xciμ)2V = \frac{1}{N} \sum_{c=1}^{k} \sum_{i=1}^{n_c} (x_{ci} - \mu)^2

第二,我们可以将每个数据点的偏差(xciμ)(x_{ci} - \mu)分解为两部分:

(xciμ)=(xciμc)+(μcμ)(x_{ci} - \mu) = (x_{ci} - \mu_c) + (\mu_c - \mu)

第三,根据这个分解,我们可以将总体方差展开为:

V=1Nc=1ki=1nc[(xciμc)+(μcμ)]2V = \frac{1}{N} \sum_{c=1}^{k} \sum_{i=1}^{n_c} \left[ (x_{ci} - \mu_c) + (\mu_c - \mu) \right]^2

第四,应用平方展开公式(a+b)2=a2+2ab+b2(a + b)^2 = a^2 + 2ab + b^2,我们得到:

V=1Nc=1ki=1nc[(xciμc)2+2(xciμc)(μcμ)+(μcμ)2]V = \frac{1}{N} \sum_{c=1}^{k} \sum_{i=1}^{n_c} \left[ (x_{ci} - \mu_c)^2 + 2(x_{ci} - \mu_c)(\mu_c - \mu) + (\mu_c - \mu)^2 \right]

第五,在上式中,因为xciμcx_{ci} - \mu_c是围绕μc\mu_c的偏差,其和为零,因此,交叉项2(xciμc)(μcμ)2(x_{ci} - \mu_c)(\mu_c - \mu)的期望值为零,我们可以忽略这一项。

第六,随后,我们便可以得到分解公式。剩下的部分是:

V=1Nc=1ki=1nc(xciμc)2+1Nc=1ki=1nc(μcμ)2V = \frac{1}{N} \sum_{c=1}^{k} \sum_{i=1}^{n_c} (x_{ci} - \mu_c)^2 + \frac{1}{N} \sum_{c=1}^{k} \sum_{i=1}^{n_c} (\mu_c - \mu)^2

V=c=1kncNVc+c=1kncN(μcμ)2V = \sum_{c=1}^{k} \frac{n_c}{N} V_c + \sum_{c=1}^{k} \frac{n_c}{N} (\mu_c - \mu)^2

在这里,总体方差VV,通过分解,可以表示为各组内部方差的加权平均加上各组均值与总体均值差异的加权平方和。这种分解方法被广泛用于各种统计和数据分析中,以理解不同因素对总体变异性的贡献。其中:

  • 第一项c=1kncNVc\sum_{c=1}^{k} \frac{n_c}{N} V_c表示每个组(如死亡原因)内部的变异性,对总体不平等的贡献。
  • 第二项c=1kncN(μcμ)2\sum_{c=1}^{k} \frac{n_c}{N} (\mu_c - \mu)^2表示每个组(如死亡原因)的平均值与总体平均值差异,对总体不平等的贡献。

二、寿命不平等的死因分解

(一)寿命不平等的公式

进一步,在分析死因对寿命不平等的影响时,分组就是不同的死亡原因,组内的方差就是每个死亡原因的内部不平等,而组间的差异就是各死亡原因的平均死亡年龄与总体平均死亡年龄的差异。将分解公式应用于不同死亡原因的情况,我们得到:

V=c=1kpc(Vc+(μcμ)2)V = \sum_{c=1}^{k} p_c \left( V_c + (\mu_c - \mu)^2 \right)

更一般的,论文提供了公式(4),展示了总体方差VV如何通过每个死亡原因的内部方差VcV_c与这些死亡原因的比例pcp_c,以及平均死亡年龄μc\mu_c进行分解的:

V=φ(V,p,μ)=c=1kpc(Vc+(μcc=1kpcμc)2)V = \varphi(V, p, \mu) = \sum_{c=1}^k p_c \left( V_c + \left( \mu_c - \sum_{c=1}^k p_c \mu_c \right)^2 \right)

其中,

  • VV:总体方差,表示整个群体的寿命不平等。
  • pc=DcDp_c= \frac{D_c}{D}:每个死亡原因cc的死亡人数占总死亡人数的比例,它表示该死亡原因在整体死亡中的权重,反映了死因的相对重要性。
  • VcV_c:每个死亡原因cc的死亡年龄分布的方差,表示该死亡原因内部的寿命不平等,是该死亡原因内寿命离散程度的度量。
  • μc\mu_c:每个死亡原因cc的平均寿命,表示该死亡原因导致的死亡的平均年龄。
  • (μcμ)2(\mu_c - \mu)^2:死亡原因cc的平均死亡年龄与总体平均死亡年龄之间的差异,反映了该死因与总体水平的差异。
  • c=1kpcμc\sum_{c=1}^k p_c \mu_c:所有死亡原因的加权平均寿命,表示整体的平均寿命。

上述公式帮助我们理解,总体方差VV是如何由各个死亡原因的内部不平等、死亡原因比例和平均死亡年龄(IIppmumu)共同决定的。更具体讲:

    1. c=1kpcVc\sum_{c=1}^k p_c V_c
    • 这是每个死亡原因的内部不平等VcV_c乘以其比例pcp_c的加权和。
    • 这部分反映了各个死亡原因的内部不平等对总体不平等的直接贡献。换言之,反映了不同死亡原因内部的不平等是如何通过它们的比例影响到整体的不平等的。
    1. c=1kpc(μcc=1kpcμc)2\sum_{c=1}^k p_c \left( \mu_c - \sum_{c=1}^k p_c \mu_c \right)^2
    • 这是每个死亡原因的平均死亡年龄μc\mu_c与总体平均死亡年龄之间的差异的平方乘以该死亡原因的比例pcp_c
    • 这部分反映了不同死亡原因的平均死亡年龄差异对总体不平等的贡献。

(二)寿命不平等的各死因贡献

这里需要进一步说明,论文省略了一步如何看不同死因的寿命不平等贡献 可能是太简单。为了计算每个死亡原因对总体寿命不平等的比例贡献,可以按照以下步骤进行:
第一,计算各部分的绝对贡献。对于每个死亡原因 cc,我们需要计算其内部方差和平均年龄差异对总体寿命不平等的贡献。

  • 内部方差贡献pcVcp_c \cdot V_c
    其中,pcp_c是死亡原因cc的比例,VcV_c是死亡原因cc的内部不平等(方差)。
  • 平均年龄差异贡献pc(μcμ)2p_c \cdot (\mu_c - \mu)^2
    其中,μc\mu_c是死亡原因cc的平均死亡年龄,μ\mu是总体的平均死亡年龄。

第二,计算每个死亡原因的总贡献。将每个死亡原因的内部方差贡献和平均年龄差异贡献相加,得到其对总体寿命不平等的总贡献:pcVc+pc(μcμ)2p_c \cdot V_c + p_c \cdot (\mu_c - \mu)^2
第三,计算相对贡献(比例贡献)。将每个死亡原因的总贡献除以总体寿命不平等VV,得到其相对贡献:pcVc+pc(μcμ)2V\frac{p_c \cdot V_c + p_c \cdot (\mu_c - \mu)^2}{V}

三、寿命不平等的跨期分解:差异比较

基于上述讨论,我们可以进一步来思考,如何比较跨时期的人群差异。

(一)反事实构建:公式 5-10

首先,构建不同的反事实场景,这些公式帮助我们理解在不同条件下的寿命不平等变化。

C1=φ(V(t2),p(t2),μ(t1))(5)C_1 = \varphi(V(t_2), p(t_2), \mu(t_1)) \quad (5)

  • 解释:这个公式表示在时间点t2t_2的内部不平等V(t2)V(t_2)和死亡原因比例p(t2)p(t_2)下,使用时间点t1t_1的平均寿命μ(t1)\mu(t_1)来计算的寿命不平等。

C2=φ(V(t2),p(t1),μ(t2))(6)C_2 = \varphi(V(t_2), p(t_1), \mu(t_2)) \quad (6)

  • 解释:这个公式表示在时间点t2t_2的内部不平等V(t2)V(t_2)和时间点t1t_1的死亡原因比例p(t1)p(t_1)下,使用时间点t2t_2的平均寿命μ(t2)\mu(t_2)来计算的寿命不平等。

C3=φ(V(t1),p(t2),μ(t2))(7)C_3 = \varphi(V(t_1), p(t_2), \mu(t_2)) \quad (7)

  • 解释:这个公式表示在时间点t1t_1的内部不平等V(t1)V(t_1)下,结合时间点t2t_2的死亡原因比例p(t2)p(t_2)和平均寿命(μ(t2)\mu(t_2))来计算的寿命不平等。

C4=φ(V(t1),p(t1),μ(t2))(8)C_4 = \varphi(V(t_1), p(t_1), \mu(t_2)) \quad (8)

  • 解释:这个公式表示在时间点t1t_1的内部不平等V(t1)V(t_1)和死亡原因比例p(t1)p(t_1)下,使用时间点t2t_2的平均寿命μ(t2)\mu(t_2)来计算的寿命不平等。

C5=φ(V(t1),p(t2),μ(t1))(9)C_5 = \varphi(V(t_1), p(t_2), \mu(t_1)) \quad (9)

  • 解释:这个公式表示在时间点t1t_1的内部不平等V(t1)V(t_1)下,结合时间点t2t_2的死亡原因比例p(t2)p(t_2)和时间点t1t_1的平均寿命μ(t1)\mu(t_1)来计算的寿命不平等。

C6=φ(V(t2),p(t1),μ(t1))(10)C_6 = \varphi(V(t_2), p(t_1), \mu(t_1)) \quad (10)

  • 解释:这个公式表示在时间点t2t_2的内部不平等V(t2)V(t_2)和时间点t1t_1的死亡原因比例p(t1)p(t_1)下,使用时间点t1t_1的平均寿命μ(t1)\mu(t_1)来计算的寿命不平等。

这些公式通过在不同时期之间的不同条件下进行组合,论文构造出六个反事实场景,以理解在不同条件下(时间点t1t_1t2t_2之间),寿命不平等是如何受到不同因素的影响的。

(二)寿命不平等的差异分解:公式 11-20

其次,我们来解释公式(11),这是在“Decomposing Lifespan Inequality Differences by Cause of Death”部分的关键公式之一。这个公式详细解释了如何将不同时期的总体寿命不平等差异分解成由不同因素导致的变化。

1. 公式(11)

公式(11)通过反事实场景C1C_1C6C_6,详细展示了寿命不平等的差异ΔV\Delta V是如何通过各个因素进行分解的。

ΔV=V(t2)V(t1)=φ(V(t2),p(t2),μ(t2))φ(V(t1),p(t1),μ(t1))\Delta V = V(t_2) - V(t_1) = \varphi(V(t_2), p(t_2), \mu(t_2)) - \varphi(V(t_1), p(t_1), \mu(t_1))

这个公式表示的是两个时间点之间的寿命不平等的差异。为了分解这种差异,公式引入了以下步骤:

2. IPM分解

公式(11)到(16)通过将ΔV\Delta V分解成不同部分,展示了寿命不平等的具体贡献来源。

ΔV=[V(t2)C1]+[C1C6]+[C6V(t1)](11)\Delta V = [V(t_2) - C_1] + [C_1 - C_6] + [C_6 - V(t_1)] \quad (11)

ΔV=[V(t2)C1]+[C1C5]+[C5V(t1)](12)\Delta V = [V(t_2) - C_1] + [C_1 - C_5] + [C_5 - V(t_1)] \quad (12)

ΔV=[V(t2)C2]+[C2C6]+[C6V(t1)](13)\Delta V = [V(t_2) - C_2] + [C_2 - C_6] + [C_6 - V(t_1)] \quad (13)

ΔV=[V(t2)C2]+[C2C4]+[C4V(t1)](14)\Delta V = [V(t_2) - C_2] + [C_2 - C_4] + [C_4 - V(t_1)] \quad (14)

ΔV=[V(t2)C3]+[C3C4]+[C4V(t1)](15)\Delta V = [V(t_2) - C_3] + [C_3 - C_4] + [C_4 - V(t_1)] \quad (15)

ΔV=[V(t2)C3]+[C3C5]+[C5V(t1)](16)\Delta V = [V(t_2) - C_3] + [C_3 - C_5] + [C_5 - V(t_1)] \quad (16)

通过将这些公式进行平均,我们可以得到以下分解。但这里我有一个疑问,怀疑作者的预印本公式写串了?因为预印本中的II变动却对应了pppp变动却对应了μ\muμ\mu变动却对应了II。我给作者发了邮件,暂无回信。这里我写成我理解的公式。 作者回信预印版确实印错了,但Demography又下载不了,摊手。

ΔV=ΔiV+ΔpV+ΔμV(17)\Delta V = \Delta_i V + \Delta_p V + \Delta_\mu V \quad (17)

ΔIV=2[V(t2)C3]+2[C6V(t1)]+[C1C5]+[C2C4]6(18)\Delta_I V = \frac{2[V(t_2) - C_3] + 2[C_6 - V(t_1)] + [C_1 - C_5] + [C_2 - C_4]}{6} \tag{18}

ΔpV=2[V(t2)C2]+2[C5V(t1)]+[C3C4]+[C1C6]6(19)\Delta_p V = \frac{2[V(t_2) - C_2] + 2[C_5 - V(t_1)] + [C_3 - C_4] + [C_1 - C_6]}{6} \tag{19}

ΔμV=2[V(t2)C1]+2[C4V(t1)]+[C2C6]+[C3C5]6(20)\Delta_{\mu} V = \frac{2[V(t_2) - C_1] + 2[C_4 - V(t_1)] + [C_2 - C_6] + [C_3 - C_5]}{6} \tag{20}

四、寿命不平等的测量:方差和变异系数平方

我们在上面详尽讨论了如何对方差进行分解,但在已有研究中,还有很多可以被用于衡量不平等或离散程度的指标。这里,我们简要讨论变异系数平方Cv2C_v^2。它们在定义、用途和解释上有显著的差异,但分解的思路是一致的,对这些指标分解可以进一步拓展我们理解差异变动的原因。

(一)定义的区别

方差(Variance,VV)同上。
变异系数(Coefficient of Variation Squared,CvC_v)是标准差与均值的比值,用于衡量相对的离散程度。公式为:

Cv=σμC_v = \frac{\sigma}{\mu}

其中,σ\sigma是标准差(即方差的平方根),μ\mu是数据的均值。

变异系数平方Cv2C_v^2则是变异系数的平方,公式为:

Cv2=(σμ)2=Vμ2C_v^2 = \left( \frac{\sigma}{\mu} \right)^2 = \frac{V}{\mu^2}

其中,VV是方差。

(二)应用的区别

方差VV的属性:

  • 单位:方差的单位是数据本身单位的平方(例如,如果数据单位是年,方差单位是年平方)。它不能直接比较不同单位或尺度的数据。
  • 绝对量:方差表示的是数据点偏离均值的绝对量。它适用于同一类型的数据集或在均值相近的数据集之间进行比较。
  • 群体比较: 方差衡量的整个群体的死亡年龄分布的离散程度,适用于分析一个特定群体间、或在均值相近的多个群体间,比较绝对寿命不平等,作为绝对指标,直接反映了寿命不平等的大小。

变异系数Cv2C_v^2的属性:

  • 无量纲:变异系数平方是一个无量纲的量,它消除了数据单位的影响,它可以跨不同单位或尺度的数据进行比较。
  • 相对量:变异系数平方表示的是数据点偏离均值的相对量,考虑了均值的影响,适用于不同均值的数据集之间的比较。
  • 群体比较:变异系数衡量不同群体之间的相对不平等程度,适用于比较不同群体之间的相对寿命不平等,尤其当这些群体的平均预期寿命差异较大时,作为相对指标,变异系数平方更为有效。

(三)案例

尔后,我们通过一个案例来理解,为什么Cv2C_v^2更适合跨群体比较?
假设我们有两个国家的预期寿命和寿命不平等数据:

  • 国家 A:预期寿命 60 岁,方差 100。
  • 国家 B:预期寿命 80 岁,方差 144。
    1. 方差
  • 国家 A 的方差是 100。
  • 国家 B 的方差是 144。
    2. 变异系数平方
  • 国家 A 的变异系数平方Cv2C_v^2是:1006020.0278\frac{100}{60^2} \approx 0.0278
  • 国家 B 的变异系数平方Cv2C_v^2是:144802=0.0225\frac{144}{80^2} = 0.0225

因此,如果仅根据方差,我们会认为国家 B 的寿命不平等大于国家 A。但考虑到国家 B 的平均寿命较高,这种比较并不公正。变异系数平方则表明,国家 A 的相对不平等实际上比国家 B 更高,这是因为变异系数平方标准化了方差,使我们可以在考虑均值差异的情况下进行更公平的比较。

(四)分解公式

最后,按方差部分的思路,同理如下,不再赘述。

Cv2=ψ(V,p,μ)=c=1kpc(Vc+(μccpcμc)2)(cpcμc)2(25)C_v^2 = \psi(V, p, \mu) = \sum_{c=1}^{k} \frac{p_c \left( V_c + (\mu_c - \sum_c p_c \mu_c)^2 \right)}{\left( \sum_c p_c \mu_c \right)^2} \tag{25}

五、研究发现

这里可以简略提及。论文主要关注东、南、西欧的10个国家,以及5个主要死因(ICD-10主要有18个死因大类),使用的寿命不平等指标是Cv2C_v^2
第一,图2显示,在大多数国家,男女死于肿瘤neoplasm的比例往往随着时间的推移而缓慢增加,而外部原因、先天性和围产期原因congenital and perinatal causes以及影响循环系统circulatory system的原因造成的死亡有所下降。
第二,图3显示,所有国家的寿命不平等在1980-2020年间显著下降。
第三,单一年份的静态分解。图4显示,方差水平的降低,肿瘤对其的贡献比例更大。与男性相比,肿瘤对女性整体寿命不平等的贡献更大。值得注意,在2015年,围产期和先天性原因虽然往往导致不到1% 的死亡,但它们贡献了至少寿命不平等的9%,在1985年,这个值则在男性和女性分别为26% 和32%。
第四,双年份的动态分解。图5显示:其一,大多数死因的I,对寿命不平等贡献为负(即减少不平等),尤其是在较早的时期。循环系统疾病和围产期及先天性原因在研究的所有年份中持续减少了寿命不平等。其中,围产期及先天性原因显著减少了寿命不平等,对女性在1985-2000年间的贡献达到最高值。其二,大多数死因的P,对寿命不平等的贡献通常比I和M小太多。其三,大多数死因的M,对寿命不平等的贡献为负,除围产期及先天性原因外,围产期及先天性原因的M的贡献虽小但持续为正,即增加不平等。肿瘤是唯一持续增加总体寿命不平等的死因,但不足以抵消其他原因的负贡献,尤其是最强驱动因素——围产期及先天性原因。
这个结论挺有意思的,具体到不同国家也有不同,我一直关注的健康转变历程,和这篇论文有很大的潜在对话空间。