Modèles paramétriques

Objectifs: présenter (très/trop rapidement) la logique des modèles de type AFT (Accelerated Failure Time), principalement le modèle de Weibull (et exponentiel). Je n’ai pas forcément de pratique sur les modèles paramétriques, et à terme plutôt intéressé pour explorer de manière approfondie et présenter le modèle de Parmar-Royston.

Principes

  • Dans les modèles paramétriques usuels, la durée de survie est distribuée selon une loi dont la densité \(f(t)\) s’exprime en fonction de paramètres (de la loi).
  • Pour utiliser l’approche paramétrique, il faut avoir de bonnes raisons de penser que les temps de survie sont approximativement distribués selon une certaine loi connue plutôt qu’une autre.
  • La majorité des distributions reposent sur une hypothèse dite AFT (Acceleretad Failure Time). Une autre repose seulement sur l’hypothèse PH (Gompertz), certaines peuvent selon la paramétrisation reposer sur les deux (exponentiel et Weibull).

Hypothèse AFT: Accelerated Failure Time

L’hypothèse AFT signifie que l’effet des covariables est multiplicatif par rapport au temps de survie. Par opposition, les modèles PH décrivent un effet multiplicatif par rapport au risque.
Selon les caractérisques des individus, le temps ne s’écoulent pas à la même vitesse, ils ne partagent plus la même métrique temporelle. Remarque: on a souvent des explications de type dilation/contraction du temps, par analogie à la théorie de la relativité.

Exemple simple: la durée de vie d’un être humain et d’un chien.
On dit qu’une année de vie d’un être humain équivaut à 7 années de vie d’un chien. C’est typiquement une hypothèse d’AFT.
\(S_h(t) = S_c(7\times t)\). C’est ce facteur multiplicatif qu’estime un modèle paramétrique de type AFT.

\[S(t_i | X_1)= S(\phi t_i | X_0)\]

Remarque: si un modèle s’estime sous hypothèse PH (ex Weibull): \(h(t_i | X_1)= -\rho \phi h(t_i | X_0)\)

  • Avantage: l’interprétation des modèles est directement liée aux fonctions de survie. Pratique après une analyse non paramétrique.
  • Inconvénient: ne permet pas l’introduction de variables dynamiques.

Etre humain versus chien: la probabilité qu’un être humain survive 80 ans est égale à la probabilité qu’un chien survive 11 ans (80/7). Le temps s’écoulerait donc plus vite pour le chien que pour l’être humain (du point de vue d’un référentiel extérieur). Ce raisonnement peut s’appliquer aux quantile du temps de survie: le temps de survie médian d’un être humain est 7 fois plus élevé que celui d’un chien. En terme d’interprétation des paramètres estimés, si le temps de survie est plus court le risque est plus élevé.

Principe de construction des modèles AFT

Le raisonnement mathématique est ici bien plus complexe. On donnera juste quelques pistes en début de raisonnement. On part d’une expression proche du modèle linéaire (à une transformation logarithmique près de la variable dépendante). En imposant la contrainte \(t_i>0\), en ne posant qu’une seule covariable \(X\) de type binaire, et en se situant de nouveau dans une logique de temps continu (pas d’évènement simultané):

\[log(t_i)= \alpha_0 + \alpha_1X_i + bu_i\]

\(b\) est un paramètre d’échelle identique pour toutes les observations et \(u_i\) un terme terme d’erreur qui suit une loi de distribution de densité \(f(u)\). La combinaison linéaire définira le paramètre de position. C’est la forme de \(f(u)\) qui définie le type de modèle paramétrique.

On peut écrire: \(f(u_i) = f(\frac{log(t_i)- \alpha_0 - \alpha_1X_i}{b})\).

Remarque: pour une distibution normale/gaussienne, le paramètre de position est l’espérance et le paramètre d’échelle l’écart-type.

Quelques modèles paramétriques usuels

Modèle exponentiel et de Weibull

Weibull

  • Peut estimer un modèle PH ou AFT, d’où sa popularité.
  • Distribution monotone des temps d’évènement (toujours croissante/décroissante).
  • \(f(t)=\lambda\alpha t^{\alpha - 1}e^{-\alpha t^\lambda}\) et \(h(t)=\lambda\alpha(\lambda t)^{\alpha - 1}\), \(\alpha>0\) et \(\lambda>0\). Si \(\lambda>1\) le risque est croissant, décroissant si \(\lambda<1\), et est égal à la loi exponentielle si \(\lambda=1\).

Exponentiel

  • Processus sans mémoire, utilisé pour étudier par exemple la durée de vie composants électriques ou électroniques.
  • La fonction de risque est une constante.
  • Cas limite de la loi de Weibull. Un modèle de type exponentiel peut-être de type AFT ou PH.
  • Pour contourner la constance du risque dans le temps, on peut estimer un modèle en scindant la durée en plusieurs intervalles. Le risque sera constant à l’intérieur de ces intervalles, il s’agit d’un modèle “exponential piecewise” (exponentiel par morceau).


Log-logistique

  • Estime un modèle de type AFT seulement. Proche du modèle log-normal (plus difficile à estimer).
  • Permet une interprétation en terme d’Odds de survie.
  • La fontion du risque peut-être “U-shaped” (unimodale croissante puis décroissante).


Autres lois: Gompertz (PH seulement), Gamma et Gamma généralisé…..

Sélection de la loi On peut sélectionner la loi en comprarant les AIC où les BIC des modèles. Pour le modèle de Weibull, on peut voir s’il ajuste bien les données si la transformation \(log(-log(S(t_i)))\) est linéaire par rapport à \(log(t_i)\).

Exemple (transplantation)

Comparaison des AIC (sans covariable)
Weibull: 400.1
Exponentiel: 461.0
Gompertz: 409.6
Log-logistique: 391.8

Exemple avec le modèle de Weibull

AFT

Weibull AFT regression

No. of subjects =          103                  Number of obs    =         103
No. of failures =           75
Time at risk    =        31938
                                                LR chi2(3)       =       18.87
Log likelihood  =    -188.6278                  Prob > chi2      =      0.0003

------------------------------------------------------------------------------
          _t |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        year |     0.1620     0.1218     1.33   0.184      -0.0768      0.4008
         age |    -0.0615     0.0247    -2.49   0.013      -0.1100     -0.0130
     surgery |     1.9703     0.7794     2.53   0.011       0.4427      3.4980
       _cons |    -3.0220     8.7284    -0.35   0.729     -20.1294     14.0854
-------------+----------------------------------------------------------------
       /ln_p |    -0.5868     0.0927    -6.33   0.000      -0.7685     -0.4051
-------------+----------------------------------------------------------------
           p |     0.5561     0.0516                        0.4637      0.6669
         1/p |     1.7983     0.1667                        1.4995      2.1566
------------------------------------------------------------------------------

Une journée de survie d’une personne qui n’a pas été opérée d’un pontage correspond environ à 7 jours - \(e^{1.9707}\) - de survie d’une personne opérée. Cette remise à l’échelle de la métrique temporelle entre les deux groupes exprime bien le gain en durée de survie médiane pour les personnes opérées, soit des risques journaliers de décès plus faibles (et plus faibles à valeurs constantes, proportionnalité oblige).

PH

Weibull PH regression

No. of subjects =          103                  Number of obs    =         103
No. of failures =           75
Time at risk    =        31938
                                                LR chi2(3)       =       18.87
Log likelihood  =    -188.6278                  Prob > chi2      =      0.0003

------------------------------------------------------------------------------
          _t |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        year |  -.0900736   .0663972    -1.36   0.175    -.2202097    .0400626
         age |    .034214   .0138509     2.47   0.014     .0070667    .0613613
     surgery |  -1.095685   .4341312    -2.52   0.012    -1.946566   -.2448033
       _cons |   1.680511   4.823645     0.35   0.728     -7.77366    11.13468
-------------+----------------------------------------------------------------
       /ln_p |  -.5868247   .0927049    -6.33   0.000     -.768523   -.4051264
-------------+----------------------------------------------------------------
           p |   .5560902   .0515523                      .4636974    .6668925
         1/p |   1.798269   .1667084                      1.499492    2.156579
--------------------------------------------------------------------

Remarque: \(b_{ph} = -\rho \times b_{aft}\). Ici \(-0.556 \times (1.97) = -1.096\)

Modèle de Cox précédemment estimé

Cox regression -- Breslow method for ties

No. of subjects =          103                  Number of obs    =         103
No. of failures =           75
Time at risk    =        31938
                                                LR chi2(3)       =       17.56
Log likelihood  =   -289.54474                  Prob > chi2      =      0.0005

------------------------------------------------------------------------------
          _t |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        year |  -.1195075   .0673691    -1.77   0.076    -.2515486    .0125336
         age |   .0295539   .0135341     2.18   0.029     .0030275    .0560803
     surgery |   -.984869   .4362881    -2.26   0.024    -1.839978   -.1297601
------------------------------------------------------------------------------

Attention: on ne peux pas comparer la qualité d’un modèle paramétrique à celle d’un modèle de Cox par des critères type AIC ou BIC. Les deux méthodes d’estimation diffèrent.