Modèle temps discret

On va principalement traiter du modèle logistique à temps discret.

Avec un lien logistique, le modèle à temps discret, avec seulement des covariables fixes, peut s’écrire:


\[log\left[\frac{P(Y=1\ |\ t_p,X_k)}{1-P(Y=1\ |\ t_p,X_k)}\right]= a_0 + \sum_{p}a_pf(t_p)+\sum_{k}b_kX_k\]

Organisation des données

Format long

Les données doivent être en format long: pour chaque individu on a une ligne par durée observée ou par intevalle de durées jusqu’à l’évènement ou la censure. On retrouve le split des données du modèle de Cox, mais généralisé à des intervalles où aucun évènement n’est observé. Avec des données de type discrètes ou groupées, phénomène classique en sciences sociales, il y a souvent peu de différence entre un allongement aux temps d’évènement et aux temps d’observation.

Durée

La durée est dans un premier temps construite sous forme d’un simple compteur, par exemple \(t=1,2,3,4,5...\) (des valeurs non entières sont possibles). Le choix de la forme fonctionnelle de la durée sera présenté par la suite.

Variable évènement/censure

Si l’individu a connu l’évènement, elle prend la valeur 0 avant celui-ci. Au moment de l’évènement sa valeur est égale à 1. Pour les observations censurées, la variable prend toujours la valeur 0.


Application
On reprend les données de la base transplantation, mais les durées ont été regroupées par période de 30 jours. Il n’y a pas de durée mesurée comme nulle, on a considéré que les 30 premiers jours représentaient, en gros, le premier mois d’exposition. Cette variable de durée se nomme mois.

Format d’origine

  +-----------------------------------------+
  | id   year   age   surgery   mois   died |
  |-----------------------------------------|
  |  1     67    30         0      2      1 |
  +-----------------------------------------+

Format long et variables pour l’analyse

  +-------------------------------------------------+
  | id   year   age   surgery   mois   died   t   d |
  |-------------------------------------------------|
  |  1     67    30         0      2      1   1   0 |
  |  1     67    30         0      2      1   2   1 |
  +-------------------------------------------------+

Ajustement de la durée

Un des principaux enjeux réside dans la paramétrisation de la durée:

  • Elle peut-être modélisée sous forme de fonction d’une variable de type continue.
  • Elle peut-être modélisée comme variable discrete, de type indicatrice (0,1), sur tous les points d’observation, ou sous forme de regroupements (rappel: au moins un évènement observé dans chaque intervalle).

Ajustement avec une durée en continu

Le modèle étant paramétrique, on doit trouver une fonction qui ajuste le mieux les données. Toutes transformations de la variable est possible: \(f(t)=a\times t\), \(f(t)=a\times ln(t)\)……formes quadratiques. Les ajustements sous forme de splines (cubiques) tendent à se développer ces dernières années.
Pour sélectionner cette fonction, on peut tester différents modèles sans covariable additionnelle, et sélectionner la forme qui minimise un critère d’information de type AIC ou BIC (vraisemblance pénalisée).

Exemple:
On va tester les paramétrisations suivante:s une forme linéraire stricte \(f(t)=a\times t\) et des effets quadratiques d’ordres 2 et 3: \(f(t)=a_1\times t + a_2\times t^{2}\) et \(f(t)=a_1\times t + a_2\times t^{2} + a_3\times t^{3}\).

Exemple Estimation des probabilités de décéder selon différents ajustements de la durée (modèle logistique à temps discret)

Critères AIC

\(f(t)\) AIC
\(a\times t\) 504
\(a_1\times t + a_2\times t^{2}\) 492
\(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\) 486

On peut utiliser la troisième forme à savoir \(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\).

Estimation du modèle avec toutes les covariables

Logistic regression                             Number of obs     =      1,127
                                                LR chi2(6)        =      90.69
                                                Prob > chi2       =     0.0000
Log likelihood = -230.33671                     Pseudo R2         =     0.1645

------------------------------------------------------------------------------
           e |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           t |  -.3720566   .0823946    -4.52   0.000    -.5335471   -.2105661
          t2 |   .0142379    .005023     2.83   0.005     .0043929    .0240828
          t3 |  -.0001659   .0000785    -2.11   0.035    -.0003198    -.000012
        year |  -.1326693   .0737755    -1.80   0.072    -.2772666     .011928
         age |   .0333413   .0146876     2.27   0.023     .0045541    .0621285
     surgery |  -1.010918    .448598    -2.25   0.024    -1.890154   -.1316821
------------------------------------------------------------------------------
Remarque : la constante n’est pas reportée, les valeurs de la référence n’ayant pas grand  sens (année et âge à 0)

Maintenant si on estime le modèle avec la méthode de Cox (avec des durées mesurées sur une échelle de 30 jours) :

Cox regression -- Efron method for ties

No. of subjects =          103                  Number of obs    =         103
No. of failures =           75
Time at risk    =         1127
                                                LR chi2(3)       =       17.97
Log likelihood  =   -289.81242                  Prob > chi2      =      0.0004

------------------------------------------------------------------------------
          _t |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        year |  -.1304397   .0674344    -1.93   0.053    -.2626087    .0017293
         age |   .0288141   .0134981     2.13   0.033     .0023583    .0552698
     surgery |  -.9695805   .4361069    -2.22   0.026    -1.824334   -.1148266
------------------------------------------------------------------------------

On remarque que les coefficients estimés sont particulièrement proches.

Ajustement discret

  • Il s’agit d’introduire la variable de durée dans le modèle comme une variable catégorielle (factor).
  • Pas conseillé si on a beaucoup de points d’observation, ce qui est le cas ici.
  • A l’inverse, si peu de points d’observation la paramétrisation avec une durée continue n’est pas conseillé, , avec en plus un nombre très (trop) élevé de degrés de liberté.
  • La correction de la non proportionnalité peut être plus compliquée à réaliser (non traité).

On va supposer que l’on ne dispose que de 4 intervalles d’observation. Pour l’exemple, on va créer ces points à partir des quartiles de la durée, et conserver pour chaque personne une seule observation par intervalle.

  • t=1: Entre le début de l’exposition et 4 mois.
  • t=2: Entre 5 mois et 11 mois .
  • t=3: Entre 12 mois et 23 mois.
  • t=4: 24 mois et plus.

On va estimer le risque globalement sur l’intervalle. La base sera plus courte que la précédente (197 observations pour 103 individus).

         4 |
 quantiles |           e
      of t |         0          1 |     Total
-----------+----------------------+----------
         1 |        50         53 |       103 
         2 |        35         11 |        46 
         3 |        27          5 |        32 
         4 |        10          6 |        16 
-----------+----------------------+----------
     Total |       122         75 |       197 


Logistic regression                             Number of obs     =        197
                                                LR chi2(6)        =      39.30
                                                Prob > chi2       =     0.0000
Log likelihood = -111.23965                     Pseudo R2         =     0.1501

------------------------------------------------------------------------------
           e |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         ct4 |
          2  |  -1.033368   .4188719    -2.47   0.014    -1.854342   -.2123944
          3  |  -1.615245    .544858    -2.96   0.003    -2.683147   -.5473433
          4  |  -.4789305   .5992969    -0.80   0.424    -1.653531    .6956698
             |
        year |  -.2032436   .0931956    -2.18   0.029    -.3859036   -.0205835
         age |   .0468518   .0184958     2.53   0.011     .0106006     .083103
     surgery |  -1.110163   .5025594    -2.21   0.027    -2.095161   -.1251644
------------------------------------------------------------------------------
Remarque : la constante n’est pas reportée, les valeurs de la référence
           n’ayant pas grand  sens (année et âge à 0)

Au niveau de l’interpretation, avec 37% d’évènements sur l’ensemble des observations, il n’est plus possible d’interpréter le modèle en terme de risque (probabilité). La lecture en termes d’Odds Ratio s’impose.

Probabilités estimées à partir d’un modèle avec la durée seulement.
Risques sur la longueur de l’intervalle.

Durées p
0 à 4 mois 0.51
4 à 11 mois 0.24
11 à 23 mois 0.16
23 à 61 mois 0.37

Hypothèse PH

  • Formellement un modèle logistique à temps discret repose sur une hypothèse d’Odds proportionnel (Odds ratios constants pendant la durée d’observation). Contrairement au modèle de Cox, l’estimation des probabilités (risque) n’est pas biaisée si l’hypothèse PH n’est pas respectée.

  • Comme pour le modèle de Cox, la correction de la non proportionnalité peut se faire en intégrant une interaction avec la durée dans le modèle.

Les variables year et age seront omises pour faciliter la représentation graphique (on repart sur le modèle avec la durée mesurée continue).

Logistic regression                             Number of obs     =      1,127
                                                LR chi2(5)        =      84.78
                                                Prob > chi2       =     0.0000
Log likelihood = -233.29204                     Pseudo R2         =     0.1538

------------------------------------------------------------------------------
           e |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           t |   -.373826    .083913    -4.45   0.000    -.5382924   -.2093595
           
   1.surgery |  -1.929061   .6920142    -2.79   0.005    -3.285383   -.5727377
             |
 surgery#c.t |
          1  |   .0690069   .0333128     2.07   0.038      .003715    .1342987
             |
          t2 |   .0137676   .0052405     2.63   0.009     .0034964    .0240388
          t3 |  -.0001596   .0000828    -1.93   0.054    -.0003218    2.62e-06

------------------------------------------------------------------------------
Remarque : la constante n’est pas reportée.