+-----------------------------------------+
| id year age surgery mois died |
|-----------------------------------------|
| 1 67 30 0 2 1 |
+-----------------------------------------+
Modèle temps discret
On va principalement traiter du modèle logistique à temps discret.
- Par définition ce n’est pas un modèle à risques proportionnels, mais à Odds proportionnels. Toutefois en situation de rareté (p<10%), l’Odds converge vers une probabilité, qui est une mesure du risque (ici une probabilité conditionnelle).
- Le modèle à temps discret est de type paramétrique, il est moins contraignant que le modèle de Cox si l’hypothèse de proportionnalité n’est pas respectée, car le modèle est ajusté par une fonction de la durée. Il est donc pleinement paramétrique.
- Formellement, le modèle est estimable avec des évènements mesurés à une durée nulle (même si cela n’a pas grand sens).
- La base de données doit être transformée en format long: aux temps d’observation ou sur des intervalles de temps. C’est une des principales différences avec le modèle de Cox qui est une estimation aux temps d’évènement. Néanmoins avec une bonne forme fonctionnelle de la durée traitée de manière continue, les deux modèles aboutissent à des résultats quasiment identiques.
- Permet d’introduire de manière plutôt souple un ensemble de covariables dynamiques.
Avec un lien logistique, le modèle à temps discret, avec seulement des covariables fixes, peut s’écrire:
\[log\left[\frac{P(Y=1\ |\ t_p,X_k)}{1-P(Y=1\ |\ t_p,X_k)}\right]= a_0 + \sum_{p}a_pf(t_p)+\sum_{k}b_kX_k\]
Organisation des données
Format long
Les données doivent être en format long: pour chaque individu on a une ligne par durée observée ou par intevalle de durées jusqu’à l’évènement ou la censure. On retrouve le split des données du modèle de Cox, mais généralisé à des intervalles où aucun évènement n’est observé. Avec des données de type discrètes ou groupées, phénomène classique en sciences sociales, il y a souvent peu de différence entre un allongement aux temps d’évènement et aux temps d’observation.
Durée
La durée est dans un premier temps construite sous forme d’un simple compteur, par exemple \(t=1,2,3,4,5...\) (des valeurs non entières sont possibles). Le choix de la forme fonctionnelle de la durée sera présenté par la suite.
Variable évènement/censure
Si l’individu a connu l’évènement, elle prend la valeur 0 avant celui-ci. Au moment de l’évènement sa valeur est égale à 1. Pour les observations censurées, la variable prend toujours la valeur 0.
Application
On reprend les données de la base transplantation, mais les durées ont été regroupées par période de 30 jours. Il n’y a pas de durée mesurée comme nulle, on a considéré que les 30 premiers jours représentaient, en gros, le premier mois d’exposition. Cette variable de durée se nomme mois.
Format d’origine
Format long et variables pour l’analyse
+-------------------------------------------------+
| id year age surgery mois died t d |
|-------------------------------------------------|
| 1 67 30 0 2 1 1 0 |
| 1 67 30 0 2 1 2 1 |
+-------------------------------------------------+
Ajustement de la durée
Un des principaux enjeux réside dans la paramétrisation de la durée:
- Elle peut-être modélisée sous forme de fonction d’une variable de type continue.
- Elle peut-être modélisée comme variable discrete, de type indicatrice (0,1), sur tous les points d’observation, ou sous forme de regroupements (rappel: au moins un évènement observé dans chaque intervalle).
Ajustement avec une durée en continu
Le modèle étant paramétrique, on doit trouver une fonction qui ajuste le mieux les données. Toutes transformations de la variable est possible: \(f(t)=a\times t\), \(f(t)=a\times ln(t)\)……formes quadratiques. Les ajustements sous forme de splines (cubiques) tendent à se développer ces dernières années.
Pour sélectionner cette fonction, on peut tester différents modèles sans covariable additionnelle, et sélectionner la forme qui minimise un critère d’information de type AIC ou BIC (vraisemblance pénalisée).
Exemple:
On va tester les paramétrisations suivante:s une forme linéraire stricte \(f(t)=a\times t\) et des effets quadratiques d’ordres 2 et 3: \(f(t)=a_1\times t + a_2\times t^{2}\) et \(f(t)=a_1\times t + a_2\times t^{2} + a_3\times t^{3}\).
Exemple Estimation des probabilités de décéder selon différents ajustements de la durée (modèle logistique à temps discret)
Critères AIC
\(f(t)\) | AIC |
---|---|
\(a\times t\) | 504 |
\(a_1\times t + a_2\times t^{2}\) | 492 |
\(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\) | 486 |
On peut utiliser la troisième forme à savoir \(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\).
Estimation du modèle avec toutes les covariables
= 1,127
Logistic regression Number of obs chi2(6) = 90.69
LR > chi2 = 0.0000
Prob = -230.33671 Pseudo R2 = 0.1645
Log likelihood
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
e -------------+----------------------------------------------------------------
| -.3720566 .0823946 -4.52 0.000 -.5335471 -.2105661
t | .0142379 .005023 2.83 0.005 .0043929 .0240828
t2 | -.0001659 .0000785 -2.11 0.035 -.0003198 -.000012
t3 | -.1326693 .0737755 -1.80 0.072 -.2772666 .011928
year | .0333413 .0146876 2.27 0.023 .0045541 .0621285
age | -1.010918 .448598 -2.25 0.024 -1.890154 -.1316821
surgery ------------------------------------------------------------------------------
: la constante n’est pas reportée, les valeurs de la référence n’ayant pas grand sens (année et âge à 0) Remarque
Maintenant si on estime le modèle avec la méthode de Cox (avec des durées mesurées sur une échelle de 30 jours) :
-- Efron method for ties
Cox regression
= 103 Number of obs = 103
No. of subjects = 75
No. of failures = 1127
Time at risk chi2(3) = 17.97
LR = -289.81242 Prob > chi2 = 0.0004
Log likelihood
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
_t -------------+----------------------------------------------------------------
| -.1304397 .0674344 -1.93 0.053 -.2626087 .0017293
year | .0288141 .0134981 2.13 0.033 .0023583 .0552698
age | -.9695805 .4361069 -2.22 0.026 -1.824334 -.1148266
surgery ------------------------------------------------------------------------------
On remarque que les coefficients estimés sont particulièrement proches.
Ajustement discret
- Il s’agit d’introduire la variable de durée dans le modèle comme une variable catégorielle (factor).
- Pas conseillé si on a beaucoup de points d’observation, ce qui est le cas ici.
- A l’inverse, si peu de points d’observation la paramétrisation avec une durée continue n’est pas conseillé, , avec en plus un nombre très (trop) élevé de degrés de liberté.
- La correction de la non proportionnalité peut être plus compliquée à réaliser (non traité).
On va supposer que l’on ne dispose que de 4 intervalles d’observation. Pour l’exemple, on va créer ces points à partir des quartiles de la durée, et conserver pour chaque personne une seule observation par intervalle.
- t=1: Entre le début de l’exposition et 4 mois.
- t=2: Entre 5 mois et 11 mois .
- t=3: Entre 12 mois et 23 mois.
- t=4: 24 mois et plus.
On va estimer le risque globalement sur l’intervalle. La base sera plus courte que la précédente (197 observations pour 103 individus).
4 |
| e
quantiles | 0 1 | Total
of t -----------+----------------------+----------
1 | 50 53 | 103
2 | 35 11 | 46
3 | 27 5 | 32
4 | 10 6 | 16
-----------+----------------------+----------
| 122 75 | 197
Total
= 197
Logistic regression Number of obs chi2(6) = 39.30
LR > chi2 = 0.0000
Prob = -111.23965 Pseudo R2 = 0.1501
Log likelihood
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
e -------------+----------------------------------------------------------------
|
ct4 2 | -1.033368 .4188719 -2.47 0.014 -1.854342 -.2123944
3 | -1.615245 .544858 -2.96 0.003 -2.683147 -.5473433
4 | -.4789305 .5992969 -0.80 0.424 -1.653531 .6956698
|
| -.2032436 .0931956 -2.18 0.029 -.3859036 -.0205835
year | .0468518 .0184958 2.53 0.011 .0106006 .083103
age | -1.110163 .5025594 -2.21 0.027 -2.095161 -.1251644
surgery ------------------------------------------------------------------------------
: la constante n’est pas reportée, les valeurs de la référence
Remarque sens (année et âge à 0) n’ayant pas grand
Au niveau de l’interpretation, avec 37% d’évènements sur l’ensemble des observations, il n’est plus possible d’interpréter le modèle en terme de risque (probabilité). La lecture en termes d’Odds Ratio s’impose.
Probabilités estimées à partir d’un modèle avec la durée seulement.
Risques sur la longueur de l’intervalle.
Durées | p |
---|---|
0 à 4 mois | 0.51 |
4 à 11 mois | 0.24 |
11 à 23 mois | 0.16 |
23 à 61 mois | 0.37 |
Hypothèse PH
Formellement un modèle logistique à temps discret repose sur une hypothèse d’Odds proportionnel (Odds ratios constants pendant la durée d’observation). Contrairement au modèle de Cox, l’estimation des probabilités (risque) n’est pas biaisée si l’hypothèse PH n’est pas respectée.
Comme pour le modèle de Cox, la correction de la non proportionnalité peut se faire en intégrant une interaction avec la durée dans le modèle.
Les variables year et age seront omises pour faciliter la représentation graphique (on repart sur le modèle avec la durée mesurée continue).
= 1,127
Logistic regression Number of obs chi2(5) = 84.78
LR > chi2 = 0.0000
Prob = -233.29204 Pseudo R2 = 0.1538
Log likelihood
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
e -------------+----------------------------------------------------------------
| -.373826 .083913 -4.45 0.000 -.5382924 -.2093595
t
1.surgery | -1.929061 .6920142 -2.79 0.005 -3.285383 -.5727377
|
#c.t |
surgery1 | .0690069 .0333128 2.07 0.038 .003715 .1342987
|
| .0137676 .0052405 2.63 0.009 .0034964 .0240388
t2 | -.0001596 .0000828 -1.93 0.054 -.0003218 2.62e-06
t3
------------------------------------------------------------------------------
: la constante n’est pas reportée. Remarque