9  Modèle à durée discrète

On va principalement traiter du modèle logistique à durée discrète.

Avec un lien logistique, le modèle à durée discrète, avec seulement des covariables fixes, peut s’écrire:

\[log\left[\frac{P(Y=1\ |\ t_p,X_k)}{1-P(Y=1\ |\ t_p,X_k)}\right]= a_0 + \sum_{p}a_pf(t_p)+\sum_{k}b_kX_k\]

Les fonctions de lien

On restera ici sur la fonctions de lien logistique, mais bien évidemment les autres fonctions associées à la fonction de masse binomiale sont utilisables.

  • Le lien probit, est a ma connaissance très peut utilisé en analyse des durées. C’est bien évidemment lié aux lectures des paramètres estimés. On peut utiliser des formes standardisés sur l’échelle des probabilités avec des effets marginaux, mais ceux-ci ne pourront pas être généralisés sur l’ajustement de la durée se fait avec une forme quadratique ou à la présence d’une intéraction de quelque forme que ce soit (même problème si lien logistique).

  • Le lien complémentaire log-log, est une alternative bien plus intéressante en raison de son lien avec la relation entre fonction de séjour et risque cumulé. Son utilisation doit être néanmoins d’être réservée à des situations de rareté des probabilités conditionnelles (disons <.10, 0.5 préconisé), ce qui est souvent le cas en analyse de survie 1. Sous cette condition, on peut interpréter directement les estimateurs commes des rapports de risque au sens de l’analyse de survie. On pourra se reporter à l’explication de G.Rodrigez dont le support est en lien la bibliographie du document. Je ferai peut-être un jour une section dédiée dans la partie annexe. La construction mathématique est plutôt simple.

  • Pour information seulement car non testé. Développés dans le domaine l’épidémiologie, il existe des algorithmes forçant l’application du lien \(log(p)\) à une vraisemblance de type binomiale. On parle de modèle log-binomial. Il s’agit bien de la fonction de lien canonique associée à la vraisemblance d’un processus poissonien2 et dont les estimateurs sont indrectement interprétables en rapport de risques. Cette technique ne doit être envisagé qu’avec des incidences supérieurs à 20%. Je n’ai pas d’expérience particulière sur ce type de modèles 3, je ne suis donc pas capable de les évaluer en analyse de durée avec des durées très groupées, mais au niveau outils il semble que les solutions disponibles dans des packages R comme logbin soient à privilégier.

9.1 Organisation des données

Format long

Les données doivent être en format long: pour chaque individu, on a une ligne par durée observée ou par intevalle de durées jusqu’à l’évènement ou la censure. On retrouve le split des données du modèle de Cox pour introduire une variable dynamique, mais généralisé à des intervalles où aucun évènement n’est observé. Avec des données de type discrètes ou groupées, phénomène classique en sciences sociales, il y a souvent peu de différence entre un allongement aux temps d’évènement et aux temps d’observation.

Durée

La durée est dans un premier temps construite sous forme d’un simple compteur, par exemple \(t=1,2,3,4,5...\) (des valeurs non entières sont possibles). Le choix de la forme fonctionnelle de la durée sera présentée plus tard.

Variable évènement/censure

Si l’individu a connu l’évènement, elle prend la valeur 0 avant celui-ci. Au moment de l’évènement sa valeur est égale à 1. Pour les observations censurées, la variable prend toujours la valeur 0. seule la dernière ligne observées peut prendre une valeur non nulle4.

Application
On reprend les données de la base transplantation, mais les durées ont été regroupées par période de 30 jours. Il n’y a pas de durée mesurée comme nulle, et on a considéré que les 30 premiers jours représentaient, le premier mois d’exposition. Cette variable de durée se nomme mois.

Format d’origine

Durée discrète: données en format d’origine
id year age surgery mois died
1 67 30 0 2 1

La personne décède lors du deuxième intervalle de 30 jours

Format long et variables pour l’analyse

Durée discrète: données en format long
id year age surgery mois died t
1 67 30 0 2 0 1
1 67 30 0 2 1 2

9.2 Ajustement de la durée

Un des principaux enjeux réside dans la paramétrisation de la durée:

  • Elle peut-être modélisée sous forme de fonction d’une variable de type quantitative/continue.
  • Elle peut-être modélisée comme variable discrète, de type indicatrice \({0;1}\), sur tous les points d’observation ou sous forme de regroupements. Il doit y avoir au moins un évènement observé dans chaque intervalle.
Le modèle de Cox à durée discrète/groupée

Cox est également à l’origine du modèle à durée discrète (1973). Par rapport aux pratiques courantes, la différence repose sur les bornes intervalles, identiques à celles définies pour l’estimation de la courbe de survie KM ou du modèle semi-paramétrique, à savoir une définition sur les moments d’évènement. Avec un ajustement de la durée reposant sur des indicatrices (ajustement sur des variables discrètes), ce modèle est quasiment identique au modèle semi paramétrique.

On peut remarquer qu’en sciences sociales, avec des durées assez fortement groupées, les intervalles directement observés et les intervalles définis aux moments d’évènements sont souvent identiques et s’ils ne le sont pas c’est souvent en tout début ou en toute fin de la période d’observation/exposition. En cas d’ajustement de la durée par des indicatrices, la définition des bornes des intervalles aux moments des évènements permet de s’assurer de la présence d’au moins une occurence .

9.2.1 Ajustement avec une fonction quantitative de la durée

Le modèle étant paramétrique, on doit trouver une fonction qui ajuste le mieux les données. Toute transformation de la variable est possible: \(f(t)=a\times t\), \(f(t)=a\times log(t)\)……formes quadratiques. Les ajustements sous forme de splines cubiques tendent à se développer ces dernières années.

Pour sélectionner cette fonction, on peut tester différents modèles sans covariable additionnelle [\(g(y(t))=f(t)\)], et sélectionner la forme dont le critère d’information de type vraisemblance pénalisée (AIC, BIC) est le plus faible, avec au moins des différences de -6 ou -8.

Exemple:
On va tester les paramétrisations suivantes: une forme linéraire stricte \(f(t)=a\times t\) et des effets quadratiques d’ordres 2 et 3: \(f(t)=a_1\times t + a_2\times t^{2}\) et \(f(t)=a_1\times t + a_2\times t^{2} + a_3\times t^{3}\).

Probabilité de décéder avec 3 ajustements de la durée

Probabilité de décéder avec 3 ajustements de la durée

Critères AIC

\(f(t)\) AIC
\(a\times t\) 504
\(a_1\times t + a_2\times t^{2}\) 492
\(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\) 486

On peut utiliser la troisième forme à savoir \(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\) 5.

Estimation du modèle avec toutes les covariables

Modèle logistique à durée discrète (\(f(t)\) continue)
Variables OR - RR Std. err z P>|z| 95% IC
\(t\) 0.678 0.057 -4.52 0.000 0.587 ; 0.810
\(t^2\) 1.014 0.005 +2.83 0.005 1.004 ; 1.024
\(t^3\) 1.000 0.000 -2.11 0.035 1.000 ; 1.000
\(year\) 0.876 0.015 -1.80 0.072 0.758 ; 1.012
\(age\) 1.034 0.163 +2.27 0.023 1.005 ; 1.064
\(surgery\) 0.364 0.110 -2.25 0.024 0.151 ; 0.877
Constante 0.440 0.110 -3.29 0.001 0.270 ; 0.718

Remarque: les variables year et age ont été centrées sur leur moyenne pour rendre la constante interprétable. La constante reporte donc l’Odds de décéder lors des 30 premiers jours d’une personne dont l’âge et l’année à l’entrée dans le registre à l’âge moyen et à l’année moyenne, et qui n’a pas été opéré préalablement pour un pontage.

Si maintenant on estime un modèle de Cox sur ces données journalières groupées, on remarque que les résultats obtenus, et ce n’est pas une surprise, sont très proches.

Modèle de Cox
Variables OR - RR Std. err z P>|z| 95% IC
\(year\) 0.878 0.059 -1.93 0.053 0.769 ; 1.002
\(age\) 1.029 0.014 +2.13 0.033 1.002 ; 1.057
\(surgery\) 0.379 0.165 -2.22 0.026 0.111 ; 0.892

9.2.2 Ajustement discret

  • Il s’agit d’introduire la variable de durée dans le modèle comme une variable catégorielle (indicatrices).
  • Cette option n’est pas conseillée si on a beaucoup de points d’observation, ce qui est le cas ici.
  • A l’inverse, si peu de points d’observation la paramétrisation avec une durée continue n’est pas conseillé.
  • La correction de la non proportionnalité peut être plus compliquée à mettre en oeuvre.

On va supposer que l’on ne dispose que de 4 intervalles d’observation. Pour l’exemple, on va créer ces points à partir des quartiles de la durée, et conserver pour chaque personne une seule observation par intervalle.

  • \(t=1\): Entre le début de l’exposition et 4 mois.
  • \(t=2\): Entre 5 mois et 11 mois .
  • \(t=3\): Entre 12 mois et 23 mois.
  • \(t=4\): 24 mois et plus.

On va estimer le risque globalement sur l’intervalle. La base sera plus courte que la précédente (197 observations pour 103 individus). Il ne sera plus possible ici d’interpréter les résultats en termes de rapport de probabilité, l’évènement devenant trop fréquent à l’intérieur de chaque intervalle.

Modèle logistique à durée discrète (\(f(t)\) indicatrices)
Variables OR Std. err z P>|z| 95% IC
\(0-4 mois\) 2.811 1.177 +2.47 0.014 1.237 ; 6.387
\(5-11 mois\) ref - - - -
\(12-23 mois\) 0.559 0.346 -0.94 0.347 0.166 ; 1.881
\(24-46 mois\) 1.741 1.159 +0.83 0.405 0.472 ; 6.417
\(year\) 0.816 0.076 -2.18 0.029 0.680 ; 0.980
\(age\) 1.048 0.019 +2.53 0.011 1.011 ; 1.087
\(surgery\) 0.330 0.166 -2.21 0.027 0.123 ; 0.882
Constante 0.407 0.151 2.43 0.015 0.198 ; 0.840

On trouve des résultats proches de ceux éstimés avec un ajustement continu de la durée. C’est normal, la dirée fait office de variable d’ajustement peu ou pas corrélée avec les autres variables introduites.

Variables Ajustement discret Ajustement continu
\(year\) 0.816 0.876
\(age\) 1.048 1.034
\(surgery\) 0.330 0.364
Lien avec des modèles usuels à durée continue

Si la durée discrète/groupée sous tend une durée continue (ce qui est clairement le cas ici):

  • L’ajustement avec des durées sous forme d’indicatrices correspond au modèle à durée discrète défini par Cox. Il est également assimilable à un modèle appelé exponential piecewice constant (soit un modèle de poisson).
  • Si l’ajustement se fait en utilisation une transformation de la durée par une fonction:
    • \(f(t)= log(t)\) correspond à un modèle de Weibull à risque proportionnel 6.
  • Si l’ajustement se fait avec des splines cubiques, le modèle à durée discrète correspond à un modèle de type Parmar-Royston.

9.3 Proportionnalité des risques

  • Formellement un modèle logistique à durée discrète/groupée repose sur une hypothèse d’Odds proportionnels [Odds ratios constants pendant la durée d’observation]. Contrairement au modèle de Cox, l’estimation des probabilités (risque) n’est pas biaisée si l’hypothèse PH n’est pas respectée, les paramètres estimés seront considérés au pire comme des approximation…. problématique d’intéraction oblige.

  • Comme pour le modèle de Cox, la correction de la non proportionnalité peut se faire en intégrant une interaction avec la durée dans le modèle.

Avec un ajustement continue, on remarque de nouveau que le résultat du modèle est très proche de celui estimé avec un modèle de Cox.

Modèle logistique à durée discrète avec correction de la non proportionnalité
Variables OR - RR Std. err z P>|z| 95% CI
\(t\) 0.702 0.059 -4.2 0.000 0.595 ; 0.828
\(surgery(t=0)\) 0.155 0.108 -2.67 0.008 0.039 ; 0.609
\(surgery\times t\) 1.072 0.036 2.08 0.037 1.004 ; 1.145
\(t^2\) 1.013 0.005 2.37 0.018 1.002 ; 1.023
\(t^3\) 1.00 0.000 -1.71 0.086 1.000 ; 1.000
\(year\) 0.872 0.064 -1.86 0.062 0.755 ; 1.007
\(age\) 1.033 0.015 2.23 0.026 1.004 ; 1.063
\(constante\) 0.445 0.112 -3.22 0.001 0.272 ; 0.728

Avec une sépcification dépendant seulement de la durée (pour le graphique:

Probabilité de décéder après correction de la non proportionnalité pour la variable surgery

Probabilité de décéder après correction de la non proportionnalité pour la variable surgery

  1. la distribution des probabilités sous cette loi n’est pas, contrairement aux lois normale ou logistique, symétriques. Dans ce qui suit, il n’est pas conseillé de l’utiliser dans l’application avec l’ajustement sous forme d’indicatrices avec seulement 4 intervalles↩︎

  2. Non traité dans ce support, une méthode d’estimation en analyse de survie se nomme counting process et utilise des méthodes d’estimation de type poissonien↩︎

  3. je remercie néanmoins Emilie Counil et Nargès Gouhoubi pour l’information↩︎

  4. J’anticipe la version multinomiale pour les risques concurrents↩︎

  5. Ce n’est pas le cas ici, mais si on sélectionne une forme cubique, je conseille vivement de regarder les probabilités conditionnelles prédites, en particulier en fin de périodes d’observation/exposition si peu d’individus restent soumis au risque. On peut rencontrer des problèmes d’overfitting avec des probabilités conditionnelles estimées trop proche de 1. Pour les personnes qui suivent la formation, c’est le cas avec les données des TP↩︎

  6. Voir la très courte section sur les modèles paramétriques usuels↩︎