9  Modèle à durée discrète

On va principalement traiter du modèle logistique à durée discrète.

Avec un lien logistique, le modèle à durée discrète, avec seulement des covariables fixes, peut s’écrire:

\[log\left[\frac{P(Y=1\ |\ t_p,X_k)}{1-P(Y=1\ |\ t_p,X_k)}\right]= a_0 + \sum_{p}a_pf(t_p)+\sum_{k}b_kX_k\]

Les fonctions de lien

On restera ici sur la fonctions de lien logistique, mais bien évidemment les autres fonctions associées à la fonction de masse binomiale sont utilisables. La seconde qui sera rapidemment exposée mérité une attention particulière.

  • Le lien probit, est a ma connaissance très peut utilisé en analyse des durées. C’est bien évidemment lié aux lectures des paramètres estimés. On peut utiliser des formes standardisés sur l’échelle des probabilités avec des effets marginaux, mais ceux-ci ne pourront pas être généralisés sur l’ajustement de la durée se fait avec une forme quadratique ou à la présence d’une intéraction de quelque forme que ce soit (même problème si lien logistique).

  • Le lien complémentaire log-log, est une alternative bien plus intéressante en raison de son lien avec la relation entre fonction de séjour et risque cumulé. Son utilisation se doit néanmoins d’être réservé à des situations de rareté des probabilités conditionnelles (disons <.10), ce qui est souvent le cas en analyse de survie 1. Sous cette condition, on peut interpréter directement les estimateurs commes des rapports de risque au sens de l’analyse de survie. On pourra se reporter à l’explication de G.Rodrigez dont le support est dans la bibliographie du document. Je ferai peut-être un jour une section dédiée dans la partie annexe. La construction mathématique est plutôt intéressante.

  • Pour information seulement car non testé: développés dans le domaine l’épidémiologie, il existe des algorithmes forçant l’application du lien \(log(p)\) à une vraisemblance binomiale. On parle de modèle log-binomial. Il s’agit bien de la fonction de lien canonique associée à la vraisemblance d’un processus poissonien (on en ai pas loin en analyse des durées) et dont les estimateurs sont idrectement interprétables en rapport de risque. Cette technique ne doit être envisagé qu’avec des probabilités d’incidences dans les intervalles de durées supérieurs à 20%. Je n’ai pas d’expérience particulière sur ce type de modèles 2, je ne suis pas capable de les évaluer en analyse de durée avec des données très groupées, mais au niveau application il semble que les solutions disponibles dans des packages R comme logbin sont à privilégier.

9.1 Organisation des données

Format long

Les données doivent être en format long: pour chaque individu on a une ligne par durée observée ou par intevalle de durées jusqu’à l’évènement ou la censure. On retrouve le split des données du modèle de Cox, mais généralisé à des intervalles où aucun évènement n’est observé. Avec des données de type discrètes ou groupées, phénomène classique en sciences sociales, il y a souvent peu de différence entre un allongement aux temps d’évènement et aux temps d’observation (voir encadré plus loin sur le modèle d Cox à temps discret).

Durée

La durée est dans un premier temps construite sous forme d’un simple compteur, par exemple \(t=1,2,3,4,5...\) (des valeurs non entières sont possibles). Le choix de la forme fonctionnelle de la durée sera présentée plus tard.

Variable évènement/censure

Si l’individu a connu l’évènement, elle prend la valeur 0 avant celui-ci. Au moment de l’évènement sa valeur est égale à 1. Pour les observations censurées, la variable prend toujours la valeur 0.

Application
On reprend les données de la base transplantation, mais les durées ont été regroupées par période de 30 jours. Il n’y a pas de durée mesurée comme nulle, on a considéré que les 30 premiers jours représentaient, le premier mois d’exposition. Cette variable de durée se nomme mois.

Format d’origine

Durée discrète: données en format d’origine
id year age surgery mois died
1 67 30 0 2 1

La personne décède lors du deuxième intervalle de 30 jours

Format long et variables pour l’analyse

Durée discrète: données en format long
id year age surgery mois died t
1 67 30 0 2 0 1
1 67 30 0 2 1 2

9.2 Ajustement de la durée

Un des principaux enjeux réside dans la paramétrisation de la durée:

  • Elle peut-être modélisée sous forme de fonction d’une variable de type quantitative/continue.
  • Elle peut-être modélisée comme variable discrète, de type indicatrice \({0;1}\), sur tous les points d’observation ou sous forme de regroupements. Il doit y avoir au moins un évènement observé dans chaque intervalle.
Le modèle de Cox à durée discrète/groupée

Cox est également à l’origine du modèle à durée discrète (je crois également en 1972). Par rapport aux pratiques courantes, la différence repose sur les bornes intervalles, identiques à celles définies pour l’estimation de la courbe de survie KM ou du modèle semi-paramétrique, à savoir une définition sur les moments d’évènement. Avec un ajustement de la durée reposant sur des indicatrices (ajustement sur des variables discrètes), ce modèle est quasiment identique au modèle semi paramétrique.

On peut remarquer que dans les sciences sociales, avec des durées assez fortement groupées, les intervalles directement observés et les intervalles définis aux moments d’évènements sont souvent identiques et s’ils ne le sont pas c’est souvent en tout début ou en toute fin de la période d’observation/exposition. En cas d’ajustement de la durée par des indicatrices, la définition des bornes des intervalles aux moments des évènements permet de s’assurer au moins une occurence de l’évènement.

9.2.1 Ajustement avec une fonction quantitative de la durée

Le modèle étant paramétrique, on doit trouver une fonction qui ajuste le mieux les données. Toutes transformations de la variable est possible: \(f(t)=a\times t\), \(f(t)=a\times log(t)\)……formes quadratiques. Les ajustements sous forme de splines cubiques tendent à se développer ces dernières années.

Pour sélectionner cette fonction, on peut tester différents modèles sans covariable additionnelle, et sélectionner la forme dont le critère d’information de type vraisemblance pénalisée (AIC, BIC) est le plus faible, avec au moins des différences de -6 ou -8.

Exemple:
On va tester les paramétrisations suivantes: une forme linéraire stricte \(f(t)=a\times t\) et des effets quadratiques d’ordres 2 et 3: \(f(t)=a_1\times t + a_2\times t^{2}\) et \(f(t)=a_1\times t + a_2\times t^{2} + a_3\times t^{3}\).

Probabilité de décéder avec 3 ajustements de la durée

Critères AIC

\(f(t)\) AIC
\(a\times t\) 504
\(a_1\times t + a_2\times t^{2}\) 492
\(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\) 486

On peut utiliser la troisième forme à savoir \(a_1\times t + a_2\times t^{2} + a_3\times t^{3}\) 3.

Estimation du modèle avec toutes les covariables

Modèle logistique à durée discrète (\(f(t)\) continue)
Variables OR - RR Std. err z P>|z| 95% IC
\(t\) 0.678 0.057 -4.52 0.000 0.587 ; 0.810
\(t^2\) 1.014 0.005 +2.83 0.005 1.004 ; 1.024
\(t^3\) 1.000 0.000 -2.11 0.035 1.000 ; 1.000
\(year\) 0.876 0.015 -1.80 0.072 0.758 ; 1.012
\(age\) 1.034 0.163 +2.27 0.023 1.005 ; 1.064
\(surgery\) 0.364 0.110 -2.25 0.024 0.151 ; 0.877
Constante 0.440 0.110 -3.29 0.001 0.270 ; 0.718

Remarque: les variables year et age ont été centrée sur leur moyenne pour rendre la constante interprétable. La constante reporte donc l’Odds de décéder lors des 30 premiers jours d’une personne dont l’âge et l’année à l’entrée dans le registre est égal à l’âge et à l’année moyenne et qui n’a pas été opéré préalablement.

Si maintenant on estime un modèle de Cox sur ces données journalières groupées, on remarque que les résultats obtenus, et ce n’est pas une surprise, sont très proches.

Modèle de Cox
Variables OR - RR Std. err z P>|z| 95% IC
\(year\) 0.878 0.059 -1.93 0.053 0.769 ; 1.002
\(age\) 1.029 0.014 +2.13 0.033 1.002 ; 1.057
\(surgery\) 0.379 0.165 -2.22 0.026 0.111 ; 0.892

9.2.2 Ajustement discret

  • Il s’agit d’introduire la variable de durée dans le modèle comme une variable catégorielle (indicatrices).
  • Démarche pas conseillé si on a beaucoup de points d’observation, ce qui est le cas ici.
  • A l’inverse, si peu de points d’observation la paramétrisation avec une durée continue n’est pas conseillé.
  • La correction de la non proportionnalité peut être plus compliquée à mettre en oeuvre.

On va supposer que l’on ne dispose que de 4 intervalles d’observation. Pour l’exemple, on va créer ces points à partir des quartiles de la durée, et conserver pour chaque personne une seule observation par intervalle.

  • \(t=1\): Entre le début de l’exposition et 4 mois.
  • \(t=2\): Entre 5 mois et 11 mois .
  • \(t=3\): Entre 12 mois et 23 mois.
  • \(t=4\): 24 mois et plus.

On va estimer le risque globalement sur l’intervalle. La base sera plus courte que la précédente (197 observations pour 103 individus). Il ne sera plus possible ici d’interpréter les résultats en termes de rapport de probabilité, l’évènement devenant trop fréquent à l’intérieur de chaque intervalle.

Modèle logistique à durée discrète (\(f(t)\) indicatrices)
Variables OR - RR Std. err z P>|z| 95% IC
\(0-4 mois\) 2.811 1.177 +2.47 0.014 1.237 ; 6.387
\(5-11 mois\) ref - - - -
\(12-23 mois\) 0.559 0.346 -0.94 0.347 0.166 ; 1.881
\(24-46 mois\) 1.741 1.159 +0.83 0.405 0.472 ; 6.417
\(year\) 0.816 0.076 -2.18 0.029 0.680 ; 0.980
\(age\) 1.048 0.019 +2.53 0.011 1.011 ; 1.087
\(surgery\) 0.330 0.166 -2.21 0.027 0.123 ; 0.882
Constante 0.407 0.151 2.43 0.015 0.198 ; 0.840

On trouve des résultats proches de ceux éstimés avec un ajustement continu de la durée. C’est normal, la dirée fait office de variable d’ajustement peu ou pas corrélée avec les autres variables introduites.

Variables Ajustement discret Ajustement continu
\(year\) 0.816 0.876
\(age\) 1.048 1.034
\(surgery\) 0.330 0.364
Lien avec des modèles usuels à durée continue

Si la durée discrète/groupée sous tend une durée continue (ce qui est clairement le cas ici):

  • On l’a déjà souligné, l’ajustement avec des durées sous forme d’indicatrices correspond au modèle à durée discrète défini par Cox, et le plus proche du modèle semi-paramétrique. Il est également assimilable à un modèle de type exponential piecewice constant (donc un modèle de poisson).
  • Si l’ajustement se fait en utilisation une transformation de la durée par une fonction:
    • \(f(t)= log(t)\) correspond à un modèle de Weibull à risque proportionnel 4.
  • Si l’ajustement se fait avec des splines cubiques, le modèle à durée discrète correspond à un modèle de type Parmar-Royston. Avec une forme quadratique classique, on peut également obtenir cette correspondance.

9.3 Proportionnalité des risques

  • Formellement un modèle logistique à temps discret repose sur une hypothèse d’Odds proportionnel [Odds ratios constants pendant la durée d’observation]. Contrairement au modèle de Cox, l’estimation des probabilités (risque) n’est pas biaisée si l’hypothèse PH n’est pas respectée, les paramètres estimés sont considérés au pire comme des approximation.

  • Comme pour le modèle de Cox, la correction de la non proportionnalité peut se faire en intégrant une interaction avec la durée dans le modèle.

Avec un ajustement continue, on remarque de nouveau que le résultat du modèle est de nouveau très proche de celui estimé avec un modèle de Cox.

Modèle logistique à durée discrète avec correction de la non proportionnalité
Variables OR - RR Std. err z P>|z| 95% CI
\(t\) 0.702 0.059 -4.2 0.000 0.595 ; 0.828
\(surgery(t=0)\) 0.155 0.108 -2.67 0.008 0.039 ; 0.609
\(surgery\times t\) 1.072 0.036 2.08 0.037 1.004 ; 1.145
\(t^2\) 1.013 0.005 2.37 0.018 1.002 ; 1.023
\(t^3\) 1.00 0.000 -1.71 0.086 1.000 ; 1.000
\(year\) 0.872 0.064 -1.86 0.062 0.755 ; 1.007
\(age\) 1.033 0.015 2.23 0.026 1.004 ; 1.063
\(constante\) 0.445 0.112 -3.22 0.001 0.272 ; 0.728

Si on avait omis les variables year et age du modèle:

Probabilité de décéder après correction de la non proportionnalité pour la variable surgery

  1. la distribution des probabilités sous cette loi n’est pas, contrairement aux lois normale ou logistique, symétrique. Dans ce qui suit, il ne serait pas conseillé de l’utiliser dans l’application avec l’ajustement sous forme d’indicatrice avec seulement 4 intervalles↩︎

  2. je remercie Emilie Counil et Nargès Gouhoubi pour m’avoir informé de leur existence↩︎

  3. Ce n’est pas le cas ici, mais si on sélectionne une forme cubique, je conseille vivement de regarder les probabilités conditionnelle obtenues, en particulier en fin de périodes d’observation/exposition si peut d’individu reste soumis au risque. On peut rencontrer des problèmes d’overfitting avec des probabilités conditionnelles estimées trop proche de 1. Pour les personnes qui suivent la formation, c’est le cas avec les données des TP↩︎

  4. voir la courte section sur les modèle paramétriques usuels↩︎