Objectif 2023: modèles basés sur des pseudo-observations (Andersen et al - 2003-)
  • Alternative, à première vue intéressante, aux modèles standards (Cox, paramétriques, méthodes à durée discrète/groupée).
  • Pseudo observation: résidu de type Jackknife. Pas d’inquiétude le principe est plutôt simple.
  • Régression sur ces résidus, à un ou plusieurs points de la durée… Fléxible.
    • modèle de type linéaire estimé par le maximum de vraisemblance avec variance robuste.
    • choix d’une fonction de lien pour faciliter l’interprétation des paramètres
  • S’applique à: fonction de Survie et Rmst (Kaplan Meier), CIF (risques concurrents).
  • Pas d’hypothèse de proportionnalité requise.
  • Warning: très très forte dépendance à l’hypothèse de censure non informative. Les pseudos observation sont calculées pour les censures antérieures à la durée sélectionnée.
  • Quelques références (application R et Stata):
  • Comme les Rmst, bonne diffusion de la méthode en médecine et en épidémiologie
  • Mise à jour de ce support pour le premier semestre 2023, beaucoup de tests doivent être fait avec de données type biographiques. La question des évènements simultanés et plus généralement des durées discrètes/groupées n’est pas traitée dans la littérature.
Test Grambsch-Therneau: version simplifiée versus version exacte

Depuis la version 3 du pkg survival (2020), le test permettant d’étudier la validé de l’hypothèse de constance des risques suite à l’estimation d’un modèle de Cox, est celui proposé dans l’article de P.Grambsch et T.Therneau.
Jusqu’à cette version du pkg, une version simplifiée du test était implémenté. C’est également le cas actuellement dans les autres applications statistiques tels que Stata (estat phtest), Sas (proc phreg), Python (lifelines,statmodels).

Dans son principe le test (du score) n’est pas compliqué puisqu’il consiste à introduire une intéraction entre une fonction de la durée et un rapport de risque.

Différence entre le test simplifié et le test exact:

  • Test simplifié: La variance des résidus est celle de l’estimateur du rapport de risque de la covariable. Le test se réduit à une régression linéaire (ordinaire), la standardisation des résidus se fait en leur appliquant la variance du paramètre estimé par le modèle .
  • Test exact: pour chaque résidu on calcule leur variance exacte à partir de la dérivée de l’équation de score. Le test consiste alors à estimer pour chaque covariable une régression linéaire généralisée. On peut retrouver les détails (très) techniques de la méthode dans l’Article de Grambsch-Therneau.

Pour les personnes qui utilisent R, le test “simplifié” a été supprimé du package, ce qui ne me semble pas du tout une bonne idée. Je donne néanmoins un moyen simple de le récupérer et de l’exécuter.
Sur quelques applications (données réelles et simulations réalisées avec le pkg coxed), le choix de la version du test ne semble pas neutre à la métrique temporelle utilisée: continue ou discrète/groupée. Se pose également un problème assez critique de reproductibilité, les résultats variants donc maintenant d’une solution logicielle à une autre ( R versus Stata-Sas-Python), et entre les deux versions du package survival. Comme si le type de transformation/fonction de la durée appliquée au test, également débattu dans la littérature, ne suffisait pas.

Bibliographie (courte mais efficace)
  • Cours de Gilbert Colletaz (version 2016):
  • Document de travail Insee de Simon Quantin (2019): [avec version 2 de la librarie survival]


Support réalisé avec Rstudio - Quarto
Langages utilisés pour la partie programmation: R - Stata - Sas - Python