10 Variables dynamiques

Cette section sera principalement traitée par l’exemple, et on ne s’intéressera qu’aux variables de type discrète, avec une covariable.

Dans un modèle de durée, une variable dynamique peut-être appréhendée comme une intéraction entre la durée et une variable quantitative.
Pour un modèle de Cox, l’hypothèse de risque proportionnel ne peut donc pas être testée sur ce type de variable.
Ne pas tenir compte du caractère dynamique d’une dimension peut conduire à des interprétations erronées.
Warning: la façon de modéliser les dimensions dynamiques en analyse des durées peut conduire à des biais de causalité, en particulier en sciences sociales, en omettant les effets d’anticipation. C’est une situation classique avec des covariables dynamiques de type discrètes. Les techniques standards ne peuvent modéliser que des effets d’adaptation : la cause - observée - précède l’effet.

10.1 Facteur dynamique traitée de manière fixe

On reprend l’exemple sur malformation cardiaque, en ajoutant la variable relative à la greffe. La question est donc de savoir si une transplantation du coeur réduit le risque journalier de décéder (ou augmente la durée journalière de survie).
On a dans la base 2 variables: une variable binaire pour savoir si l’individu à été greffé ou non, transplant, et la variable wait de type continue tronquée donnant la durée en jour jusqu’à l’opération depuis l’inscription dans le registre (0 si $transplant=0$).

On va dans un premier temps estimer le modèle de Cox avec la variable fixe transplant.

Modèle de cox avec une variable dynamique (binaire) traitée de manière fixe (estimation biaisée
Variables	HR	Std. err	z	P>\|z\|	95% CI
year	0.910	0.060	-1.42	0.155	0.799 ; 1.036
age	1.054	0.015	3.71	0.000	1.025 ; 1.084
surgery	0.541	0.243	-1.37	0.171	0.224 ; 1.304
transplant	0.278	0.088	-4.06	0.000	0.150 ; 0.515
wait	0.992	0.005	-1.50	0.134	0.982 ; 1.002

Interprétation: traitée de manière fixe, la greffe réduit donc sensiblement le risque journalier de décéder (HR=0.278). De même on peut admettre une certaine cohérence pour la durée jusqu’à la transplantation: plus elle est précoce et plus les personnes survivent (HR=0.992).

Sauf que…..

Au niveau des données le modèle à été estimé, pour une personne greffée (ici id=70), à partir de ce mapping:

Mapping de la base avec une variable dynamique binaire traitée de manière fixe
id	year	age	transplant	wait	died	$t_0$	$t$
70	72	52	1	5	0	0	1
70	72	52	1	5	0	1	2
70	72	52	1	5	0	2	3
70	72	52	1	5	0	3	5
70	72	52	1	5	0	5	6
70	72	52	1	5	0	6	8
70	72	52	1	5	0	8	9
70	72	52	1	5	0	9	12
70	72	52	1	5	0	12	16
70	72	52	1	5	0	16	17
70	72	52	1	5	0	17	18
70	72	52	1	5	0	18	21
70	72	52	1	5	0	21	28
70	72	52	1	5	1	28	30

Une personne est codée greffée avant le jour de la transplantation. Si on cherche à mesurer un effet causal, il est donc mal spécifié. Sa dimension temporelle ayant été ignorée, soit ici le jour exact de l’opération. C’est le même principe pour l’évènement, la personne est codée décédée (1) le jour du décès, et vivante avant (0).

10.2 Estimation avec une variable dynamique

Il convient donc de modifier l’information avec le délai d’attente jusqu’à la greffe. Le principe de construction de la variable dynamique, quelle que soit le logiciel utilisé, doit suivre la logique suivante:

$tvc = transplant$ , si $transplant=1$ et $t<wait$ alors $tvc=0$

10.2.1 Modèle de Cox

Mapping correct de la base avec une variable dynamique binaire
id	year	age	transplant	wait	died	$t_0$	$t$	TVC
70	72	52	1	5	0	0	1	0
70	72	52	1	5	0	1	2	0
70	72	52	1	5	0	2	3	0
70	72	52	1	5	0	3	5	0
70	72	52	1	5	0	5	6	1
70	72	52	1	5	0	6	8	1
70	72	52	1	5	0	8	9	1
70	72	52	1	5	0	9	12	1
70	72	52	1	5	0	12	16	1
70	72	52	1	5	0	16	17	1
70	72	52	1	5	0	17	18	1
70	72	52	1	5	0	18	21	1
70	72	52	1	5	0	21	28	1
70	72	52	1	5	1	28	30	1

Si on estime maintenant le modèle avec cette variable dynamique qui indique clairement le moment de la transition (jour de la greffe):

Modèle de Cox avec une variable dynamique binaire
Variables	HR	Std. err	z	P>\|z\|	95% CI
$year$	0.887	0.060	-1.79	0.074	0.777 ; 1.012
$age$	1.031	0.014	2.19	0.029	1.003 ; 1.059
$surgery$	0.374	0.163	-2.25	0.024	0.159 ; 0.880
$TVC transplantation$	0.921	0.281	-0.27	0.787	0.507 ; 1.674

L’impact de la greffe apparaît maintenant bien plus modéré sur la survie des individus. Cela ne signifie pas non plus que des personnes ont pu être sauvée grâce à cette opération (ou plutôt leur durée de vie augmentée), mais des complications lors de l’opération ou post-opératoire, surtout à une époque où ces techniques étaient à leurs balbutiements, ont pu également accélérer la mortalité. Il faut également garder en tête que l’état de santé des personnes est particulièrement dégradé, cette opération étant celle de la dernière chance.

R - Stata - Python - Sas

R - Stata, Python

La base doit être transformée en format long aux temps d’évènement (survsplit avec R, stsplit avec Stata) avant la création de la variable dynamique.

10.2.1.1 Sas

La base n’est pas modifiée et la création de la TVC est faite en aveugle dans la procédure phreg, après l’instruction model. Ce n’est franchement pas super.

:::

10.2.2 Modèle à temps discret

Même principe pour la construction de la variable dynamique. Pour rappel l’échelle temporelle est le mois, on a créé en amont une variable qui regroupe les valeurs de la variable wait en périodes de 30 jours.

Modèle logistique à durée discrète avec variable dynamique binaire
Variables	OR - RR	Std. err.	z	P>\|z\|	95% IC
$t$	0.686	0.070	-3.71	0.000	0.562 ; 0.837
$t^2$	1.015	0.006	2.53	0.011	1.003 ; 1.026
$t^3$	1.000	0.000	-1.97	0.049	1.000 ; 1.000
$year$	0.876	0.065	-1.79	0.073	0.758 ; 1.012
$age$	1.034	0.015	2.22	0.027	1.004 ; 1.064
$surgery$	0.363	0.163	-2.25	0.024	0.151 ; 0.876
$TVC \; greffe$	1.029	0.355	0.08	0.934	0.524 ; 2.022

$Constante$	0.440	0.110	-3.29	0.001	0.270 ; 0.718

10.3 Précautions à prendre

Rappel: la cause doit précèder l’effet.
Lorsque l’évènement étudié n’est pas intrinsèquement de type absorbant comme le décès, la cause peut se manifester ou plutôt être observée après la survenue de l’évènement étudié. Les modèles de durée standards ne peuvent pas gérer ces situations car l’observation sort du risque après la survenue de l’évènement. Il y a d’autres techniques, par exemple de type économétrique, qui tente de traiter ce genre de situations (je n’en ai pas l’évaluation).
Même si la cause est bien mesurée avant l’évènement d’intérêt, un choc n’est peut-être qu’un point final d’un processus causal antérieur: une séparation est rarement un évènement ponctuel du jour au lendemain, une phase plus ou moins longue de mésentente dans le couple lui a vraisemblablement préexister. La datation du début d’un processus causal n’est donc pas toujours facile à mesurer.
- Logique d’adaptation: la cause identifiée est mesurée avant l’évènement étudié.
- Logique d’anticipation: la cause identifiée est mesurée après l’occurrence de l’évènement étudié. L’origine causale est bien antérieure à l’évènement, mais elle n’est pas directement observable.
Lorsque les variables dynamiques sont de type quantitatives/continues, on doit aussi prendre en compte ces phénomènes d’anticipation sur les valeurs attendues de ces variables, observées postérieurement à l’évènement étudié. On peut introduire des « lags » dans le modèle pour saisir ce phénomène : par exemple $x_t= x_{t+1}$. Ce décalage des durées d’occurrence peut être aussi introduite pour les variables discrètes (naissance d’un enfant par exemple).

--- #title: "**Variables dynamiques**" --- # Variables dynamiques Cette section sera principalement traitée par l'exemple, et on ne s'intéressera qu'aux variables de type discrète, avec une covariable. * Dans un modèle de durée, une variable dynamique peut-être appréhendée comme une intéraction entre la durée et une variable quantitative. * Pour un modèle de Cox, l'hypothèse de risque proportionnel ne peut donc pas être testée sur ce type de variable. * Ne pas tenir compte du caractère dynamique d'une dimension peut conduire à des interprétations erronées. * ***Warning***: la façon de modéliser les dimensions dynamiques en analyse des durées peut conduire à des biais de causalité, en particulier en sciences sociales, en omettant les *effets d'anticipation*. C'est une situation classique avec des covariables dynamiques de type discrètes. Les techniques standards ne peuvent modéliser que des *effets d'adaptation* : la cause - observée - précède l'effet. ## Facteur dynamique traitée de manière fixe On reprend l'exemple sur malformation cardiaque, en ajoutant la variable relative à la greffe. La question est donc de savoir si une transplantation du coeur réduit le risque journalier de décéder (ou augmente la durée journalière de survie). On a dans la base 2 variables: une variable binaire pour savoir si l'individu à été greffé ou non, **transplant**, et la variable *wait* de type continue tronquée donnant la durée en jour jusqu'à l'opération depuis l'inscription dans le registre (0 si $transplant=0$). On va dans un premier temps estimer le modèle de Cox avec la variable fixe *transplant*. | Variables | HR | Std. err | z | P\>\|z\| | 95% CI | |------------|-------|----------|-------|----------|---------------| | year | 0.910 | 0.060 | -1.42 | 0.155 | 0.799 ; 1.036 | | age | 1.054 | 0.015 | 3.71 | 0.000 | 1.025 ; 1.084 | | surgery | 0.541 | 0.243 | -1.37 | 0.171 | 0.224 ; 1.304 | | transplant | 0.278 | 0.088 | -4.06 | 0.000 | 0.150 ; 0.515 | | wait | 0.992 | 0.005 | -1.50 | 0.134 | 0.982 ; 1.002 | : Modèle de cox avec une variable dynamique (binaire) traitée de manière fixe (estimation biaisée Interprétation: traitée de manière fixe, la greffe réduit donc sensiblement le risque journalier de décéder (HR=0.278). De même on peut admettre une certaine cohérence pour la durée jusqu'à la transplantation: plus elle est précoce et plus les personnes survivent (HR=0.992). Sauf que..... Au niveau des données le modèle à été estimé, pour une personne greffée (ici id=70), à partir de ce mapping: | id | year | age | surgery | transplant | wait | died | $t_0$| $t$ | |-----|------|-----|---------|------------|------|------|-------|------| | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 0 | 1 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 1 | 2 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 2 | 3 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 3 | 5 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 5 | 6 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 6 | 8 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 8 | 9 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 9 | 12 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 12 | 16 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 16 | 17 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 17 | 18 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 18 | 21 | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 21 | 28 | | 70 | 72 | 52 | 0 | 1 | 5 | 1 | 28 | 30 | : Mapping de la base avec une variable dynamique binaire traitée de manière fixe Une personne est codée greffée avant le jour de la transplantation. Si on cherche à mesurer un ***effet causal***, il est donc mal spécifié. Sa dimension temporelle ayant été ignorée, soit ici le jour exact de l'opération. C'est le même principe pour l'évènement, la personne est codée décédée (1) le jour du décès, et vivante avant (0). ## Estimation avec une variable dynamique Il convient donc de modifier l'information avec le délai d'attente jusqu'à la greffe. Le principe de construction de la variable dynamique, quelle que soit le logiciel utilisé, doit suivre la logique suivante: $tvc = transplant$ , si $transplant=1$ et $t<wait$ alors $tvc=0$ ### Modèle de Cox | id | year | age | surgery | transplant | wait | died | $t_0$| $t$ | **TVC** | |-----|------|-----|---------|------------|------|------|-------|------|---------| | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 0 | 1 | **0** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 1 | 2 | **0** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 2 | 3 | **0** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 3 | 5 | **0** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 5 | 6 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 6 | 8 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 8 | 9 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 9 | 12 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 12 | 16 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 16 | 17 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 17 | 18 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 18 | 21 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 0 | 21 | 28 | **1** | | 70 | 72 | 52 | 0 | 1 | 5 | 1 | 28 | 30 | **1** | : Mapping correct de la base avec une variable dynamique binaire Si on estime maintenant le modèle avec cette variable dynamique qui indique clairement le moment de la transition (jour de la greffe): | Variables | HR | Std. err | z | P\>\|z\| | 95% CI | |-----------------------|-------|----------|-------|----------|---------------| | $year$ | 0.887 | 0.060 | -1.79 | 0.074 | 0.777 ; 1.012 | | $age$ | 1.031 | 0.014 | 2.19 | 0.029 | 1.003 ; 1.059 | | $surgery$ | 0.374 | 0.163 | -2.25 | 0.024 | 0.159 ; 0.880 | | $TVC transplantation$ | 0.921 | 0.281 | -0.27 | 0.787 | 0.507 ; 1.674 | : Modèle de Cox avec une variable dynamique binaire L'impact de la greffe apparaît maintenant bien plus modéré sur la survie des individus. Cela ne signifie pas non plus que des personnes ont pu être *sauvée* grâce à cette opération (ou plutôt leur durée de vie augmentée), mais des complications lors de l'opération ou post-opératoire, surtout à une époque où ces techniques étaient à leurs balbutiements, ont pu également accélérer la mortalité. Il faut également garder en tête que l'état de santé des personnes est particulièrement dégradé, cette opération étant celle de la *dernière chance*. R - Stata - Python - Sas ::: panel-tabset #### R - Stata, Python La base doit être transformée en format long aux temps d'évènement (`survsplit` avec R, `stsplit` avec Stata) avant la création de la variable dynamique. ::: #### Sas {{< fa solid cross>}} La base n'est pas modifiée et la création de la TVC est faite *en aveugle* dans la procédure `phreg`, après l'instruction `model`. Ce n'est franchement pas super. ::: ### Modèle à temps discret Même principe pour la construction de la variable dynamique. Pour rappel l'échelle temporelle est le mois, on a créé en amont une variable qui regroupe les valeurs de la variable *wait* en périodes de 30 jours. | Variables | OR - RR | Std. err. | z | P\>\|z\| | 95% IC | |-----------------|---------|------------|---------|-----------|-----------------| | $t$ | 0.686 | 0.070 | -3.71 | 0.000 | 0.562 ; 0.837 | | $t^2$ | 1.015 | 0.006 | 2.53 | 0.011 | 1.003 ; 1.026 | | $t^3$ | 1.000 | 0.000 | -1.97 | 0.049 | 1.000 ; 1.000 | | $year$ | 0.876 | 0.065 | -1.79 | 0.073 | 0.758 ; 1.012 | | $age$ | 1.034 | 0.015 | 2.22 | 0.027 | 1.004 ; 1.064 | | $surgery$ | 0.363 | 0.163 | -2.25 | 0.024 | 0.151 ; 0.876 | | $TVC \; greffe$ | 1.029 | 0.355 | 0.08 | 0.934 | 0.524 ; 2.022 | | | | | | | | | $Constante$ | *0.440* | *0.110* | *-3.29* | *0.001* | *0.270 ; 0.718* | : Modèle logistique à durée discrète avec variable dynamique binaire ## Précautions à prendre * Rappel: la cause doit précèder l'effet. * Lorsque l'évènement étudié n'est pas intrinsèquement de type absorbant comme le décès, la *cause* peut se manifester ou plutôt être observée après la survenue de l'évènement étudié. Les modèles de durée standards ne peuvent pas gérer ces situations car l'observation sort du risque après la survenue de l'évènement. Il y a d'autres techniques, par exemple de type économétrique, qui tente de traiter ce genre de situations (je n'en ai pas l'évaluation). * Même si la cause est bien mesurée avant l'évènement d'intérêt, un *choc* n'est peut-être qu'un point final d'un processus causal antérieur: une séparation est rarement un évènement ponctuel du jour au lendemain, une phase plus ou moins longue de mésentente dans le couple lui a vraisemblablement préexister. La datation du début d'un processus causal n'est donc pas toujours facile à mesurer. * **Logique d'adaptation**: la *cause* identifiée est mesurée avant l'évènement étudié. * **Logique d'anticipation**: la *cause* identifiée est mesurée après l'occurrence de l'évènement étudié. L'origine causale est bien antérieure à l'évènement, mais elle n'est pas directement observable. - Lorsque les variables dynamiques sont de type quantitatives/continues, on doit aussi prendre en compte ces phénomènes d'anticipation sur les valeurs attendues de ces variables, observées postérieurement à l'évènement étudié. On peut introduire des « lags » dans le modèle pour saisir ce phénomène : par exemple $x_t= x_{t+1}$. Ce décalage des durées d'occurrence peut être aussi introduite pour les variables discrètes (naissance d'un enfant par exemple).