Introduction à l’analyse biographique des durées

Support de formation 2024

Auteur·rice

Marc Thévenin

Date de publication

16 octobre 2024

1 Présentation - Bibliographie - Outils

Mises à jour 2024

Tests de Grambsch Therneau: versions exacte versus ols

Une contribution majeure visant à expliquer les écarts observées entre les deux versions du test a été réalisée fin 2023 [Lien]. Elle repose sur la présence de corrélations même limitées entre les covariables du modèle, situation classique en sciences sociales. La conclusion de ce travail penche clairement vers une utilisation du test ols (moindres carrés ordinaires) dans le domaine des sciences sociales.

Dans ce support, j’ai donc résumé le travail de S.Metzger dans la section dédiée au test de proportionnalité avec un modèle de Cox. Comme cela impacte le travail sous R j’ai également repris la section relative à la programmation, bien que j’avais déjà donné le moyen de récupérer et d’utiliser le test ols depuis mai 2022.

R: Graphiques avec ggsurvfit

Grâce aux informations et conseils de Nicolas Robette, que je remercie, j’ai commencé à remplacer les fonctions de survminer, package qui n’est plus mis à jour de puis fort longtemps, par celles de ggsurvfit. Ce package est co-développé par Daniel D.Sjoberg (gtsummary).

Calcul des Rmst avec Python

Implémenté au package lifelines récemment, des éléments de programmation ont été ajoutés dans la section Python. La syntaxe n’est pas très conviviale, mais c’est déjà ça. Le test de comparaison des Rmst n’y pas présente, ce qui est dommage vu sa simplicité, et je n’ai pas trouvé d’éléments d’inférence dans la fonction.

Quelques ajouts sur les pondérations en analyse de survie

Cela fait suite à des questionnements qui m’ont été adressés par le groupe d’exploitation de l’enquête Envie. Mon court argumentaire qui reposait sur l’utilisation des pondérations avec des biographies longues a été, il faut l’avouer, un peu mis à mal, la plage d’âges étant ici de 18 à 29 ans. Cela m’a permis de faire un tour d’horizon plus complet de la problématique, et qui continue bien évidemment à me renvoyer dans le domaine de la médecine.

Le support

Ce document est utilisé comme support de formation, principalement pour celle dispensée à l’Ined, celle effectuée dans le cadre d’HED, ainsi que le cours de master 2 de démographie de l’Université de Strasbourg. En terme de contenu il reste classique, il s’agit d’une introduction, même si certains apports méthodologiques plus ou moins récents sont introduits comme l’estimation des RMST¹. Une méthode modélisation reposant sur des pseudo-observations² est en cours d’évaluation, et pourrait être introduite dans le support fin 2024. Mais… Conceptuellement très intéressante, son application dans les sciences sociales risque de régulièrement buter sur une hypothèse restrictive, à savoir la non corrélation entre observations censurées et covariables. Elle sera souvent remise en cause lorsqu’on introduira des dimensions explicatives tels que l’âge ou la génération en début d’exposition, soit des éléments très communs dans les analyses.

Sur la forme, le support a été passé en 2023 en format ouvrage (sans en avoir l’ambition il est bon de le préciser) et une version pdf peut-être directement téléchargée. elle est identique à la version html, sauf pour le chapitre programmation ou seulement les éléments relatifs à R sont présents. Les autres outils sont Stata, Python (Lifelines et Statmodel), et Sas sont propres à la version html.

Enfin un petit mot sur l’application présente dans le support. Issu du champ de la médecine, soit l’analyse de la survie de personnes souffrant d’une insuffisance cardiaque, elle peut décevoir vu son éloignement avec des problématiques issues des sciences sociales³. Cependant, cette base d’analyse permet de couvrir avec peu d’informations, la quasi totalité des points traités dans ce support. Elle repose sur un nombre d’observations très limité (103), collectées il y a quand même très longtemps (fin 60 début 70), et avec seulement 4 covariables. Il y a sans aucun doute des biais un peu partout, en partie expliquée par non prise en compte de variables de contrôle, pure ou de confusion. J’admets qu’il serait préférable de trouver un jour autre chose, ou de donner par exemple en annexe, quelques exemples d’applications plus proches des sciences sociales. Néanmoins pour les personnes participant à la formation, les jeux de données utilisés pour les travaux pratiques sont bien issus des sciences sociales.

Il ne s’agit pas d’un support validé institutionnellement. J’en assume donc totalement seul le contenu. J’en profite également pour remercier, quelques soient leur statut et leur fonction, l’ensemble des personnes ayant eu recours à mon assistance sur ce champ d’analyse très riche, ainsi que l’ensemble les participant.e.s aux formations et cours. Par leurs remarques, les problématiques traitées, ils me permettent de réviser et mettre à jour annuellement ce document. Enfin, je remercie plus particulierement Eva Lelièvre et Arnaud Bringé.

Bibliographie

Les éléments bibliographiques qui figurent ci-dessous proviennent du champ des sciences sociales. Elle est volontairement courte, mais efficace. Quelle que soit la langue, le nombre de cours ou support sont très nombreux en médecine. On trouve également de trop nombreux tutoriels généraliste à dominante mise en pratique avec R, dont je ne conseille pas forcément l’utilisation.

Accès en ligne

Cours Gilbert Colletaz (Université d’Orléans - Master d’économétrie).
- Applications uniquement avec Sas. Suite à la retraite de son auteur, le cours n’est plus mis à jour.
- Dernière version 2020: lien.
Document de travail de Simon Quantin (Insee).
- Couvre l’ensemble des techniques de base d’analyse des durées en durée dite continue. Il propose surement la meilleure introduction en langue française à la problématique de la fragilité, qui sera ici seulement présenté trop brièvement.
- Application en R seulement (Attention au passage de la v3 du package survival pour la question du test de proportionnalité de Grambsh-Therneau).
- 2019 - pas de mise à jour: lien.
Les notes de cours de German Rodriguez (en)
- Démographe à l’université de Princeton.
- Les dernières mises à jour doivent dater de 2017-2018: lien

Ouvrage de référence en démographie:

L’analyse démographique des biographies de Daniel Courgeau et Eva Lelièvre (Edition de l’Ined - 1989). Malheureusement cet ouvrage ne dispose pas de version epub ou pdf disponible en ligne ⁴.

Outils

Support réalisé sous Rstudio avec l’outil d’édition Quarto
Langages utilisés pour la partie programmation:
- R
- Stata v18
- Python
- Sas v9

Restricted Mean of Survival Time↩︎
Résidus du Jackknife↩︎
Le document de travail de l’Insee indéxé dans la bibliographie ne fait pas mieux, l’application traite du diabète↩︎
Pour les résident.e.s du campus Condorcet, l’ouvrage est disponible au GED [lien]↩︎

--- toc: false --- # Présentation - Bibliographie - Outils ## Mises à jour 2024 {-} [Tests de Grambsch Therneau: versions exacte versus ols]{.box_text} Une contribution majeure visant à expliquer les écarts observées entre les deux versions du test a été réalisée fin 2023 [[Lien](https://www.cambridge.org/core/journals/political-analysis/article/implementation-matters-evaluating-the-proportional-hazard-tests-performance/05E2657A64B18FB1E25C2BE1F7D92C3B)]. Elle repose sur la présence de corrélations même limitées entre les covariables du modèle, situation classique en sciences sociales. La conclusion de ce travail penche clairement vers une utilisation du test ols (moindres carrés ordinaires) dans le domaine des sciences sociales. Dans ce support, j'ai donc résumé le travail de S.Metzger dans la section dédiée au test de proportionnalité avec un modèle de Cox. Comme cela impacte le travail sous R j'ai également repris la section relative à la programmation, bien que j'avais déjà donné le moyen de récupérer et d'utiliser le test ols depuis mai 2022. [{{<fa solid right-to-bracket>}}](07-cox.qmd#test) [R: Graphiques avec **`ggsurvfit`**]{.box_text} Grâce aux informations et conseils de Nicolas Robette, que je remercie, j'ai commencé à remplacer les fonctions de `survminer`, package qui n'est plus mis à jour de puis fort longtemps, par celles de [`ggsurvfit`](https://www.danieldsjoberg.com/ggsurvfit/). Ce package est co-développé par Daniel D.Sjoberg (`gtsummary`). [Calcul des Rmst avec Python]{.box_text} Implémenté au package `lifelines` récemment, des éléments de programmation ont été ajoutés dans la section Python. La syntaxe n'est pas très conviviale, mais c'est déjà ça. Le test de comparaison des Rmst n'y pas présente, ce qui est dommage vu sa simplicité, et je n'ai pas trouvé d'éléments d'inférence dans la fonction. [{{<fa solid right-to-bracket>}}](17-Python.qmd#rmst) [Quelques ajouts sur les pondérations en analyse de survie]{.box_text} Cela fait suite à des questionnements qui m'ont été adressés par le groupe d'exploitation de l'enquête [Envie](https://envie.site.ined.fr/). Mon court argumentaire qui reposait sur l'utilisation des pondérations avec des biographies longues a été, il faut l'avouer, un peu mis à mal, la plage d'âges étant ici de 18 à 29 ans. Cela m'a permis de faire un tour d'horizon plus complet de la problématique, et qui continue bien évidemment à me renvoyer dans le domaine de la médecine. [{{<fa solid right-to-bracket>}}](03-theorie.qmd#ponderation) ## Le support {-} Ce document est utilisé comme support de formation, principalement pour celle dispensée à l'Ined, celle effectuée dans le cadre d'HED, ainsi que le cours de master 2 de démographie de l'Université de Strasbourg. En terme de contenu il reste classique, il s'agit d'une introduction, même si certains *apports* méthodologiques plus ou moins récents sont introduits comme l'estimation des ***RMST***^[Restricted Mean of Survival Time]. Une méthode modélisation reposant sur des pseudo-observations^[Résidus du Jackknife] est en cours d'évaluation, et pourrait être introduite dans le support fin 2024. Mais... Conceptuellement très intéressante, son application dans les sciences sociales risque de régulièrement buter sur une hypothèse restrictive, à savoir la non corrélation entre observations censurées et covariables. Elle sera souvent remise en cause lorsqu'on introduira des dimensions explicatives tels que l'âge ou la génération en début d'exposition, soit des éléments très communs dans les analyses. Sur la forme, le support a été passé en 2023 en format ouvrage (sans en avoir l'ambition il est bon de le préciser) et une version pdf peut-être directement téléchargée. elle est identique à la version html, sauf pour le chapitre programmation ou seulement les éléments relatifs à R sont présents. Les autres outils sont **Stata**, **Python** (Lifelines et Statmodel), et **Sas** {{<fa solid cross>}} sont propres à la version html. Enfin un petit mot sur l'application présente dans le support. Issu du champ de la médecine, soit l'analyse de la survie de personnes souffrant d'une insuffisance cardiaque, elle peut décevoir vu son éloignement avec des problématiques issues des sciences sociales^[Le document de travail de l'Insee indéxé dans la bibliographie ne fait pas mieux, l'application traite du diabète]. Cependant, cette base d'analyse permet de couvrir avec peu d'informations, la quasi totalité des points traités dans ce support. Elle repose sur un nombre d'observations très limité (103), collectées il y a quand même très longtemps (fin 60 début 70), et avec seulement 4 covariables. Il y a sans aucun doute des biais un peu partout, en partie expliquée par non prise en compte de variables de contrôle, pure ou de confusion. J'admets qu'il serait préférable de trouver un jour autre chose, ou de donner par exemple en annexe, quelques exemples d'applications plus proches des sciences sociales. Néanmoins pour les personnes participant à la formation, les jeux de données utilisés pour les travaux pratiques sont bien issus des sciences sociales. Il ne s'agit pas d'un support validé institutionnellement. J'en assume donc totalement seul le contenu. J'en profite également pour remercier, quelques soient leur statut et leur fonction, l'ensemble des personnes ayant eu recours à mon assistance sur ce champ d'analyse très riche, ainsi que l'ensemble les participant.e.s aux formations et cours. Par leurs remarques, les problématiques traitées, ils me permettent de réviser et mettre à jour annuellement ce document. Enfin, je remercie plus particulierement [**Eva Lelièvre**](https://www.ined.fr/fr/recherche/chercheurs/Leli%C3%A8vre+Eva) et [**Arnaud Bringé**](https://www.ined.fr/fr/recherche/chercheurs/Bring%C3%A9+Arnaud). ## Bibliographie {-} Les éléments bibliographiques qui figurent ci-dessous proviennent du champ des sciences sociales. Elle est volontairement courte, mais efficace. Quelle que soit la langue, le nombre de cours ou support sont très nombreux en médecine. On trouve également de trop nombreux tutoriels généraliste à dominante *mise en pratique avec R*, dont je ne conseille pas forcément l'utilisation. **Accès en ligne** * **Cours Gilbert Colletaz** (Université d’Orléans - Master d'économétrie). - Applications uniquement avec Sas. Suite à la retraite de son auteur, le cours n'est plus mis à jour. - Dernière version 2020: [lien](https://www.master-esa.fr/wp-content/uploads/2021/04/Econometrie-des-donnees-de-survie.pdf). * **Document de travail de Simon Quantin** (Insee). - Couvre l’ensemble des techniques de base d’analyse des durées en durée dite continue. Il propose surement la meilleure introduction en langue française à la problématique de la *fragilité*, qui sera ici seulement présenté trop brièvement. - Application en R seulement (Attention au passage de la v3 du package `survival` pour la question du test de proportionnalité de Grambsh-Therneau). - 2019 - pas de mise à jour: [lien](https://www.insee.fr/fr/statistiques/3695681). * **Les notes de cours de German Rodriguez** (en) - Démographe à l'université de Princeton. - Les dernières mises à jour doivent dater de 2017-2018: [lien](https://grodri.github.io/glms/notes/c7.pdf) **Ouvrage de référence** en démographie: * ***L'analyse démographique des biographies*** de *Daniel Courgeau* et *Eva Lelièvre* (Edition de l'Ined - 1989). Malheureusement cet ouvrage ne dispose pas de version epub ou pdf disponible en ligne ^[Pour les résident.e.s du campus Condorcet, l'ouvrage est disponible au GED [[lien](https://campus-condorcet.primo.exlibrisgroup.com/discovery/fulldisplay?docid=alma991006553559705786&context=L&vid=33CCP_INST:CCP&lang=fr&search_scope=ALL&adaptor=Local%20Search%20Engine&tab=ALL&query=any,contains,courgeau%20leli%C3%A8vre&offset=0)]]. ## Outils {-} * Support réalisé sous [Rstudio](https://posit.co/) avec l'outil d'édition [Quarto](https://quarto.org/) * Langages utilisés pour la partie programmation: - [R](https://www.r-project.org/) - [Stata v18](https://www.stata.com/) - [Python](https://www.python.org/) - [ {{<fa solid cross>}} Sas v9](https://www.sas.com/fr_fr/home.html) ![](noai.png){fig-align="center"}