3 Les Données
On distingue deux types de données: les données prospectives et rétrospectives:
3.1 Données prospectives et rétrospectives
3.1.1 Les données prospectives
Individus suivis à des dates successives. On parle souvent de données de stock mises à jour à intervalles de temps plus ou moins réguliers.
Instrument de mesure identique à chaque vague (si possible).
Avantages:
Qualité des données et techniquement l’absence de biais de mémoire1.
Si le suivi est pérenne une même analyse peut être répliquée à intervalles réguliés.
Inconvénients:
Délais pour les exploiter dans une analyse. Mais à minima deux points d’observations permettent déjà sur une exposition certes très courte, de présenter quelques d résultats.
Mêmes hypothèses entre deux passages pas forcément respectées
Attrition, censure ou troncature à gauche liés aux âges d’inclusion. C’est sans aucun doute le plus gros problème, et ces phénomènes demande une vigilance extrême. Sans connaissance des principes de base en analyse des durées ou de survie, on peut être amené à réaliser, évaluer ou lire des études que l’on pourrait qualifier ici d’analyse de survie Canada dry.
A noter l’exploitation croissante des données administratives qui peuvent regorger d’informations biographiques. Déjà disponibles, le problème du coût de collecte est contourné2. Ce type de données comprend par exemple les informations issues des fichiers des Ressources Humaines des entreprises, qui ont été exploitées à l’Ined par exemple dans le cadre du projet « worklife » (https://worklife.site.ined.fr/). Une des sources de plus en plus utilisée en France est maintenant l’EDP3. Elles engendrent en revanche des questionnements techniques liés à l’inférence (on ne travaille directement pas sur des échantillons), et à une présence potentiellement massive de problèmes de censures à gauche ou par intervalles, ou de troncature à gauche4.
3.1.2 Les données rétrospectives
Individus interrogés une seule fois.
Recueil de biographies thématiques depuis une origine jusqu’au moment de l’enquête.
Recueil d’informations complémentaires à la date de l’enquête (âge, sexe, csp au moment de l’enquête et/ou csp représentative).
Avantages: Information longitudinale immédiatement disponible.
Inconvénients: questionnaire long, informations datées qui font appel à la mémoire de l’enquêté.e. A de rares exceptions (enfant, mariage), il est difficile d’aller chercher des datations trop fines avec une retrospectivité assez longue.
Les deux types de recueil peuvent être mixés avec des enquêtes à passages répétés comprenant des informations retrospectives entre 2 vagues. Par exemple la cohorte Elfe de l’Ined-Inserm ou la Millenium-Cohort-Study en Grande Bretagne.
3.2 Grille AGEVEN
Pour recueillir des informations biographiques retrospectives, on utilise généralement la méthode des grilles AGEVEN.
Il s’agit d’une grille âge-évènement, de type chronologique, avec des repères temporels en ligne (âge, année). En colonne, sont complétés de manière progressive et relative, les évènements relatifs à des domaines, par exemple la biographie professionnelle, familiale, résidentielle…
- Antoine P., X. Bry and P.D. Diouf, 1987 “La fiche Ageven : un outil pour la collecte des données rétrospectives”, Statistiques Canada 13(2).
- Vivier G, “Comment collecter des biographies ? De la fiche Ageven aux grilles biographiques, Principes de collecte et Innovations récentes”, Acte des colloques de l’AIDELF, 2006.
- GRAB, 1999, “Biographies d’enquêtes : bilan de 14 collectes biographiques”, Paris, INED.
Exemple grille Ageven dans l’article de G.Vivier, page 121
3.3 Enregistrement des données
La question du format des fichiers biographiques mis à disposition n’est pas neutre, en particulier au niveau des manipulations pour créer le fichier d’analyse, opération qui pourra s’avérer particulièrement chronophage et complexe si plusieurs modules doivent être appariés. On distingue trois formats d’enregistrement.
3.3.1 Large [Format individu]
Une ligne par individu qui renseigne tous les évènements liés à un domaine: les datations et caractéristiques des évènements.
Exemple: domaine : unions - échelle temporelle: année - fin de l’observation en 1986:
id | debut1 | fin1 | cause1 | début2 | fin2 | cause2 |
---|---|---|---|---|---|---|
A | 1979 | 1982 | décès conjoint | 1985 | . | . |
B | 1983 | 1984 | Séparation | . | . | . |
Inconvénients: peut générer beaucoup de vecteurs colonnes avec de nombreuses valeurs manquantes. Le nombre de colonnes va dépendre du nombre maximum d’évènements. Si ce nombre concerne un seul individu, on va multiplier le nombre de colonnes pour un niveau d’information très limité. Situation classique, le nombre d’enfants, où les naissances de rang élevé deviennent de plus en plus rares.
Remarque: pour des enquêtes non biographiques, mais avec quelques éléments de datation qui s’intéresse par exemple à la date d’une première fois^[J’écris cela en 2024, donc je pense par exemple à l’exploitation de l’enquête Envie.
3.3.2 Semi-long [Format individu-évènements]
C’est le format le plus courant de mise à disposition des enquêtes biographiques. Si les transitions sont de type continu, par exemple le lieu de résidence (on habite toujours quelque part), la date de fin de la séquence correspond à la date de début de la séquence suivante. Les dates de fin ne sont pas forcément renseignées sur une ligne pour des trajectoires continues, l’information peut être donnée sur la ligne suivante avec la date de début.
Pour la séquence qui se déroule au moment de l’enquête, la date de fin est souvent une valeur manquante, une fin de séquence pouvant se produire juste avant l’enquête au cours d’une même année. Il est également possible d’avoir une information qui ne s’est pas encore produite au moment de l’enquête, mais qui aura lieu peu de temps après (personne enceinte, donc une naissance probable la même année).
Exemple précédent (trajectoires discontinues):
id | debut | fin | cause | Numero séquence |
---|---|---|---|---|
A | 1979 | 1982 | décès conjoint | 1 |
A | 1985 | . | . | 2 |
B | 1983 | 1984 | Séparation | 1 |
3.3.3 Long [Format individu-périodes]
Typique des recueils prospectifs. Ils engendrent des lignes sans information supplémentaire par rapport à la ligne précédente.
Exemple précédent:
id | Année | cause | Numero séquence |
---|---|---|---|
A | 1979 | . | 1 |
A | 1980 | . | 1 |
A | 1981 | . | 1 |
A | 1982 | Décès conjoint | 1 |
A | 1985 | . | 2 |
A | 1986 | . | 2 |
B | 1983 | . | 1 |
B | 1984 | Séparation | 1 |
Ici les trajectoires ne sont pas continues. Une forme continue présenterait toute la trajectoire, avec l’ajout d’un statut du type être en couple ou non. Pour ID=A, en 1983 et 1984, deux lignes « pas couple » (cohabitant ou non) pourraient être insérées avec au total 3 séquences.
3.4 Exemples de mise à disposition
Deux gros classiques d’enquêtes biographiques de type rétrospectives produite par l’Ined, avec un fichier qui fournit des informations générales sur les individus (une ligne par individu), et une série de modules biographiques en format individus-évènements.
3.4.1 Enquête biographie et entourage (Ined)
https://grab.site.ined.fr/fr/enquetes/france/biographie_entourage/
3.4.2 Enquête MAFE (Ined)
Quelques éléments de manipulation de ce type de données biographiques sont présentés dans le chapitre compléments5 [lien]
Cet avantage peut se trouver contrebalancé par des phénomènes de censure par intervalles, donc de trous tout aussi problématiques que ceux liés à la mémoire↩︎
Je ne suis par forcément à l’aise avec cet argument souvent avancé. La maintenance et l’alimentation de ce type de données peut être également coûteuse, ne se faisant pas par magie, comme pour l’EDP de l’Insee↩︎
Echantillon Démographique Permanent. Un bon exemple de données administrative dont le coût de production est loin d’être négligeable↩︎
Se reporter par exemple à la présentation du très rigoureux guide de l’utilisateur de l’EDP: Les informations disponibles : des informations à géométrie variable et à trous↩︎
Il s’agit d’un premier jet réalisé pour la version 2023 et qui ne peut pas viser l’exhaustivité↩︎