Créer un corpus de texte issu d’Europresse au format d’Iramuteq
Web Scrapping
Analyse textuelle
Auteur·rice
Affiliation
Arno Muller
Ined
Date de publication
26 juillet 2023
Résumé
Si Iramuteq est un logiciel pratique, qui permet à un public peu familier des logiciels statistiques de faire des analyses textuelles, l’étape de création du corpus de texte peut présenter quelques difficultés. C’est plus particulièrement le cas lorsque le corpus est directement récupéré en ligne comme cela est le cas depuis le site Europresse. Nous proposons ici une solution pour créer ce corpus avec R, de la récupération des textes à la création du corpus dans un format adapté à son exploitation sur Iramuteq.
Introduction
Cette fiche s’inscrit dans la continuité d’un tutoriel publié par Corentin Roquebert et que vous pouvez retrouver ici. Le tutoriel est très complet et permet de comprendre la création du premier corpus au format .html directement depuis le site d’Europresse, étape sur laquelle nous passerons donc très rapidement.
Nous reprendrons ici chaque étape depuis la recherche des textes sur le site d’Europresse, en passant par l’apurement du fichier récupéré sur R, à sa mise en forme pour pouvoir l’importer sur Iramuteq. Ce qui me permettra d’apporter quelques mises à jour au tutoriel cité plus haut, mais sans entrer dans le même niveau de détail.
Chercher des textes sur Europresse
Se connecter au site d’Europresse
Europresse est un service payant, mais certains instituts et certaines universités permettent d’y accéder.
À l’Ined, Europresse est disponible en se connectant depuis le site de l’Humathèque.
Si le lien ne marche pas vous pouvez suivre le chemin suivant :
Se connecter au site de l’Humathèque Campus Condorcet : lien
Chercher un mot-clé quelconque :
Se rendre dans l’onglet Presse, ce qui nous amène à la page d’Europresse.
Se connecter à son compte Ined pour obtenir le lien vers Europresse.
Cliquer sur le lien vers le site d’Europresse
Créer un corpus d’articles de presses
La page d’accueil d’Europresse, dirige automatiquement vers la version étudiante, mais il est préférable de passer par la version classique du site.
En vous connectant à la version classique, vous obtiendrez la page suivante, à partir de laquelle on retourne vers une recherche simple, puis dans une recherche avancée.
À partir de l’écran de recherche avancée, on peut sélectionner les articles qu’on désire intégrer au corpus de texte.
Dans notre cas, on cherche les occurrences du mot Ined, dans la presse en français, sur l’ensemble de la période couverte par Europresse.
On arrive donc sur la page suivante :
ATTENTION :
Avant d’exporter le fichier, il faut prendre plusieurs précautions :
Trier les articles du plus récent au plus ancien (ou inversement, mais pas par pertinence).
Scroller (défiler) les articles au maximum. Par défaut, Europresse ne charge que les 50 premiers articles, à chaque fois qu’on scrolle, on en charge 50 autres, etc.
Nombre maximum d’articles : 1000. On ne peut donc pas télécharger tous les 15 000 articles correspondant à ma recherche d’un coup. Il faudra s’y reprendre 1000 par 1000, en changeant la période de recherche en faisant débuter la recherche suivante à la date du dernier article chargé dans la recherche précédente.
Sélectionner le maximum d’articles avec la case à cocher.
Créer le fichier en cliquant sur la disquette et sélectionner le format HTML.
On obtient dans les téléchargements un fichier HTML qui commence par biblioeuropresse, qui contient l’ensemble des articles. Vous pouvez l’ouvrir pour les lire dans votre navigateur Web.
Dans les étapes suivantes, nous allons utiliser ce fichier pour créer un corpus de texte utilisable dans Iramuteq.
Mettre en forme dans R
À partir d’ici nous allons apporter quelques changements aux fonctions proposés par Corentin Roquebert, car il semblerait qu’elles ne fonctionnent plus. Ce qui nous permettra de détailler le contenu de ses fonctions.
Attention : Si le code peut sembler complexe aux premiers abords, vous aurez uniquement besoin de changer le chemin d’accès vers votre fichier, le reste est automatique.
Initialisation de R
On commence par installer et charger les packages nécessaires.
Packages
# Packages nécessairesload.lib<-c("xml2", "stringr", "stringdist", "stringi","lubridate", "dplyr", "tidyr","purrr")# Installation des manquantsinstall.lib<-load.lib[!load.lib%in%installed.packages()]for(libininstall.lib)install.packages(lib,dependencies=TRUE)# On charge les packagessapply(load.lib,require,character=TRUE)
Puis, on importe le fichier HTML, crée depuis le site d’Europresse.
Import texte HTML
# On ouvre la base HTML obtenuehtml<-"DATA/biblioeuropresse20230710105912.HTML"# Lire le fichier HTMLdoc<-read_html(html)# Sélectionner les articlesarticles<-xml_find_all(doc, "//article")
Création de variables
Pour chaque article, nous allons récupérer un certain nombre d’information contenu dans les métadonnées, comme le nom du journal qui l’a publié ou la date de publication par exemple.
[1] NA NA NA
[4] NA "L'Obs (site web)" "L'Express (site web)"
On remarque qu’il y a des articles sans journaux renseignés (c’est particulièrement le cas pour les sites web). En réalité, le nom de la source est seulement stocké dans un autre emplacement qu’on récupère dans le code suivant.
[1] "Radio France Internationale (français) (site web réf.) - RFI - Radio France Internationale"
[2] "The Conversation (France) (site web réf.) - The Conversation (FR)"
[3] "Free (site web réf.) - Free"
[4] "Planet (site web réf.) - Planet (FR)"
[5] NA
[6] NA
On a bien récupéré les sources des articles. On s’occupera de la mise en forme de la variable plus loin.
Auteur.rice
Dans certains cas, on peut également récupérer les noms des auteurs.rices des articles. Ce n’est pas le cas ici, il semblerait que l’information ne soit pas toujours disponible.
Concernant la date, elle est disponible pour l’ensemble des articles.
Variable date (1)
date<-map_chr(articles, ~{tmp<-xml_find_first(.x, ".//div[@class='publiC-lblNodoc']")%>%xml_text(trim =TRUE)if(is.null(tmp))tmp<-NA_character_tmp<-substr(tmp, 6, 13)})# On met la date au bon formatdate<-as.Date(date, "%Y%m%d")date[1:6]
[1] NA NA NA NA "2023-07-05"
[6] "2023-07-02"
Mais comme pour les noms des journaux, elle peut être stockée dans différents emplacements, ou bizarrement soumise à des fautes de frappes. Dans la partie suivante on récupère les dates manquantes, qui sont stockés dans le même emplacement que le nom des jounaux manquants. Je commence donc par créer une fonction qui récupère la date au lieu du nom du journal dans cet emplacement.
Variable date (2)
# Fonction pour extraire le deuxième élément correspondant au critère donnéget_second_element<-function(node, xpath){found_elements<-xml_find_all(node, xpath)if(length(found_elements)>=2){return(found_elements[[2]]%>%xml_text(trim =TRUE))}else{return(NA_character_)}}# Récupérer le deuxième élément pour chaque articledate_manquant<-map_chr(articles, get_second_element, xpath ="./header/div[@class='sm-margin-bottom']")date_manquant[1:6]
[1] "8 juillet 2023 902 mots" "6 juillet 2023 2187 mots"
[3] "6 juillet 2023 210 mots" "6 juillet 2023 218 mots"
[5] NA NA
Attention, on voit que le nombre de mots de l’article est stocké au même emplacement que la date manquante. Nous allons nous occuper de mettre en forme les dates dans les parties suivantes.
Russie : le procès emblématique d’Oleg Orlov, figure de la lutte pour les droits humains
NA
6 juillet 2023 2187 mots
NA
Le 8 juin dernier, un procès s’est ouvert à Moscou contre Oleg Orlov, 70 ans, éminent défenseur des droits humains en Russie, coprésident de l’organisation Centre de défense des... Voir l'article Ce document référence un lien URL de site non hébergé par Cision.
NA
Césarienne : elle perturberait le microbiote du bébé, selon une étude
NA
6 juillet 2023 210 mots
NA
Femme Actuelle, publié le 06 juillet 2023 à 14h00. Selon des chercheurs français, la naissance par césarienne aurait un effet négatif sur le microbiote intestinal des bébés. Explications. La césarienne est... Voir l'article Ce document référence un lien URL de site non hébergé par Cision.
NA
Césarienne : elle perturberait le microbiote du bébé, selon une étude
NA
6 juillet 2023 218 mots
NA
Selon des chercheurs français, la naissance par césarienne aurait un effet négatif sur le microbiote intestinal des bébés. Explications. La césarienne est une intervention chirurgicale qui peut prévenir efficacement la mortalité... Voir l'article Ce document référence un lien URL de site non hébergé par Cision.
L'Obs (site web)
« Le mitard reste une structure très archaïque et peu adaptée à la société actuelle »
2023-07-05
NA
NA
Avez-vous rencontré des difficultés particulières pour réaliser cette enquête qui questionne la violence des surveillants et le bien-fondé des quartiers disciplinaires ? Vincent Marcel. Avant de rejoindre Laurence sur ce projet, je m'étais trouvé confronté à la difficulté d'établir une liste de détenus morts en quartier disciplinaire. Ces décès ne suscitent en général que quelques lignes dans la presse quotidienne régionale. La seule manière de trouver des informations consiste à contacter le parquet. Or, dans 95 % des cas, je n'ai obtenu que des fins de non-recevoir de la part des procureurs, même lorsque mes demandes concernaient des suicides non suspects. Sur le sujet de la prison en général, le silence du ministère public est étonnant... L'administration pénitentiaire est-elle, comme l'armée, une « grande muette » ?Laurence Delleur. J'avais déjà été confrontée à ce manque de communication lors du tournage de « Matons violents » (2016), un sujet également très sensible, mais nous tenions à avoir cette parole contradictoire. Lorsque nous avons questionné l'administration pénitentiaire sur les images de vidéosurveillance concernant Amara Fofana, on nous a répondu que l'affaire était suivie par un procureur. Ce qui était faux puisque, à ce moment-là, elle avait déjà été classée sans suite. Le terme de « mitard » évoque des pratiques d'un autre âge. Pourtant, c'est une réalité bien actuelle et un lieu répressif où l'on se suicide encore plus qu'en détention classique...V. M. Depuis une vingtaine d'années, de nombreux rapports alertent sur la surmortalité et les suicides en quartier disciplinaire. Pourtant, les conditions de détention n'ont pas énormément évolué : trente jours de placement au maximum alors que le Sénat en préconisait vingt en 2000 et que le Comité européen pour la Prévention de la Torture (CPT), qui dépend du Conseil de l'Europe, en conseille quatorze. Le mitard reste une structure très archaïque et peu adaptée à la société actuelle. En 2014, une étude de l'Ined (Institut national d'Etudes démographiques) constatait que le risque de suicide en cellule disciplinaire était 15 fois supérieur à celui encouru en détention ordinaire. Selon l'administration pénitentiaire, il y aurait eu 18 suicides en quartier disciplinaire en 2022. Des chiffres à prendre avec précaution car lorsqu'un décès survient lors d'un transfert comme celui de Sambaly Diabaté, il n'est pas forcément répertorié comme ayant eu lieu en cellule disciplinaire.Ces trois détenus morts en quartier disciplinaire que vous mentionnez paraissaient plutôt inoffensifs.L. D.Il faut d'abord savoir que certains détenus peuvent être très violents envers les surveillants, leur jeter de l'eau bouillante à la figure ou leur mettre un couteau sous la gorge. Ce sont des faits avérés qu'il est important de rappeler. Mais on doit aussi prendre en considération que 40 % des détenus ont des problèmes psychiatriques et que ceux-là n'ont rien à faire en prison. Sambaly Diabaté en est un exemple. Au moment où les choses ont dégénéré, il était délirant depuis plusieurs semaines, avait perdu 20 kilos et se croyait envoûté... Si, au lieu de le pousser violemment, le surveillant lui avait montré comment passer le portique en utilisant les techniques enseignées pour calmer un enfant en centre éducatif fermé, la suite aurait été différente. En ce qui concerne Sacha Aït Hammou (18 ans), ses parents nous ont dit qu'il avait été agressé en détention par d'autres détenus et avait dû se bagarrer pour se défendre. La violence est intrinsèque à la prison, c'est difficile d'y échapper. Pour se protéger, il faut paraître fort. Quant à Amara Fofana, il n'a fait que soulever le bras de la surveillante qui a refusé de le laisser aller à son cours de guitare comme chaque lundi. Elle n'a pas appelé son supérieur pour vérifier qu'il y était bien attendu. Amara n'a pas été violent : il n'a fait que transgresser un ordre qui lui semblait injuste pour aller jouer de la musique, son échappatoire pendant la détention.La violence gratuite de la part des surveillants est-elle taboue ?L. D. On ne le dit pas dans le film mais Eddy, l'un de nos témoins, a failli mourir après une altercation verbale avec un surveillant. Il a eu un certificat d'ITT de quarante-cinq jours. En quinze ans de travail sur le monde carcéral, je n'avais jamais vu ça ! En général, les détenus victimes de violences ont beaucoup de mal à obtenir un certificat médical. Bien que nous tenions ici à ce qu'un directeur de prison exprime son point de vue, nous considérons que frapper un détenu est inexcusable. Les surveillants exercent un métier difficile et comme ils sont souvent issus du même milieu que ceux qu'ils surveillent, ils peuvent très vite avoir un sentiment de toute-puissance. La gestion de la violence en détention est un sujet extrêmement complexe. Et puis, il faut bien le dire, on leur laisse les clés de la baraque et on s'en lave les mains. Du moment que la prison est sécurisée et qu'il n'y a pas d'évasion...Dans le cas de morts suspectes, la vidéosurveillance devrait permettre de démêler le vrai du faux, non ?V. M. Le problème, c'est que lorsque la direction d'un centre pénitentiaire fournit des bandes aux enquêteurs ou aux avocats, ce sont des séquences indépendantes les unes des autres qu'il faut ensuite assembler et monter de manière chronologique. Dans l'affaire d'Amara Fofana, il y avait une vingtaine de points de vue différents et un problème de timecode, c'est-à-dire qu'une des caméras étant mal réglée, les policiers se sont trompés dans la reconstitution. L. D. Un avocat commis d'office peut facilement passer à côté de ce genre de détails pourtant très importants. Il a fallu plusieurs jours de montage minutieux à Vincent pour reconstituer l'ensemble et s'apercevoir que vingt-quatre minutes de vidéo s'étaient évaporées. Lorsque les policiers ont demandé des explications à la directrice adjointe de la prison de Réau (Seine-et-Marne), elle s'est justifiée en disant que s'il manquait des images, c'est que l'officier pénitentiaire avait considéré qu'elles ne montraient rien d'anormal . La police a accepté cette non-réponse sans sourciller. Il est clair qu'elle n'a pas fait son travail. Le juge non plus puisqu'il aurait dû la contraindre à récupérer ces images. Quelle est la règle concernant la vidéosurveillance ?V. M. Elle oblige l'administration pénitentiaire à conserver les images pendant un mois au maximum. A Réau, nous avons découvert que le système ne fonctionnait pas et que les images étaient effacées au bout de quarante-huit heures, un délai beaucoup trop court pour qu'une famille en deuil pense à demander à son avocat de les récupérer. Je connais des avocats qui se battent depuis plus de cinq ans pour récupérer des bandes. L. D.C'est scandaleux, car c'est un élément de preuves à charge ou à décharge qui permet de confronter les points de vue du surveillant et du détenu et de comprendre ce qu'il s'est réellement passé. Aujourd'hui, c'est laissé au pouvoir discrétionnaire de la direction de l'administration pénitentiaire... Les surveillants disent que si le mitard n'existait pas, il faudrait le remplacer par autre chose...L. D.Nous n'avons pas à nous prononcer pour ou contre l'existence du mitard. En revanche, ce sont les conditions d'exercice du quartier disciplinaire qui posent question. Si on ne plaçait pas n'importe qui en détention préventive pour n'importe quoi, si les commissions de discipline fonctionnaient plus démocratiquement, si la durée de placement était plus courte avec un vrai suivi psychologique des personnes à risque comme l'était Sacha, par exemple, ces décès seraient évitables. Cet article est paru dans L'Obs (site web)
L'Express (site web)
Phil Zuckerman : "Les religions sont en déclin dans le monde entier"
2023-07-02
NA
NA
En Allemagne, plus d'un demi-million de personnes ont quitté l'Eglise catholique en 2022, un record. En France, pour la première fois, selon l'Insee et l'Ined, la majorité de la population française se déclare "sans religion". L'année dernière, le Royaume-Uni a appris qu'il n'était plus à majorité chrétienne. Aux Etats-Unis, pays pourtant associé à la Bible, un tiers des adultes sont des "religious nones", autrement dit des "sans-religion". En Tunisie, 13 % seulement des habitants se disaient "sans religion" en 2013, en 2019, ils étaient 30 %. Jusque dans les années 1970, la sociologie a été dominée par l'idée d'un déclin inéluctable des religions face à la modernité et au progrès technique. Mais, depuis plusieurs décennies, des intellectuels ont au contraire annoncé le retour de Dieu, du sociologue protestant Peter L. Berger, qui assurait que "le monde d'aujourd'hui [était] aussi furieusement religieux qu'il [l'avait] toujours été", à l'islamologue Gilles Kepel et sa "revanche de Dieu". Une thèse qui semble avoir été validée par le dynamisme de l'islamisme ou de l'évangélisme. Dans Beyond Doubt : The Secularization of Society("Au-delà du doute : la sécularisation de la société", NYU Press), tout juste paru en anglais, les trois universitaires Isabella Kasselstrand, Phil Zuckerman et Ryan T. Cragun confirment pourtant le déclin des religions dans de nombreuses parties du monde, en s'appuyant sur des données longitudinales. Professeur de sociologie et d'études laïques au Pitzer College, à Claremont (Californie), Phil Zuckerman analyse ce phénomène qu'il résume par une simple phrase : "La modernité crée des problèmes pour la religion." Entretien. L'Express : Il a beaucoup été question ces dernières années d'un retour du religieux. Mais, selon vous, les données montrent au contraire un recul des religions dans de nombreuses régions du monde...Phil Zuckerman : Il y a un renouveau religieux ici ou là. Mais la tendance générale est que les pays qui connaissent une modernisation et un développement économique sont moins religieux qu'il y a plusieurs générations. Certains pays africains sont toujours très religieux et ont des taux de fécondité encore élevés. Mais, en Europe, en Amérique du Nord et du Sud et dans une partie de l'Asie, nous avons vu à l'oeuvre le processus que des sociologues classiques comme Max Weber, Emile Durkheim ou Jean-Marie Guyau avaient prédit, à savoir que la religion déclinerait. Aujourd'hui, nous avons de nombreuses données sur le long terme qui confirment ce phénomène. Que montrent ces données?Il y a trois dimensions importantes pour définir la religion : les croyances, les comportements et l'appartenance. Les croyances, c'est l'acceptation cognitive de forces surnaturelles, que ce soit un dieu, des anges, la résurrection, etc. Les comportements, c'est aller à l'église, au temple, à la mosquée, prier, se faire baptiser, etc. L'appartenance, c'est s'identifier en tant que catholique, protestant, musulman ou "sans religion". Pour ces trois catégories, nous avons des données internationales sur plus d'une centaine de pays depuis plusieurs décennies. Dans les pays qui ont expérimenté la modernisation, le pluralisme ou la sécurité existentielle, ces trois catégories sont en recul presque partout. En 1967, par exemple, 77 % des adultes britanniques disaient croire en Dieu. En 2015, leur nombre avait chuté à 32 %. Au début des années 1990 en Espagne, 20 % seulement des mariages étaient des cérémonies civiles, contre 80 % en 2018. En 2001, moins de 30 % des Néo-Zélandais s'identifiaient comme n'ayant pas de religion, ils étaient près de 50 % en 2018. En Argentine, la fréquentation d'un service religieux au moins une fois par mois est passée de 56 % en 1984 à 36 % en 2017. Si on regroupe les populations sans affiliation religieuse, non pratiquantes et non croyantes, cela fait plus de 1 milliard de personnes dans le monde. Tous ne sont pas athées, mais ces gens vivent leur vie sans que la religion n'y ait un rôle important. C'est une part importante de l'humanité, sauf qu'elle n'est pas réellement reconnue. Bien sûr, en Asie, la religion n'est pas vue de la même façon qu'en Europe. Par exemple, la Chine, deuxième pays le plus peuplé du monde, est dirigée par une dictature communiste antireligieuse. Les Chinois peuvent donc être réticents à affirmer leur foi. Il faut donc toujours être prudent avec ces chiffres. Par ailleurs, certains pays démocratiques, comme l'Estonie, la République tchèque, la Suède, la Norvège ou les Pays-Bas, ont déjà une majorité non religieuse. La France rejoint ce groupe. Je précise "démocratique", car les habitants de ces pays peuvent donner leur opinion librement. Il y a aussi une majorité non religieuse en Chine ou au Vietnam, mais on peut penser que la liberté religieuse est une question plus sensible dans des pays autoritaires. Le cas de la Corée du Sud est intéressant, car le développement économique s'est accompagné durant un temps d'une montée en puissance du christianisme...En 1982, près de la moitié des Sud-Coréens se disaient "sans religion" et seulement 9 % s'identifiaient comme catholiques et 15 % comme protestants. En 2005, les sans-religion avaient décliné à 29 %, et la part des catholiques et protestants représentaient plus de 20 %. Prenant pour modèle les Etats-Unis dans leur opposition à la Corée du Nord, le pays a associé l'occidentalisation et la croissance économique à des pratiques religieuses. Mais, même là-bas, la poussée du christianisme n'a pas duré. En 2018, la part des catholiques et protestants n'était plus que de 7 % et 15 %, tandis que les sans-religion grimpaient à 64 %. Le bouddhisme est lui aussi en déclin, ne représentant plus que 14 % de la population en 2018. L'Amérique du Sud, elle non plus, n'échappe pas à la sécularisation. Nous savons que l'Uruguay est le pays le moins religieux du continent. Mais il n'a rien d'une exception. Au Chili, 96 % de la population était catholique en 1910, contre 64 % en 2014. Même le Brésil, très religieux, voit une montée des sans-religion, même si, pour l'instant, leur nombre reste très modeste. Les Etats-Unis ont longtemps fait figure d'exception parmi les pays occidentaux...Longtemps, on nous a dit que les Etats-Unis étaient la preuve qu'on pouvait avoir une société très moderne, industrialisée, riche, mais avec un niveau de religiosité similaire à celui du Salvador. Mais ce n'est plus le cas, car la sécularisation y a été spectaculaire. En 1981, 60 % des Américains assistaient à un service religieux au moins une fois par mois. En 2017, ils n'étaient plus que 39 %. En 1940, 73 % des Américains se disaient affiliés à une église, une synagogue ou une mosquée. En 2020, ils n'étaient plus que 47 %. En 1986, 10 % seulement des Américains de 18 à 29 ans se disaient sans appartenance religieuse, contre 36 % en 2020. Et si 27 % des Américains mariés de plus de 65 ans ont eu une cérémonie civile, leur nombre monte à près de 50 % pour les 18-35 ans. Vous résumez le processus de sécularisation par une phrase : "La modernité crée des problèmes pour la religion." Pourquoi?Par "sécularisation", j'entends le déclin ou l'affaiblissement des religions au fil du temps. La principale théorie pour l'expliquer, c'est que la modernisation crée des problèmes pour ces croyances. Premièrement, vous voyez la rationalité gagner du terrain. Ce qui signifie que les gens ne résolvent plus des problèmes en faisant appel à la superstition. Si votre voiture est en panne, vous vous dites qu'il faut aller chez un garagiste plutôt que de vous référer à des forces magiques ou surnaturelles. Deuxièmement, la modernité a permis la prospérité. L'existence même des gens est moins menacée. Vous n'allez pas mourir de faim simplement du fait d'une sécheresse. Il y a des hôpitaux et des soins de santé pour une majorité de personnes, ce qui garantit une sécurité existentielle. Troisièmement, il y a plus de pluralisme dans une société moderne. Avant, dans un petit village français, tout le monde était catholique. Mais, avec l'urbanisation de la société, des personnes avec des appartenances religieuses diverses doivent cohabiter entre elles dans de grandes villes, ce qui crée une crise de crédibilité pour ces croyances. Qui a raison entre ces différentes religions? Peut-être ont-elles toutes tort? Ce pluralisme érode l'assurance que peuvent avoir les croyants dans leur foi. Tous ces phénomènes liés à la modernité affaiblissent considérablement les religions. Mais les non-croyants font moins d'enfants que les croyants, surtout les plus conservateurs. Israël est un bon exemple, avec une population orthodoxe ayant un taux de fécondité bien plus élevé que les laïques, ce qui leur donne un avantage démographique considérable...Effectivement. Israël est une démocratie moderne et prospère. Elle a été fondée par des juifs séculiers, qui n'ont pas créé cet Etat pour satisfaire un dieu, mais pour offrir un foyer aux juifs. Aujourd'hui, en Israël, les orthodoxes font trois ou quatre fois plus d'enfants que les juifs laïques. Par ailleurs, un autre phénomène joue dans cet Etat : la défense culturelle. Quand vous avez un pays entouré d'ennemis, qui se sent menacé par un groupe ethnique différent, cela peut renforcer les identités religieuses. L'Irlande catholique qui s'est opposée à l'Angleterre protestante en a été un bon exemple. De même que la Pologne catholique face aux Soviétiques. Vous soulignez aussi le regain de la religion en Russie ou en Ukraine...On ne peut pas détruire la religion par la force. La dictature marxiste-léniniste a essayé pendant un moment d'éradiquer la religion chrétienne. Mais beaucoup de croyants en Russie ont simplement caché leurs convictions. Par ailleurs, après la chute du communisme, la religion est aussi devenue une source de fierté nationale. Beaucoup de mouvements nationalistes russes ont trouvé des alliés au sein de l'Eglise orthodoxe. Poutine a surfé là-dessus en reprenant l'idée que Moscou serait la "troisième Rome", de laquelle émanerait le vrai christianisme. Si la vie en Russie devient plus prospère, sécurisée, pluraliste, alors la religion devrait à nouveau y décliner. En revanche, si le pays est en guerre, qu'il y a une grande insécurité existentielle et que la dictature demeure, alors la religion, notamment si elle est fondée sur un credo très nationaliste, devrait rester forte. Même dans les pays musulmans, où les données sont plus difficiles à recueillir du fait du poids social et politique de l'islam, la religion semble être en recul. Selon le Baromètre arabe [un réseau de chercheurs qui rassemblent et publient des données sur le Moyen-Orient et l'Afrique du Nord], une majorité des 15-29 ans ne sont pas religieux dans 11 pays du Moyen-Orient et du Maghreb...L'Iran a sans doute la population la plus séculière de tout le monde musulman, mais celle-ci ne peut s'exprimer ouvertement. Je suis persuadé que si nous avions des données fiables dans ce pays, on verrait que 40 % de la population iranienne est déjà sécularisée. La laïcité s'est construite en Europe en réaction à des pouvoirs royaux chrétiens. Je crois qu'on assiste aujourd'hui à un phénomène similaire dans les pays musulmans, avec beaucoup de jeunes qui constatent que l'islam est politisé et soutient les dictatures. Je trouve ces évolutions passionnantes. En France, les catholiques conservateurs ne peuvent plus espérer faire de leurs croyances un programme politique majoritaire. On voit bien que l'avortement, le mariage gay et, aujourd'hui, l'euthanasie sont des non-sujets pour une grande partie des Français. En revanche, aux Etats-Unis, la droite religieuse contrôle la Cour suprême et peut toujours remporter une élection présidentielle du fait d'un système électoral qui lui est favorable. Cela va-t-il durer?Il y a deux changements majeurs qui sont en train de se dérouler aux Etats-Unis. D'un côté, la population non blanche est de plus en plus nombreuse, et obtient une représentation politique, ce qui n'était pas le cas avant. Cela produit un sentiment d'insécurité dans une partie de la population blanche. Et, de l'autre côté, on voit que la religion est en déclin. Les pays deviennent ainsi ethniquement de plus en plus divers, et de moins en moins religieux. Les Blancs religieux voient donc leur statut questionné. Ce qui provoque une réaction forte de leur part. Même si de plus en plus d'Américains sont séculiers, la droite religieuse n'a jamais été si puissante sur le plan politique. C'est un vrai paradoxe. Ils ne contrôlent pas seulement la Cour suprême, mais nombre aussi de juridictions au niveau des Etats fédérés, du fait des nominations de juges par Trump. Les chrétiens sont également très impliqués dans les conseils municipaux ou dans les conseils scolaires. Ils utilisent ce pouvoir pour abolir l'avortement, limiter les droits des homosexuels et remettre en question l'éducation publique, qui est sécularisée. Cela va-t-il durer? Sur le long terme, je pense que ce pouvoir détenu par une minorité chrétienne va s'émietter, car il n'est pas soutenable vu les évolutions sociologiques dans le pays. Je l'espère en tout cas. On verra. Le déclin des religions traditionnelles n'est-il pas compensé par l'essor de nouvelles spiritualités, comme le new age?Certaines personnes quittent des religions institutionnalisées pour embrasser d'autres formes de spiritualité. Mais beaucoup d'autres ne le font pas. Les données montrent que les nouvelles spiritualités n'ont pas numériquement remplacé les religions traditionnelles. Il y a le besoin psychologique chez beaucoup de personnes, qui souffrent dans la vie ou sont malades, d'un certain confort offert par la religion ou d'autres spiritualités. Je suis en train de faire des entretiens avec des Estoniens, la majorité d'entre eux accepte simplement la mort. On retrouve la même chose au Japon, en France ou en Uruguay. Des gens vivent leur vie de manière raisonnable sans religion. Je ne sais pas si nous sommes, d'un point de vue biologique, destinés à entretenir certaines croyances. Cela peut être le cas pour une partie des humains, mais d'autres vivent parfaitement sans croyance religieuse. Peut-être que le réchauffement climatique va entraîner un regain religieux. Car, quand la vie est imprévisible et effrayante, des personnes, automatiquement, se tournent vers la foi. Comment voyez-vous l'avenir?La sécularisation se poursuivra. Le fait d'être sans religion devient une normalité et est totalement accepté d'un point de vue social. Durant la majeure partie de l'Histoire, vous étiez violemment stigmatisé pour cela. Ne pas être religieux signifiait être immoral, un peu comme l'homosexualité. Mais, quand vous avez de plus en plus de personnes qui disent : "Oh, je ne crois pas en Dieu", cela devient quelconque. Même si les personnes religieuses ont des taux de fécondité plus importants, il semble que les sorties ou les rejets de la religion sont plus importants que ce différentiel démographique. Le moteur de la religion se situe au niveau du foyer. Les parents éduquent les enfants dans leurs croyances, et c'est comme cela que celles-ci se perpétuent. Mais l'immense majorité des enfants des parents non religieux sont eux aussi sans religion. La tendance devrait donc se poursuivre. Mais, vous savez, Dieu seul le sait... [Rir
Correction des valeurs manquantes
Journaux manquants
On remplace Journal par journal_manquant quand ils n’existent pas. Et on supprime les espaces et les sauts de lignes dans les noms de journaux pour faciliter les recodages plus tard.
Pour les dates, il faut faire attention à plusieurs éléments :
- Le format Jour/Mois/Année, doit être identique.
- Les dates manquantes contiennent également le nombre de mots de l’article. Il faut donc isoler la date.
Ajout dates manquants
txt<-txt%>%# J'enlève les caractères spéciaux pour pouvoir utiliser# la fonction separate()mutate(Date_manq =str_replace(Date_manq, "é", "e"), Date_manq =str_replace(Date_manq, "û", "u"))%>%# separate() permet d'isoler le jour, le mois, l'année, et le nombre de mots# pour les dates manquantes, dans 5 variablesseparate(Date_manq, c("jour", "mois", "annee", "lettre", "mots"))%>%# Attention : pour les sources anglaise, le mois et le jour sont inversés# Je les inverse dans jour2 et mois2mutate(jour2 =if_else(substr(mois,1,1)%in%c(0:9), mois, jour), mois2 =if_else(substr(jour,1,1)%in%c(0:9), mois, jour))%>%# Je supprime les variables inutilesselect(-c(lettre,mots, jour, mois))%>%# Je crée une nouvelle variable de date en collant l'année, le mois, le jourmutate(date2 =paste(annee, mois2, jour2),# Je dois réecrire février et aôut correctement date2 =str_replace(date2, "fevrier", "février"), date2 =str_replace(date2, "aout", "août"),# Je transforme en format date. date2 =as_date(ymd(paste(date2))))%>%# Je remplace la date quand elle est manquante mutate(Date =ifelse(is.na(Date), date2, Date))%>%# Si la date est avant 2000, c'est une erreur de frappe, on prend l'autre datemutate(Date =as_date(Date))%>%mutate(Date =ifelse(Date<ymd("2000-01-01"), date2, Date))%>%mutate(Date =as_date(Date))%>%# Je garde les variables d'intérêtsselect(-c(jour2, mois2, annee, date2))%>%# Je trie dans l'ordre croissant de parutionarrange(Date)
Les warnings sont normaux et ne posent pas de problèmes.
Journal
Titre
Date
Auteur
Texte
LeMonde(siteweb)
Musique : le maloya, par et pour les femmes
2021-12-22
NA
« Je balance et dis haut et fort ce que je pense, notamment de la place de la femme dans notre société certes matrifocale mais ô combien machiste, de la place de la femme dans l’industrie musicale trustée dans mon île par quelques réseaux bien concentriques et égocentrés. » Dans le texte de présentation de son concert au Point Ephémère dans le cadre du festival « Les Femmes s’en mêlent », fin octobre à Paris, Maya Kamaty ne mâche pas ses mots. Et sur scène, l’artiste de 36 ans, vêtue d’une veste dorée sur un haut à demi-transparent, rappelle, s’il en était encore besoin, que cette tenue n’est en aucun cas une invitation à quoi que ce soit. Celle qui enchaîne avec un grand naturel hip-hop, électropop sous influences indiennes et chanson nourrie au maloya est l’une des artistes les plus en vue de la Réunion. Fille de Gilbert Pounia, leader du groupe Ziskakan qui, dans les années 1980, contribua au « revivalisme » de cette musique héritée de l’esclavage, Maya Kamaty ne compte pas se laisser enfermer dans une case. « Ce n’est parce que je viens de la Réunion que je fais du maloya, même s’il y en a dans ma musique car c’est mon sang, mes racines. On est déjà sur une île, on ne va pas aussi s’enfermer dans la musique », dit-elle quand nous la retrouvons sur le site du Sakifo Musik Festival, dimanche 12 décembre à Saint-Pierre (sud), alors qu’elle s’apprête à présenter sur scène son prochain EP, Sovaz. Après les albums Santié Papang (2014) et Pandiyé (2019), ce nouveau projet est celui d’une femme qui a été « confrontée à des remarques, des critiques, des questionnements », mais qui a « grandi » et n’a « plus peur », explique-t-elle : « Quand j’ai commencé, je ne me suis pas posé la question d’être une femme, qui plus est racisée. Pour moi, la musique c’était un grand monde fabuleux, le pays des Bisounours, même si mon père m’avait mise en garde contre certains travers. On a des papillons dans le ventre quand on commence, puis on est confronté à des comportements qui font qu’on se repositionne, comme ce programmateur qui vous regarde et vous dit : “Ah si j’avais dix ans de moins…” C’est un peu de tout ça dont je parle dans Sovaz. » En témoigne le premier single, Alibi, dans lequel Maya Kamaty appelle à se libérer des relations toxiques et à ne pas se conformer à ce que les autres attendent de vous. « A trop chercher leur approbation, tu te perds. Soit tu pètes un plomb, soit tu te libères. Pour cet EP, j’ai voulu plus de spontanéité, de lâcher-prise, un langage cru et brut. Je ne suis pas là pour faire “sois belle et tais-toi” », conclut celle dont le QG familial du Zinzin, un restaurant-cabaret situé à Grand-Bois, donne sur le « Sud sauvage », une région réputée pour ses coulées de lave qui fendent le paysage du piton de la Fournaise jusqu’à l’océan Indien… mais aussi pour la beauté de ses femmes, bien représentées parmi les lauréates du concours Miss Réunion. « Surtout pas du roulèr, car les jambes sont écartées »Le sont-elles aussi dans la musique ? Si, comme l’écrit le chercheur Carpanin Marimoutou dans L’Univers du maloya : histoire, ethnographie, littérature (co-écrit avec Guillaume Samson et Benjamin Lagarde, 2008, épuisé), « la mère est le symbole et la gardienne de la mémoire, de la filiation, de la transmission », le rôle des femmes dans les groupes traditionnels a longtemps été cantonné à celui de choristes ou de danseuses. Elles pouvaient éventuellement jouer du triangle ou du kayamb, mais « surtout pas du roulèr », ce gros tambour sur lequel on s’assoit, « car les jambes sont écartées », observe Maya Kamaty. « Quand le maloya était interdit [dans les années 1960 et au début des années 1970, du fait de sa proximité avec le Parti communiste réunionnais], c’était vraiment une musique réservée aux hommes, car ça se jouait en cachette », confirme Nadège Nagès, chargée de production au Pôle régional des musiques actuelles (PRMA) : « Les femmes sont arrivées plus tard, avec des choses très fortes à revendiquer, sur la condition féminine mais pas seulement. » Et de citer Françoise Guimbert, dont le premier 45-tours est sorti dès 1978, puis, bien plus tard, Nathalie Natiembé et Christine Salem. Cette dernière a commencé le maloya dans les années 1990. « Adolescente, j’étais un vrai garçon manqué. J’ai fait partie d’une équipe de foot pendant dix ans. J’étais tellement rebelle, je me suis imposée », confie-t-elle en se rallumant une cigarette. Née en 1971 dans une famille de sportifs et de comptables du quartier populaire des Camélias, à Saint-Denis (nord), elle a découvert le maloya à l’âge de 8 ans, dans la rue. « On traînait en bas de l’immeuble, on se rassemblait, on organisait des bœufs… A l’époque, hormis Françoise Guimbert, il n’y avait pas de femmes qui chantaient du maloya en tant que leader. Mais si je m’y suis mise, c’est surtout parce que j’en avais assez d’entendre des gens, notamment des politiques, dire que ce n’était pas de la musique, que ce n’était pas exportable. » Depuis, Christine Salem a prouvé le contraire, jouant son blues-maloya sur les scènes de nombreux pays. Dans son septième album, Mersi, paru en janvier 2021, elle consacre une magnifique chanson, Tyinbo, aux violences conjugales. « Tu l’appelles ma chérie / Elle embellit et bénit ta vie / A l’heure où tu ne la comprends plus / Tu lui arraches sa vie », chante-t-elle de sa voix grave, presque masculine. Pour celle qui a travaillé dans l’accompagnement social de jeunes adultes avant de se consacrer pleinement à la musique, ces violences sont le fruit de l’éducation. « A la Réunion, quand on élève un garçon, on le surnomme “mon petit coq”, note-t-elle. Ça fait référence aux combats de coqs, ils n’ont pas le droit de pleurer, de montrer leurs émotions. Donc ça finit par sortir d’une autre manière, à travers les gestes. » Trois fois plus de violences conjugales qu’en métropoleSelon une enquête réalisée par l’Institut national d’études démographiques (INED) en 2018, 15 % des femmes vivant en couple se déclarent victimes de violences conjugales à la Réunion, soit trois fois plus qu’en France métropolitaine. Des chiffres qui ont également interpellé le duo Bonbon Vodou, formé par la percussionniste Oriane Lacaille et le guitariste Jérémie Boucris alias « JereM », tous deux basés dans l’Hexagone. Dans leur deuxième album, Cimetière créole, paru en septembre, ils abordent ce thème sur le morceau De colère, dont le clip a été « marrainé » par l’association Figures de femmes totem d’outre-mer. « De furie il a commis l’homme / L’acte de peu de fierté, menaçant / Violent, celle qu’il nomme sa moitié », chantent-ils dans leur poésie douce et bousculée, teintée, comme il se doit, de maloya. Si Jérémie Boucris a des origines tunisiennes – auxquelles il rend hommage à travers l’utilisation d’un saz bricolé à partir d’un petit bidon d’huile –, Oriane Lacaille est, elle, la fille de René Lacaille, musicien réunionnais qui forma avec Alain Péters et d’autres le célèbre groupe des Caméléons, dans les années 1970, et qu’elle a accompagné en tournée dès l’âge de 13 ans. Sur le plan musical, elle se souvient : « Enfant, je constatais qu’il y avait peu de femmes dans les groupes qui venaient de la Réunion, alors quand certaines jouaient des percussions, ça m’attirait beaucoup. Dans la génération de mon père, les femmes ne faisaient pas de musique. Mes oncles jouaient dans des bals, mes tantes restaient à la maison. Ça va beaucoup mieux aujourd’hui, ça bouge, mais c’est vrai que les femmes restent trop rares sur scène. » Au Sakifo Musik Festival, cette année, elles représentaient environ un tiers des artistes programmés. Cet article est paru dans Le Monde (site web)
LaTribune(France),no.7294
Comprendre la crise sociale en Guadeloupe
2021-12-22
NA
Une de nombreuses vidéos sur la situation sociale de la Guadeloupe a retenu particulièrement notre attention. On y voit le syndicaliste Élie Domota face à un gendarme sur un barrage. Le syndicaliste, entouré de ses partisans, calme mais apparemment déterminé s'adresse au militaire entouré, lui, d'agents fraîchement débarqués sur l'île. Il lui demande de transmettre le message suivant au préfet. « Dites-lui que nous avons un compte ancestral à régler et que nous irons jusqu'au bout ». Tout aussi calme, l'agent de la force publique lui demande alors de préciser ce qu'il entend par « jusqu'au bout ». S'adressant à nouveau au militaire, cette fois en créole, il répond « la i pann i sek ». Proverbe imagé que l'on peut traduire par « advienne que pourra ». Constatant la surprise de son interlocuteur qui ne comprend pas la réponse, il complète le proverbe sur un ton sarcastique par « menm mouillé i sek » (arrivera ce qui doit arriver), comme pour marquer la fin de l'échange avec un interlocuteur avec lequel on rompt la communication. Cet échange révélateur des tensions de la crise sociale de 2021 est dans la continuité des mobilisations antérieures. Une longue histoire de mobilisationsCelles de mai 1967 (lien : https://www.humanite.fr/mai-1967-greve-et-manifestation-sanglante-en-guadeloupe-636569), auxquelles se réfère ouvertement le mouvement social (lien : http://ugtg.org/spip.php?article327) se sont soldées par un nombre inconnu à ce jour de morts parmi les manifestants, dont Jacques Nestor, leader du mouvement syndicaliste. Ces évènements sont perçus comme une agression coloniale « subie » par la population, sans défense, de Pointe-à-Pitre et plus largement de la Guadeloupe. En 2009 (lien : https://la1ere.francetvinfo.fr/aux-antilles-greve-generale-2009-laisse-gout-amer-678261.html), des milliers de personnes avaient participé à des manifestations contre la crise économique et sociale aux Antilles. Elie Domota du LKP (Lyannaj Kont Pwofitasyon : Mobilisation contre l'exploitation), mouvement de tête de la mobilisation, affirmait dans une émission de la télévision locale Canal 10 que si « l'on veut la guerre civile, on l'aura. Il y aura des morts comme en 1967 (lien : https://www.karthala.com/hommes-et-societes-sciences-economiques-et-politiques/2560-mobilisations-sociales-aux-antilles-les-evenements-de-2009-dans-tous-leurs-sens-9782811106508.html) mais pas de leur côté. » Le mouvement social de 2009 a depuis été inscrit dans le rapport de la commission animée par l'historien Benjamin Stora (lien : https://la1ere.francetvinfo.fr/aux-antilles-greve-generale-2009-laisse-gout-amer-678261.html). Selon ce dernier, les mobilisés de l'époque manifestaient une volonté de « réappropriation sinon d'un destin du moins d'un avenir ». Cette commission d'information et de recherche historique a été instituée par un arrêté du 22 avril 2014 de la ministre des outremers, Georges Pau-Langevin. Sous la direction de l'historien Benjamin Stora, elle a été « chargée d'étudier et de rendre un rapport » sur plusieurs évènements notamment ceux de Guadeloupe survenus entre les 26 et 28 mai 1967. En 2021, après le refus d'abrogation de l'obligation vaccinale, Maïté N'Toumo (lien : https://www.leprogres.fr/sante/2021/11/16/la-guerre-est-declaree-la-situation-se-tend-en-guadeloupe-autour-de-l-obligation-vaccinale), l'actuelle secrétaire générale du principal syndicat de salariés, l'UGTG (l'Union Générale des Travailleurs de Guadeloupe) n'exclut pas l'affrontement. Estimant que le refus de dialogue des autorités et la suspension des soignants réfractaires à la vaccination constituent une violence. Elle déclare à son tour que la guerre est déclarée. Il faut signaler qu'en 2009, le LKP, était à la fois un front puissant d'une cinquantaine d'organisations et le principal interlocuteur des autorités étatiques. En 2021, c'est une organisation parmi les autres dans un collectif qui s'oppose à l'obligation vaccinale et qui présente une plate-forme de revendications sociales. L'UGTG,la CGTG et les partis politiques indépendantistes ne font plus partie de ce LKP affaibli. Comme en 2009, cette « guerre syndicale » est un appel au blocage avec toutefois une capacité de mobilisation moindre en 2021. Elle concerne aujourd'hui principalement les professions médicales et paramédicales ainsi que les pompiers qui refusent le vaccin au motif que la loi qui l'impose porte atteinte à la liberté individuelle et au droit de disposer de son corps. Mais ce qui marque principalement les événements de 2021 est la place des jeunes, désoeuvrés, violents, qui marque un tournant dans la manifestation. L'irruption de la jeunesse guadeloupéenneLa situation sociale de la Guadeloupe est devenue explosive (lien : https://www.lemonde.fr/planete/article/2021/11/20/la-guadeloupe-s-embrase-sur-fond-de-crise-sanitaire_6102952_3244.html) après l'irruption de ces jeunes dans l'action collective certains précisant qu'ils venaient en aide ainsi aux soignants et qu'ils étaient eux aussi contre l'obligation vaccinale. Ils sont à l'origine d'une paralysie quasi complète du fonctionnement normal de la société insulaire. Après le refus des autorités et le déclenchement d'une grève générale illimitée par les syndicats, de nombreux barrages tenus par ces jeunes ont été érigés sur plusieurs points stratégiques de l'archipel. Rapidement, il ne s'agit plus seulement d'une mobilisation contre l'obligation vaccinale. La tension est d'une autre nature, le sens de la contestation aussi. Aux revendications des syndicats présentées selon des modalités convenues s'ajoutent désormais des actions violentes sans formulations de demandes précises et audibles. À l'échange conventionnel entre les forces de l'ordre et le LKP, s'oppose l'action imprévisible de jeunes masqués dont l'un des objectifs est de défier la force publique. Des incendies de voitures et d'immeubles dans les centres villes, ressemblent aux violences urbaines que connaissent sporadiquement les banlieues françaises, un phénomène nouveau qui s'interprète, pour l'heure, comme une mobilisation de défiance (lien : https://la1ere.francetvinfo.fr/guadeloupe/crise-sociale-en-guadeloupe-ce-que-veulent-les-jeunes-1164586.html). La mobilisation des jeunes plus seulement concerner l'objet premier de la contestation. Ces jeunes en déshérence qu'il faut distinguer de ceux qui sont sur les barrages contrôlés par les syndicats sont pour l'essentiel des garçons, mineurs et jeunes adultes. Le plus souvent inactifs ils vivent du secteur informel et d'actions illicites. L'engagement de ces jeunes, bien qu'il défie les autorités, est spontané sans concertation avec le mouvement social. Il ne repose donc pas sur un programme de revendications qui changent d'un barrage à un autre. Les raisons de la colèreCette partie de la jeunesse qui se trouve sur les barricades exprime à sa manière une exclusion qui dépasse la simple revendication de ressources. Leur crise est plus profonde. Elle révèle l'extrême faiblesse de tous les cercles de socialisation dont la famille, l'école et le tissu associatif. Comme l'a montré le démographe Claude-Valentin Marie (lien : https://www.ined.fr/fichier/s_rubrique/325/tendances.demographiques.migratoires.regions.ultraperipheriques.impact.cohesion.economique.sociale.territoriale.rapport.synthese.fr.pdf), l'employabilité de cette partie de la jeunesse est difficile. Le chômage touche en premier lieu ceux qui n'ont pas de diplômes. À cela s'ajoute le départ des plus diplômés qui quittent la Guadeloupe et de ceux à la recherche d'un emploi correspondant à leur qualification. Les jeunes de 15 à 29 ans sont les plus touchés par le chômage (lien : https://www.insee.fr/fr/statistiques/4480182). Leur formation est un défi. Beaucoup d'entre eux sont nés dans des familles (lien : https://www-cairn-info.ezpaarse.univ-paris1.fr/revue-cahiers-de-l-action-2017-2-page-7.htm) monoparentales et sans emplois, ce qui révèle un problème dont on n'a pas encore évalué la gravité. Face à cette évolution de la situation, l'attitude des représentants du gouvernement pourrait renforcer les tensions devenant, paradoxalement, le moteur de la contestation. Certes, on peut difficilement discuter avec des émeutiers non identifiés sans revendications précises. Mais lors de son passage en Guadeloupe le 29 novembre Sébastien Lecornu le ministre des outremers a imposé aux syndicalistes la condamnation des violences de ces jeunes comme condition préalable au dialogue. La condition semble remplie en Martinique (lien : https://www.martinique.franceantilles.fr/actualite/social/un-chemin-de-sortie-de-solution-est-possible-avant-tout-car-il-y-a-une-condamnation-unanime-des-violences-lecornu-594063.php), pas en Guadeloupe. En refusant de discuter avec les syndicats, les autorités ignorent les lois de la mobilisation et se privent d'un probable apaisement de la situation. Pour l'heure, les seuls échanges en cours concernent les élus locaux et les représentants du mouvement social qui doivent se rencontrer autour d'une proposition d'accord de méthode qui prévoit la venue d'une délégation interministérielle. Dans un communiqué (lien : https://www.outre-mer.gouv.fr/le-gouvernement-precise-sa-methode-pour-lelaboration-de-plans-daction-interministeriels-pour-la) datant du 3 décembre, le ministre préfère confier au préfet la mission de le représenter lors d'éventuels échanges. De nouvelles formes d'actions collectives ?En Guadeloupe comme ailleurs l'action collective (lien : https://www-persee-fr.ezpaarse.univ-paris1.fr/doc/rfsoc_0035-2969_1983_num_24_3_3673) repose généralement sur deux dimensions complémentaires. D'une part une intégration horizontale qui révèle le degré de solidarité du groupe contestataire. Ce mode d'intégration se construit le plus souvent sur la base d'intérêts individuels ou collectifs à agir. En Guadeloupe la défense de l'identité culturelle et des acquis sociaux sont les ressorts récurrents de la mobilisation. D'autre part, une intégration verticale qui renseigne sur la nature des relations du groupe avec les autorités. La qualité des relations avec le préfet ou le gouvernement participe à l'intensité de l'action collective. Lorsque la communication et le dialogue existent entre la direction du groupe mobilisé et les autorités, les probabilités de surgissement de la mobilisation sont faibles. On peut penser que les tensions actuelles entre le mouvement social et le ministre Lecornu sont alimentées par des échanges limités. En croisant ces deux dimensions, on peut donc déduire les probabilités de déclenchement et l'intensité de la contestation. La mobilisation (lien : https://fr1lib.org/book/3515400/5e19ba) est d'autant plus importante que la solidarité interne est forte et que l'intégration verticale est faible. Par exemple, en 2009 le LKP a fédéré dans une démarche horizontale inclusive une myriade de partis et d'associations. Son dialogue vertical, conflictuel avec le représentant de l'État s'est déroulé en marginalisant les élus locaux et en médiatisant l'échange; ce qui a galvanisé les troupes. En 2021, le contexte, les acteurs et la stratégie du gouvernement ont changé. Autre différence notable, la base sociale du LKP, moins diversifiée, s'est réduite, ce qui pourrait limiter aussi les probabilités de succès de la mobilisation contre l'obligation vaccinale. Quelques jours avant l'arrivée du ministre, le LKP a rassemblé vraisemblablement plusieurs milliers de manifestants (lien : https://www.karibinfo.com/index.php/2021/12/04/un-deboule-pointois-contre-la-vaccination-obligatoire/) en associant à sa démarche le groupe carnavalesque Akiyo, illustrant ainsi l'idée selon laquelle l'affirmation identitaire est un des ressorts de la mobilisation. Contrairement à ce qui s'est passé en 2009, il n'est pas sûr par conséquent que le mouvement social ait la capacité autonome d'un déploiement de force. Un usage politique de l'opposition à la vaccinationCette crise a provoqué une division du mouvement nationaliste. Curieusement, ce sont les « anciens » qui par réalisme et confiance dans la science militent pour la vaccination. Les « anciens » nationalistes se réfèrent le plus souvent aux pays voisins indépendants qui n'hésitent pas dans une démarche « responsable » à vacciner leur population. Cuba est l'exemple le plus cité. Ils interpellent les « jeunes » sur l'attitude qu'ils auraient dans l'hypothèse d'une Guadeloupe souveraine. Les « jeunes » ne sont pas nécessairement plus modernes. Ils fondent leur opposition à la vaccination sur des croyances dans une pharmacopée locale qui renforcerait les défenses immunitaires. Ces « jeunes », qui dirigent aujourd'hui les syndicats, en symbiose avec une part notable de la population sensible aux discours douteux des réseaux sociaux, ont construit une opposition à la vaccination fondée sur des arguments d'ordre identitaire; ce qui fait dire à Luc Ferry sur LCI le 28 novembre que la Guadeloupe est un territoire « ancestral » ! En réalité, il s'agit d'un usage politique de l'opposition à la vaccination par des syndicalistes par ailleurs militants politiques dont certains avouent être vaccinés. Les allusions sur des médias de l'hexagone à des pratiques vaudous supposées pour expliquer la résistance à cette vaccination sont également purement fantaisistes dans la mesure où cette religion n'est pas pratiquée en Guadeloupe. Si la minorité haïtienne présente sur le sol guadeloupéen en a éventuellement une pratique, elle est discrète et ne peut alors avoir de lien avec la résistance à la vaccination. La peur du vaccin est difficilement compréhensible quand on sait le nombre de morts causés par la pandémie. En réalité, cette peur se conjugue avec une méfiance généralisée (lien : https://theconversation.com/du-code-noir-au-chlordecone-comprendre-le-refus-de-lobligation-vaccinale-aux-antilles-francaises-172668) à l'égard des autorités étatiques et locales. [Image : https://counter.theconversation.com/content/172885/count.gif?distributor=republish-lightbox-advanced] _______ Par Fred Reno (lien : https://theconversation.com/profiles/fred-reno-1295701), Professeur de science politique, Université des Antilles La version originale (lien : https://theconversation.com/) de cet article a été publiée sur The Conversation (lien : https://theconversation.com/
Libération(siteweb)
Santé mentale des enfants : la «lutte de tous les jours» des psy de l'Education nationale
2021-12-22
NA
Au moment où l'Education nationale n'a jamais autant mis en avant la santé mentale de ses élèves, les moyens mis sur la table restent insuffisants pour bon nombre de psychologues scolaires. Les chiffres ne mentent pas. 20% des 15-24 ans souffrent de symptômes dépressifs, a alerté en novembre la Défenseuse des droits , en hausse de 50% par rapport en 2019. Pendant le premier confinement, 13% des enfants de 8 à 9 ans ont subi des troubles socio-émotionnels, d'après l'Inserm et l'Ined. Et les jeunes patients déferlent dans les urgences pédiatriques au fil des vagues de Covid-19. La pandémie a considérablement aggravé la santé mentale des enfants et adolescents. C'est pourquoi le ministre de l'Education nationale, Jean-Michel Blanquer, ne cesse de répéter, comme à la rentrée 2020 , combien il était important que le personnel éducatif veille au « bien-être » des enfants. Dans les établissements, ce sont les conseillers d'orientation-psychologues, rebaptisés «PsyEN» pour « psychologues de l'Education nationale» depuis une réforme en 2018, tous titulaires d'un master de psychologie, qui sont devenus les référents sur ce sujet. Dans le dédale des salles de classe, ils organisent des permanences, accueillent, écoutent, conseillent, consolent les élèves, une ou plusieurs fois dans l'année, selon les besoins. Sans protocole thérapeutique figé. Les seules consignes étant « indicatives», regrette auprès de Libération Bernard Desclaux, ancien conseiller psychologue aujourd'hui à la retraite. «Une lutte de tous les jours» A ce jour, on dénombre 1 PsyEN pour environ 1 500 élèves, selon un rapport de l'Education nationale de 2021 . Soit «3 300 PsyEN, contre 4 700 conseillers d'orientation dans les années 80», précise Bernard Desclaux. Une prise en charge encore largement «insuffisante», pour la vice-présidente des PsyEN, Delphine Riccio. D'autant qu'un tiers d'entre eux sont aujourd'hui contractuels, un chiffre en constante augmentation. «Les départs à la retraite ne sont pas remplacés,s'insurge Bernard Desclaux . On agite l'épouvantail de l'austérité. Et pendant ce temps, le métier se précarise.»Autre problème : l'isolement des PsyEN au sein de l'école. «On n'a pas assez assez d'appui dans les établissements,se désole la PsyEN. Chaque fois, les équipes pédagogiques nous répondent qu'on n'a pas le temps, que l'école n'est pas le lieu pour faire le psy.» Delphine Riccio s'adapte, se contorsionne, court entre les quatre collèges et lycées qu'elle gère, voit un élève sur sa pause déjeuner. «C'est de la débrouille. Une lutte de tous les jours avec le personnel éducatif pour trouver les créneaux, créer des rendez-vous d'urgence.» Conséquences inévitables : «On ne fait pas de la thérapie, mais de la médiation. On passe notre temps à réorienter les lycéens vers leur famille ou d'autres structures. On se sent impuissants» , regrette la présidente des psychologues de l'Education nationale. Alors de plus en plus d'établissements font appel à des prestataires : des libéraux, mais aussi des associations, comme l'Institut de formation, d'animation et de conseil (Ifac). Cette dernière organise depuis dix ans des permanences d'écoute chaque semaine, notamment dans trois lycées de Paris, ainsi que dans celui de Montaigne à partir de janvier. Mais vite, la coach de l'Ifac Alice Duclos relativise : «On n'est encore qu'aux balbutiements de la prise en charge de la santé mentale à l'école. Il n'y a pas de réel accompagnement, les rendez-vous que nous organisons ne sont que ponctuels.» Sans parler du coût de ces dispositifs, «de 4 000 à 5 000 euros par an», souffle-t-elle, aux frais de la région. Le gouvernement a également lancé au printemps des chèques psychologiques destinés aux enfants et adolescents, de 3 à 17 ans, pour rembourser jusqu'à dix séances avec un thérapeute du privé. Et a aussi annoncé, ces derniers jours, que 50 infirmiers allaient grossir les rangs de l'école, à partir de janvier prochain. En toile de fond, toujours la même logique : «L'individualisation du problème, dénonce la PsyEN Delphine Riccio. On propose à tort et à travers un suivi personnalisé, sans penser que la souffrance psychologique est structurelle, car liée à la pression de la sélection, des notes, de la compétition, au contexte économique ou à l'écoanxiété.» Cet article est paru dans Libération (site web)
Libération(siteweb)
Santé mentale des enfants : la «lutte de tous les jours» des psys de l'Education nationale
2021-12-22
NA
Au moment où l'Education nationale n'a jamais autant mis en avant la santé mentale de ses élèves, les moyens mis sur la table restent insuffisants pour bon nombre de psychologues scolaires. Les chiffres ne mentent pas. 20% des 15-24 ans souffrent de symptômes dépressifs, a alerté en novembre la Défenseuse des droits , en hausse de 50% par rapport en 2019. Pendant le premier confinement, 13% des enfants de 8 à 9 ans ont subi des troubles socio-émotionnels, d'après l'Inserm et l'Ined. Et les jeunes patients déferlent dans les urgences pédiatriques au fil des vagues de Covid-19. La pandémie a considérablement aggravé la santé mentale des enfants et adolescents. C'est pourquoi le ministre de l'Education nationale, Jean-Michel Blanquer, ne cesse de répéter, comme à la rentrée 2020 , combien il était important que le personnel éducatif veille au « bien-être » des enfants. Dans les établissements, ce sont les conseillers d'orientation-psychologues, rebaptisés «PsyEN» pour « psychologues de l'Education nationale» depuis une réforme en 2018, tous titulaires d'un master de psychologie, qui sont devenus les référents sur ce sujet. Dans le dédale des salles de classe, ils organisent des permanences, accueillent, écoutent, conseillent, consolent les élèves, une ou plusieurs fois dans l'année, selon les besoins. Sans protocole thérapeutique figé. Les seules consignes étant « indicatives», regrette auprès de Libération Bernard Desclaux, ancien conseiller psychologue aujourd'hui à la retraite. «Une lutte de tous les jours» A ce jour, on dénombre 1 PsyEN pour environ 1 500 élèves, selon un rapport de l'Education nationale de 2021 . Soit «3 300 PsyEN, contre 4 700 conseillers d'orientation dans les années 80», précise Bernard Desclaux. Une prise en charge encore largement «insuffisante», pour la vice-présidente des PsyEN, Delphine Riccio. D'autant qu'un tiers d'entre eux sont aujourd'hui contractuels, un chiffre en constante augmentation. «Les départs à la retraite ne sont pas remplacés,s'insurge Bernard Desclaux . On agite l'épouvantail de l'austérité. Et pendant ce temps, le métier se précarise.»Autre problème : l'isolement des PsyEN au sein de l'école. «On n'a pas assez assez d'appui dans les établissements,se désole la psychologue. Chaque fois, les équipes pédagogiques nous répondent qu'on n'a pas le temps, que l'école n'est pas le lieu pour faire le psy.» Delphine Riccio s'adapte, se contorsionne, court entre les quatre collèges et lycées qu'elle gère, voit un élève sur sa pause déjeuner. «C'est de la débrouille. Une lutte de tous les jours avec le personnel éducatif pour trouver les créneaux, créer des rendez-vous d'urgence.» Conséquences inévitables : «On ne fait pas de la thérapie, mais de la réorientation. On passe notre temps à guider les lycéens vers leur famille ou d'autres structures. On se sent impuissants» , regrette la présidente des psychologues de l'Education nationale. Alors de plus en plus d'établissements font appel à des prestataires : des libéraux, mais aussi des associations, comme l'Institut de formation, d'animation et de conseil (Ifac). Cette dernière organise depuis dix ans des permanences d'écoute chaque semaine, notamment dans trois lycées de Paris, ainsi que dans celui de Montaigne à partir de janvier. Mais vite, la coach de l'Ifac Alice Duclos relativise : «On n'est encore qu'aux balbutiements de la prise en charge de la santé mentale à l'école. Il n'y a pas de réel accompagnement, les rendez-vous que nous organisons ne sont que ponctuels.» Sans parler du coût de ces dispositifs, «de 4 000 à 5 000 euros par an», souffle-t-elle, aux frais de la région. Le gouvernement a également lancé au printemps des chèques psychologiques destinés aux enfants et adolescents, de 3 à 17 ans, pour rembourser jusqu'à dix séances avec un thérapeute du privé. Et a aussi annoncé, ces derniers jours, que 50 infirmiers allaient grossir les rangs de l'école, à partir de janvier prochain. En toile de fond, toujours la même logique : «L'individualisation du problème, dénonce la PsyEN Delphine Riccio. On propose à tort et à travers un suivi personnalisé, sans penser que la souffrance psychologique est structurelle, car liée à la pression de la sélection, des notes, de la compétition, au contexte économique ou à l'écoanxiété.»Retrouvez notre dossier complet :Le mal-être des enfants face au Covid Cet article est paru dans Libération (site web)
Libération(siteweb)
Santé mentale des enfants : la «lutte de tous les jours» des psys de l'Education nationale
2021-12-22
NA
Au moment où l'Education nationale n'a jamais autant mis en avant la santé mentale de ses élèves, les moyens mis sur la table restent insuffisants pour bon nombre de psychologues scolaires. Les chiffres ne mentent pas. 20% des 15-24 ans souffrent de symptômes dépressifs, <a href="https://www.liberation.fr/societe/education/la-defenseure-des-droits-alerte-sur-la-sante-mentale-des-jeunes-mise-a-mal-par-la-crise-sanitaire-20211117_I55MQOOYYJFNNEVK6NFNJ3CONA/" target="_blank">a alerté en novembre la Défenseuse des droits</a>, en hausse de 50% par rapport en 2019. Pendant le premier confinement, 13% des enfants de 8 à 9 ans ont subi des troubles socio-émotionnels, d'après <a href="https://www-cairn-info.ezpaarse.univ-paris1.fr/revue-population-et-societes-2021-1-page-1.htm" target="_blank">l'Inserm et l'Ined</a>. Et <a href="https://www.liberation.fr/societe/sante/covid-19-en-pedopsychiatrie-des-vagues-dhospitalisations-denfants-20211221_YEECYYWRBBFCLNQD7XL66WM5IA/" target="_blank">les jeunes patients déferlent dans les urgences pédiatriques au fil des vagues</a> de Covid-19. La pandémie a considérablement aggravé la santé mentale des enfants et adolescents. C'est pourquoi le ministre de l'Education nationale, Jean-Michel Blanquer, ne cesse de répéter, comme à la rentrée <a href="http://www.touteduc.fr/fr/archives/id-17881--il-faut-que-le-bien-etre-des-profs-rejaillisse-sur-le-bien-etre-des-eleves-jean-michel-blanquer-">2020</a>, combien il était important que le personnel éducatif veille au «<i>bien-être</i>» des enfants. Dans les établissements, ce sont les conseillers d'orientation-psychologues, rebaptisés «PsyEN» pour «<i>psychologues de l'Education nationale</i>» depuis une réforme en 2018, tous titulaires d'un master de psychologie, qui sont devenus les référents sur ce sujet. Dans le dédale des salles de classe, ils organisent des permanences, accueillent, écoutent, conseillent, consolent les élèves, une ou plusieurs fois dans l'année, selon les besoins. Sans protocole thérapeutique figé. Les seules consignes étant «<i>indicatives</i>», regrette auprès de <i>Libération</i> Bernard Desclaux, ancien conseiller psychologue aujourd'hui à la retraite. «Une lutte de tous les jours» A ce jour, on dénombre 1 PsyEN pour environ 1 500 élèves, <a href="https://www.education.gouv.fr/geographie-de-l-ecole-323657" target="_blank">selon un rapport de l'Education nationale de 2021</a>. Soit <i>«3 300 PsyEN, contre 4 700 conseillers d'orientation dans les années 80»,</i> précise Bernard Desclaux. Une prise en charge encore largement <i>«insuffisante»,</i> pour la vice-présidente des PsyEN, Delphine Riccio. D'autant qu'un tiers d'entre eux sont aujourd'hui contractuels, un chiffre en constante augmentation. <i>«Les départs à la retraite ne sont pas remplacés, </i>s'insurge Bernard Desclaux<i>. On agite l'épouvantail de l'austérité. Et pendant ce temps, le métier se précarise.»</i> Autre problème : l'isolement des PsyEN au sein de l'école. <i>«On n'a pas assez assez d'appui dans les établissements, </i>se désole la psychologue. <i>Chaque fois, les équipes pédagogiques nous répondent qu'on n'a pas le temps, que l'école n'est pas le lieu pour faire le psy.»</i> Delphine Riccio s'adapte, se contorsionne, court entre les quatre collèges et lycées qu'elle gère, voit un élève sur sa pause déjeuner. <i>«C'est de la débrouille. Une lutte de tous les jours avec le personnel éducatif pour trouver les créneaux, créer des rendez-vous d'urgence.»</i> Conséquences inévitables : <i>«On ne fait pas de la thérapie, mais de la réorientation. On passe notre temps à guider les lycéens vers leur famille ou d'autres structures. On se sent impuissants</i>»<i>,</i> regrette la présidente des psychologues de l'Education nationale. Alors de plus en plus d'établissements font appel à des prestataires : des libéraux, mais aussi des associations, comme <a href="https://www.ifac.asso.fr/L-Ifac-en-quelques-mots" target="_blank">l'Institut de formation, d'animation et de conseil</a> (Ifac). Cette dernière organise depuis dix ans des permanences d'écoute chaque semaine, notamment dans trois lycées de Paris, ainsi que dans celui de Montaigne à partir de janvier. Mais vite, la coach de l'Ifac Alice Duclos relativise : <i>«On n'est encore qu'aux balbutiements de la prise en charge de la santé mentale à l'école. Il n'y a pas de réel accompagnement, les rendez-vous que nous organisons ne sont que ponctuels.</i>» Sans parler du coût de ces dispositifs, <i>«de 4 000 à 5 000 euros par an</i>», souffle-t-elle, aux frais de la région. Le gouvernement a également lancé au printemps des <a href="https://solidarites-sante.gouv.fr/actualites/presse/communiques-de-presse/article/un-forfait-psychologique-d-urgence-a-destination-des-enfants-et-adolescents" target="_blank">chèques psychologiques</a> destinés aux enfants et adolescents, de 3 à 17 ans, pour rembourser jusqu'à dix séances avec un thérapeute du privé. Et a aussi annoncé, ces derniers jours, que 50 infirmiers allaient grossir les rangs de l'école, à partir de janvier prochain. En toile de fond, toujours la même logique : <i>«L'individualisation du problème</i>, dénonce la PsyEN Delphine Riccio. <i>On propose à tort et à travers un suivi personnalisé, sans penser que la souffrance psychologique est structurelle, car liée à la pression de la sélection, des notes, de la compétition, au contexte économique ou à l'</i><a href="https://www.liberation.fr/environnement/climat/tristes-effrayes-abandonnes-de-nombreux-jeunes-en-detresse-face-a-la-crise-climatique-20210914_J5NIYUN6Z5GH5A4NOX5YDJH3ZU/" target="_blank"><i>écoanxiété</i></a><i>.»</i> <i><b>Retrouvez notre dossier complet : </b></i><a href="https://www.liberation.fr/societe/sante/covid-19-et-mal-etre-des-enfants-que-faire-20211222_ERQQSR5IKBFJFIOV7JLEAFNWKI/"><i><b>Le mal-être des enfants face au Covid</b></i></a> Cet article est paru dans Libération (site web)
AFPInfosFrançaises
Démographie: des indicateurs chamboulés par le Covid
2021-12-23
NA
Paris, 23 déc 2021 (AFP) - - Davantage de décès que de naissances: pendant deux trimestres successifs, fin 2020 et début 2021, la population française a connu un solde naturel négatif, une première depuis 1945, qui s'explique largement par l'épidémie de Covid. Si elle conserve "la plus forte croissance démographique de l'Union européenne", la France a vu malgré tout sa "dynamique démographique" "perturbée" par la crise sanitaire, pointent les démographes de l'Ined. * MortalitéEn 2020, 668.900 décès ont été enregistrés en France toutes causes confondues, soit une hausse de 9,1% par rapport à 2019. L'espérance de vie a diminué de presque 7 mois pour les hommes et cinq mois pour les femmes, retrouvant son niveau de 2014. * NatalitéQuelque 736.000 bébés sont nés en France en 2020, soit le niveau le plus faible depuis 1945. Cette baisse, engagée depuis plus de 10 ans et accélérée en 2020, a été particulièrement marquée en fin d'année, soit neuf mois après le confinement: -6% et -8% en novembre et décembre, par rapport à la moyenne des trois années précédentes. Malgré tout, la France demeure en 2020 le pays le plus fécond d'Europe, avec 1,83 enfant par femme. * Solde naturelLe solde naturel (différence entre les naissances et les décès) a atteint +67.000, soit à peine plus que le solde migratoire, selon des chiffres provisoires. Cet indicateur a même été négatif lors du dernier trimestre 2020 et du premier trimestre 2021, une première depuis 1945. * MariagesLeur nombre s'est effondré de 31% en 2020, à cause des contraintes sanitaires. La baisse est particulièrement forte de mars à juillet 2020, sans véritable rattrapage durant le deuxième semestre (sauf en octobre avec +28%). * IVGLe nombre d'interruptions volontaires de grossesse a baissé de 4% en 2020 par rapport à 2019. Cette baisse a été "particulièrement forte dans les semaines qui ont suivi le premier confinement", ce qui montre que "la baisse des naissances de novembre et décembre est avant tout le fait d'une diminution des conceptions", relèvent les démographes. * ImmigrationSelon des statistiques du ministère de l'Intérieur, le nombre de titres de séjour pour les ressortissants hors UE a baissé de 21% en 2020 par rapport à 2019. ab/lum/pb
On a bien récupéré les dates et les noms de journaux.
Suppression des doublons
Avec Europresse, on obtient souvent des articles publiés en doublons, ce sont particulièrement les cas pour les articles issus de sites internet. Pour la suite, le tutoriel de Corentin Roquebert fonctionne toujours, je réutilise donc son code pour gérer identifier et supprimer les doublons.
On commence par supprimer les textes trop courts, puis on isole des extraits en début et fin de texte pour les comparer entre chaque article et voir s’ils sont suffisamment proches pour être considérés comme étant des doublons grâce à un algorithme.
# Calcul des paires de distance# C'est ici qu'a lieu le calcul de distance entre tous les textes.dist<-stringdistmatrix(articles$extrait_debut)## Conversion en matrice m<-as.matrix(dist)# Dans la matrice, on met 1000 comme valeur pour toutes les valeurs en dessous # de la diagonale, pour éviter d'avoir deux fois la même mesurem[lower.tri(m)]<-1000# Dans la matrice, on met 1000 comme valeur pour la diagonale # pour ne pas enlever un texte parce qu'il ressemble à lui-même...diag(m)<-1000# Sélection des paires proches# On regarde les positions pour lesquelles l'indice de dissimilarité est # inférieure à 50. C'est ici donc qu'on fixe le seuil et qu'on peut le changer ! indices<-which(m<50, arr.ind =TRUE)## Vérificationsverif_dbt<-cbind(articles$extrait_debut[indices[,1]], articles$extrait_debut[indices[,2]])# On peut regarder ce qui a été considéré comme trop proche pour faire varier le seuil.## Suppression des articles prochesarticles<-articles%>%slice(-indices[,2])
Comparaison des fins de textes
Doublons en fin
## Calcul des paires de distancedist<-stringdistmatrix(articles$extrait_fin)## Conversion en matrice m<-as.matrix(dist)m[lower.tri(m)]<-1000diag(m)<-1000## Sélection des paires prochesindices<-which(m<50, arr.ind =TRUE)## Vérificationstest<-cbind(articles$extrait_fin[indices[,1]], articles$extrait_fin[indices[,2]])## Suppression des articles prochesarticles<-articles%>%slice(-indices[,2])
On a donc supprimé tous les textes trop similaires. Nous pouvons donc supprimer les deux nouvelles variables d’extraits devenues inutiles.
Une fois l’apurement effectué, vous pouvez ajouter des caractéristiques supplémentaires à chacun des articles. On peut penser à des variables construites comme :
- Taille de l’article : Long vs court
- Type de presse : Nationale, régionale, gratuite
- Orientation politique de la source - etc.
Ici, nous nous contenterons de recoder la date pour ne garder que l’année, et le nom du journal pour avoir des catégories plus propres.
Recoder les journaux
Je reprends la méthode et les explications utilisées par Corentin Roquebert dans son tutoriel.
Elle consiste à ne garder que les principales sources (grands journaux), et à regrouper les sources plus petites (presses régionales, féminines, etc.)
Création variable + principes du nettoyage
On commence par créer la variable CJournal et mettre tous les journaux dans une catégorie “Autre”, pour recoder ensuite les journaux sélectionnés.
Recoder les journaux (1)
# Catégorie rebutarticles$CJournal<-"Autre"
Pour recoder les journaux, alors que la variable Journal n’est pas propre, on cherche des chaînes de caractères pour isoler les journaux un à un.
Recoder les journaux (2)
# Exemple pour le Figaro :articles$CJournal[stri_detect_fixed(articles$Journal, "figaro",case_insensitive=T)]<-"Figaro"
Ici, le code met “Figaro” comme modalité de la nouvelle variable CJournal à partir du moment où la chaîne de caractères “figaro” est renseignée dans la variable initiale (Journal). On prend donc toutes les variations de ce journal (ici, on a tout aussi bien “Le Figaro”, “le Figaro”, “Figaro magazine”, “Figaro Economie, n°1256”, “Figaro web”, les variations sont innombrables) et on les assimile. L’argument case_insensitive permet de ne pas se soucier des majuscules.
Puis on passe à des cas plus complexes :
Recoder les journaux (3)
# Un autre cas : Le Mondearticles$CJournal[stri_detect_fixed(articles$Journal, "monde",case_insensitive=T)]<-"Monde"
Ici, le cas est un peu plus épineux. En effet, il y a d’autres journaux qui ont la chaîne de caractères “monde” dans leur titre, comme “le Monde Diplomatique”. Il est donc important de faire ce recodage au début, avant de faire celui où l’on va chercher “monde diplo” par exemple, qui va ainsi “corriger” l’erreur qu’on avait faite dans un premier temps. Il faut donc faire attention à l’ordre dans lequel on effectue ces recodages.
Exploration des journaux à recoder
On applique cette méthode à toutes les autres catégories :
Pour ça, je trie les journaux pour savoir qu’elles sont les catégories que je vais garder.
On peut également unifier certains journaux par une catégorie. Ici, on change un peu le code : on met la même modalité si dans la variable initiale, on a une des chaînes de caractères qu’on demande :
Ici, le but est de ne pas surcharger le nombre de titres de presse en unifiant tous les journaux régionaux qui avaient relativement peu de résultats dans mes requêtes (en revanche, les grands titres de la presse quotidienne régionale sont conservés en propre)
On obtient une base de données dans laquelle chaque ligne correspond à un article, avec une colonne qui contient le texte à étudier dans Iramuteq et les autres qui permettent de le caractériser.
Pour l’instant, le fichier (sans doublons) contiendra au maximum 1000 lignes à cause de la restriction dans Europresse.
Cependant, vous pouvez reproduire la manipulation plusieurs fois pour obtenir plusieurs bases que vous fusionnerez ici (avec un rbind, par exemple).
Maintenant, il faut mettre la base dans un format “étoilé” lisible par Iramuteq.
Objectif :
Pour pouvoir être lu par Iramuteq, notre fichier doit respecter un certain nombre de conventions présentées ci-après :
être un fichier .txt
chaque texte est précédé d’une ligne qui commence par quatre étoiles : ****
cette ligne contient les métadonnées (variables) qui caractérisent le texte
chaque métadonnée est précédée d’une étoile, puis du nom de la variable, un underscore “_”, et la valeur de la modalité.
Pour faciliter le processus, nous proposons une fonction qui met en forme la table créée précédemment directement dans le format voulu par Iramuteq.
La fonction: format_iramuteq()
Une fonction pour transformer un data.frame avec une variable de texte, en un document .txt adapté à l’analyse textuelle sur Iramuteq.
Pour l’instant, la fonction ne se trouve pas dans un package, il faut donc la charger dans l’environnement global de R depuis GitHub en utilisant le code suivant.
articles : Une base de données avec une variable texte et des métadonnées (années, source, etc.) nom_fichier : Le nom du fichier .txt en sortie var_texte : Le nom de la variable de texte (entre ““) vars_métadonnees : Un vecteur avec les variables de métadonnées
Iramuteq étant un format particulier, la fonction prendra quelques précautions :
Il faut supprimer les espaces et les “_” dans les noms des variables métadonnées
Il faut supprimer les espaces et les “_” dans les valeurs des variables métadonnées
Il faut supprimer les * présentent dans les textes.
Ces 3 points sont pris en compte dans la fonction format_iramuteq(), et informera l’utilisateur.rice des modifications par un warning.
Code source
---title: "Créer un corpus de texte issu d'Europresse au format d'Iramuteq"categories: - Web Scrapping - Analyse textuelleauthor: - name: "Arno Muller" affiliations: - name: "Ined"date: 07/26/2023image: "img/tri_logo.png"format: html: defaultfilters: - lightboxlightbox: autocode-annotations: belowabstract: | Si *Iramuteq* est un logiciel pratique, qui permet à un public peu familier des logiciels statistiques de faire des analyses textuelles, l'étape de création du corpus de texte peut présenter quelques difficultés. C'est plus particulièrement le cas lorsque le corpus est directement récupéré en ligne comme cela est le cas depuis le site *Europresse*. Nous proposons ici une solution pour créer ce corpus avec R, de la récupération des textes à la création du corpus dans un format adapté à son exploitation sur Iramuteq. ---![](img/tri_logo.png){width="50%"}# IntroductionCette fiche s'inscrit dans la continuité d'un tutoriel publié par *Corentin Roquebert* et que vous pouvez retrouver [ici](https://quanti.hypotheses.org/1416).Le tutoriel est très complet et permet de comprendre la création du premier corpus au format *.html* directement depuis le site d'[Europresse](https://nouveau.europresse.com/Login/), étape sur laquelle nous passerons donc très rapidement.Nous reprendrons ici chaque étape depuis la recherche des textes sur le site d'*Europresse*, en passant par l'apurement du fichier récupéré sur R, à sa mise en forme pour pouvoir l'importer sur *Iramuteq*. Ce qui me permettra d'apporter quelques mises à jour au tutoriel cité plus haut, mais sans entrer dans le même niveau de détail.# Chercher des textes sur *Europresse*## Se connecter au site d'*Europresse*Europresse est un service payant, mais certains instituts et certaines universités permettent d'y accéder.\À l'Ined, *Europresse* est disponible en se connectant depuis le site de l'[Humathèque](https://campus-condorcet.primo.exlibrisgroup.com/discovery/fulldisplay?context=L&vid=33CCP_INST:CCP&search_scope=ALL&tab=ALL&docid=alma991008362598005786).Si le lien ne marche pas vous pouvez suivre le chemin suivant :1) Se connecter au site de l'Humathèque Campus Condorcet : [lien](https://www.humatheque-condorcet.fr/)\2) Chercher un mot-clé quelconque :![](img/Humatheque1.png){width="50%"}3) Se rendre dans l'onglet **Presse**, ce qui nous amène à la page d'*Europresse*.![](img/Humatheque2.png){width="50%"}4) Se connecter à son compte Ined pour obtenir le lien vers *Europresse*.![](img/Humatheque3.png){width="50%"}![](img/Humatheque4.png){width="50%"}5) Cliquer sur le lien vers le site d'*Europresse*![](img/Humatheque5.png){width="50%"}## Créer un corpus d'articles de pressesLa page d'accueil d'Europresse, dirige automatiquement vers la version **étudiante**, mais il est préférable de passer par la version **classique** du site.![](img/Europress_rech_1.png){width="50%"}En vous connectant à la version classique, vous obtiendrez la page suivante, à partir de laquelle on retourne vers une recherche **simple**, puis dans une recherche **avancée**.![](img/Europress_rech_2.png){width="50%"}À partir de l'écran de **recherche avancée**, on peut sélectionner les articles qu'on désire intégrer au corpus de texte.\Dans notre cas, on cherche les occurrences du mot **Ined**, dans la **presse** en **français**, sur l'**ensemble de la période** couverte par Europresse.![](img/Europress_rech_3.png){width="50%"}On arrive donc sur la page suivante :![](img/Europress_rech_4.png){width="50%"}**ATTENTION :**Avant d'exporter le fichier, il faut prendre plusieurs précautions :- **Trier** les articles du plus récent au plus ancien (ou inversement, mais pas par pertinence).\- **Scroller** (défiler) les articles au maximum. Par défaut, *Europresse* ne charge que les 50 premiers articles, à chaque fois qu'on scrolle, on en charge 50 autres, etc.\- Nombre **maximum d'articles : 1000**. On ne peut donc pas télécharger tous les 15 000 articles correspondant à ma recherche d'un coup. Il faudra s'y reprendre 1000 par 1000, en changeant la période de recherche en faisant débuter la recherche suivante à la date du dernier article chargé dans la recherche précédente.\- **Sélectionner le maximum d'articles** avec la case à cocher.\- Créer le fichier en cliquant sur la **disquette** et sélectionner le **format HTML**.![](img/Europress_rech_5.png){width="25%"}On obtient dans les téléchargements un fichier HTML qui commence par *biblioeuropresse*, qui contient l'ensemble des articles. Vous pouvez l'ouvrir pour les lire dans votre navigateur Web.Dans les étapes suivantes, nous allons utiliser ce fichier pour créer un corpus de texte utilisable dans Iramuteq.# Mettre en forme dans RÀ partir d'ici nous allons apporter quelques changements aux fonctions proposés par Corentin Roquebert, car il semblerait qu'elles ne fonctionnent plus. Ce qui nous permettra de détailler le contenu de ses fonctions.**Attention** : Si le code peut sembler complexe aux premiers abords, vous aurez uniquement besoin de changer le chemin d'accès vers votre fichier, le reste est automatique.## Initialisation de ROn commence par installer et charger les packages nécessaires.```{r filename = "Packages", message=FALSE, warning=FALSE}# Packages nécessairesload.lib <- c("xml2", "stringr", "stringdist", "stringi","lubridate", "dplyr", "tidyr","purrr") # Installation des manquantsinstall.lib <- load.lib[!load.lib %in% installed.packages()]for (lib in install.lib) install.packages(lib,dependencies=TRUE) # On charge les packagessapply(load.lib,require,character=TRUE)```Puis, on importe le fichier HTML, crée depuis le site d'*Europresse*.```{r filename = "Import texte HTML", message=FALSE, warning=FALSE}# On ouvre la base HTML obtenuehtml <- "DATA/biblioeuropresse20230710105912.HTML"# Lire le fichier HTMLdoc <- read_html(html)# Sélectionner les articlesarticles <- xml_find_all(doc, "//article")```## Création de variablesPour chaque article, nous allons récupérer un certain nombre d'information contenu dans les métadonnées, comme le nom du journal qui l'a publié ou la date de publication par exemple.### Journal```{r filename = "Variable journal (1)", message=FALSE, warning=FALSE}journal <- map_chr(articles, ~ { tmp <- xml_find_first(.x, ".//header/div[@class='rdp__DocPublicationName']") %>% xml_text(trim = TRUE) if (is.null(tmp)) tmp <- NA_character_ tmp})journal[1:6]```On remarque qu'il y a des articles sans journaux renseignés (c'est particulièrement le cas pour les sites web). En réalité, le nom de la source est seulement stocké dans un autre emplacement qu'on récupère dans le code suivant.```{r filename = "Variable journal (2)", message=FALSE, warning=FALSE}journal_manquant <- map_chr(articles, ~ { tmp <- xml_find_first(.x, "./header/div[@class='sm-margin-bottom']") %>% xml_text(trim = TRUE) if (is.null(tmp)) tmp <- NA_character_ tmp})journal_manquant[1:6]```On a bien récupéré les sources des articles. On s'occupera de la mise en forme de la variable plus loin.### Auteur.riceDans certains cas, on peut également récupérer les noms des auteurs.rices des articles. Ce n'est pas le cas ici, il semblerait que l'information ne soit pas toujours disponible.```{r filename = "Variable auteur", message=FALSE, warning=FALSE}auteur <- map_chr(articles, ~ { tmp <- xml_find_first(.x, "./header/div[@class='docAuthors']") %>% xml_text(trim = TRUE) if (is.null(tmp)) tmp <- NA_character_ tmp})```### Titre de l'articleOn récupère également le titre de l'article.```{r filename = "Variable titre", message=FALSE, warning=FALSE}titre <- map_chr(articles, ~ { tmp <- xml_find_first(.x, "./header/div[@class='titreArticle']") %>% xml_text(trim = TRUE) if (is.null(tmp)) tmp <- NA_character_ tmp})```### DateConcernant la date, elle est disponible pour l'ensemble des articles.```{r filename = "Variable date (1)", message=FALSE, warning=FALSE}date <- map_chr(articles, ~ { tmp <- xml_find_first(.x, ".//div[@class='publiC-lblNodoc']") %>% xml_text(trim = TRUE) if (is.null(tmp)) tmp <- NA_character_ tmp <- substr(tmp, 6, 13)})# On met la date au bon formatdate <- as.Date(date, "%Y%m%d") date[1:6]```Mais comme pour les noms des journaux, elle peut être stockée dans différents emplacements, ou bizarrement soumise à des fautes de frappes. Dans la partie suivante on récupère les dates manquantes, qui sont stockés dans le même emplacement que le nom des jounaux manquants. Je commence donc par créer une fonction qui récupère la date au lieu du nom du journal dans cet emplacement.```{r filename = "Variable date (2)", message=FALSE, warning=FALSE}# Fonction pour extraire le deuxième élément correspondant au critère donnéget_second_element <- function(node, xpath) { found_elements <- xml_find_all(node, xpath) if (length(found_elements) >= 2) { return(found_elements[[2]] %>% xml_text(trim = TRUE)) } else { return(NA_character_) }}# Récupérer le deuxième élément pour chaque articledate_manquant <- map_chr(articles, get_second_element, xpath = "./header/div[@class='sm-margin-bottom']")date_manquant[1:6]```**Attention**, on voit que le nombre de mots de l'article est stocké au même emplacement que la date manquante. Nous allons nous occuper de mettre en forme les dates dans les parties suivantes.## TexteOn récupère finalement les textes des articles.```{r filename = "Variable texte", message=FALSE, warning=FALSE}texte <- map_chr(articles, ~ { tmp <- xml_find_first(.x, ".//div[@class='DocText clearfix']") %>% xml_text(trim = TRUE) if (is.null(tmp)) tmp <- NA_character_ tmp})```## Création de la base de donnéesOn compile toutes les variables au sein d'une unique base de données manipulable, que l'on pourra apurer plus facilement.### Compilation des variables```{r filename = "Création base"}txt <- data.frame(Journal = journal, Titre = titre, Date = date, Date_manq = date_manquant, Auteur = auteur, Texte = texte) ```On obtient une base de données avec autant de lignes que d'articles et 5 variables.```{r, echo=FALSE, warning=FALSE, message=FALSE}library(kableExtra)kable(head(txt,6)) %>% kable_styling(bootstrap_options = c("striped"),full_width = T,font_size = 11) %>% scroll_box(height = "300px")```### Correction des valeurs manquantes#### Journaux manquantsOn remplace Journal par journal_manquant quand ils n'existent pas. Et on supprime les espaces et les sauts de lignes dans les noms de journaux pour faciliter les recodages plus tard.```{r filename = "Ajout journaux manquants"}txt <- txt %>% mutate(Journal = ifelse(is.na(Journal), journal_manquant, Journal)) %>% mutate(Journal = gsub("\n", "", Journal)) %>% mutate(Journal = gsub(" ", "", Journal))```#### Dates manquantesPour les dates, il faut faire attention à plusieurs éléments :\- Le format Jour/Mois/Année, doit être identique.\- Les dates manquantes contiennent également le nombre de mots de l'article. Il faut donc isoler la date.```{r filename = "Ajout dates manquants", warning=FALSE, message=FALSE}txt <- txt %>% # J'enlève les caractères spéciaux pour pouvoir utiliser # la fonction separate() mutate(Date_manq = str_replace(Date_manq, "é", "e"), Date_manq = str_replace(Date_manq, "û", "u")) %>% # separate() permet d'isoler le jour, le mois, l'année, et le nombre de mots # pour les dates manquantes, dans 5 variables separate(Date_manq, c("jour", "mois", "annee", "lettre", "mots")) %>% # Attention : pour les sources anglaise, le mois et le jour sont inversés # Je les inverse dans jour2 et mois2 mutate(jour2 = if_else(substr(mois,1,1) %in% c(0:9), mois, jour), mois2 = if_else(substr(jour,1,1) %in% c(0:9), mois, jour)) %>% # Je supprime les variables inutiles select(-c(lettre,mots, jour, mois)) %>% # Je crée une nouvelle variable de date en collant l'année, le mois, le jour mutate(date2 = paste(annee, mois2, jour2), # Je dois réecrire février et aôut correctement date2 = str_replace(date2, "fevrier", "février"), date2 = str_replace(date2, "aout", "août"), # Je transforme en format date. date2 = as_date(ymd(paste(date2)))) %>% # Je remplace la date quand elle est manquante mutate(Date = ifelse(is.na(Date), date2, Date)) %>% # Si la date est avant 2000, c'est une erreur de frappe, on prend l'autre date mutate(Date = as_date(Date)) %>% mutate(Date = ifelse(Date < ymd("2000-01-01"), date2, Date)) %>% mutate(Date = as_date(Date)) %>% # Je garde les variables d'intérêts select(-c(jour2, mois2, annee, date2)) %>% # Je trie dans l'ordre croissant de parution arrange(Date)```Les warnings sont normaux et ne posent pas de problèmes.```{r, echo=FALSE, warning=FALSE, message=FALSE}kable(head(txt,6)) %>% kable_styling(bootstrap_options = c("striped"),full_width = T,font_size = 11) %>% scroll_box(height = "300px")```On a bien récupéré les dates et les noms de journaux.# Suppression des doublonsAvec *Europresse*, on obtient souvent des articles publiés en doublons, ce sont particulièrement les cas pour les articles issus de sites internet. Pour la suite, le tutoriel de Corentin Roquebert fonctionne toujours, je réutilise donc son code pour gérer identifier et supprimer les doublons.On commence par supprimer les textes trop courts, puis on isole des extraits en début et fin de texte pour les comparer entre chaque article et voir s'ils sont suffisamment proches pour être considérés comme étant des doublons grâce à un algorithme.```{r filename = "Suppression articles courts"}articles <- txt %>% filter(nchar(Texte) > 500) %>% mutate(extrait_debut = str_sub(Texte, 50, 150), extrait_fin = str_sub(Texte, -150, -50)) ```## Comparaison des débuts de textes```{r filename = "Doublons en début"}# Calcul des paires de distance# C'est ici qu'a lieu le calcul de distance entre tous les textes.dist <- stringdistmatrix(articles$extrait_debut) ## Conversion en matrice m <- as.matrix(dist)# Dans la matrice, on met 1000 comme valeur pour toutes les valeurs en dessous # de la diagonale, pour éviter d'avoir deux fois la même mesurem[lower.tri(m)] <- 1000 # Dans la matrice, on met 1000 comme valeur pour la diagonale # pour ne pas enlever un texte parce qu'il ressemble à lui-même...diag(m) <- 1000 # Sélection des paires proches# On regarde les positions pour lesquelles l'indice de dissimilarité est # inférieure à 50. C'est ici donc qu'on fixe le seuil et qu'on peut le changer ! indices <- which(m < 50, arr.ind = TRUE) ## Vérificationsverif_dbt <- cbind(articles$extrait_debut[indices[,1]], articles$extrait_debut[indices[,2]])# On peut regarder ce qui a été considéré comme trop proche pour faire varier le seuil.## Suppression des articles prochesarticles <- articles %>% slice(-indices[,2])```## Comparaison des fins de textes```{r filename = "Doublons en fin"}## Calcul des paires de distancedist <- stringdistmatrix(articles$extrait_fin)## Conversion en matrice m <- as.matrix(dist)m[lower.tri(m)] <- 1000 diag(m) <- 1000## Sélection des paires prochesindices <- which(m < 50, arr.ind = TRUE)## Vérificationstest <- cbind(articles$extrait_fin[indices[,1]], articles$extrait_fin[indices[,2]])## Suppression des articles prochesarticles <- articles %>% slice(-indices[,2])```On a donc supprimé tous les textes trop similaires. Nous pouvons donc supprimer les deux nouvelles variables d'extraits devenues inutiles.```{r filename = "Nettoyage"}articles <- articles %>% select(-c(extrait_debut,extrait_fin)) ```# Créer de nouvelles variablesUne fois l'apurement effectué, vous pouvez ajouter des caractéristiques supplémentaires à chacun des articles. On peut penser à des variables construites comme :\- *Taille de l'article* : Long vs court\- *Type de presse* : Nationale, régionale, gratuite\- *Orientation politique de la source* - etc.Ici, nous nous contenterons de recoder la date pour ne garder que l'année, et le nom du journal pour avoir des catégories plus propres.## Recoder les journaux**Je reprends la méthode et les explications utilisées par Corentin Roquebert dans son tutoriel.**\Elle consiste à ne garder que les principales sources (grands journaux), et à regrouper les sources plus petites (presses régionales, féminines, etc.)### Création variable + principes du nettoyageOn commence par créer la variable *CJournal* et mettre tous les journaux dans une catégorie "Autre", pour recoder ensuite les journaux sélectionnés.```{r filename = "Recoder les journaux (1)"}# Catégorie rebutarticles$CJournal<- "Autre" ```Pour recoder les journaux, alors que la variable *Journal* n'est pas propre, on cherche des chaînes de caractères pour isoler les journaux un à un.```{r filename = "Recoder les journaux (2)"}# Exemple pour le Figaro :articles$CJournal[stri_detect_fixed(articles$Journal, "figaro",case_insensitive=T)] <- "Figaro"```Ici, le code met "Figaro" comme modalité de la nouvelle variable *CJournal* à partir du moment où la chaîne de caractères "figaro" est renseignée dans la variable initiale (Journal). On prend donc toutes les variations de ce journal (ici, on a tout aussi bien "Le Figaro", "le Figaro", "Figaro magazine", "Figaro Economie, n°1256", "Figaro web", les variations sont innombrables) et on les assimile. L'argument case_insensitive permet de ne pas se soucier des majuscules.Puis on passe à des cas plus complexes :```{r filename = "Recoder les journaux (3)"}# Un autre cas : Le Mondearticles$CJournal[stri_detect_fixed(articles$Journal, "monde",case_insensitive=T)] <- "Monde"```Ici, le cas est un peu plus épineux. En effet, il y a d'autres journaux qui ont la chaîne de caractères "monde" dans leur titre, comme "le Monde Diplomatique". Il est donc important de faire ce recodage au début, avant de faire celui où l'on va chercher "monde diplo" par exemple, qui va ainsi "corriger" l'erreur qu'on avait faite dans un premier temps. Il faut donc faire attention à l'ordre dans lequel on effectue ces recodages.### Exploration des journaux à recoderOn applique cette méthode à toutes les autres catégories :Pour ça, je trie les journaux pour savoir qu'elles sont les catégories que je vais garder.```{r filename = "Recoder les journaux (4)"}N_art <- articles %>% group_by(Journal) %>% summarise(N_art= n()) %>% arrange(desc(N_art),Journal)``````{r, echo=FALSE, warning=FALSE, message=FALSE}kable(N_art) %>% kable_styling(bootstrap_options = c("striped"),full_width = T,font_size = 11) %>% scroll_box(height = "250px")```### Recodage des journauxOn procède aux recodages des journaux suivants.```{r filename = "Recoder les journaux (5)"}articles$CJournal[stri_detect_fixed(articles$Journal, "bulletinquoti",case_insensitive=T)] <- "BulletinQuoti"articles$CJournal[stri_detect_fixed(articles$Journal, "huienfr",case_insensitive=T)] <- "AJF"articles$CJournal[stri_detect_fixed(articles$Journal, "chos",case_insensitive=T)] <- "Echos" articles$CJournal[stri_detect_fixed(articles$Journal, "libération",case_insensitive=T)] <- "Liberation"articles$CJournal[stri_detect_fixed(articles$Journal, "ouest-fr",case_insensitive=T)] <- "OF"articles$CJournal[stri_detect_fixed(articles$Journal, "afp",case_insensitive=T)] <- "AFP"articles$CJournal[stri_detect_fixed(articles$Journal, "croix",case_insensitive=T)] <- "Croix"articles$CJournal[stri_detect_fixed(articles$Journal, "express",case_insensitive=T)] <- "Express"articles$CJournal[stri_detect_fixed(articles$Journal, "sciencesetave",case_insensitive=T)] <- "SciencesAvenir"articles$CJournal[stri_detect_fixed(articles$Journal, "obs",case_insensitive=T)] <- "Obs" articles$CJournal[stri_detect_fixed(articles$Journal, "sudouest",case_insensitive=T)] <- "SudOuest" articles$CJournal[stri_detect_fixed(articles$Journal, "20min",case_insensitive=T)] <- "20min" articles$CJournal[stri_detect_fixed(articles$Journal, "huma",case_insensitive=T)] <- "Humanites" articles$CJournal[stri_detect_fixed(articles$Journal, "valeursact",case_insensitive=T)] <- "ValeursActu" articles$CJournal[stri_detect_fixed(articles$Journal, "point",case_insensitive=T)] <- "LePoint" articles$CJournal[stri_detect_fixed(articles$Journal, "challen",case_insensitive=T)] <- "Challenges" articles$CJournal[stri_detect_fixed(articles$Journal, "lavie",case_insensitive=T)] <- "LaVie" articles$CJournal[stri_detect_fixed(articles$Journal, "l'hist",case_insensitive=T)] <- "Histoire" articles$CJournal[stri_detect_fixed(articles$Journal, "pèleri",case_insensitive=T)] <- "Pelerin" articles$CJournal[stri_detect_fixed(articles$Journal, "télégra",case_insensitive=T)] <- "Telegramme" articles$CJournal[stri_detect_fixed(articles$Journal, "tribun",case_insensitive=T)] <- "LaTribune" articles$CJournal[stri_detect_fixed(articles$Journal, "biba",case_insensitive=T)] <- "Biba" ```### Regrouper plusieurs journaux dans une catégorieOn peut également unifier certains journaux par une catégorie. Ici, on change un peu le code : on met la même modalité si dans la variable initiale, on a une des chaînes de caractères qu'on demande :```{r filename = "Recoder les journaux (6)"}articles$CJournal[stri_detect_regex(articles$Journal, "lejournalde|voixdun|provence|midilibre|vellerép|bienpublic|populaireducentr|berry|indépendant|nordéclair|charente|yonne|estrépu|havre|mainelib|dépêche|voixde|courrier|lejournaldu|Parisnormandie|larépubliquedu|ducentre|bliquedespy|lameuse|dernièreh|aisne|dordogne|chorépub]|lalibre|corse|union|nordlittoral|centrepresse|paris-normandie|presseocéan]", case_insensitive=T)] <- "Rég"```Ici, le but est de ne pas surcharger le nombre de titres de presse en unifiant tous les journaux régionaux qui avaient relativement peu de résultats dans mes requêtes (en revanche, les grands titres de la presse quotidienne régionale sont conservés en propre)### Résultat du recodage```{r filename = "Table des journaux propres"}table(articles$CJournal,useNA = "always")```On voit qu'il reste encore un grand nombre d'articles dans la catégorie "Autre".\On explore les journaux qui n'ont pas été attribués à une catégorie :```{r filename = "Table des journaux restants", eval=FALSE}table(articles[articles$CJournal == "Autre",]$Journal)``````{r, echo=FALSE, warning=FALSE, message=FALSE}art_rebut <- articles %>% filter(CJournal == "Autre") %>% group_by(Journal) %>% summarise(N_journ = n())kable(art_rebut) %>% kable_styling(bootstrap_options = c("striped"),full_width = T,font_size = 11) %>% scroll_box(height = "250px")```## Variable annéePour pouvoir utiliser la date dans Iramuteq, nous faisons le choix de ne garder que l'année.```{r filename = "Variable année"}articles <- articles %>% mutate(Annee = as.numeric(format(Date, "%Y")))```# Exporter le fichier au format d'*Iramuteq*On obtient une base de données dans laquelle chaque ligne correspond à un article, avec une colonne qui contient le texte à étudier dans *Iramuteq* et les autres qui permettent de le caractériser.Pour l'instant, le fichier (sans doublons) contiendra au maximum 1000 lignes à cause de la restriction dans *Europresse*.\Cependant, vous pouvez reproduire la manipulation plusieurs fois pour obtenir plusieurs bases que vous fusionnerez ici (avec un `rbind`, par exemple).Maintenant, il faut mettre la base dans un format "étoilé" lisible par *Iramuteq*.## Objectif :Pour pouvoir être lu par *Iramuteq*, notre fichier doit respecter un certain nombre de conventions présentées ci-après :- être un fichier **.txt**\- chaque texte est précédé d'une ligne qui commence par quatre étoiles : \*\*\*\*\- cette ligne contient les métadonnées (variables) qui caractérisent le texte\- chaque métadonnée est précédée d'une étoile, puis du nom de la variable, un underscore "\_", et la valeur de la modalité.![](img/format_etoile.png){width="75%"}Pour faciliter le processus, nous proposons une fonction qui met en forme la table créée précédemment directement dans le format voulu par Iramuteq.## La fonction: `format_iramuteq()`Une fonction pour transformer un data.frame avec une variable de texte, en un document **.txt** adapté à l'analyse textuelle sur Iramuteq.Pour l'instant, la fonction ne se trouve pas dans un package, il faut donc la charger dans l'environnement global de R depuis GitHub en utilisant le code suivant.```{r filename = "import fonction format"}source("https://raw.githubusercontent.com/arnomuller/Fonction_R/main/format_iramuteq/format_iramuteq.R")```### Paramètres de la fonction**articles** : Une base de données avec une variable texte et des métadonnées (années, source, etc.)\**nom_fichier** : Le nom du fichier .txt en sortie\**var_texte** : Le nom de la variable de texte (entre "")\**vars_métadonnees** : Un vecteur avec les variables de métadonnées### Création du corpus```{r filename = "Création du corpus", eval=FALSE}format_iramuteq(dataframe = articles, nom_fichier = "corpus_iramuteq_ined.txt", var_texte = "Texte", vars_metadonnees = c("CJournal", "Annee"))```::: callout-warning ## Précautions à prendreIramuteq étant un format particulier, la fonction prendra quelques précautions :1) Il faut supprimer les espaces et les "\_" dans les noms des variables métadonnées\2) Il faut supprimer les espaces et les "\_" dans les valeurs des variables métadonnées\3) Il faut supprimer les \* présentent dans les textes.Ces 3 points sont pris en compte dans la fonction `format_iramuteq()`, et informera l'utilisateur.rice des modifications par un **warning**.:::