Résumé

Il est très simple d’ajouter, dans un script R, les noms des packages aux appels des fonctions. Sous forme de préfixes, ces indications permettent de repérer les packages utilisés et donc faciliter la reproductibilité de l’analyse. Nous prenons ici l’exemple d’un script générant un nuage de mots à partir du package de statistique textuelle R.temis.

**Fonctions utilisées dans la fiche**
Packages	Fonctions
prefixer	`prefixer`
R.temis	`import_corpus`
R.temis	`build_dtm`
R.temis	`frequent_terms`
R.temis	`combine_terms`
R.temis	`word_cloud`

Pour illustrer ce propos, nous reprennons le script de la fiche de Coralie Cottet Générer des graphes de mot avec R.temis. Nous allons ajouter un prefixe à chaque fonction utilisée pour générer un nuage de mots.

Documentation :

RStudio Addins sont des extensions pour l’environnement de développement intégré (IDE) RStudio
prefixer: Shiny Gadget to interactively prefix function in a script
Séminaire R à l’Usage des Sciences Sociales, Esquisse, moins tu sais coder plus tu vas rigoler

Installation des packages :

install.packages("remotes")
install.packages("R.temis")
install.packages("dyplyr")

Fichiers à utilisés :

Les voeux du président Hollande pour les années 2013 à 2017.

Chaque discours correspond à un fichier texte et ces 5 discours sont placés dans un dossier unique appelé dossier_de_textes

Le script d’origine

Code

## Appel des packages
library(R.temis)
library(tidyverse)

## Statistiques textuelles
## Création du tableau lexical associé au corpus des discours

# Importation des textes avec la fonction `import_corpus`
corpusv <- import_corpus("datas/dossier_de_textes", format="txt", language ="fr")

# Création du tableau lexical associé 
# On ne garde pas les mots-outils et on garde aussi les mots de 1 seule lettre

dtm <-build_dtm(corpusv, remove_stopwords = T, min_length = 1)
dtm

# On obtient un *tableau lexical* de 5 unités de texte (les voeux) et 1575 mots différents ...  


## Afficher les occurrences des mots du corpus
# Calcul des occurrences des mots 
frequent_terms(dtm) 

# On remarque que les mots `tous`, `tout` et `toutes` sont très fréquents et qu ils sont employés dans des contextes similaires. On souhaite alors les associer à un terme unique : `tous.tes` (opération de `lemmatisation`)

#### Personalisation du lexique

# Création du dictionnaire/lexique associé au tableau lexical 
dic <-dictionary(dtm) 

# On crée une nouvelle table `dic2` en créant une première colonne appelée `word`  avec l'intitulé des lignes du tableau et en remplaçant le contenu de la colonne cette première colonne ... C'est un lemmatiseur !
dic2 = dic %>%
  rownames_to_column(var="word") %>% 
  mutate(Term = word)

row.names(dic2) <- dic2$word

# On peut alors remplacer les mots de la colonne Term par l'intitulé souhaité. Ici tout.tes
dic2$Term[dic2$word == "toutes"] <- "tous.tes"
dic2$Term[dic2$word == "tout"] <- "tous.tes"
dic2$Term[dic2$word == "tous"] <- "tous.tes"

# Lemmatisation à l'aide du lemmatiseur personnalisé
dtmlem <-combine_terms(dtm, dic2)

# Ensemble de mots à retirer
mots_a_retirer <- c("a", "plus")

# Suppression de mots dans le tableau lexical
dtm2<-dtmlem[, !colnames(dtmlem) %in% mots_a_retirer]

# Nouvelles fréquences des mots associés au corpus
frequent_terms(dtm2)


### Affichage du nuage de mots

cloud<-word_cloud(dtm2, color= 'black', min.freq=1,n =50) 
title(main = "Mots les plus fréquents dans les discours de F. Hollande entre 2013 et 2017")

Ajouter le nom des packages aux fonctions avec `prefixer`

Installer le package prefixer à partir de GitHub

L’addin prefix est disponible sur la forge logicielle de dreamRs

install.packages("remotes")
install_github("dreamRs/prefixer")

Celui-ci permet d’ouvrir une interface qui propose pour chaque fonction du script de lui ajouter un préfixe composé du nom de la fonction suivi de ::

Prefixer le script

A la fin du script R, on charge le package prefixer puis on ouvre l’interface avec la commande prefixer()

## Appel du package
library(prefixer)
## Ouverture de l'interface RShiny
prefixer()

Dans le cas de notre script:

#cloud<-word_cloud(dtm2, color= 'black', min.freq=1,n =50) 
#title(main = "Mots les plus fréquents dans les discours de F. Hollande entre 2013 et 2017")

library(prefixer)
prefixer()

Utiliser la fenêtre shiny permettant de choisir le préfixe

Note

Seulement pour le format html

Résultat: le script est enrichi

## Statistiques textuelles
## Création du tableau lexical associé au corpus des discours

# Importation des textes avec la fonction `import_corpus`
corpusv <- R.temis::import_corpus("datas/dossier_de_textes", format="txt", language ="fr")

# Création du tableau lexical associé 
# On ne garde pas les mots-outils et on garde aussi les mots de 1 seule lettre

dtm <-R.temis::build_dtm(corpusv, remove_stopwords = T, min_length = 1)
dtm

# On obtient un *tableau lexical* de 5 unités de texte (les voeux) et 1575 mots différents ...  


## Afficher les occurrences des mots du corpus
# Calcul des occurrences des mots 
R.temis::frequent_terms(dtm) 


# On remarque que les mots `tous`, `tout` et `toutes` sont très fréquents et qu ils sont employés dans des contextes similaires. On souhaite alors les associer à un terme unique : `tous.tes` (opération de `lemmatisation`)

#### Personalisation du lexique

# Création du dictionnaire/lexique associé au tableau lexical 
dic <-R.temis::dictionary(dtm) 

# On crée une nouvelle table `dic2` en créant une première colonne appelée `word`  avec l'intitulé des lignes du tableau et en remplaçant le contenu de la colonne cette première colonne ... C'est un lemmatiseur !
dic2 = dic %>%
  tibble::rownames_to_column(var="word") %>% 
  dplyr::mutate(Term = stringr::word)

row.names(dic2) <- dic2$word

# On peut alors remplacer les mots de la colonne Term par l'intitulé souhaité. Ici tout.tes
dic2$Term[dic2$word == "toutes"] <- "tous.tes"
dic2$Term[dic2$word == "tout"] <- "tous.tes"
dic2$Term[dic2$word == "tous"] <- "tous.tes"

# Lemmatisation à l'aide du lemmatiseur personnalisé
dtmlem <-R.temis::combine_terms(dtm, dic2)

# Ensemble de mots à retirer
mots_a_retirer <- c("a", "plus")

# Suppression de mots dans le tableau lexical
dtm2<-dtmlem[, !colnames(dtmlem) %in% mots_a_retirer]

# Nouvelles fréquences des mots associés au corpus
R.temis::frequent_terms(dtm2)


### Affichage du nuage de mots

cloud<-R.temis::word_cloud(dtm2, color= 'black', min.freq=1,n =50) 
title(main = "Mots les plus fréquents dans les discours de F. Hollande entre 2013 et 2017")

--- title: "Consolider sa reproductibilité avec le package prefixer" date: 10/24/2023 categories: - Addins - Reproductibilité image: "http://github.com/dreamRs/prefixer/raw/master/man/figures/logo_prefixer.png" author: - name: "Bénédicte Garnier" affiliations: - name: "Ined" lightbox: true abstract: | Il est très simple d'ajouter, dans un script R, les noms des packages aux appels des fonctions. Sous forme de préfixes, ces indications permettent de repérer les packages utilisés et donc faciliter la reproductibilité de l'analyse. Nous prenons ici l'exemple d'un script générant un nuage de mots à partir du package de statistique textuelle R.temis. toc: true code-link: true --- ```{css, echo = FALSE} .scroll_output { max-height: 400px; overflow-y: scroll; } ``` | Packages | Fonctions | |-----------------|-------------------------------------------| | **prefixer** | `prefixer` | | **R.temis** | `import_corpus` | | **R.temis** | `build_dtm` | | **R.temis** | `frequent_terms` | | **R.temis** | `combine_terms` | | **R.temis** | `word_cloud` | : **Fonctions utilisées dans la fiche** Pour illustrer ce propos, nous reprennons le script de la fiche de Coralie Cottet [*Générer des graphes de mot avec R.temis*](http://mthevenin.github.io/assistoolsms/R/assist/posts/nuage_de_mot/nuage_de_mot.html). Nous allons ajouter un prefixe à chaque fonction utilisée pour générer un nuage de mots. **Documentation** : - [**RStudio Addins**](http://docs.posit.co/ide/user/ide/guide/productivity/add-ins.html) sont des extensions pour l'environnement de développement intégré (IDE) RStudio - [**prefixer: Shiny Gadget to interactively prefix function in a script **](http://rdrr.io/github/dreamRs/prefixer/man/prefixer.html) - Séminaire R à l'Usage des Sciences Sociales, [*Esquisse, moins tu sais coder plus tu vas rigoler*](http://russ.site.ined.fr/fr/annee-2022-2023/esquisse/) **Installation des packages** : ```markdown install.packages("remotes") install.packages("R.temis") install.packages("dyplyr") ``` **Fichiers à utilisés** : Les [voeux du président Hollande pour les années 2013 à 2017](http://www.vie-publique.fr/discours-dans-lactualite/269998-les-voeux-des-presidents-de-la-republique-depuis-1974). Chaque discours correspond à un fichier texte et ces 5 discours sont placés dans un dossier unique appelé *dossier_de_textes* # Le script d'origine ```{r} #| code-fold: true #| eval: false #| class: scroll_output ## Appel des packages library(R.temis) library(tidyverse) ## Statistiques textuelles ## Création du tableau lexical associé au corpus des discours # Importation des textes avec la fonction `import_corpus` corpusv <- import_corpus("datas/dossier_de_textes", format="txt", language ="fr") # Création du tableau lexical associé # On ne garde pas les mots-outils et on garde aussi les mots de 1 seule lettre dtm <-build_dtm(corpusv, remove_stopwords = T, min_length = 1) dtm # On obtient un *tableau lexical* de 5 unités de texte (les voeux) et 1575 mots différents ... ## Afficher les occurrences des mots du corpus # Calcul des occurrences des mots frequent_terms(dtm) # On remarque que les mots `tous`, `tout` et `toutes` sont très fréquents et qu ils sont employés dans des contextes similaires. On souhaite alors les associer à un terme unique : `tous.tes` (opération de `lemmatisation`) #### Personalisation du lexique # Création du dictionnaire/lexique associé au tableau lexical dic <-dictionary(dtm) # On crée une nouvelle table `dic2` en créant une première colonne appelée `word` avec l'intitulé des lignes du tableau et en remplaçant le contenu de la colonne cette première colonne ... C'est un lemmatiseur ! dic2 = dic %>% rownames_to_column(var="word") %>% mutate(Term = word) row.names(dic2) <- dic2$word # On peut alors remplacer les mots de la colonne Term par l'intitulé souhaité. Ici tout.tes dic2$Term[dic2$word == "toutes"] <- "tous.tes" dic2$Term[dic2$word == "tout"] <- "tous.tes" dic2$Term[dic2$word == "tous"] <- "tous.tes" # Lemmatisation à l'aide du lemmatiseur personnalisé dtmlem <-combine_terms(dtm, dic2) # Ensemble de mots à retirer mots_a_retirer <- c("a", "plus") # Suppression de mots dans le tableau lexical dtm2<-dtmlem[, !colnames(dtmlem) %in% mots_a_retirer] # Nouvelles fréquences des mots associés au corpus frequent_terms(dtm2) ### Affichage du nuage de mots cloud<-word_cloud(dtm2, color= 'black', min.freq=1,n =50) title(main = "Mots les plus fréquents dans les discours de F. Hollande entre 2013 et 2017") ``` # Ajouter le nom des packages aux fonctions avec `prefixer` ## Installer le package *prefixer* à partir de GitHub L'addin prefix est disponible sur la forge logicielle de *dreamRs* ```{r instal_pref, eval=FALSE } install.packages("remotes") install_github("dreamRs/prefixer") ``` Celui-ci permet d'ouvrir une interface qui propose pour chaque fonction du script de lui ajouter un préfixe composé du nom de la fonction suivi de `::` ::: {.column width="65%"} ::: {.box_img} ![](img/img1.png) ::: ::: ## Prefixer le script A la fin du script R, on charge le package `prefixer` puis on ouvre l'interface avec la commande `prefixer()` ```{r, eval=FALSE} ## Appel du package library(prefixer) ## Ouverture de l'interface RShiny prefixer() ``` Dans le cas de notre script: ```{.r} #cloud<-word_cloud(dtm2, color= 'black', min.freq=1,n =50) #title(main = "Mots les plus fréquents dans les discours de F. Hollande entre 2013 et 2017") library(prefixer) prefixer() ``` ## Utiliser la fenêtre shiny permettant de choisir le préfixe ::: callout-note Seulement pour le format html ::: ::: {.content-visible when-format="html"} ::: {.column width="65%"} ::: {.box_img} ![](img/mov1.gif) ::: ::: ::: # Résultat: le script est enrichi ```{r, eval=FALSE} #| class: scroll_output ## Statistiques textuelles ## Création du tableau lexical associé au corpus des discours # Importation des textes avec la fonction `import_corpus` corpusv <- R.temis::import_corpus("datas/dossier_de_textes", format="txt", language ="fr") # Création du tableau lexical associé # On ne garde pas les mots-outils et on garde aussi les mots de 1 seule lettre dtm <-R.temis::build_dtm(corpusv, remove_stopwords = T, min_length = 1) dtm # On obtient un *tableau lexical* de 5 unités de texte (les voeux) et 1575 mots différents ... ## Afficher les occurrences des mots du corpus # Calcul des occurrences des mots R.temis::frequent_terms(dtm) # On remarque que les mots `tous`, `tout` et `toutes` sont très fréquents et qu ils sont employés dans des contextes similaires. On souhaite alors les associer à un terme unique : `tous.tes` (opération de `lemmatisation`) #### Personalisation du lexique # Création du dictionnaire/lexique associé au tableau lexical dic <-R.temis::dictionary(dtm) # On crée une nouvelle table `dic2` en créant une première colonne appelée `word` avec l'intitulé des lignes du tableau et en remplaçant le contenu de la colonne cette première colonne ... C'est un lemmatiseur ! dic2 = dic %>% tibble::rownames_to_column(var="word") %>% dplyr::mutate(Term = stringr::word) row.names(dic2) <- dic2$word # On peut alors remplacer les mots de la colonne Term par l'intitulé souhaité. Ici tout.tes dic2$Term[dic2$word == "toutes"] <- "tous.tes" dic2$Term[dic2$word == "tout"] <- "tous.tes" dic2$Term[dic2$word == "tous"] <- "tous.tes" # Lemmatisation à l'aide du lemmatiseur personnalisé dtmlem <-R.temis::combine_terms(dtm, dic2) # Ensemble de mots à retirer mots_a_retirer <- c("a", "plus") # Suppression de mots dans le tableau lexical dtm2<-dtmlem[, !colnames(dtmlem) %in% mots_a_retirer] # Nouvelles fréquences des mots associés au corpus R.temis::frequent_terms(dtm2) ### Affichage du nuage de mots cloud<-R.temis::word_cloud(dtm2, color= 'black', min.freq=1,n =50) title(main = "Mots les plus fréquents dans les discours de F. Hollande entre 2013 et 2017") ```

Le script d’origine

Ajouter le nom des packages aux fonctions avec prefixer

Installer le package prefixer à partir de GitHub

Prefixer le script

Utiliser la fenêtre shiny permettant de choisir le préfixe

Résultat: le script est enrichi

Ajouter le nom des packages aux fonctions avec `prefixer`