Analyse du contenu des sites des 23 MSH

Chaque mot de ce nuage a une certaine occurrence issue des textes publiés sur les sites des 23 MSH. Les mots les plus occurrents apparaissent en plus grand, ils sont donc plus représentatifs de certains axes de recherche ou des thématiques développées au sein des MSH.

Avec le curseur ci-dessous, veuillez sélectionner l'intervalle d’occurrence des mots à afficher dans le nuage de mots.

Jascha VOLP a été stagiaire en informatique au sein du RNMSH du mois d’avril à juin 2018. Dans cette rubrique, vous pouvez trouver l’application web issue de son stage.

Cette application effectue une récupération automatique de textes (Web scraping ou Moissonnage web) sur les sites des 23 Maisons des Sciences de l’Homme pour analyser automatiquement ces données. Des représentations graphiques du résultat sous forme de nuages de mots (tag cloud) sont reproductibles ici et permettent de visualiser les mots les plus représentatifs dans les textes des sites internet des 23 MSH.

L’analyse comprend la création d’une matrice de proximité sémantique, la création de classes autour d’une même thématique et l’identification du terme le plus représentatif de chaque classe. A partir de cet ensemble, une représentation graphique est générée mettant finalement en valeur les thèmes communs au sein des MSH.

La proximité sémantique est un indice obtenu afin de mesurer la similarité entre deux mots. Plus cette mesure est élevée, plus les deux concepts sont proches. On peut ainsi déterminer des classes de mots regroupés autour d’une même thématique, aussi appelée concept. Dans chaque concept, il faut choisir le mot le plus représentatif afin de visualiser toutes les classes, ou thématiques, sous forme de nuage de mots.

L’algorithme créé récupère donc toutes les données publiées en ligne sur les 23 sites des MSH et les enregistre dans une base de données. L’ancienneté des données sera limitée à cinq ans et la base de données est mise à jour uniquement avec les données non encore enregistrées.

Afin d’obtenir une analyse la plus performante possible, les mots ont été lemmatisés (remplacés par leur forme canonique), mis en forme en français (parfois des mots en anglais, allemand et espagnol apparaissaient, compte tenu des partenariats internationaux des MSH) transposés en minuscule et conservé dès qu’ils étaient d’une taille supérieure à 3 lettres. Les mots très récurrents mais peu représentatifs des activités scientifiques ont été aussi éliminés de la base de données.

L’application web ainsi proposée permet d’obtenir des nuages de mots représentatifs des axes de recherche et des thématiques les plus communs et partagés au sein des Maisons des Sciences de l’Homme.

Veuillez sélectionner les mots que vous ne souhaitez plus voir apparaître dans le nuage de mots - le cas échéant - parce que peu représentatifs.

Cliquer ici pour enregistrer l'image : enregistrer l'image