FIABILITÉ STATISTIQUE DES TESTS D'ANALYSE TEXTUELLE

Les fréquences des occurrences ont été comptées pour quelques romans classiques et modernes sur la totalité de l'ouvrage (soit environ 100 à 1000 pages) et non sur un extrait, ce qui exclut, de fait, toute erreur statistique. Néanmoins, si l'on considère les résultats comme une caractéristique de l'écriture d'un auteur au moment où il a écrit cet ouvrage, un problème de fiabilité statistique se pose, que l'on peut formuler de la manière suivante: les différences statistiques observées entre l'auteur A et l'auteur B pour leur ouvrage respectif témoignent-elles d'une différence d'écriture de la part de ces auteurs? Il convient donc de définir à un seuil choisi quelle différence est significative. Sans nous livrer à des calculs systématiques, variables pour chaque exemple (en fonction de la fréquence des caractères étudiés), signalons que des différences d'occurrences de moins d'une unité par page pour un caractère restent significatives (ceci en considérant un roman comportant un minimum de 100 pages).

Le problème est plus épineux l'orsqu'il s'agit d'une fréquence recherchée dans un ouvrage proposé en ligne par l'auteur, en effet dans ce cas la statistique n'est pas comptée sur la totalité de l'ouvrage, mais sur un extrait d'une vingtaine de pages, soit 40.000 caractères (en comptant les signes de ponctuation et les espaces). Il n'a pas été possible d'utiliser des extraits plus longs en raison de la limitation de mémoire imposée par le serveur où est hébergé le site (serveur mutualisé et non dédié). Afin d'augmenter la fiabilité, il n'y a pas d'autre moyen que d'essayer le test sur plusieurs extraits de l'ouvrage et d'en établir la moyenne. Un exemple de calcul sera ici fourni, lequel peut servir de modèle pour calculer la fiabilité de toutes les occurrences:


Calcul de l'intervalle de confiance relatif au nombre d'articles singuliers par page

Considérons l'occurrence de 25 articles singuliers (le, la, un) par page obtenue en traitant un extrait de 20 pages: On peut ramener l'expérience de traitement à une loi binomiale en considérant que l'on examine chaque mot: soit c'est un article singulier, soit ce n'est pas un article singulier.

L'effectif n correspond donc au nombre de mots de l'extrait de 20 pages, soit à raison de 300 mots par page:

20 x 300 = 6000 mots

n = 6000

Sachant qu'on a obtenu 25 articles singuliers par page, soit 25 x 20 = 500 articles singuliers pour 6000 mots, la fréquence f des articles singuliers est de:

500/6000 = 0,083

f = 0,083

Précisons que l'application a bien compté ces 500 articles et a fourni le chiffre de 25 par calcul (en divisant par le nombre de pages). f est donc exact relativement à ces 20 pages. Nous pouvons donc appliquer la Loi Normale pour les valeurs de n et f:

Calcul intervalle de confiance pour un seuil de probabilité donné:

1 - 2 phi(t) = seuil

soit t donné par la table de Gauss pour la valeur du seuil:

Au seuil de 0,11 (11%)

2phi(t) = 89%

phi(t) = 44,5%

phi(t) = 0,445

La table de Gauss donne pour t la valeur:

t = 1,6

L'écart maximum par rapport à la moyenne pour 89% des cas est t σ
σ: écart-type de la série statistique.

calcul de l'intervalle de confiance int_con (écart par rapport à la moyenne):

int_con = t σ

avec



Intervalle de confiance au seuil de 11 % obtenu après calcul avec f=0,083, n=6000 et t=1,6:

int_con = 0,0057

soit: il y a une probablilité de 11 % que la fréquence réelle soit à l'extérieur des valeurs limites:

0.083 ± 0.0057

ou que la fréquence soit à l'extérieur de l'intervalle:

0,0773 > fréquence > 0,0887

Recalculons la valeur du nombre d'articles singuliers par page correspondant à cet intervalle de confiance, soit pour 300 mots (une page):

0,0057 x 300 = 1,71

soit: il y a une probablilité de 11 % que le nombre d'articles singuliers par page réel soit à l'extérieur des valeurs limites:

25 ± 1,71

ou que le nombre d'articles singuliers par page soit à l'extérieur de l'intervalle:

23.29 > nombre d'articles singuliers par page > 26,71

Si on le désire, on pourra obtenir les intervalles de confiance à partir de n et f pour chaque cas à partir de la page suivante, où on trouvera le détail du calcul:

Calcul intervalle de confiance


SOMMAIRE ANALYSE TEXTUELLE STATISTIQUE