Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de...

Post on 03-Apr-2015

108 views 0 download

Transcript of Quelques commentaires sur les méthodologies statistiques utilisées dans lanalyse des études de...

Quelques commentaires sur les méthodologies statistiques utilisées dans l’analyse des études de toxicité des OGM

Marc LavielleINRIA Saclay

• Les scientifiques « pro-OGM » sont accusés par les « antis » d’être à la solde de Monsanto et du lobby OGM…

• Les scientifiques « anti-OGM » sont accusés par les « pros» d’être des obscurantistes…

C’est notre devoir de statisticien-citoyen d’être irréprochable dans notre approche scientifique : Une analyse statistique correctement menée ne sera (presque) jamais contestée !

1) On nourrit pendant 13 semaines

•des groupes de rats avec le maïs MON810 : groupes tests

•des groupes de rats avec un maïs « équivalent » sans OGM : groupes témoins

•des groupes de rats avec différentes variétés de maïs sans OGM : groupes de référence

2) On effectue de nombreuses mesures (poids des rats, poids des organes, paramètres biochimiques, …)

3) On cherche à déterminer si des différences apparaissent entre les groupes témoins et les groupes expérimentaux.

tests de toxicité sub-chronique

• D’un coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine

• D’un autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

-Au sujet du MON863, l’AFSSA conclut

"Considérant qu'aucune différence significative n'ayant été observée entre les résultats obtenus pour le maïs MON 863 et les autres variétés de maïs, on peut donc conclure à l'équivalence alimentaire de la nouvelle plante". (AFSSA, Saisine 2003-SA-0215, p 6)

- Au sujet du MON810, l’AFSSA conclut

« Les études toxicologiques dont une étude de toxicité sub-chronique chez le rat, n’identifient pas d’effet néfaste lié à la consommation de ces maïs » (AFSSA, Saisine 2008-SA-0266, p 9)

- Au sujet du MON810, MONSANTO conclut

"MON 810 was shown to be substantially equivalent to conventional maize, except for the introduced lepidopteran protection trait, and as safe and as nutritious as any other, commercially available maize. " (MON810 Technical dossier p 99)

Ces tests n'ont mis en évidence aucune lésion ou modification morphologique grave (les reins des rats nourris au MON810 n'ont clairement pas doublé de volume…), mais le protocole et la méthodologie statistique utilisée rendent impossible la détection d'altérations plus légères.

Le CPHA ne prétend nullement que ces altérations existent, mais souhaite que leur absence soit démontrée de façon plus rigoureuse et plus convaincante.

• D’un coté, la statistique permet de démontrer que le MON810 et le MON863 ne présentent aucun risque sur la santé humaine

• D’un autre coté, la statistique permet de mettre en évidence, que le MON810 et le MON863 présentent des effets adverses sur la santé.

Le Monde, 19 novembre 2008

Là encore, le protocole et la méthodologie statistique utilisée rendent très discutables les résultats annoncés…

I Le choix du test d’hypothèses

Approche standard :

Test de comparaison

Hypothèse de référence :

“il n’existe pas de différence entre les 2 groupes”

C’est alors aux données de démontrer le contraire.

Remarque : c’est l’approche systématiquement utilisée

dans toute publication…

INSTRUCTION FOR AUTHORS:

Every paper that contains statistical testing should state

the name of the statistical test, the n for each statistical analysis, the comparisons of interest, a justification for the use of that test (including, for

example, a discussion of the normality of the data when the test is appropriate only for normal data),

the alpha level for all tests, whether the tests were one-tailed or two-tailed,

and the actual P value for each test (not merely "significant" or "P < 0.5").

Remarque 1 Se contenter de regarder si un test est statistiquement significatif ou non n'a pas grand intérêt : • très grand échantillon =>tests statistiquement significatifs, mais souvent biologiquement non significatifs.

• très petit échantillon =>tests statistiquement non significatifs, mais éventuellement biologiquement significatifs.

Mais il ne faut pas oublier que les autres valeurs contenues dans cet intervalle de confiance sont tout aussi « possible » !

Remarque 2

Un test de comparaison n’est pas significatif si un intervalle de confiance contient la valeur 0 (pas de différence)

0-5% + 30%

Une alternative pertinente :

Test d’équivalence

Hypothèse de référence :

“il existe une différence biologiquement significative entre les 2 groupes”

C’est alors aux données de démontrer l’équivalence des 2 régimes.

Remarque : ce test est très largement utilisé dans le domaine du médicament

On conclut à l’équivalence des 2 plantes si tout l’intervalle de confiance est compris entre 2 limites données

0

+ 10%

0

- 10%

Equivalence

Non équivalence

IIL’utilisation de données de référence ou de données historiques

Groupes de référence

MON810, Technical dossier, p. 98

Groupes de référence

Hammond et al. (2006) p 1095

Groupes de référence

Données historiques

MON810, Technical dossier, p. 103

Groupes de référenceDonnées historiques

Introduire de façon ad hoc de nouvelles sources de variabilité entre régimes sans définir un modèle statistique rigoureux introduit un biais dans le calcul du niveau du test.

IIILa puissance des tests statistiques

MON810, Dossier technique :

Les seuls résultats consistent à conclure si les différences observées sont statistiquement significatives ou non, mais la question de savoir si une différence biologiquement significative peut être détectée ou non n’est pas abordée.

En d’autres termes, la puissance des tests statistiques proposés n’est jamais calculée.

Cette question est essentielle, surtout pour des tailles d’échantillons aussi faibles (20 pour les courbes de poids et 10 pour les autres paramètres).

Exemple:

Avec des groupes de 10 rats pour les tests de toxicité subchronique, quelle est la probabilité de détecter un effet régime sur le poids du foie ?

• Proba de détecter une augmentation de 15% 0.92

• Proba de détecter une augmentation de 10% 0.61

• Proba de détecter une augmentation de 5% 0.20

• Proba de détecter une augmentation de 2% 0.07

10 rats

20

20 rats

0.99

0.88

0.35

0.09

50

50 rats

1

0.99

0.71

0.17

Remarque:

MONSANTO utilise la puissance du test pour déterminer le nombre de questionnaires à envoyer dans le cadre d’une enquête.

Le nombre obtenu est 2500

(MON810, Technical dossier, p.162.)

IIILes données aberrantes

Weight curves (MON863)Top left: examples of weight curves (males and females). The three other figures show examples of weight curves clearly presenting abnormal/outlier data.

MON810, Technical dossier, p. 92

the cumulative should be -1.1 instead of -0.34

IVLes comparaisons multiples

MON810, Technical dossier (p. 98) :

- Il est « attendu » qu’une certaine proportion de ces tests se révèlent être significatifs à tort.

- Rien n’est dit sur la procédure utilisée pour bien contrôler la proportion de "faux positifs" (tests significatifs à tort).

Seralini et al., 2007 :

Une étude statistique élémentaire permet de montrer que le fait d’observer 8% de tests significatifs, au lieu des « 5% attendus », ne permet absolument pas de conclure quoi que ce soit.

VLes données longitudinales

Weight curves (MON863)

Les courbes de poids sont analysées par MONSANTO date par date, alors que des outils spécifiques aux données longitudinales seraient mieux adaptés.

Mean weight curves: increases in weight after 14 weeks differ by 10%, on average, between the two groups (+ 300 g in the control group and + 330 g in the test group). Intersubject variability of 20% was also simulated as well as residual variability (standard deviation = 10 g).

Etude par simulation :

Weight curves of 100 samples of 80 rats have been simulated; in each sample of 80 rats, 40 belong to the control group and 40 to the test group. It is presupposed that there is a difference between the two groups

Different approaches are conceivable taking into account the longitudinal structure of data (Mitscherlich-Ratkowski + mixed effects model): -The likelihood-ratio test has power of 97%. - The Wald test has power of 95%.

- The BIC criteria gives ‘power’ of 93%.

Without taking into account longitudinal structure of data: - A three-factor ANOVA gives power of 15%. - The mean-comparison of weights at week 14 has power of 40%.

VErreurs méthodologiques

Seralini et al., 2007 :

Body weights

• Certains effets aléatoires ont été traités comme des effets fixes, ce qui a conduit à sous-estimer les p-values des tests statistiques

• Une analyse statistique correcte, au moyen de modèles non linéaires à effets mixtes, conduit à des p-values > 0.5

Etude autrichienne (nov. 2008) :

8.65

6

0.27 1.20

9.85

Etude autrichienne (nov. 2008) :

1) Calcul de la p-value en utilisant une approximation normale

>>n=24; >>D=4;>>p=1-D/2/n ;>>v=2*p*(1-p)/n ;>>d=D/n/sqrt(v);>>disp(2*(1-normcdf(abs(d))))

0.0367

2) Calcul de la p-value sans approximation, par Monte-Carlo

>>N=500000;>>x=sum(rand(N,n)<1-D/2/n,2);>>d=x(1:N/2)-x(N/2+1:end);>>disp(mean(abs(d)>=D))

0.0657

L’approximation gaussienne pour calculer un degré de signification peut être très médiocre.Exemple : on observe 24 portées (sur 24 couples) dans un groupe et seulement 20 portées (sur 24 couples) dans l’autre groupe

Conclusions

On peut admettre que d'un point de vue purement descriptif, on "n'observe" pas de grandes différences entre les rats nourris au MON810 (ou MON863) et les rats témoins,

mais on ne peut associer à ces tests aucune probabilité d'erreur, niveau, puissance, donc aucune validité statistique…

- Il faut impérativement écrire un Plan d’Analyse Statistique, et s’y tenir…

- ne pas se contenter de regarder si un test de comparaison est significatif (compléter l’étude par une analyse de puissance, un test d’équivalence,…),

- augmenter la taille des échantillons et optimiser les protocoles, afin de mieux séparer les hypothèses et de diminuer les risques d’erreur,

- utiliser des procédures statistiques rigoureuses (modèles mixtes, données longitudinales, comparaisons multiples…).

Les procédures statistiques doivent bien sûr être rigoureuses, mais la statistique n’est qu’un outil et a des limites :

•c’est un outil d’aide à l’évaluation des risques, pas un outil d’évaluation des risques !

•c’est un outil d’aide à la décision, pas un outil de décision !

Une confiance aveugle dans un résultat statistique ne doit pas conduire à des règles de décisions absurdes :

- Si p =0.04, alors « danger » : les OGM sont toxiques et doivent être interdits.

- Si p= 0.06, alors « pas de danger » : on peut consommer des OGM sans crainte.