Probabiliste des précipitations

1        Analyses et représentation des données pluviométrique relatives à une station

1.1       Contrôle des données

Avant de pouvoir exploiter les données et bien qu’elles soient dans un format adéquat, il importe de contrôler la fiabilité et la précision de ces dernières. Le contrôle permet de valider les données avant leur organisation au sein d’une banque de données pour leur mise à disposition à des fins opérationnelles. Lors de cette opération, on introduit des indices de qualité de la donnée ainsi que des indices indiquant que celle-ci est reconstituée, calculée voire manquante.

Modeles Et Algorithmes Markoviens
Modeles Et Algorithmes Markoviens

Les statistiques permettent d’exploiter les informations les informations recueillies pour établir toute relation de causalité par l’interprétation et l’analyse.

Un phénomène aléatoire est un phénomène comportant des variables aléatoires liés au hasard dont les valeurs ne peuvent être connues à l’avance.

Par exemple, le logiciel CODEAU utilise pour ce faire toute une série d’indice ou flags permettant de qualifier des données présentant une rupture de continuité, une ou plusieurs mauvaises valeurs, des valeurs manquantes ou à vérifier etc.

1.1.1       Hypothèses de l’analyse statistique :

Les calculs statistiques sont basés sur un certain nombre d’hypothèses qui doivent en principe être vérifiées. Parmi celles-ci, citons :

  1. Les mesures reflètent les vraies valeurs :

Cette hypothèse n’est malheureusement jamais réalisée en pratique, du fait des erreurs systématiques ou aléatoires.

  • Les données sont consistantes :

 Aucune modification dans les conditions internes du système n’intervient durant la période d’observation (position du pluviomètre, procédures d’observation, observateur unique).

  • La série de données est stationnaire :

Les propriétés de la loi statistique qui régit le phénomène (moyenne, variance ou moments d’ordre supérieur) sont invariantes au cours du temps.

Les données sont homogènes :

  • Une série de données est réputée non homogène lorsque:

Elle provient de la mesure d’un phénomène dont les caractéristiques évoluent durant la période de mesure; le phénomène est alors dit non-stationnaire (par exemple: variations climatiques, variations du régime des débits dues à une déforestation ou un reboisement). Il est également possible d’observer des signes d’une non stationnarité apparente lorsque l’électronique intégrée à l’équipement de mesure présente une dérive temporelle ou lors du changement de l’observateur.

Elle reflète deux ou plusieurs phénomènes différents. Le régime d’une rivière à l’aval de la confluence de deux sous bassins dont le comportement hydrologique est très contrasté constitue un bon exemple de ce défaut d’homogénéité.

  • La série de données est aléatoire et simple :

Le caractère aléatoire et simple d’une série d’observations est une hypothèse fondamentale pour l’analyse statistique. Un échantillon aléatoire signifie que tous les individus de la population ont la même probabilité d’être prélevés. Un échantillon simple signifie que le prélèvement d’un individu n’influe pas la probabilité d’apparition des individus suivants. Autrement dit, si toutes les observations de la série sont issues de la même population et qu’elles sont indépendantes entre elles, la série est alors aléatoire et simple. La non vérification du caractère aléatoire et simple peut avoir plusieurs causes, parfois simultanément. Ces causes se groupent en deux catégories, les défauts d’autocorrélation d’une part (caractère non aléatoire des séries) et les défauts de stationnarité du processus d’autre part (dérive à long terme et dérive cyclique).

  • La série doit être suffisamment longue :

La longueur de la série influe sur les erreurs d’échantillonnage, notamment sur le calcul des moments d’ordre supérieurs donc sur les tests inhérents à leur fiabilité.

1.1.2       Test de la médiane

Le test da la médiane (test de Mood) étant réalisé, l’homogénéité étant vérifiée, ce test permettra de voir si la série à étudier est homogène ou pas, c’est-à-dire si elle appartient à la même population que la série de référence. Soit un échantillon x1, x2, x3,………xn ; déterminons sa médiane m après avoir classé l’échantillon par ordre croissant. La médiane m est une constante de telle sorte que 50% des xi lui soient inférieures et 50% des xi lui soient supérieures. Remplaçons donc la série des valeurs non classées par une suite de signe :

  • +pour les xi > m
  • -pour les xi < m

Calculons les quantités Ns et Ts,

Avec : Ns : nombre total de séries de + ou de – dans la série initiale ;

Ts : taille de la plus grande série de + ou de – au-dessus de la médiane dans la série initiale.

Ns suit approximativement une loi normale de moyenne (N + 2)/2

 et de variance (N – 1) 1/4 et T suit une loi binomiale. Ceci a permis d’établir que pour un seuil de signification compris entre 91% et 95%, les conditions du test sont les suivantes :

Ns >  ½ .(N+1-(U(1– α /2)).(N+1)0.5   (2.1)

                                                     Ts < 3.3 (Log10N+1)             (2.2)

Si les conditions du test sont vérifiées, on conclut que la série à étudier est homogène au seuil de signification 1 – α.

2        Étude d’homogénéité des séries pluviométriques 

2.1.1       Méthode du double cumul

Le principe de la méthode consiste à vérifier la proportionnalité des valeurs mesurées à deux stations. L’une des stations (station X) est la station de base ou station de référence, supposée correcte. L’autre station (Y) est la station à contrôler. Un effet de lissage est obtenu en comparant, au pas de temps choisi (année, saison, mois, décade), non pas les valeurs observées, mais leur cumul. La méthode est d’un concept extrêmement simple, puisqu’il suffit de tracer un graphe des quantités :

https://echo2.epfl.ch/e-drologie/chapitres/chapitre8/figures/Image472.gif(2.3)

Elle permet de détecter la non-homogénéité d’une série de mesures et de la corriger. Cette méthode consiste à comparer par exemple les pluies (ou autre variable) cumulées d’une station X dont laquelle on éprouve des doutes dans son homogénéité avec les pluies cumulées d’une station Y dont ces mesures sont jugés homogènes.

2.1.2       Test de Wilcoxon ou Test des rangs

Test de Wilcoxon

Pour tester l’homogénéité de données issues de deux populations on utilise les deux statistiques équivalentes de Mann-Whitney et Wilcoxon (cf. S. Morgenthaler, Introduction à la Statistique, PPUR, 1997, p.251), ainsi que le test de la médiane.

Revenant à l’exemple précédent, Avant de faire l’extension, il convient de tester si la série corrigée appartient à la même population que la série de référence. Le test de Wilcoxon est le plus puissant des tests non paramétriques. Rappel : Soient 2 variables aléatoires Y et X, représentant respectivement 2 séries de précipitations annuelles de taille N1 et N2. Y étant la série à étudier et X étant la série de base avec N2 > N1. Si l’échantillon Y est issu de la même population que l’échantillon X, l’échantillon nouveau Y U X est également issu de la même population. De ce fait, on classe les éléments de ce nouvel échantillon Y U X par ordre croissant et on attribue à chacune des valeurs le rang qu’elle occupe dans cette nouvelle série. (Si une valeur se répète plusieurs fois, il faut lui associer le rang moyen qu’elle détermine).

On calcule les quantités WY et WX : WY représente la somme des rangs de Y et c’est celle qui nous intéresse et est égale à :

WY = ∑ rang Y = 1+ 3 + 4 + …….+ 13 + 17 + … + n  (2.4)

WX = ∑ rang X = 2 + 5 + …+ 12 + 14 + 15 + 16 +…+ n-1  (2.5)

L’hypothèse nulle est vérifiée si : Wmin < WY < Wmax            (2.6)

Wmax = (N1 + N2 + 1)N1 – Wmin    (2.7)

On a La statistique de Wilcoxon est la somme des rangs du premier échantillon

(2.8

(2.9)

(2.10)

(2.11)

Problème 01 :

Soient 2 stations pluviométriques “Menaceur” et “Lazabane” situées à quelques kilomètres l’une de l’autre dans le bassin versant du côtier Algérois. Ces stations ayant fonctionné respectivement sur des périodes de 20 ans (N) et de 14 ans (K) comme le montre le tableau 2.1. En supposant que la série pluviométrique des précipitations annuelles de la station de Menaceur est la station de référence (X) et que l’erreur recherchée se trouve au niveau de la série pluviométrique de Lazabane, série à étudier (Y), on demande de :

Tableau 2 1:Test de la médiane (série de référence)
AnnéeStation de référence XStation douteuse Y
1980-1981390?
1981-1982520?
1982-1983470?
1983-1984708628
1984-1985565469
1985-1986609400
1986-1987582495
1987-1988843688
1988-1989640480
1989-1990619587
1990-1991317251
1991-1992554462
1992-1993778689
1993-1994408356
1994-1995520220
1995-1996646301
1996-1997762305
1997-1998430?
1998-1999594?
1999-2000707?
  1. Vérifier ’homogénéité de la série de la station de référence (X) en appliquant le test de la médiane ;
  2. Détecter l’erreur systématique de la station étudiée et faire la correction par la méthode des doubles masses s’il y a erreurs ;
  3. Vérifier l’homogénéité de la série Y après correction en appliquant le test de Wilcoxon ;
  4. Donner la droite de régression de Y en X ;

Corrigé :

L’homogénéisation des données consistent à identifier les séries pluviométriques et à vérifier s’il n’y a pas d’erreurs systématiques qu’il convient de rechercher et de corriger s’il y a lieu. Pour la fiabilité de l’information, il convient de tester la série de référence utilisée pour d’autres séries.

  1. Test de la médiane : série de référence ou de base

La médiane m déterminée sur la série Y classée par ordre croissant est : m = 588 mm L’application du test nécessite la vérification des conditions Ns et Ts (Tableau 2.2).

Tableau 2 .2: Test de la médiane(série de référence) Me=588 mm
NPann (mm) 
1390– 
2520 –
3470 –
4708 +
5565 –
6609 +
7582 –
8843 +
9640
10619
11317– 
12554 –
13778
14408– 
15520– 
16646 +
17762
18430– 
19594
20707

N = 20  U1-α/2 = 1.96 (variable de Gauss, lu sur la table de Gauss pour un seuil de signification 1-α =95%.

NS = 6.01     Ts =  7.59  Pour Ns : on a    10 > 6.01   et Pour Ts : On a  5 < 7.59 donc la série est homogène. L’homogénéité de la série de référence étant vérifiée, cette série servira de base pour la détection d’erreurs systématiques dans la série à étudier. Cependant, les stations pluviométriques à partir desquelles les séries sont considérées doivent appartenir aux mêmes conditions climatiques. Il est important d’identifier la station de base ou de référence pour pouvoir détecter et corriger les erreurs de la station à étudier.

  1. Méthode des doubles Cumuls

Le tableau 2.3 représente les valeurs initiales et cumulées des précipitations annuelles aux 2 stations pluviométriques. La méthode de la double masse appliquée aux cumuls annuels des 2 stations a permis de confirmer l’hétérogénéité de la série des pluies annuelles de la station Y comme le montre la figure 2.1. Au vue de la figure 2.2, la station Y présente une hétérogénéité qu’il convient de corriger. Le changement ou la cassure de la pente correspond à l’année 1993/94. A partir de cette année, les 3 autres années qui suivent sont erronées et doivent être rectifiées.

Les pentes m1 et m2 correspondant respectivement aux 1er et 2ème segments de droite sont calculées : m1 = 0.82 m2 = 0.43. Le choix de la période à corriger est un peu arbitraire si on ne dispose pas des originaux. Cependant, soit on peut corriger la période la plus courte soit corriger les données antérieures à la rupture. Dans cet exemple, le choix a porté sur la période après la date de la cassure, en corrigeant les 3 dernières années de la station Y par un coefficient multiplicatif (rapport m1/m2 = 1,91) (Tableau 2.3).

Tableau 2.3 : contrôle des données

AnnéeStation XStation YCumul XCumul Yy Corrigéey Corrigée. Cumulée
homogèneDouteuse
1983-1984708628708628628628
1984-1985565469127310974691097
1985-1986609400188214974001497
1986-1987582495246419924951992
1987-1988843688330726806882680
1988-1989640480394731604803160
1989-1990619587456637475873747
1990-1991317251488339982513998
1991-1992554462543744604624460
1992-1993778689621551496895149
1993-1994408356662355053565505
1995-1996520220714357254205925
1996-1997646301778960265756500
1997-1998762305855163315837083
Cassure  des 3 dernières années  

Figure 2.1: méthode des doubles Cumuls avant correction

               Tableau 2.4 : Valeurs annuelles initiales et corrigées (Station Y)
AnnéePan (Y initial) mmPan (Y corrigée) mm
1994-1995220420
1995-1996301575
1996-1997305583

Figure 2.2: méthode des doubles Cumuls après correction

  1. Test de Wilcoxon

Le procédé de calcul est présenté dans le tableau 2.5 et 2.6. La condition d’appartenance à la même population, la série corrigée est à considérer.

Tableau 2.5 : Valeurs initialesTableau 2.6 : Test de Wilcoxon
NStation douteuseStation homogèneXUYRangSomme Rang YSomme Rang X
1390 39011 
2520 2512 2
3470 31734 
47086283564 6
55654694005 11
6609400408610 
75824954207 18
8843688430818 
96404804629 27
1061958746910 37
113172514701129 
1255446248012 49
1377868949513 62
144083565201443 
   5201558 
155204205541674 
166465755651791 
1776258357518 80
18430 58219110 
19594 58320 100
20707 58721 121
   59422132 
   60923155 
   61924179 
   62825 146
   64026205 
   64627232 
   68828 174
   68929 203
   70730262 
   70831293 
   76232325 
   77833358 
   84334392 
       
       
Tableau 2.5 : Valeurs initialesTableau 2.6 : Test de Wilcoxon
NXYXUY RangSomme Rang YSomme RangX
1390 39011 
2520 2512 2
3470 31734 
47086283564 6
55654694005 11
6609400408610 
75824954207 18
8843688430818 
96404804629 27
1061958746910 37
113172514701129 
1255446248012 49
1377868949513 62
144083565201443 
155204205201558 
166465755541674 
177625835651791 
18430 57518 80
19594 58219110 
20707 58320 100
   58721 121
   59422132 
   60923155 
   61924179 
   62825 146
   64026205 
   64627232 
   68828 174
   68929 203
   70730262 
   70831293 
   76232325 
   77833358 
   84334392 

WY = ∑ Rang Y = 392    WX = ∑ Rang X  = 203

Wmin = 293 ;  Wmax = 406 Condition du test vérifiée 293 < WY < 406

Les 2 séries appartiennent à la même population et sont homogènes

Exercice 02 :

Même application pour les données ci-dessous

N0P (mm)
1641,2
2659,1
31176,9
4557,1
5367,5
6410,5
71014,8
8582,1
9827,3
10530,4
111125,3
12659
13787,7
14641,8
15780,2
16685,1
17500,9
181030,3
19898,7
201085,4
21588,7
22953,8
23801,7
24709,8
25519,8
261006
27838,5
28826
29340,7
30819,5
31391,6
32618,8
33720,7
34712,2
35458,5
36570,3
37758,5
38550,5
39522,2
40416,1
Tableau 2.7 : Application de la méthode Wilcoxon
(1)(2)(3)(4)(5)(3)(4)(5)
XYRangsXUYOrigineRangsXUYOrigine
641.2898.71340.7Y23712.2Y
659.11085.42367.5X24720.7Y
1176.9588.73391.6Y25758.5Y
557.1953.84410.5X26780.2X
367.5801.75416.1Y27787.7X
410.5709.86458.5Y28801.7Y
1014.8519.87500.9X29819.5Y
582.110068519.8Y30826Y
827.3838.59522.2Y31827.3X
530.482610530.4X32838.5Y
1125.3340.711550.5Y33898.7Y
659819.512557.1X34953.8Y
787.7391.613570.3Y351006Y
641.8618.814582.1X361014.8X
780.2720.715588.7Y371030.3X
685.1712.216618.8Y381085.4Y
500.9458.517641.2X391125.3X
1030.3570.318641.8X401176.9X
 758.519659X   
 550.520659.1X   
 522.221685.1X   
 416.122709.8Y   

                        N1= 18                                     N2= 22    Somme Rang X = 380 ;

Wmin = 296.4 ;   Wmax = 441.6 On vérifie l’inégalité : Wmin < 380 < Wmax Donc notre série est homogène

Leave a Reply

Your email address will not be published. Required fields are marked *