Notions de probabilités et de statistiques

Points Forts de  ce cours

  • Identifier, dans une situation simple, le caractère étudié et sa nature : qualitatif ou quantitatif.
  • Lire les données d’une série statistique présentées dans un tableau ou représentées graphiquement.
  • Donner le maximum, le minimum d’une série numérique.
  • Calculer des fréquences.
  • Représenter par un diagramme en bâtons ou en secteurs circulaires une série donnant les valeurs d’un caractère qualitatif.
  • Calculer la moyenne d’une série statistique à partir de la somme des données et du nombre d’éléments dans la série.
  • Déduire de la moyenne d’une série, celle de la série obtenue en multipliant tous les termes par un même nombre.
  • Utiliser et construire des tableaux de répartitions de fréquences après expérimentations.
  • Utiliser les notions élémentaires des probabilités dans des contextes familiers d’expérimentation.
Study aesthetic Maths Spe 1ere Chapitre probabilites conditionnelles 2 2
Study aesthetic Maths Spe 1ere Chapitre probabilites conditionnelles 2 2

1        VARIABLE STATISTIQUE

Une variable statistique est une caractéristique pouvant prendre plusieurs des valeurs d’un ensemble d’observations possibles auquel une mesure ou une qualité́ peut être appliquée. Notée X. 

« Quantitative » : ses valeurs sont des nombres exprimant une quantité, sur lesquels les opérations arithmétiques (somme, etc…) ont un sens. La variable peut alors être discrète ou continue selon la nature de l’ensemble des valeurs qu’elle est susceptible de prendre (valeurs isolées ou intervalle de R ).

Exemples :      Taille, poids, salaire

                        Rendement

                       Note à un examen

                        PNB / habitant, espérance de vie,

                        Nombre d’habitants d’un ensemble de pays

« Qualitative » : ses valeurs sont des modalités, (ou catégories, ou caractères) exprimées sous forme littérale ou par un codage numérique sur lequel des opérations arithmétiques n’ont aucun sens. On distingue des variables qualitatives ordinales ou nominales, selon que les modalités peuvent être naturellement ordonnées ou pas.

Exemples :Sexe de la personne interrogée, situation familiale,
numéro de son département de naissance, … Etat du temps constaté à un endroit donné chaque jour
(pluvieux, neigeux, beau, venteux, …)

1        Vocabulaire

Population :

Text Box: On appelle population l’ensemble sur lequel porte notre étude statistique.
Cet ensemble est noté Ω
Exemple1 : 30 étudiants dans une classe A.  Ω = ensemble des étudiants.

Text Box: On appelle individu tout élément de la population Ω, il est noté ω (ω dans Ω).
Exemple 2 : Dans l’exemple indiqué ci-dessus, un individu est tout étudiant de la section.
– Si on étudie la production annuelle d’une usine de boîtes de boisson en métal
(canettes). La population est l’ensemble des boîtes produites durant l’année et


Individu (unité statistique)

Caractère (variable statistique)

Text Box: On appelle caractère (ou variable statistique, dénotée V.S) toute application : Ω → C. 
L’ensemble C est dit : ensemble des valeurs du caractère X (c’est ce qui est mesuré ou observé sur les individus)

Modalités :

Les modalités sont les différentes situations dans lesquelles les individus peuvent se  trouver à l’égard du caractère considéré.

Exemple :   – Variable est ” situation familiale “

  • Modalités sont ” célibataire, marié, divorcé “

Classes :

Intervalles de valeurs d’une variable continue, l’ensemble des classes formant une partition de l’ensemble des valeurs possibles de la variable.

Par exemple, si tous les salaires des employés d’une entreprise se situent entre 750 et moins de 3 000 €, on peut construire (par exemple) les classes : [ 750 – 900 [ , [ 900 – 1 500 [ , [1 500 – 2 250 [ , [2 250 – 3 000 [

Chaque valeur observée de la variable doit appartenir à une classe et une seule.

Classe modale :

C’est la classe correspondant au maximum de l’histogramme, dans le cas d’une distribution continue uni modale.

Coefficient de corrélation (linéaire) :

Le coefficient de corrélation entre deux variables statistiques X et Y sur les mêmes individus est le nombre :

                                                (1.1)

où  COV ( X , Y ) est la covariance entre X et Y,

et   sX sY   les écarts-types de X et Y.

(1.2)

Ce coefficient est toujours compris entre -1 et + 1.

Ajustement linéaire

S’il est proche de + 1 ou – 1, X et Y sont bien corrélées, c’est-à-dire qu’elles sont liées entre elles par une relation presque affine ; le nuage de points est presque aligné le long d’une droite (croissante si r = + 1, décroissante si r = – 1). S’il n’y a aucun lien entre X et Y, ce coefficient est nul, ou presque nul.

2        Variables Aléatoires

On considère un ensemble Ω muni d’une probabilité IP.

Définition 0.1 Une variable aléatoire X est une fonction de l’ensemble fondamental Ω à valeurs dans R, X : Ω → R.

Lorsque la variable X ne prend que des valeurs discrètes, on parle de variable aléatoire discrète. Un vecteur aléatoire X : Ω → Rd est une fonction X = (X1, . . . , Xd) à valeurs dans Rd telle que les coordonnées Xi soient des variables aléatoires. Pour tout intervalle [a, b] ⊂ R, l’ensemble {X ∈ [a, b]} = {ω ∈ Ω : X(ω) ∈ [a, b]} est un événement.

Exemple 1

1. On jette deux dés distincts et on s’intéresse à la somme des points. On note X cette variable aléatoire, elle est définie par X : Ω → R avec Ω = {(1, 1),(1, 2), . . . ,(6, 5),(6, 6)} (ω1, ω2) $→ ω1 + ω2.

L’ensemble des valeurs possibles de X est {2, 3, . . . , 12}

2. On lance toujours deux dés, mais cette fois on s’intéresse au plus grand chiffre Y obtenu. On a alors Y : Ω → R avec Ω = {(1, 1),(1, 2), . . . ,(6, 5),(6, 6)} (ω1, ω2) $→ max(ω1, ω2).

La variable Y est à valeurs dans {1, 2, . . . , 6}.

2.1       Loi de probabilité, Fonction de répartition

La loi de probabilité d’une variable aléatoire permet de connaitre les chances d’apparition des différentes valeurs de cette variable.

On se place sur l’espace de probabilité (Ω,IP).

Définition 1.

1 Soit X une variable aléatoire.

La loi de probabilité de X est définie par la fonction FX, appelée fonction de répartition de la variable X, définie par FX : R → [0, 1]       x $→ IP(X ≤ x).

On dit que deux variables aléatoires X et Y ont la même loi si elles ont la même fonction de répartition FX = FY .

Remarque 1.

 Soit I un intervalle de R. L’événement {X ≤ x} représente l’ensemble des valeurs ω ∈ Ω telles que X(ω) soit inférieur à x, i.e.{X ≤ x} = {ω ∈ Ω : X(ω) ≤ x}.

La loi de X est en générale notée L(X) ou Loi(X)

Remarque 2.

 On a IP(X ∈ R) = 1, car IP(X ∈ R) = IP({ω ∈ Ω : X(ω) ∈ R}) = IP(Ω) = 1.

Propriétés 1. La fonction de répartition est une fonction croissante à valeur dans [0, 1] telle que lim x→−∞  FX(x) = 0 et lim x→+∞     FX(x) = 1, mais elle n’est pas forcément continue.

Remarque 3. Soit a ≤ b, on a IP(X ∈ [a, b]) = IP(X ≤ b) − IP(X < a).

Une densité de probabilité est une fonction qui permet de représenter une loi de probabilité sous forme d’intégrales.

Formellement, une loi de probabilité possède une densité ƒ, si ƒ est une fonction définie sur \ \scriptstyle\mathbb{R},\  positive ou nulle et Lebesgue-intégrable, telle que la probabilité de l’intervalle [a, b] est donnée par

\int_a^b f(x)\,dx(1.3)

Pour tous nombres a. Par exemple, si la variable X a pour densité de probabilité la fonction ƒ, la probabilité que la variable X soit dans l’intervalle [4,3, 7,8] sera

Toute fonction positive ou nulle l’intégrale sera

(1.4)

(1.5)

(1.5)

1.1.1    Loi normale

En probabilité, on dit qu’une variable aléatoire réelle X suit une loi normale (ou loi normale gaussienne, loi de Laplace-Gauss) d’espérance μ et d’écart type σ strictement positif (donc de variance σ2) si cette variable aléatoire réelle X admet pour densité de probabilité la fonction p(x) définie, pour tout nombre réel x, par :

(1.5)

Une telle variable aléatoire est alors dite variable gaussienne.

On note habituellement cela de la manière suivante :   

μ moyenne (nombre réel)

σ2 > 0 variance (nombre réel) ; x \in\, ]-\infty;+\infty[\!

1.1.2    La loi normale centrée réduite

Représentation graphique d’une loi normale centrée réduite (dite courbe de Gauss ou courbe en cloche).

On appelle loi normale (ou gaussienne) centrée réduite la loi définie par la densité de probabilité \varphi : \R \to \R^+ définie par :

\varphi(t)=\frac{1}{\sqrt{2\;\pi}}\, \mathrm{e}^{-\frac{t^2}{2}}(1.4)

On vérifie qu’elle est continue et que son intégrale sur \ \R est égale à 1.

On sait en effet que              \ \int_{-\infty}^{+\infty}\mathrm{e}^{-\frac{t^2}{2}}\ dt = \sqrt{2\, \pi} (1.6)

(Intégrale de Gauss).

2        Analyse fréquentielle

Courbe cumulative croissante (ou fonction de répartition) :

C’est le tracé de la fonction N qui à tout x associe N ( x ) = nombre d’observations ≤ x. Il s’obtient au moyen des effectifs cumulés croissants.

Dans le cas discret on a une fonction en escalier, dans le cas continu une fonction continue, affine par morceaux.

Si on raisonne en fréquences (au lieu d’effectifs), on a le tracé de la fonction de répartition.

F ( x ) = proportion d’observations ≤ x

                                                        Fonctions de répartitions

Déciles :

Les déciles D1 , D2 , … , D9 divisent une série statistique en 10 parties d’effectifs égaux.

Ce sont les abscisses respectives des points d’ordonnée 0.1 ; 0.2 ; … ; 0.9 sur la courbe cumulative croissante.

Diagramme représentant la distribution d’une variable qualitative : les modalités sont placées en abscisse, formant des bases de rectangles égales et équidistantes, et les effectifs (ou fréquences) en ordonnée, suivant une échelle arithmétique.

Les surfaces des rectangles obtenus sont proportionnelles aux effectifs (ou aux fréquences).

Méthode de calcul :

Si on dispose d’un tableau d’effectifs :

1. multiplier chaque valeur par son effectif,

2. totaliser tous ses produits, soit S cette somme,

3. totaliser tous les effectifs ce qui donne un effectif total n de la série,

4. diviser la somme S par l’effectif n.

Si on dispose d’un tableau de fréquences,

1. multiplier chaque valeur par sa fréquence,

2. totaliser tous ces produits.

Si on dispose d’un tableau d’effectifs (ou de fréquences) de classes :

1. déterminer d’abord les centres des classes,

2. se ramener au cas ii. ou iii. en remplaçant les valeurs par les centres des classes.

Si on sait que la série est obtenue par agrégation de plusieurs séries statistiques d’effectif et de

moyenne connus : se ramener `a la définition de la moyenne

Comment calculer la médiane d’une série statistique `a une variable ?

Si on dispose un tableau de données ponctuelles :

1. ranger les n valeurs observées xi dans l’ordre croissant au sens large ; noter (x(i) ) la suite de valeurs ainsi ordonnées,

 2. si n est impair, la médiane est x( n+1 2 ) ;

si n la médiane est Me = 1 2 (x( n 2 ) + x( n 2 +1)).

 Si on dispose d’un tableau d’effectifs ou de fréquence :

1. calculer les fréquences cumulées croissantes,

2. c’est la première classe pour laquelle on dépasse 0.5.

Pour déterminer le premier ou troisième quartile on procède de manière identique en remplaçant 0.5 respectivement par 0.25 et 0.75.

Fréquence (ou fréquence relative) :

C’est la proportion (ou le pourcentage) d’individus pour lesquels une variable statistique a pris une valeur donnée. Si, sur 150 familles, 50 ont 2 enfants, on dira que la fréquence fi correspondant à la valeur xi = 2 de  la variable “nombre d’enfants”, est :

 = 0.33 soit 1/3 ou 33.33 %

Fréquences cumulées :

Résultat de l’addition, de proche en proche, des fréquences d’une distribution observée, soit en commençant par le 1er :

F1 = f1 , F2 = f1 + f2 , … , Fi = f1 + f2 + … + fi

(Fréquences cumulées croissantes),

Soit en commençant par le dernier :

F’K = fK , F’K-1 = fK + fK-1 , … , F’i = fK + fK-1 + … + fi

(Fréquences cumulées décroissantes).

Histogramme :

Graphique permettant de représenter une distribution continue regroupée en classes : rectangles juxtaposés dont les bases sont les classes, et les surfaces sont proportionnelles aux effectifs (ou fréquences) associés.

Exercice 01 :

A: Dans un sous-groupe de 40 personnes la taille moyenne est de 170 cm. Dans un deuxième sous-groupe de 10 personnes la taille moyenne est de 180 cm. Dans un troisième sous-groupe de 50 personnes la taille moyenne est de 175 cm.

  • Déterminer la taille moyenne du groupe constitué par les trois sous-groupes précédents.
  • Quelle serait la taille moyenne si les trois sous-groupes étaient constitués du même nombre de personnes ?

B: La température est relevée chaque heure pendant 4 jours dans une forêt. Les 97 résultats obtenus ont été triés et sont rassemblés dans le tableau suivant :

  • Déterminer la médiane M, les quartiles Q1 et Q3 de celle série statistique.
  • On appelle premier décile (noté D1) la plus petite valeur de la température telle qu’au moins 10% des valeurs sont inférieures ou égales à D1. On appelle neuvième décile (noté D9) la plus petite valeur telle qu’au moins 90% des valeurs lui sont inférieures ou égales.
    Justifier que D1 = 15 et calculer D9.

Réponse:

A.

https://www.tifawt.com/wp-content/uploads/clcul-moyenne.pngR1

R2

https://www.tifawt.com/wp-content/uploads/la-moyenne-g%C3%A9n%C3%A9rale.png

B.

Puisque le nombre d’observations est impair (97=2×48+1), la médiane M sera égale à la 49ème mesure de température, c’est-à-dire, en observant le tableau, à 16,5° (la 49ème observation fait partie des 15 mesures égales à 16,5°)
Le quartile Q est la plus petite valeur du caractère pour laquelle 25 % des valeurs de la série statistique lui sont inférieures ou égales. Puisque 25% de l’effectif total représentent 97×25/100= 24,25 , le quartile Q1 correspondra à la 25ème mesure, c’est-à-dire 16°.

  • De même, le quartile Q3 est la plus petite valeur du caractère pour laquelle 75 % des valeurs de la série statistique lui sont inférieures ou égales. Puisque 75% de l’effectif total représentent 97×75/100=72,75, le quartile Q3correspondra à la 73ème mesure, c’est-à-dire 18°.
  • Le décile D1 est la plus petite valeur du caractère pour laquelle 10 % des valeurs de la série statistique lui sont inférieures ou égales. Puisque 10% de l’effectif total représentent 97×10/100=9,7 , le décile D1 correspondra à la 10ème mesure, c’est-à-dire 15°
  • De même, le décile D9 est la plus petite valeur du caractère pour laquelle 90 % des valeurs de la série statistique lui sont inférieures ou égales. Puisque 90% de l’effectif total représentent 97×90/100=87,3 , le décile D9 correspondra à la 88ème mesure, c’est-à-dire 19°

Exercice 02 :

Au sein du LP, 30 élèves ont été interrogés pour connaître le temps qu’ils passent quotidiennement devant la télévision.

On a obtenu les résultats suivants :

Temps d’écoute (en min)Nombre d’élèves
[0 ; 30[2
[30 ; 60[8
[60 ; 100[10
[100 ; 120[5
[120 ; 180[5

TRAVAIL A EFFECTUER :

  1. Lancer le tableur Excel
  • Reproduire le tableau ci-dessous :

En utilisant la calculatrice, compléter la colonne « centre de classe » (jusqu’à la case C7 .

En utilisant la fonction calcul du tableur, compléter la case D3 de  la colonne « Produit ni x xi ».

Reproduire la formule pour compléter la colonne « Produit ni x xi » jusqu’à la case D7..

Dans la case D8, écrire la formule pour calculer le total des produits ni x xi.

Compléter les cases E3 à E7.              Puis la case E8 .

Dans les cases B11, B13, et B15, écrire les formules correspondantes aux calculs de :

  • -la moyenne
    • -la variance
      • -l’écart-type

Exercice 03

On suppose qu’un phénomène aléatoire est représenté par la fonction suivante :

F(x) = {(3+2x)/18     2 < x < 4

Prouvez que f(x) est une fonction de densité de probabilité

Exercice 04

Le gérant d’un magasin vendant des articles de consommation courante a relevé pour un article particulier qui semble connaître une très forte popularité, le nombre d’articles vendus par jour. Son relevé a porté sur les ventes des mois de Mars et Avril, ce qui correspond à 52 jours de vente. Le relevé des observations se présente comme suit :

 
713810912108 910614 7159111211125141181014128  
5713121611911111212151451499141311101112915    

1. Quel type est la variable statistique étudiée.

2. Déterminer le tableau statistique en fonction des effectifs, des fréquences, des effectifs cumulés et des fréquences cumulés.

3. Tracer le diagramme des bâtonnés associé à la variable X.

Exercice 05 :

Une série de pluies annuelles (mm) recueillies à la météo de Médéa :

année P Annuelle mm
1922626
1923411
1924537
1925658
1926472
1927579
1928550
1929499
1930511
1931582
1932161
1933443
1934576
1935737
1936661
1937648
1938701
1939496
1940455
1941473
1942358
1943388
1944562
1945371
1946274
1947722
1948707
1949522
1950650
1951488
1952510
1953386
1954350
1955509
1956507
1957559
1958310
1959519
1960575
  1. Déterminer la moyenne arithmétique ;
  2. Construire l’histogramme et  la courbe des fréquences cumulées en prenant un intervalle de classe de 100mm
  3. Calculer la médiane  M grâce à la formule M= L1+((N/2- ∑fi)/f médiane)*c ; ou :

L1= limite inférieure de la classe médiane ;

N= nombres de données ;    ∑fi = somme des fréquences de toutes les classes inférieure à la classe médiane ;      f médiane = fréquence de la classe médiane ; c = grandeur des intervalles,

L’interpolation, utilisation de l’histogramme ; l’utilisation de la courbe des fréquences  Cumulées ; on donne  ∑Pi =20043 mm ;  ∑lnPi =241,965101    ∑1/pi=0,08295188

Exercice 06 :

La moyenne et l’écart type d’une série de pluies annuelles sont respectivement 1200 et 156 mm.

  1. Déterminer les variables réduites des pluies suivantes 1500,450 ; 750 et 1200mm.
  2.  Déterminer les pluies dont les variables réduites sont : -0.08 ; -0.63 ; -0.89 ; -1.5 ; -2.7 ; -3.05 ;

Leave a Reply

Your email address will not be published. Required fields are marked *