Statistique bivariée avec R

Mohamad Ghassany

22/06/2018

1ère Partie: Distributions à deux variables qualitatives

L’objectif de cette première partie est d’étudier le relation entre deux variables qualitatives. Nous allons pour cela effectuer un test d’indépendance de \(\chi^2\) (Chi-squared test).

Le fichier “diplome_sexe.csv” recense le sexe et le niveau de diplôme obtenu d’un échantillon aléatoire de 1367 diplômés d’université. Télécharger le fichier en cliquant ici .

1. Importer les données dans un tableau appelé data.

2. Lancer les lignes de codes suivantes et exliquez à quoi chaque ligne sert.

dim(data)
head(data)
diplome=data$Diplome
sexe=data$Sexe
levels(diplome)
table(diplome)
length(which(diplome=="Licence"))

3. Avec la fonction table(), croiser les deux variables Diplome et Sexe dans un tableau de contingence qui recense les effectifs pour chaque combinaison de valeurs des variables. On appelera ce tableau diplome_sexe.

4. Compléter ensuite les effectifs marginaux avec la fonction addmargins().

5. Utiliser les fonctions prop.table() et addmargins() pour obtenir la loi jointe en fréquence.

6. En déduire les distributions conditionnelles du niveau du diplôme étant donné sexe.

7. Etudier les lignes de commande suivantes:

chisq.test(diplome_sexe)
chisq.test(diplome_sexe)$statistic
chisq.test(diplome_sexe)$expected
chisq.test(diplome_sexe)$observed

8. Conclure quant à la dépendance entre le sexe et le niveau de diplôme obtenu.

2ème Partie: Tendance Linéaire

Dans cette deuxième partie, nous allons construire un modèle linéaire cherchant à expliquer linéairement la note universitaire d’un étudiant par sa note secondaire.

Données: Le fichier “GPA.csv” contient des notes d’études secondaires et universitaires pour des diplômés en informatique dans une école publique locale. Notre objectif est de déterminer la droite des moindres carrés permettant de prédire optimalement le GPA (Grade Point Average) de l’université d’un étudiant si nous connaissions son GPA de lycée. Télécharger le fichier en cliquant ici .

1. Importez dans R le fichier “GPA.csv”.

2. Quelle est la taille de l’échantillon étudié ?

3. Déterminez la variable indépendante (explicative) et la variable dépendante (à expliquer).

4. Stockez la variable high_GPA (note secondaire) dans un vecteur x et la variable univ_GPA (note universitaire) dans un vecteur y.

5. Le script suivant permet de calculer la moyenne des entrées d’un vecteur z:

moy <- function (z){
n <- length (z)
zbar <- sum(z)/n
return (zbar)
}

Utilisez cette fonction pour calculer les moyennes des variables étudiées. Vérifiez les résultats obtenus avec la fonction mean().

6. Ecrivez une fonction pour calculer la variance des entrées d’un vecteur z.

Calculez ensuite la variance des variables univ_GPA et high_GPA.

7. Utilisez la fonction summary() pour donner un résumé statistique de deux variables étudiées.

8. Tracez dans le même graphique les boites à moustache de deux variables.

9. Représentez, dans la même fenêtre graphique, les deux variables univ_GPA et high_GPA.

10. Tracez le nuage de points des données. Commenter.

11. Calculez la covariance et le coefficient de corrélation linéaire entre les deux variables étudiées.

12. Déterminez en utilisant la méthode des moindres carrés la droite de régression y = ax + b.

13. Utilisez la fonction abline() pour superposer au nuage de points des données la droite de régression obtenue.

14. La fonction lm() (linear model) permet d’effectuer une régression linéaire. Vérifiez les résultats des questions précédentes en exécutant les lignes de commandes suivantes:

model<-lm(y~x)
a<-model$coefficients[1]
b<-model$coefficients[2]

15. Utilisez la fonction summary() pour afficher les détails du modèle et des test d’hypothèses correpondants. Commenter les résultats.

16. Trois diplômés ont eu respctivement 2, 2.5 et 3.5. Donnez une prédiction de leur note universitaire en utilisant la fonction predict().

◼ Fin