Search for notes by fellow students, in your own course and all over the country.
Browse our notes for titles which look like what you need, you can preview any of the notes via a sample of the contents. After you're happy these are the notes you're after simply pop them into your shopping cart.
Title: SPSS Formation
Description: Shows How To Use The Statistical well known program SPSS
Description: Shows How To Use The Statistical well known program SPSS
Document Preview
Extracts from the notes are below, to see the PDF you'll receive please use the links above
SUPPORT
Transparents ultérieurement améliorés et mis à jour sur le site du SMCS
Pratique de la statistique avec SPSS
LIENS UTILES
Site du SMCS (Support en Méthodologie et Calcul Statistique) :
http://www
...
ucl
...
be/SMCS/
Documentation Stat + SPSS :
http://faculty
...
ncsu
...
htm
http://www
...
ucla
...
stat
...
ac
...
athlè
pré
Il pense que cette étude pourra l’aider à améliorer ses entraînements
l’
amé
entraî
pour être plus adaptés aux athlètes
...
» (point)
variable alphanumérique = « » (blanc)
Changer le
nom des
variables
Définir le type :
Eviter les variables
« string » (chaîne de
caractères) car ça
limite certaines
analyses
Donner un
label : nom
complet des
variables
Indiquer la
signification
de chaque
valeur
Indiquer le type de
mesure : échelle,
ordinale, nominale
⇒ A vous d’essayer avec les informations reçues (aller voir ce qu’’il est possible
qu
d’
reç
de faire dans chaque menu: changer l’affichage des dates, définir les missing…)
l’
dé
missing…
27
28
Découvrir les menus
Découvrir les menus
Quelques menus intéressants ⇒ A vous de les découvrir
inté
dé
Quelques menus intéressants
inté
Obtenir de l’aide
Réaliser des analyses
différentes selon les
valeurs d’une variable
Infos générales
sur un fichier
Sélectionner certaines
données
Définir des
paramètres
Donner un poids sur
base d’une variable
Obtenir un graphe
Transformer ou
créer des variables
⇒ A vous de les découvrir
dé
Réaliser des analyses
29
30
31
32
Ne pas se fatiguer
Sauver le code chaque fois qu’on exécute quelque chose
qu’
exé
SPSS : choisir le menu qui nous intéresse → choisir les options voulues
inté
dans la fenêtre → cliquer sur Paste au lieu de OK
- Le code correspondant est collé dans une fenêtre de syntaxe
collé
- Dans la fenêtre de syntaxe, on peut cliquer sur Run →All et le
code est exécuté ou Run →Selection…
exé cuté
- On peut sauver le fichier contenant le code et l’ouvir pour
l’
l’exécuter sur un autre fichier
exé
Se servir du journal pour avoir une trace de ce qui a été fait
SPSS : Edit → Options → File Locations : choisir un endroit
accessible pour le fichier « Session Journal » spss
...
Indépendante
Outil
Variable quantitative
Graphe
•
•
•
•
•
•
Tableau
descriptif
• Moyenne, mode, médiane
• Variance, écart-type
• Médiane, mode
• Table de fréquences
Inférence
Pas d'autres
variables
Graphique temporel
Graphe en points
Diagramme en barres (si discrète)
Boxplot
Histogramme (si continue)
qq-plot, pp-plot
Variable qualitative
• Diagrammes en barres
• Diagrammes de Pareto
• Test t et IC sur la moyenne
• Test c² et IC sur la variance
• Test de Normalité
• Test de proportions
• Test d’ajustement χ²
34
Formation SMCS : Pratique de la statistique avec SPSS
Grilles d’aide à l’analyse
Grilles d’aide à l’analyse
Une variable d’intérêt en fonction d’une variable quantitative
d’ inté
d’
Une variable d’intérêt en fonction d’une variable qualitative
d’ inté
d’
Variable à analyser - Variable dépendante (VD)
Variable à analyser - Variable dépendante (VD)
Selon - Var
...
Indépendante
Variable qualitative
• Graphe x-y
• Graphe x-y matriciel
Tableau
descriptif
• Coefficient de corrélation de Pearson,
Spearman ou autre
Inférence
• Test et IC sur la corrélation
Modélisation
• Régression linéaire simple
et régression multiple
En fonction
d'une / de
variables
qualitative(s)
•
Diagramme en barres
par catégorie
• Moyenne, mode,
médiane par catégorie
• Variance, écart-type par catégorie
•
Tableau de contingence
Inférence
• Test t de comparaison des moyennes,
tests de comparaisons multiples,
test de Wilcoxon
• Test F de comparaison des variances,
test de Levene
• Test d’indépendance: χ²,
test exact de Fisher
• Test de McNemar
Modélisation
• Moyenne, mode,
médiane par catégorie
• Variance,
écart-type par catégorie
• Graphe en points
• Boxplot par catégorie
Tableau
descriptif
• Graphes en points
• Boxplot par catégorie
•
• Régression logistique
• Arbre de segmentation
• Régression logistique
• Analyse discriminante
35
ANOVA,
ANOVA à mesures répétées,
GLM
36
Données
≥2 quali Quali selon SPSS Quanti selon quali ≥2quanti 1qualiObjectifs
quanti
Intro Stat
1quanti
Analyses stat
Canevas de la formation
Les différents parties de la formation sont organisées en se basant sur
le type de variables disponibles et à analyser
Que peut-on utiliser comme outil statistique lorsqu’on dispose de :
→ Une seule variable quantitative
→ Une seule variable qualitative
→ Plusieurs variables quantitatives
→ Une variable quantitative selon au moins une variable qualitative
→ Une variable qualitative selon au moins une variable quantitative
→ Plusieurs variables qualitatives
37
38
39
40
Visualisation graphique
Le choix du graphique dépend de la taille n de l’échantillon
5000 1000
3000
5000
1000
3000
5000
3000
5000 1000
3000
5000
1000
3000
5000
•
•
•
•
•
•
•
•
•
Dot plot
1000
Dot plot (bon pour N < 15) :
3000
1000
3000
5000
1000
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Box plot (rarement mauvais) :
N=50
Box plot
1000
•
Histogramme (pour N > 50) :
N=30
Histogramme
N=15
•
•
•
•
•
•
•
•
•
•
Analyse d’une variable quantitative
3000
5000
1000
3000
42
Formation SMCS : Pratique de la statistique avec SPSS
Graphe: Histogramme
Graphe: Box plot
Ex: Visualiser la forme de la distribution du temps de convalescence
Ex: Visualiser les distributions du temps de convalescence selon le sexe
SPSS : Graphs → Legacy Dialogs → Histogram
Nombre d’obs par classe
ou fréquence relative
5000
SPSS : Graphs → Legacy Dialogs (→ Interactive )→ Boxplot
ou
Graphs → Chart Builder → Boxplot
Que représente l’histogramme?
→ On définit des classes (souvent
de mêmes longueurs) et pour
chacune on dessine un rectangle
dont la hauteur représente le
nombre d’obs
...
→ Quand N est petit, la forme peut
beaucoup varier en fonction des
classes choisies
→ à éviter pour un N petit
→ Par prudence, prendre environ √N
comme nombre de classes
...
5 * IQR
75ème percentile
25%
•
•
•
•
•
0
Maximum (sans outliers)
25%
1
...
5 IQR)
Temps
45
46
Graphe: QQplot
Graphe: QQplot
Ex: Vérifier si les temps de repos sont issus d’une loi Normale
Que représente plus précisément un QQplot ?
→ Un QQ plot consiste à comparer les données observées aux données
qu’on devrait avoir si elles suivaient « parfaitement » une certaine
distribution, le plus souvent la distribution Normale
...
Exemple avec 4 données
SPSS : Analyze → Descriptive Statistics → Q-Q Plots
1/4
1/4 1/4
1/4
Quantiles de la
distribution normale
Droite de
Henry
z1
z2 z3
z4
Que représente ce QQplot?
→ Les données réellement observées par rapport aux données qui auraient dû être
observées dans le cas d’une distribution parfaitement Normale (ou représentation
de la déviation de la distribution Normale de chacun des points observés)
47
x1
x2
x3 x4
observations
48
Graphe: QQplot
Tableaux: Statistiques descriptives
Quelques exemples de vérification de la normalité par QQplot
Ex: Résumer les temps de repos selon le sexe
SPSS : Analyze → Reports → Case Summaries (décocher «Display cases»)
ou
ou
Normale
Lognormale
Analyze → Descriptive
Statistics → Explore
…
Bimodale
49
50
Indices de tendance centrale
Indices de dispersion
But : Donner une valeur centrale aux données
moyenne
1 N
X = ∑ X i = 12
N i=1
médiane
Milieu=q0
...
92
50% of obs
8
45
13 14
- Résistant aux outliers
- Moins efficace pour les
données « propres »
- Utile pour les distributions
asymétriques
)2
i =1
=
1 N
∑ (Xi − X)2 = 62
...
92
- Facile à comprendre
- Parfois plusieurs modes
45
50
55
60
65
Erreur type (standard error)
→ Précision de l’estimateur de
la moyenne
s X = s/ N
51
52
Indices de dispersion
Inférence : Test sur une moyenne
Tester une moyenne en population normale
But : Savoir comment les données varient autour du centre
Ex: Tester si la moyenne du temps de repos est différente de 250
Étendue
Espace interquartile
Étendue = max(Xi) - min(Xi)
IQR = q 0
...
25
25% obs
50
55
SPSS : Analyze → Descriptive → Explore → Plots (cocher «Normality plots with tests»)
→ La distribution s’écarte
IQR
Range
45
→ Vérifier si la distribution est Normale et transformer les données si nécessaire
60
45
65
25%
50
q0
...
5
significativement d’une
Normale
→ Utiliser une transformation
25%
60
q0
...
05)
65
53
54
Tester une moyenne en population normale
Inférence : Test sur une moyenne
Tester une moyenne en population normale
Test-t (1 moyenne µ par rapport à une valeur de référence µ 0)
On veut tester H0: µ = µ 0 contre H1: µ ≠µ0
Sous condition que la variable X testée ait une distribution normale
ou qu’il y ait un grand nombre d’observations
Ex: Tester si la moyenne du temps de repos est différente de 250 en
utilisant la variable transformée [LN(250)≈5
...
05)
t
LogAbsence
-2,749
df
Sig
...
007 => P-valeur<0
...
52
=> On rejette cette hypothèse au seuil de 5%
=> Nous sommes parvenu à montrer que le logarithme du temps de repos est
significativement différent de 5
...
007 < 0
...
52
56
Tester une moyenne en population normale
Intervalle de Confiance à 100*(1-α)% pour la moyenne:
[X − t
n−1;1−α / 2
s / n , X + t n −1;1−α / 2 s / n
]
Rmq: IC ne contient pas 5
...
52)
[X − µ
0
− t n −1;1−α / 2 s / n , X − µ 0 + t n −1;1−α / 2 s / n
]
Sample Test
Test Value = 5
...
Analyse d’une variable qualitative
Diagramme en barres
SPSS : Graphs → Legacy Dialogs → Bar (Simple)
→ Une barre par catégorie
→ Fréquence ou
pourcentage
1000
Diagramme de Pareto
1000
SPSS : Analyze → Quality Control → Pareto Charts
→ Une barre par catégorie
→ Les barres sont ordonnées
selon leur hauteur
62
Formation SMCS : Pratique de la statistique avec SPSS
Tableaux: Statistiques descriptives
Inférence : Test sur une proportion
Test binomial sur une proportion
Ex: Résumer les proportions observées de la variable Arret1
→ Table de fréquence :
SPSS : Analyze → Descriptive Statistics → Frequencies
Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même
SPSS : Analyze → Non Parametric Tests → Binomial
→ H0: proportions identiques (πA= πB=0
...
5)
P-valeur=0
...
05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois
durant le marathon est équivalent au nombre qui ne s’arrêtent pas
Pour caractériser une variable ordinale
→ Utiliser la médiane ou le mode :
SPSS : Analyze → Descriptive Statistics → Frequencies (Statistics)
→ Ce test ne peut être appliqué que lorsque la variable d’intérêt ne peut prendre
que 2 valeurs (ex:“avec” versus “sans”)
63
64
Inférence : Test sur une proportion
Inférence : Test sur une proportion
Test d’ajustement χ2 à un critère de classification
Test d’ajustement χ2 à un critère de classification
Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même
SPSS : Analyze → Non Parametric Tests → Chi Square
Soit une expérience à k résultats possibles R1,
...
151 => P-valeur>0
...
Si le test
est significatif, il indique que les données se rapartissent autrement que le
hasard ou autrement que ce qui a été posé sous H0
65
Question du test d’ajustement : On se donne des valeurs théoriques pour
les pi et se demande si les observations peuvent émaner de cette
distribution
Résultats possibles
R1 R2 R3 …
Rk
X1 X2 X3 …
Xk
Occurrences observées
p1 p2 p3 …
pk
Probabilités théoriques
La statistique de test est basée sur la comparaison des probabilités
théoriques et des proportions observées Xi/N
66
Inférence : Test sur une proportion
Différence entre test binomial et test d’ajustement χ2
Test binomial lié à la table de fréquence pour une variable
lié
fré
qualitative à deux niveaux
Test d’ajustement chi-carré lié à la table de fréquence à une
d’
chi- carré lié
fré
variable qualitative à plusieurs niveaux
Dans les deux cas, on peut tester l’égalité des proportions entre
cas,
’égalité
les niveaux de la variable ou tester des proportions déterminées
terminé
67
68
Visualisation graphique
Graphe X-Y
Analyse avec plusieurs variables
quantitatives
Ex: Visualiser le lien entre le temps de repos et le temps de récupération
SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)
Plusieurs possibilités:
– Scatter Plot
– Scatter Plot avec une droite de régression
et IC (intervalle de confiance) ou IP (intervalle de prédiction) …
70
Formation SMCS : Pratique de la statistique avec SPSS
Visualisation graphique
Stats descriptives et Inférence
Graphe X-Y
Coefficient de corrélation de Pearson
Ex: Visualiser le lien entre le temps de repos et le temps de récupération
en tenant compte du sexe
SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)
N
ρ=
∑ (xi − x )( yi − y )
i =1
– Scatter Plot simple avec une couleur différente par groupe
– Scatter Plot + une courbe plus ou moins lissée …
N
i =1
Autres possibilités:
N
i =1
∑ (xi − x )2 ∑ ( yi − y )2
ρ ≈1
0 < ρ <1
ρ ≈0
Attention !
ρ >0
−1 < ρ < 0
ρ ≈ −1
71
x
ρ ≈0
x
x
x x
x xx
xx
xx
x x x x
x
x
x
72
Stats descriptives et Inférence
Stats descriptives et Inférence
Coefficient de corrélation et test d’hypothèse sur le coefficient
Coefficient de corrélation et test d’hypothèse sur le coefficient
Il existe plusieurs coefficients de corrélation dans SPSS :
corré
Pearson: utilisé quand on a deux variables continues
Spearman (Pearson basé sur les rangs): utile pour les
variables quantitatives non normales ou les variables
qualitatives ordinales
Kendall tau-b (basé sur le nombre de concordances et
discordances des rangs) : pour des variables ordinales
Ex: Quantifier et tester la force du lien linéaire entre le logarithme du
temps de repos et le logarithme du temps de récupération
SPSS : Analyze → Correlate → Bivariate
Coefficient de corrélation de Pearson
P-valeur du test sur la corrélation
Il existe un test d’hypothèse pour tester si le coefficient est
d’ hypothè
égal versus différent de 0 (= versus > 0):
diffé
H0: ρ=0 contre H1: ρ≠0 :
ρ≠0
73
Modélisation : Régression linéaire
Modélisation : Régression linéaire
La régression linéaire simple : Y = α + β X + ε
• Le principe est de trouver a et b minimisant :
C’est le critère des moindres carrés
Ex: Modéliser le lien linéraire entre le log du temps de repos et le
log du temps de récupération : SPSS : Analyze → Regression → Linear
n
∑ (Y − a − bX )
i =1
i
74
2
i
8000
Résidu : ei=Yi-a-bXi
7000
6000
5000
Yi
4000
Y
Yi
3000
Yi=a+bXi
2000
1000
0
0
4
8
12
16
20
X
75
76
Modélisation : Régression linéaire
Modélisation : Régression linéaire
Comment juger si le modèle est bon ?
Comment rapporter le modèle estimé ?
→ En regardant la p-valeur et le coefficient R2
n
n
∑ (Yˆ − Y )
i =1
∑ (Y
2
i
i =1
Somme des carrés
expliquée par le modèle
i
p-valeur indiquant si le
modèle Y=α+βX+ε est
meilleur qu’un modèle
ayant seulement une
constante Y=α+ε
→ Sous la forme d’une équation :
LogRecup1 = -2
...
316*LogAbsence
Pourcentage de
variabilité de la réponse
expliquée par le modèle
ˆ
− Yi ) 2
Somme des carrés
résiduelle
Estimations des
paramètres α et β
Pourcentage de variabilité de la réponse expliquée
par le modèle pondérée par le nombre de variables
du modèle et le nombre d’observations
p-valeurs associées aux tests
dont l’hypothèse H0 est la nullité
du paramètre
Ecart-type
des résidus
77
Modélisation : Régression linéaire
78
Modélisation : Régression linéaire
Comment juger si le modèle est valide ?
Ex: Analyse graphique des résidus du modèle estimant le lien
linéraire entre le log du temps de repos et le log du temps de
récupération : SPSS : Analyze → Regression → Linear (Plots - Save)
→ En analysant les résidus et les points influents
Les hypothèses suivantes doivent toujours être vérifiées
Yi = α + βX i + ε i
α+βX
16
14
12
Y
10
8
6
Modèle linéaire
Termes d’erreur
εi ~ iN(0,σ²)
σ
4
2
0
0
...
4
0
...
2
1
...
0
Variance ± constante
X
Indépendance
Normalité de
des observations la distribution
± 95% des ri entre -2 et 2
Homogénéité
des variances
(Plots: X=ZPRED Y=ZRESID)
Résidus Normaux
Quelques points ont un
leverage > 2*2/175=0
...
& Leverage
Scatter/Dot: X=Prédi unstd
...
→ Linear (Save : Residuals Unstand
...
→ Linear (Plots :
ZPRED ou DEPENDNT-SRESID)
• Comparer les ri aux di et étudier ceux qui sont très différents
Résidus standardisés calculés en enlevant le point i du modèle
81
Modélisation : Régression linéaire
82
Modélisation : Régression linéaire
Points influents et outliers :
Leverage ou « force de levier » :
• Un point éloigné du « nuage » de points dans la direction des X peut
potentiellement influencer l’équation de régression
...
1
55
55
hii=0
...
26
4
X
Un leverage > 2p/n sera considéré comme élevé
ex: hii provenant d’un modèle construit avec 5 paramètres et sur un
échantillon de 50 individus
...
24
55
Modèle avec le point influent (en rouge)
Di=3
...
58
-5
0
1
2
3
4
X
• La statistique de Cook Di résume comment les réponses prédites sont
modifiées quand le point est enlevé du modèle (Di >1 : influence anormale)
Di =
ˆ ˆ
ˆ ˆ
(Y − Y( i ) )' (Y − Y( i ) )
( p + 1) s 2
Y = β 0 + β1 X 1 + β 2 X 2 + ε , où ε est iN (0, σ 2 )
• Objectif: estimer β0 , β1, β2
• Équation du modèle estimé:
ˆ
Y = b0 + b1 X 1 + b2 X 2
15
5
Modèle linéaire multiple à 2 variables explicatives :
=
ei2
hii
≈ F ( p + 1, n − p − 1)
2
( p + 1) s (1 − hii ) 2
• L’estimation est faite par les
moindres carrés
...
999 +
1
...
019*Température
MALE
FEMALE
Y = β0 + β1 X1 + β2 X 2 + β3 X1 X 2 + ε
X
Y = β 0 + β1 X 1 + β 2 S + ε
87
88
Modélisation : Régression linéaire
Modélisation : Régression linéaire
Comment juger si le modèle est valide ?
Comment détecter les problèmes de multicolinéarité ?
→ En analysant les résidus de la même manière que pour la régression
→ En vérifiant le facteur d’inflation de la variance (VIF) : ok si 1 ≤ VIF ≤10
simple
On peut aussi utiliser la tolérance qui est définie par: 1 / VIF
→ En vérifiant l’influence des points sur la régression (Leverage /
SPSS : Analyze → Regression → Linear (Statistics – Colinearity diagnostics)
Cook)
→ En regardant les valeurs propres de la matrice de corrélation des
→ En s’assurant qu’il n’y a pas de problème de « multicolinéarité »
paramètres
entre les variables explicatives (VI)
...
La
multicolinéarité peut entraîner:
→ En constatant l’Instabilité du modèle quand une variable est enlevée
ou ajoutée au précédent modèle
- une imprécision des paramètres estimés
- une instabilité des paramètres quand une donnée change
89
90
Modélisation : Régression linéaire
Notre modèle de régression multiple est-il valide?
SPSS : Analyze → Regression → Linear (Plots - Statistics - Save)
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot)
(Save: Prédi unstand
...
Y=Leverage)
Ex: Réaliser la même modélisation à partir des variables d’origine
(Recup1 – Absence et Température)
...
En cas de
Non-Normalité, il est possible de transformer les données (ex: log, 1/x,…)
SPSS : Analyze → Compare Means → Paired Samples T Test
Tests pairés non-paramétriques (condition de normalité non respectée)
→
Test de Levene : Teste l’égalité
des variances entre les 2 groupes
...
P-valeur du test : Indique que Recup1
ne diffère pas selon le sexe
Utilisation : Quand les données à comparer sont liées (ex: avant-après,
pots avec 2 plantes…) et que la différence entre les groupes ne se
distribue pas normalement
...
Comparer les moyennes 2 à 2 en adaptant la p-valeur
...
05/Nombre de comparaisons
Utilisation : Quand les données à comparer sont liées (ex: temps 1, 2, 3…),
que la différence entre les groupes ne se distribue pas normalement ou que
l’échantillon est petit
→
Différents tests : Test de Friedman, Kendall W, Cochran Q
SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman)
103
104
Inférence : Test sur k moyennes
Inférence : Test sur k moyennes
Comparaisons multiples post-hoc
Ex: Comparer la moyenne du temps de récupération 1, 2 et 3
Ex: Voir quelles mesures (temps) diffèrent si analyse globale significative
→
ANOVA pour mesures répétées (si normalité respectée)
SPSS : Analyze → General Linear Models → Repeated Measures
ANOVA pour mesures répétées → Tests : Bonferroni, Sidak
Test de Mauchly : Teste la symétrie
composée – Homogénéité des
variances / covariances
...
Comparer les moyennes 2 à 2 en adaptant la p-valeur
Principe de Bonferroni: P-valeur adaptée=0
...
,173
Modèle non
significatif
Tests the null hypothesis that the error variance of
the dependent variable is equal across groups
...
Design: Intercept + Sexe + Arret1 + Sexe * Arret1
P-valeur du test de Levene: Indique
l’égalité des variances des résidus
entre les groupes
...
En cas de non-sphéricité, prendre la correction de Greenhouse-Geisser
Sexe
109
110
Inférence : Test à 2 critères
Modélisation : Modèle linéaire général
Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps
Régression incluant simultanément des variables catégorielles
et quantitatives comme variables explicatives
Utiliser préférentiellement les variables transformées (différences importantes…)
Correction de Greenhouse-Geisser
à considérer car non sphéricité
Moyenne différente
selon les temps
Ex: Modéliser le temps de récupération selon le temps de convalescence
et le fait que les athlètes se sont arrêtés durant le marathon
→
→
Pas d’effet d’interaction
entre le temps et le sexe
Utilisation : Test équivalent à l’ANOVA si toutes les variables explicatives
sont catégorielles
Conditions : Identiques aux conditions de la régression linéaire
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models
Pas d’effet du sexe sur le
temps de récupération
111
112
Modélisation : Modèle linéaire général
Ex: Modéliser le temps de récupération selon le temps de convalescence
et le fait que les athlètes se sont arrêtés durant le marathon
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models
Test de la qualité d’approximation du modèle
logRecup1 =
− 3
...
31 logAbsence, si Marathon avec Arrêts
− 3
...
09 + 1
...
La condition d’homogénéité de variance des
résidus n’est pas possible à obtenir avec une variable
dépendante dichotomique
...
121
122
Modélisation : Régression logistique
Modélisation : Régression logistique
Principe de la régression logistique
Modèle logistique binaire à une variable
• La variable à expliquer (Y) est une variable dichotomique dont
les valeurs possibles sont 0 (échec) et 1 (succès)
π
= β 0 + β1 X + ε
1−π
• Equation du modèle : ln
• La probabilité P(Y=1) = π, (0 ≤ π ≤ 1)
• Equation du modèle estimé : ln
• π peut dépendre de la valeur des variables explicatives (X1,
X2,…, Xp)
...
0
ˆ
π
ln
= −15 + 0
...
5 X)
ˆ
ou π =
1 + exp ( − 15 + 0
...
2
0
...
6
0
...
• Modèle de régression logistique (logit):
0
...
+ β p X p + ε
1− π
ˆ
ou π =
20
123
25
30
35
Variable explicative X
40
124
Modélisation : Régression logistique
Modélisation : Régression logistique
Estimation des paramètres
Influence des paramètres sur π=P(Y=1)
1
...
2
0
...
6
0
...
0
1
...
5
b1 = 1
b1 = 2
π
ln i = β 0 + β1 X i + ε i
1 − πi
0
...
5
b1 = -1
b1 = -2
0
...
2
0
...
6
0
...
∩ Y N = y N |X 1 ,X 2 ,
...
2
0
...
6
0
...
0
• La méthode des moindres carrés n’a pas de bonnes propriétés
dans ce contexte
...
178 + 0
...
178 + 0
...
178 + 0
...
178 + 0
...
561
1 + exp(−4
...
703 × Log (18 * 30))
→ Pour un athlète qui a eu une convalescence de 18 mois,
la probabilité qu’il s’arrête au moins une fois durant le
2ème marathon est estimée à 56%
131
132
Modélisation : Régression logistique
Modélisation : Régression logistique
Que représentent le « Odds » et le « Odds ratio » ?
Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
→ Odds Ratio (ou rapport de cotes)
Ex: Le risque relatif pour un athlète avec un temps de convalescence
de X+1 de s’arrêter durant le 2ème marathon par rapport à un
athlète avec un temps de convalescence de X (LogAbsence)
π1
Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X + 1
(1 − π 1 )
Probabilité de ne pas s' arrêter sachant le temps de convalesce nce = X + 1
=
OR =
π2
Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X
(1 − π 2 )
Probabilit é de ne pas s' arrêter sachant le temps de convalesce nce = X
→ En repérant les outliers et points influents (via l’analyse des résidus,
standardized residuals, leverage, Cook)
→ En incluant toutes les variables influentes dans le modèle et
uniquement celles-là
→ En vérifiant que la relation entre VI et log odds de VD est linéaire
→ En vérifiant l’absence de multicolinéarité
OR=exp(β1)
→ En utilisant des échantillons de taille suffisante
→ Un athlète avec un temps de convalescence d’une unité en
plus au niveau du LogAbsence a 2,019 fois plus de chance
de s’arrêter au moins une fois durant le marathon 2
→ En s’assurant que les conditions d’application des tests χ² sont
respectées
…
133
134
135
136
Visualisation graphique
Ex : Visualiser la répartition des 3 types de vitamines selon le sexe
Analyse d’une variable qualitative en
fonction d’une variable qualitative
Diagramme en barres par catégorie
caté
SPSS : Graphs → Legacy Dialogs → Bar (Clustered/Stacked)
1000
1000
138
Formation SMCS : Pratique de la statistique avec SPSS
Tableaux: Statistiques descriptives
Inférence : Test d’indépendance
Test χ² d’indépendance de 2 variables aléatoires qualitatives
Ex: Résumer les proportions observées de la variable Arret1
selon le type de vitamines prises
Ex: Tester si le fait de prendre une vitamine donnée est lié au sexe
→ Tableau de contingence :
SPSS : Analyze → Descriptive Statistics → Crosstabs
χ² de Pearson, Test du rapport de vraisemblance…
vraisemblance…
→
Conditions : Toutes les observations doivent être indépendantes
Les valeurs attendues doivent être supérieures à 5
Si les valeurs attendues sont inférieures à 5 :
• Opérer des regroupements qui ont du sens
• Utiliser un test exact de Fisher (pas toujours disponible dans SPSS base)
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics:Chi-Square)
P-valeur => Pas de lien entre le sexe et
du test
le type de vitamines prises
139
140
Inférence : Test d’indépendance
Modélisation : Régression logistique
Autres statistiques pour les tables de contingence
• La régression logistique permet de modéliser une réponse Y
dichotomique (0,1) en fonction de variables explicatives dont
certaines peuvent être qualitatives
Cochran Mantel Haenszel: permet de tester l’association de 2 variables
conditionnellement à une troisième
Kendall τ-b et τ-c: mesure le degré d’association entre 2 variables ordinales
• On modélise la probabilité que l’événement survienne P(Y=1)
Mc Nemar : permet de tester la significativité d’un changement pour 2
échantillons appariés nominaux
Cochran’s Q : extension du test de McNemar pour k échantillons appariés
nominaux
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics…)
141
142
Modélisation : Régression logistique
Modélisation : Régression logistique
Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête
au moins une fois durant le 2ème marathon (Arret2) en fonction du
temps de convalescence (LogAbsence) et de la vitamine prise
Comment juger si le modèle est bon ?
→ Tests de qualité d’ajustement :
SPSS : Analyze → Regression → Binary Logistic
Modélisation de la probabilité de Y=1 càd d’avoir
au moins un arrêt lors du marathon 2
→ Mesures d’ajustement et de taille de l’effet :
Façon dont la variable Vitamine est
recodée (dummy variables)
143
144
Modélisation : Régression logistique
Modélisation : Régression logistique
Comment teste-t-on la significativité des paramètres ?
Comment rapporter le modèle estimé ?
→ Test de Wald
→ Sous la forme d’une équation par niveau de la variable qualitative
(Imaginons que la variable Vitamine soit gardée dans le modèle) :
→ Le temps de convalescence semble important pour
→ La probabilité qu’un athlète s’arrête durant le marathon 2
prédire le fait qu’un athlète s’arrête ou non durant
le 2ème marathon
VitamineA : exp(−7
...
974+ 1
...
261+ 0
...
179× LogAbsence)
VitamineC : exp(−7
...
179× LogAbsence)
→ La vitamine prise par l’athlète ne semble pas avoir
d’effet sur le fait que l’athlète s’arrête durant le
marathon
145
Modélisation : Régression logistique
Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
Mêmes conditions qu’exposé précédemment :
→ En repérant les outliers et points influents (via l’analyse des résidus,
standardized residuals, leverage, Cook)
→ En incluant toutes les variables influentes dans le modèle et
uniquement celles-là
→ En vérifiant que la relation entre VI et log odds de VD est linéaire
→ En vérifiant l’absence de multicolinéarité
→ En utilisant des échantillons de taille suffisante
→ En s’assurant que les conditions d’application des tests χ² sont
respectées
…
147
146
Title: SPSS Formation
Description: Shows How To Use The Statistical well known program SPSS
Description: Shows How To Use The Statistical well known program SPSS