Search for notes by fellow students, in your own course and all over the country.

Browse our notes for titles which look like what you need, you can preview any of the notes via a sample of the contents. After you're happy these are the notes you're after simply pop them into your shopping cart.

My Basket

You have nothing in your shopping cart yet.

Title: SPSS Formation
Description: Shows How To Use The Statistical well known program SPSS

Document Preview

Extracts from the notes are below, to see the PDF you'll receive please use the links above


SUPPORT
Transparents ultérieurement améliorés et mis à jour sur le site du SMCS

Pratique de la statistique avec SPSS

LIENS UTILES
Site du SMCS (Support en Méthodologie et Calcul Statistique) :
http://www
...
ucl
...
be/SMCS/

Documentation Stat + SPSS :
http://faculty
...
ncsu
...
htm
http://www
...
ucla
...
stat
...
ac
...

athlè
pré
Il pense que cette étude pourra l’aider à améliorer ses entraînements
l’
amé
entraî
pour être plus adaptés aux athlètes
...
» (point)
variable alphanumérique = « » (blanc)

Changer le
nom des
variables

Définir le type :
Eviter les variables
« string » (chaîne de
caractères) car ça
limite certaines
analyses

Donner un
label : nom
complet des
variables

Indiquer la
signification
de chaque
valeur

Indiquer le type de
mesure : échelle,
ordinale, nominale

⇒ A vous d’essayer avec les informations reçues (aller voir ce qu’’il est possible
qu
d’
reç
de faire dans chaque menu: changer l’affichage des dates, définir les missing…)
l’

missing…
27

28

Découvrir les menus

Découvrir les menus

Quelques menus intéressants ⇒ A vous de les découvrir
inté


Quelques menus intéressants
inté

Obtenir de l’aide
Réaliser des analyses
différentes selon les
valeurs d’une variable
Infos générales
sur un fichier

Sélectionner certaines
données
Définir des
paramètres

Donner un poids sur
base d’une variable

Obtenir un graphe

Transformer ou
créer des variables

⇒ A vous de les découvrir

Réaliser des analyses

29

30

31

32

Ne pas se fatiguer
Sauver le code chaque fois qu’on exécute quelque chose
qu’
exé

SPSS : choisir le menu qui nous intéresse → choisir les options voulues
inté
dans la fenêtre → cliquer sur Paste au lieu de OK
- Le code correspondant est collé dans une fenêtre de syntaxe
collé
- Dans la fenêtre de syntaxe, on peut cliquer sur Run →All et le
code est exécuté ou Run →Selection…
exé cuté
- On peut sauver le fichier contenant le code et l’ouvir pour
l’
l’exécuter sur un autre fichier
exé
Se servir du journal pour avoir une trace de ce qui a été fait

SPSS : Edit → Options → File Locations : choisir un endroit
accessible pour le fichier « Session Journal » spss
...

Indépendante

Outil

Variable quantitative

Graphe








Tableau
descriptif

• Moyenne, mode, médiane
• Variance, écart-type

• Médiane, mode
• Table de fréquences

Inférence

Pas d'autres
variables

Graphique temporel
Graphe en points
Diagramme en barres (si discrète)
Boxplot
Histogramme (si continue)
qq-plot, pp-plot

Variable qualitative
• Diagrammes en barres
• Diagrammes de Pareto

• Test t et IC sur la moyenne
• Test c² et IC sur la variance
• Test de Normalité

• Test de proportions
• Test d’ajustement χ²

34

Formation SMCS : Pratique de la statistique avec SPSS

Grilles d’aide à l’analyse

Grilles d’aide à l’analyse

Une variable d’intérêt en fonction d’une variable quantitative
d’ inté
d’

Une variable d’intérêt en fonction d’une variable qualitative
d’ inté
d’
Variable à analyser - Variable dépendante (VD)

Variable à analyser - Variable dépendante (VD)
Selon - Var
...

Indépendante

Variable qualitative

• Graphe x-y
• Graphe x-y matriciel

Tableau
descriptif

• Coefficient de corrélation de Pearson,
Spearman ou autre

Inférence

• Test et IC sur la corrélation

Modélisation

• Régression linéaire simple
et régression multiple

En fonction
d'une / de
variables
qualitative(s)



Diagramme en barres
par catégorie

• Moyenne, mode,
médiane par catégorie
• Variance, écart-type par catégorie



Tableau de contingence

Inférence

• Test t de comparaison des moyennes,
tests de comparaisons multiples,
test de Wilcoxon
• Test F de comparaison des variances,
test de Levene

• Test d’indépendance: χ²,
test exact de Fisher
• Test de McNemar

Modélisation

• Moyenne, mode,
médiane par catégorie
• Variance,
écart-type par catégorie

• Graphe en points
• Boxplot par catégorie

Tableau
descriptif

• Graphes en points
• Boxplot par catégorie



• Régression logistique
• Arbre de segmentation

• Régression logistique
• Analyse discriminante

35

ANOVA,
ANOVA à mesures répétées,
GLM

36

Données
≥2 quali Quali selon SPSS Quanti selon quali ≥2quanti 1qualiObjectifs
quanti
Intro Stat
1quanti
Analyses stat

Canevas de la formation
Les différents parties de la formation sont organisées en se basant sur
le type de variables disponibles et à analyser
Que peut-on utiliser comme outil statistique lorsqu’on dispose de :
→ Une seule variable quantitative
→ Une seule variable qualitative
→ Plusieurs variables quantitatives
→ Une variable quantitative selon au moins une variable qualitative
→ Une variable qualitative selon au moins une variable quantitative
→ Plusieurs variables qualitatives

37

38

39

40

Visualisation graphique
Le choix du graphique dépend de la taille n de l’échantillon

5000 1000

3000

5000

1000

3000

5000

3000

5000 1000

3000

5000

1000

3000

5000











Dot plot

1000

Dot plot (bon pour N < 15) :

3000

1000

3000

5000

1000
























Box plot (rarement mauvais) :

N=50

Box plot

1000



Histogramme (pour N > 50) :

N=30

Histogramme

N=15












Analyse d’une variable quantitative

3000

5000

1000

3000

42

Formation SMCS : Pratique de la statistique avec SPSS

Graphe: Histogramme

Graphe: Box plot

Ex: Visualiser la forme de la distribution du temps de convalescence

Ex: Visualiser les distributions du temps de convalescence selon le sexe

SPSS : Graphs → Legacy Dialogs → Histogram
Nombre d’obs par classe
ou fréquence relative

5000

SPSS : Graphs → Legacy Dialogs (→ Interactive )→ Boxplot
ou
Graphs → Chart Builder → Boxplot

Que représente l’histogramme?
→ On définit des classes (souvent
de mêmes longueurs) et pour
chacune on dessine un rectangle
dont la hauteur représente le
nombre d’obs
...

→ Quand N est petit, la forme peut
beaucoup varier en fonction des
classes choisies
→ à éviter pour un N petit
→ Par prudence, prendre environ √N
comme nombre de classes
...
5 * IQR

75ème percentile

25%







0

Maximum (sans outliers)
25%

1
...
5 IQR)
Temps
45

46

Graphe: QQplot

Graphe: QQplot

Ex: Vérifier si les temps de repos sont issus d’une loi Normale

Que représente plus précisément un QQplot ?
→ Un QQ plot consiste à comparer les données observées aux données
qu’on devrait avoir si elles suivaient « parfaitement » une certaine
distribution, le plus souvent la distribution Normale
...

Exemple avec 4 données

SPSS : Analyze → Descriptive Statistics → Q-Q Plots

1/4

1/4 1/4

1/4
Quantiles de la
distribution normale
Droite de
Henry

z1

z2 z3

z4

Que représente ce QQplot?
→ Les données réellement observées par rapport aux données qui auraient dû être
observées dans le cas d’une distribution parfaitement Normale (ou représentation
de la déviation de la distribution Normale de chacun des points observés)
47

x1

x2

x3 x4
observations
48

Graphe: QQplot

Tableaux: Statistiques descriptives

Quelques exemples de vérification de la normalité par QQplot

Ex: Résumer les temps de repos selon le sexe

SPSS : Analyze → Reports → Case Summaries (décocher «Display cases»)

ou

ou
Normale

Lognormale

Analyze → Descriptive
Statistics → Explore



Bimodale
49

50

Indices de tendance centrale

Indices de dispersion

But : Donner une valeur centrale aux données
moyenne

1 N
X = ∑ X i = 12
N i=1

médiane
Milieu=q0
...
92

50% of obs

8

45

13 14

- Résistant aux outliers
- Moins efficace pour les
données « propres »
- Utile pour les distributions
asymétriques

)2

i =1

=

1 N
∑ (Xi − X)2 = 62
...
92

- Facile à comprendre
- Parfois plusieurs modes
45

50

55

60

65

Erreur type (standard error)
→ Précision de l’estimateur de
la moyenne
s X = s/ N

51

52

Indices de dispersion

Inférence : Test sur une moyenne
Tester une moyenne en population normale

But : Savoir comment les données varient autour du centre

Ex: Tester si la moyenne du temps de repos est différente de 250

Étendue

Espace interquartile

Étendue = max(Xi) - min(Xi)

IQR = q 0
...
25
25% obs

50

55

SPSS : Analyze → Descriptive → Explore → Plots (cocher «Normality plots with tests»)
→ La distribution s’écarte

IQR

Range

45

→ Vérifier si la distribution est Normale et transformer les données si nécessaire

60

45

65

25%

50

q0
...
5

significativement d’une
Normale
→ Utiliser une transformation

25%

60

q0
...
05)

65

53

54

Tester une moyenne en population normale

Inférence : Test sur une moyenne
Tester une moyenne en population normale

Test-t (1 moyenne µ par rapport à une valeur de référence µ 0)
On veut tester H0: µ = µ 0 contre H1: µ ≠µ0
Sous condition que la variable X testée ait une distribution normale
ou qu’il y ait un grand nombre d’observations

Ex: Tester si la moyenne du temps de repos est différente de 250 en
utilisant la variable transformée [LN(250)≈5
...
05)
t
LogAbsence

-2,749

df

Sig
...
007 => P-valeur<0
...
52
=> On rejette cette hypothèse au seuil de 5%
=> Nous sommes parvenu à montrer que le logarithme du temps de repos est
significativement différent de 5
...
007 < 0
...
52
56

Tester une moyenne en population normale
Intervalle de Confiance à 100*(1-α)% pour la moyenne:

[X − t

n−1;1−α / 2

s / n , X + t n −1;1−α / 2 s / n

]

Rmq: IC ne contient pas 5
...
52)

[X − µ

0

− t n −1;1−α / 2 s / n , X − µ 0 + t n −1;1−α / 2 s / n

]

Sample Test
Test Value = 5
...


Analyse d’une variable qualitative

Diagramme en barres
SPSS : Graphs → Legacy Dialogs → Bar (Simple)
→ Une barre par catégorie
→ Fréquence ou
pourcentage

1000

Diagramme de Pareto
1000

SPSS : Analyze → Quality Control → Pareto Charts
→ Une barre par catégorie
→ Les barres sont ordonnées
selon leur hauteur
62

Formation SMCS : Pratique de la statistique avec SPSS

Tableaux: Statistiques descriptives

Inférence : Test sur une proportion
Test binomial sur une proportion

Ex: Résumer les proportions observées de la variable Arret1
→ Table de fréquence :
SPSS : Analyze → Descriptive Statistics → Frequencies

Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même
SPSS : Analyze → Non Parametric Tests → Binomial

→ H0: proportions identiques (πA= πB=0
...
5)
P-valeur=0
...
05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois
durant le marathon est équivalent au nombre qui ne s’arrêtent pas

Pour caractériser une variable ordinale
→ Utiliser la médiane ou le mode :
SPSS : Analyze → Descriptive Statistics → Frequencies (Statistics)

→ Ce test ne peut être appliqué que lorsque la variable d’intérêt ne peut prendre
que 2 valeurs (ex:“avec” versus “sans”)
63

64

Inférence : Test sur une proportion

Inférence : Test sur une proportion

Test d’ajustement χ2 à un critère de classification

Test d’ajustement χ2 à un critère de classification

Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même
SPSS : Analyze → Non Parametric Tests → Chi Square

Soit une expérience à k résultats possibles R1,
...
151 => P-valeur>0
...
Si le test
est significatif, il indique que les données se rapartissent autrement que le
hasard ou autrement que ce qui a été posé sous H0
65

Question du test d’ajustement : On se donne des valeurs théoriques pour
les pi et se demande si les observations peuvent émaner de cette
distribution
Résultats possibles
R1 R2 R3 …
Rk
X1 X2 X3 …

Xk

Occurrences observées

p1 p2 p3 …

pk

Probabilités théoriques

La statistique de test est basée sur la comparaison des probabilités
théoriques et des proportions observées Xi/N
66

Inférence : Test sur une proportion
Différence entre test binomial et test d’ajustement χ2
Test binomial lié à la table de fréquence pour une variable
lié
fré
qualitative à deux niveaux
Test d’ajustement chi-carré lié à la table de fréquence à une
d’
chi- carré lié
fré
variable qualitative à plusieurs niveaux
Dans les deux cas, on peut tester l’égalité des proportions entre
cas,
’égalité
les niveaux de la variable ou tester des proportions déterminées
terminé

67

68

Visualisation graphique
Graphe X-Y

Analyse avec plusieurs variables
quantitatives

Ex: Visualiser le lien entre le temps de repos et le temps de récupération
SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)

Plusieurs possibilités:
– Scatter Plot
– Scatter Plot avec une droite de régression
et IC (intervalle de confiance) ou IP (intervalle de prédiction) …

70

Formation SMCS : Pratique de la statistique avec SPSS

Visualisation graphique

Stats descriptives et Inférence

Graphe X-Y

Coefficient de corrélation de Pearson

Ex: Visualiser le lien entre le temps de repos et le temps de récupération
en tenant compte du sexe
SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)

N

ρ=

∑ (xi − x )( yi − y )
i =1

– Scatter Plot simple avec une couleur différente par groupe
– Scatter Plot + une courbe plus ou moins lissée …

N

i =1

Autres possibilités:

N

i =1

∑ (xi − x )2 ∑ ( yi − y )2

ρ ≈1

0 < ρ <1

ρ ≈0

Attention !
ρ >0
−1 < ρ < 0

ρ ≈ −1

71

x

ρ ≈0

x
x
x x
x xx

xx

xx

x x x x

x
x

x

72

Stats descriptives et Inférence

Stats descriptives et Inférence

Coefficient de corrélation et test d’hypothèse sur le coefficient

Coefficient de corrélation et test d’hypothèse sur le coefficient

Il existe plusieurs coefficients de corrélation dans SPSS :
corré
Pearson: utilisé quand on a deux variables continues
Spearman (Pearson basé sur les rangs): utile pour les
variables quantitatives non normales ou les variables
qualitatives ordinales
Kendall tau-b (basé sur le nombre de concordances et
discordances des rangs) : pour des variables ordinales

Ex: Quantifier et tester la force du lien linéaire entre le logarithme du
temps de repos et le logarithme du temps de récupération
SPSS : Analyze → Correlate → Bivariate

Coefficient de corrélation de Pearson
P-valeur du test sur la corrélation

Il existe un test d’hypothèse pour tester si le coefficient est
d’ hypothè
égal versus différent de 0 (= versus > 0):
diffé
H0: ρ=0 contre H1: ρ≠0 :
ρ≠0
73

Modélisation : Régression linéaire

Modélisation : Régression linéaire

La régression linéaire simple : Y = α + β X + ε
• Le principe est de trouver a et b minimisant :
C’est le critère des moindres carrés

Ex: Modéliser le lien linéraire entre le log du temps de repos et le
log du temps de récupération : SPSS : Analyze → Regression → Linear

n

∑ (Y − a − bX )
i =1

i

74

2

i

8000

Résidu : ei=Yi-a-bXi

7000
6000
5000

Yi

4000
Y

Yi

3000

Yi=a+bXi

2000
1000
0
0

4

8

12

16

20

X

75

76

Modélisation : Régression linéaire

Modélisation : Régression linéaire

Comment juger si le modèle est bon ?

Comment rapporter le modèle estimé ?

→ En regardant la p-valeur et le coefficient R2

n

n

∑ (Yˆ − Y )
i =1

∑ (Y

2

i

i =1

Somme des carrés
expliquée par le modèle

i

p-valeur indiquant si le
modèle Y=α+βX+ε est
meilleur qu’un modèle
ayant seulement une
constante Y=α+ε

→ Sous la forme d’une équation :

LogRecup1 = -2
...
316*LogAbsence

Pourcentage de
variabilité de la réponse
expliquée par le modèle

ˆ
− Yi ) 2

Somme des carrés
résiduelle

Estimations des
paramètres α et β

Pourcentage de variabilité de la réponse expliquée
par le modèle pondérée par le nombre de variables
du modèle et le nombre d’observations

p-valeurs associées aux tests
dont l’hypothèse H0 est la nullité
du paramètre

Ecart-type
des résidus
77

Modélisation : Régression linéaire

78

Modélisation : Régression linéaire

Comment juger si le modèle est valide ?

Ex: Analyse graphique des résidus du modèle estimant le lien
linéraire entre le log du temps de repos et le log du temps de
récupération : SPSS : Analyze → Regression → Linear (Plots - Save)

→ En analysant les résidus et les points influents

Les hypothèses suivantes doivent toujours être vérifiées

Yi = α + βX i + ε i

α+βX

16
14
12

Y

10
8
6

Modèle linéaire

Termes d’erreur

εi ~ iN(0,σ²)
σ

4
2
0
0
...
4

0
...
2

1
...
0

Variance ± constante

X

Indépendance
Normalité de
des observations la distribution

± 95% des ri entre -2 et 2

Homogénéité
des variances

(Plots: X=ZPRED Y=ZRESID)

Résidus Normaux

Quelques points ont un
leverage > 2*2/175=0
...
& Leverage
Scatter/Dot: X=Prédi unstd
...
→ Linear (Save : Residuals Unstand
...
→ Linear (Plots :
ZPRED ou DEPENDNT-SRESID)

• Comparer les ri aux di et étudier ceux qui sont très différents

Résidus standardisés calculés en enlevant le point i du modèle
81

Modélisation : Régression linéaire

82

Modélisation : Régression linéaire

Points influents et outliers :

Leverage ou « force de levier » :
• Un point éloigné du « nuage » de points dans la direction des X peut
potentiellement influencer l’équation de régression
...
1

55

55

hii=0
...
26
4

X

Un leverage > 2p/n sera considéré comme élevé
ex: hii provenant d’un modèle construit avec 5 paramètres et sur un
échantillon de 50 individus
...
24

55

Modèle avec le point influent (en rouge)

Di=3
...
58

-5
0

1

2

3

4

X

• La statistique de Cook Di résume comment les réponses prédites sont
modifiées quand le point est enlevé du modèle (Di >1 : influence anormale)
Di =

ˆ ˆ
ˆ ˆ
(Y − Y( i ) )' (Y − Y( i ) )
( p + 1) s 2

Y = β 0 + β1 X 1 + β 2 X 2 + ε , où ε est iN (0, σ 2 )
• Objectif: estimer β0 , β1, β2
• Équation du modèle estimé:

ˆ
Y = b0 + b1 X 1 + b2 X 2

15
5

Modèle linéaire multiple à 2 variables explicatives :

=

ei2
hii
≈ F ( p + 1, n − p − 1)
2
( p + 1) s (1 − hii ) 2

• L’estimation est faite par les
moindres carrés
...
999 +
1
...
019*Température

MALE
FEMALE

Y = β0 + β1 X1 + β2 X 2 + β3 X1 X 2 + ε

X

Y = β 0 + β1 X 1 + β 2 S + ε
87

88

Modélisation : Régression linéaire

Modélisation : Régression linéaire

Comment juger si le modèle est valide ?

Comment détecter les problèmes de multicolinéarité ?

→ En analysant les résidus de la même manière que pour la régression

→ En vérifiant le facteur d’inflation de la variance (VIF) : ok si 1 ≤ VIF ≤10

simple

On peut aussi utiliser la tolérance qui est définie par: 1 / VIF

→ En vérifiant l’influence des points sur la régression (Leverage /

SPSS : Analyze → Regression → Linear (Statistics – Colinearity diagnostics)

Cook)

→ En regardant les valeurs propres de la matrice de corrélation des

→ En s’assurant qu’il n’y a pas de problème de « multicolinéarité »

paramètres

entre les variables explicatives (VI)
...
La
multicolinéarité peut entraîner:

→ En constatant l’Instabilité du modèle quand une variable est enlevée

ou ajoutée au précédent modèle

- une imprécision des paramètres estimés
- une instabilité des paramètres quand une donnée change

89

90

Modélisation : Régression linéaire
Notre modèle de régression multiple est-il valide?
SPSS : Analyze → Regression → Linear (Plots - Statistics - Save)

(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot)

(Save: Prédi unstand
...

Y=Leverage)

Ex: Réaliser la même modélisation à partir des variables d’origine
(Recup1 – Absence et Température)
...
En cas de
Non-Normalité, il est possible de transformer les données (ex: log, 1/x,…)

SPSS : Analyze → Compare Means → Paired Samples T Test

Tests pairés non-paramétriques (condition de normalité non respectée)


Test de Levene : Teste l’égalité
des variances entre les 2 groupes
...


P-valeur du test : Indique que Recup1
ne diffère pas selon le sexe

Utilisation : Quand les données à comparer sont liées (ex: avant-après,
pots avec 2 plantes…) et que la différence entre les groupes ne se
distribue pas normalement
...
Comparer les moyennes 2 à 2 en adaptant la p-valeur
...
05/Nombre de comparaisons

Utilisation : Quand les données à comparer sont liées (ex: temps 1, 2, 3…),
que la différence entre les groupes ne se distribue pas normalement ou que
l’échantillon est petit



Différents tests : Test de Friedman, Kendall W, Cochran Q

SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman)
103

104

Inférence : Test sur k moyennes

Inférence : Test sur k moyennes

Comparaisons multiples post-hoc

Ex: Comparer la moyenne du temps de récupération 1, 2 et 3

Ex: Voir quelles mesures (temps) diffèrent si analyse globale significative



ANOVA pour mesures répétées (si normalité respectée)
SPSS : Analyze → General Linear Models → Repeated Measures

ANOVA pour mesures répétées → Tests : Bonferroni, Sidak

Test de Mauchly : Teste la symétrie
composée – Homogénéité des
variances / covariances
...
Comparer les moyennes 2 à 2 en adaptant la p-valeur
Principe de Bonferroni: P-valeur adaptée=0
...

,173

Modèle non
significatif

Tests the null hypothesis that the error variance of
the dependent variable is equal across groups
...
Design: Intercept + Sexe + Arret1 + Sexe * Arret1

P-valeur du test de Levene: Indique
l’égalité des variances des résidus
entre les groupes
...

En cas de non-sphéricité, prendre la correction de Greenhouse-Geisser

Sexe
109

110

Inférence : Test à 2 critères

Modélisation : Modèle linéaire général

Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps

Régression incluant simultanément des variables catégorielles
et quantitatives comme variables explicatives

Utiliser préférentiellement les variables transformées (différences importantes…)
Correction de Greenhouse-Geisser
à considérer car non sphéricité
Moyenne différente
selon les temps

Ex: Modéliser le temps de récupération selon le temps de convalescence
et le fait que les athlètes se sont arrêtés durant le marathon



Pas d’effet d’interaction
entre le temps et le sexe

Utilisation : Test équivalent à l’ANOVA si toutes les variables explicatives
sont catégorielles
Conditions : Identiques aux conditions de la régression linéaire

SPSS : Analyze → Generalized Linear Models → Generalized Linear Models

Pas d’effet du sexe sur le
temps de récupération
111

112

Modélisation : Modèle linéaire général
Ex: Modéliser le temps de récupération selon le temps de convalescence
et le fait que les athlètes se sont arrêtés durant le marathon
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models
Test de la qualité d’approximation du modèle

logRecup1 =
− 3
...
31 logAbsence, si Marathon avec Arrêts

− 3
...
09 + 1
...
La condition d’homogénéité de variance des
résidus n’est pas possible à obtenir avec une variable
dépendante dichotomique
...


121

122

Modélisation : Régression logistique

Modélisation : Régression logistique

Principe de la régression logistique

Modèle logistique binaire à une variable

• La variable à expliquer (Y) est une variable dichotomique dont
les valeurs possibles sont 0 (échec) et 1 (succès)

π 
 = β 0 + β1 X + ε
1−π 



• Equation du modèle : ln

• La probabilité P(Y=1) = π, (0 ≤ π ≤ 1)


• Equation du modèle estimé : ln

• π peut dépendre de la valeur des variables explicatives (X1,
X2,…, Xp)
...
0

ˆ
 π 
ln
 = −15 + 0
...
5 X)
ˆ
ou π =
1 + exp ( − 15 + 0
...
2
0
...
6
0
...

• Modèle de régression logistique (logit):

0
...
+ β p X p + ε
1− π 

ˆ
ou π =

20

123

25

30
35
Variable explicative X

40

124

Modélisation : Régression logistique

Modélisation : Régression logistique

Estimation des paramètres

Influence des paramètres sur π=P(Y=1)
1
...
2
0
...
6
0
...
0

1
...
5
b1 = 1
b1 = 2

 π 


ln  i  = β 0 + β1 X i + ε i
 1 − πi 

0
...
5
b1 = -1
b1 = -2

0
...
2
0
...
6
0
...
∩ Y N = y N |X 1 ,X 2 ,
...
2
0
...
6
0
...
0

• La méthode des moindres carrés n’a pas de bonnes propriétés
dans ce contexte
...
178 + 0
...
178 + 0
...
178 + 0
...
178 + 0
...
561
1 + exp(−4
...
703 × Log (18 * 30))

→ Pour un athlète qui a eu une convalescence de 18 mois,

la probabilité qu’il s’arrête au moins une fois durant le
2ème marathon est estimée à 56%
131

132

Modélisation : Régression logistique

Modélisation : Régression logistique

Que représentent le « Odds » et le « Odds ratio » ?

Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?

→ Odds Ratio (ou rapport de cotes)
Ex: Le risque relatif pour un athlète avec un temps de convalescence
de X+1 de s’arrêter durant le 2ème marathon par rapport à un
athlète avec un temps de convalescence de X (LogAbsence)
π1
Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X + 1
(1 − π 1 )
Probabilité de ne pas s' arrêter sachant le temps de convalesce nce = X + 1
=
OR =
π2
Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X
(1 − π 2 )
Probabilit é de ne pas s' arrêter sachant le temps de convalesce nce = X

→ En repérant les outliers et points influents (via l’analyse des résidus,
standardized residuals, leverage, Cook)
→ En incluant toutes les variables influentes dans le modèle et
uniquement celles-là
→ En vérifiant que la relation entre VI et log odds de VD est linéaire
→ En vérifiant l’absence de multicolinéarité

OR=exp(β1)

→ En utilisant des échantillons de taille suffisante

→ Un athlète avec un temps de convalescence d’une unité en

plus au niveau du LogAbsence a 2,019 fois plus de chance
de s’arrêter au moins une fois durant le marathon 2

→ En s’assurant que les conditions d’application des tests χ² sont
respectées


133

134

135

136

Visualisation graphique
Ex : Visualiser la répartition des 3 types de vitamines selon le sexe

Analyse d’une variable qualitative en
fonction d’une variable qualitative

Diagramme en barres par catégorie
caté
SPSS : Graphs → Legacy Dialogs → Bar (Clustered/Stacked)

1000

1000

138

Formation SMCS : Pratique de la statistique avec SPSS

Tableaux: Statistiques descriptives

Inférence : Test d’indépendance
Test χ² d’indépendance de 2 variables aléatoires qualitatives

Ex: Résumer les proportions observées de la variable Arret1
selon le type de vitamines prises

Ex: Tester si le fait de prendre une vitamine donnée est lié au sexe

→ Tableau de contingence :
SPSS : Analyze → Descriptive Statistics → Crosstabs

χ² de Pearson, Test du rapport de vraisemblance…
vraisemblance…


Conditions : Toutes les observations doivent être indépendantes
Les valeurs attendues doivent être supérieures à 5
Si les valeurs attendues sont inférieures à 5 :
• Opérer des regroupements qui ont du sens
• Utiliser un test exact de Fisher (pas toujours disponible dans SPSS base)

SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics:Chi-Square)
P-valeur => Pas de lien entre le sexe et
du test
le type de vitamines prises

139

140

Inférence : Test d’indépendance

Modélisation : Régression logistique

Autres statistiques pour les tables de contingence
• La régression logistique permet de modéliser une réponse Y
dichotomique (0,1) en fonction de variables explicatives dont
certaines peuvent être qualitatives

Cochran Mantel Haenszel: permet de tester l’association de 2 variables
conditionnellement à une troisième
Kendall τ-b et τ-c: mesure le degré d’association entre 2 variables ordinales

• On modélise la probabilité que l’événement survienne P(Y=1)

Mc Nemar : permet de tester la significativité d’un changement pour 2
échantillons appariés nominaux
Cochran’s Q : extension du test de McNemar pour k échantillons appariés
nominaux
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics…)

141

142

Modélisation : Régression logistique

Modélisation : Régression logistique

Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête
au moins une fois durant le 2ème marathon (Arret2) en fonction du
temps de convalescence (LogAbsence) et de la vitamine prise

Comment juger si le modèle est bon ?
→ Tests de qualité d’ajustement :

SPSS : Analyze → Regression → Binary Logistic

Modélisation de la probabilité de Y=1 càd d’avoir
au moins un arrêt lors du marathon 2

→ Mesures d’ajustement et de taille de l’effet :
Façon dont la variable Vitamine est
recodée (dummy variables)

143

144

Modélisation : Régression logistique

Modélisation : Régression logistique

Comment teste-t-on la significativité des paramètres ?

Comment rapporter le modèle estimé ?

→ Test de Wald

→ Sous la forme d’une équation par niveau de la variable qualitative

(Imaginons que la variable Vitamine soit gardée dans le modèle) :

→ Le temps de convalescence semble important pour

→ La probabilité qu’un athlète s’arrête durant le marathon 2

prédire le fait qu’un athlète s’arrête ou non durant
le 2ème marathon

VitamineA : exp(−7
...
974+ 1
...
261+ 0
...
179× LogAbsence)
VitamineC : exp(−7
...
179× LogAbsence)

→ La vitamine prise par l’athlète ne semble pas avoir

d’effet sur le fait que l’athlète s’arrête durant le
marathon
145

Modélisation : Régression logistique
Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
Mêmes conditions qu’exposé précédemment :
→ En repérant les outliers et points influents (via l’analyse des résidus,
standardized residuals, leverage, Cook)
→ En incluant toutes les variables influentes dans le modèle et
uniquement celles-là
→ En vérifiant que la relation entre VI et log odds de VD est linéaire
→ En vérifiant l’absence de multicolinéarité
→ En utilisant des échantillons de taille suffisante

→ En s’assurant que les conditions d’application des tests χ² sont
respectées

147

146


Title: SPSS Formation
Description: Shows How To Use The Statistical well known program SPSS