MICROGÉO
Module régression spatiale

La régression est devenue une technique largement utilisée en géographie. La régression spatiale, qui étudie une variable selon la distance, est celle qui devrait retenir en priorité l'attention des géographes. Mais, paradoxalement, elle est encore mal connue.

La régression peut en effet s'envisager de trois façons. La régression classique consiste à étudier la covariation de deux variables quelconques, par exemple Y, le rendement en quintaux à l'hectare d'une plante, selon X, la quantité d'engrais; si les deux variables correspondent à des répartitions dans l'espace, par exemple Y étant le taux de fécondité pour les n unités spatiales d'un territoire et X étant le pourcentage de femmes ayant fait des études secondaires ou supérieures pour les mêmes n unités spatiales du même territoire, on étudie alors une covariation spatiale mais sans tenir compte de l'espace, comme le remarque Joël Charre: «L'espace n'est pas décrit explicitement; on observe la répartition spatiale de Y, et on la compare à celle de X à l'aide du modèle de régression. Ce modèle ne suppose plus que l'espace soit affecté de gradients ou de tendances ; l'espace est absent du modèle et la continuité affecte la relation entre les deux variables, non l'espace. Celui-ci est envisagé à travers son contenu, pratique usuelle en géographie.» (Statistique et territoire, Montpellier, 1995, GIP-RECLUS, collection Espaces modes d'emploi, p. 75).

La régression temporelle consiste à étudier une variable Y selon le temps, X: elle est bien connue depuis longtemps et largement utilisée dans plusieurs disciplines, y compris en géographie (voir le module de MICROGÉO [Analyse temporelle]). La régression spatiale enfin est nettement moins pratiquée. Elle figure dans MICROGÉO sous trois formes.

a) Régression spatiale pour un transect

Un transect fournit des informations dans l'espace en suivant une ligne droite, c'est-à-dire en partant d'une origine et en de déplaçant dans une seule et même direction. Le fichier des données doit être conçu et enregistré par l'utilisateur avec deux variables:

Y = phénomène dont on connaît l'intensité pour certains lieux situés le long du transect.

X = la distance à l'origine pour les lieux correspondants. Le lieu le plus proche de l'origine ne doit pas avoir une distance égale à 0, car il ne serait pas possible de calculer le logarithme des distances, en cas de transformation de la fonction d'ajustement.

Une utilisation, fréquente en analyse spatiale depuis longtemps, consiste à étudier la densité de population résidente dans un espace urbain selon la distance par rapport au centre de l'agglomération. On sait qu'elle tend à diminuer au fur et à mesure qu'on s'éloigne du centre.

DÉMARCHE À SUIVRE

Lancer le module [Analyse spatiale/Régression spatiale/pour un transect…]. La démarche est la même que pour la régression simple (menu [Statistique]) et les résultats sont présentés de la même façon. La seule nuance réside dans le contrôle permettant le choix des variables: Y est toujours la variable expliquée mais il est rappelé que X doit être la distance. D'autre part, dans le menu [Résultats], la <cartographie des résidus> et l'<autocorrélation spatiale des résidus> ne sont pas disponibles, puisque la régression ne concerne que certaines unités spatiales ou certains lieux ponctuels d'un territoire.

Un exemple est fourni avec le logiciel. Il s'agit du fichier chicago.don avec les deux variables densité/acre et distance au centre. La relation est inverse avec un très bon r égal à -0,89. Elle est encore meilleure, de façon non moins classique, avec les logarithmes des distances, r atteignant alors -0,99.

b) Régression spatiale pour un territoire

Il s'agit cette fois d'un territoire avec toutes ses unités spatiales. L'idée de départ est la même que pour le transect, à une nuance près aux conséquences importantes : la distance à l'origine est calculée en se déplaçant dans toutes les directions. Rien n'empêche l'utilisateur de créer lui-même son fichier de données, tout comme pour un transect. C'est même la seule solution envisageable si l'on souhaite utiliser une distance-temps ou une distance-coût ou même une distance réelle tenant compte des moyens de communication. Dans le cas d'un fichier créé par l'utilisateur, les calculs se feront avec le module [Régression simple] du menu [Statistique]. Faut-il encore disposer des données et créer le fichier.

Mais bien souvent, il peut être utile de faire la régression d'une variable selon la distance linéaire, à vol d'oiseau et en kilomètres. Le module de MICROGÉO évite alors tout calcul fastidieux et permet de modifier à volonté l'origine. Il suffit de disposer, outre d'un fichier de données de type *.don, *.dod ou *.cod contenant la variable, d'un fichier de fond de carte numérisé, de type *.sca. Les calculs de distance sont alors automatisés, ce qui offre une grande souplesse. Les distances seront calculées à partir de l'unité spatiale choisie comme origine.

Remarques sur le calcul des distances

1) L'origine: pour les raisons indiquées plus haut, la distance pour l'unité spatiale choisie comme origine ne peut être 0, mais pas davantage 1. À titre d'exemple, dans le cas de la France, en choisissant l'Île-de-France comme origine, l'unité spatiale la plus proche est la Picardie (130 km) et la plus éloignée est la Corse (950 km): la distance attribuée par MICROGÉO à l'Île-de-France sera pourtant égale à 100 km, ce qui donnera un r plus élevé que si elle était égale à 1. Dans un dessin respectant les règles de la perspective, on ne prolonge habituellement pas les lignes de fuite jusqu'au point de fuite; de même, on considère ici que l'origine 0 est extérieure à la région origine. Pour déterminer la distance de la région origine, le logiciel calcule la distance avec la région la plus proche et attribue une valeur inférieure: par exemple, si la distance la plus faible est comprise entre 100 et 500 km, la distance de l'unité spatiale origine sera égale à 100 km.

2) Les distances: elles sont calculées entre les «points d'ancrage» des unités spatiales, choisis au moment du géocodage du fond de carte en cliquant sur les unités spatiales. L'idéal est que le point d'ancrage se situe au centre de l'unité spatiale. Mais comme le point d'ancrage sert aussi de centre pour les signes proportionnels, il y a parfois contradiction entre les exigences de la présentation cartographique et la rigueur du calcul: par exemple, il est souhaitable de décentrer un peu les points d'ancrage des régions autour de l'Île-de-France afin de laisser davantage de place pour les signes proportionnels associés à la région-capitale et limiter les chevauchements avec les signes des régions périphériques. Les résultats des calculs de régression ne seront pas sensiblement altérés mais, si l'on souhaite le maximum de précision dans tous les domaines, il ne reste qu'une solution facile à mettre en œuvre: avoir un fichier de fond de carte pour la cartographie et un autre pour la régression spatiale, ce dernier avec des points d'ancrage correspondant exactement au centre des unités spatiales.

DÉMARCHE À SUIVRE

Choisir [Analyse spatiale/Régression spatiale/pour un territoire…]. Faire <Fichier/Ouvrir…> et ouvrir successivement, comme les messages y invitent, un fichier de données spatiales puis un fichier de fond de carte numérisé pour le même territoire. Y est la variable dont on souhaite étudier la régression selon la distance. X est une unité spatiale du territoire qui correspond à l'origine des distances. En prenant la variable % < 20 ans dans le fichier popsoc22.don et en choisissant l'Île-de-France comme région origine, = -0,65, c'est-à-dire un résultat relativement médiocre. Rien n'empêche de tâtonner en changeant l'unité spatiale origine.

MICROGÉO offre cependant une facilité à l'utilisateur: dans le menu <Résultats> figure une commande spéciale <r en modifiant l'origine des distances> : un tableau donne la valeur de r selon les distances et selon les logarithmes des distances pour toutes les unités spatiales prises successivement comme origine. Comme les valeur supérieures à 0,7 et inférieures à - 0,7 sont indiquées en rouge et en bleu, il est facile de voir immédiatement quelles sont les unités spatiales les plus intéressantes comme origine. Dans l'exemple ci-dessus, on retrouve le bon vieux " croissant fertile ", r atteignant -0,80 pour le Nord-Pas-de-Calais et très logiquement +0,79 pour le Languedoc-Roussillon et Midi-Pyrénées : effectivement, le pourcentage des jeunes diminue du Nord au Sud et augmente du Sud au Nord.

c) Régression spatiale observée/théorique

Une troisième possibilité de régression spatiale, très proche de la précédente, tente de répondre à un souhait de Joël Charre: «La covariation spatiale pourrait servir d'une façon que je n'ai jamais vu pratiquer en géographie  on supposerait une répartition théorique pour une variable en fonction d'une structure spatiale, engendrant dans les unités spatiales des valeurs attendues, X. Y serait la même variable, mais observée. La covariation entre X et Y serait alors la mesure de la ressemblance entre Y et une structure spatiale, et les résidus seraient les particularités locales de Y, relevant d'autres facteurs d'explication.» (Statistique et territoire, op. cit., p. 78).

On va donc faire la régression d'une variable observée Y selon la même variable théorique X, dont les valeurs ont été transformées en fonction d'une structure spatiale, c'est-à-dire selon la distance par rapport à une unité spatiale origine.

Le fonctionnement est le même que pour la régression spatiale concernant un territoire. La valeur de la variable théorique pour l'unité spatiale origine sera, au choix, le minimum ou le maximum de la variable observée; les valeurs des autres unités spatiales seront fonction de la distance à l'unité spatiale origine, de telle sorte que la valeur théorique de l'unité spatiale la plus éloignée sera le maximum ou le minimum de la variable observée. On a compris que les valeurs de r seront les mêmes quie dans b), de même que les valeurs estimées Y' et les résidus.

La régression spatiale pour un territoire avec la distance à vol d'oiseau ou en transformant théoriquement les valeurs de la variable observée en fonction de la distance ne donnera des résultats intéressants que si le phénomène étudié varie à peu près proportionnellement à la distance ou au logarithme de la distance. S'il existe une autre structure spatiale, par exemple de type «chapeau mexicain» (Roger Brunet), la régression ne permettra pas de la dégager.

DÉMARCHE À SUIVRE

Choisir [Analyse spatiale/Régression spatiale/observée/théorique…]. Procéder comme dans b) en ouvrant successivement les deux fichiers nécessaires. On choisit une variable, puis l'unité spatiale origine, mais aussi la valeur attribuée à cette unité spatiale, c'est-à-dire le maximum ou le minimum de la variable. Pour faciliter éventuellement ce choix, dès que la variable a été définie, des contrôles font apparaître les noms des unités spatiales qui correspondent au maximum et au minimum. Mais rien n'empêche de prendre une autre unité spatiale comme origine des distances.

Dans le menu <Résultats>, la commande <tableau des lieux> indique pour X les valeurs théoriques de la variable au lieu des distances. Une boîte de message précise la signification de X et rappelle les choix qui ont été faits.


Microgéo

Alain Reynaud

Dernière mise à jour: 8 août 1999