Indicateurs d'intensité de la corrélation pour le modèle multifactoriel de corrélation-régression




La proximité de la relation entre les indicateurs étudiés pour la corrélation multiple est déterminée sur la base de divers coefficients. Pour que l'équation de régression reflète correctement les processus ou phénomènes socio-économiques simulés réels (approximatifs), il est nécessaire de satisfaire aux conditions et aux exigences de la corrélation multiple et de l'analyse de régression.

Corrélation - analyse de régression : expression analytique de la régression d'équation (rectiligne, curvilinéaire) pour un modèle multifactoriel de corrélation-régression. Détermination des paramètres et leur interprétation.

La proximité de la relation entre eux est mesurée par le rapport de la variance du facteur à la variance totale de l'attribut résultant, appelé indice de détermination. L'indice de détermination caractérise la proportion de variation du trait résultant sous l'influence du trait facteur dans la variabilité totale du trait résultant. S'il existe une corrélation entre les signes, à mesure qu'elle augmente, c'est-à-dire en augmentant la proximité de la relation entre signes productifs et signes factoriels, l'indice de détermination augmente et diminue au fur et à mesure qu'il s'affaiblit. Ainsi, l' indice de détermination caractérise la proximité de la connexion, la proximité de la corrélation avec le fonctionnel.

La racine carrée de l'indice de détermination est l'indice de corrélation ou le ratio de corrélation théorique . L'indice de corrélation, ou rapport de corrélation théorique, caractérise la proximité de la connexion dans toute forme de dépendance. Dispersion résiduelle Il est nécessaire de sélectionner la meilleure fonction qui se rapproche le plus (approximativement) de la droite de régression empirique. La fonction d’approximation est choisie par le minimum de la dispersion résiduelle s 2 OST = S (y t - ) 2 / n ou .

Un cas particulier de l'indice de corrélation est le coefficient de corrélation linéaire r , qui est utilisé pour estimer la proximité de la relation avec une relation linéaire. Le coefficient de corrélation prend des valeurs de -1 à +1, indiquant non seulement la proximité, mais également la direction de la relation. Le signe "+" indique une relation directe entre les signes effectif et facteur, le signe "-" indique une relation inverse entre eux. Si r = 0, il n'y a pas de lien entre les signes. Plus r est proche de l'unité, plus la connexion entre les entités considérées est étroite.

Avec une forme de communication linéaire, le paramètre de l'équation d'une ligne droite est un coefficient de régression a 1 et un coefficient de corrélation r sont interconnectés comme suit:

et 1 = rs y / s x . Dans le cas d'une connexion en ligne droite, le coefficient de corrélation linéaire est identique à l'indice de corrélation, ils sont numériquement égaux: .

Le coefficient de corrélation linéaire r permet d'estimer la proximité de la relation avec une relation linéaire: l' équation d'une droite = a 0 + a 1 x


border=0


Pour simplifier les calculs du coefficient de corrélation linéaire, utilisez la formule transformée: .

La nature de la relation est déterminée par la valeur du coefficient de corrélation :

r valeur du coefficient de corrélation caractère de communication
r = 0 jusqu'à 0,3 pratiquement absent
0 <r <1 0,3 - 0.5 + droit faible
-1 <r <0 0.5 - 0,7 - inverser modéré
r = 1 0,7 - 1,0 1 - fonctionnel fort

La signification du coefficient de corrélation linéaire est déterminée par t - critère de Student. Est déterminé par la valeur calculée de t calc , qui est comparée à la valeur de table t crit . Le coefficient de corrélation linéaire est considéré comme significatif si le rapport: t calc > t crit .

avec n avec n <50.

t crit est déterminé par le tableau "La valeur de t - critère de l'étudiant au niveau de signification 0,10, 0,05, 0,01 et degrés de liberté .

La tâche de la corrélation multifactorielle - l’analyse de régression consiste d’abord à étudier un certain nombre de facteurs ayant une incidence sur l’indicateur étudié et à sélectionner les plus significatifs; deuxièmement, pour déterminer le degré d’influence de chaque facteur sur l’attribut résultant en construisant un modèle - l’équation de régression multiple, qui permet de déterminer dans quelle direction et de quelle valeur l’indicateur effectif changera lorsque chaque facteur du modèle change; troisièmement, une évaluation quantitative de la proximité de la relation entre le signe effectif et le facteur.

Mathématiquement, la tâche est de trouver l'expression analytique de la fonction = f (x 1 , x 2 , x 3 , ..., x n ), qui reflète le mieux la connexion des signes factoriels avec celui qui en résulte. Les résultats de l'analyse théorique et la possibilité de les appliquer à la pratique dépendent du choix correct de la fonction de régression: la forme du lien doit donc correspondre le mieux aux liens réellement existants entre les caractéristiques résultantes et factorielles. La difficulté de choisir une fonction est que la caractéristique efficace avec différents facteurs peut être sous différentes formes de connexion - droite et curviligne. La justification empirique du type de fonction utilisant des graphes de relations appariées est pratiquement inappropriée pour la corrélation et la régression multiples.



Le choix de la forme de l'équation de régression multiple repose sur une analyse théorique du phénomène étudié. Si l'analyse des interrelations entre les signes effectifs et factoriels ne permet pas de s'appesantir sur quelque forme de lien que ce soit, ils examinent différentes fonctions et choisissent la fonction optimale du point de vue de la proximité des valeurs empiriques de la caractéristique effective égalisée, mais cela implique une grande pénibilité dans le calcul des paramètres de diverses équations. Si un logiciel spécial implémente l’algorithme pour effectuer une itération sur différentes équations de PCR, plusieurs modèles sont obtenus, le meilleur est sélectionné par contrôle statistique des paramètres de l’équation sur la base du test t - t de Student et du test F de Fisher .

Le choix de la forme de l'équation de régression multiple est effectué en pratique

basé sur l'utilisation de cinq types de modèles :

linéaire a 0 + a 1 x 1 + a 2 x 2 + ... + a n x n ;

pouvoir ;

indicatif ;

parabolique

hyperbolique

Le plus souvent, vous arrêtez sur des modèles linéaires. Cela s'explique par le fait que, d'une part, les paramètres des équations linéaires sont faciles à interpréter, que les modèles eux-mêmes sont simples et pratiques pour une analyse économique et que, si on le souhaite, toute fonction peut être réduite à une forme linéaire par logarithme ou par modification de variables.

Dans l’ équation de régression linéaire sous forme linéaire, les paramètres 1 , 2 , 3 , ..., et les coefficients de régression montrent le degré d’influence des facteurs pertinents sur l’attribut résultant lorsque d’autres facteurs sont fixés au niveau moyen, c.-à-d. combien y changera avec une augmentation du facteur correspondant d'un point de son unité de changement; le paramètre a 0 est un membre gratuit, cela n'a aucun sens économique.

Les paramètres de l'équation de régression multiple , ainsi que la paire, sont calculés par la méthode des moindres carrés à partir de la solution du système d'équations normales. Les coefficients de régression étant incomparables (les facteurs ont des unités de mesure différentes), il est impossible de comparer l'intensité de l'influence de chacun des facteurs inclus dans le modèle sur l'indicateur résultant en fonction des coefficients de régression. Pour évaluer la force relative de l'influence des facteurs, des coefficients élastiques partiels et des coefficients b sont calculés.

Le coefficient d'élasticité privé indique combien de pourcent en moyenne l'indicateur effectif changera lorsque le facteur changera de 1% et la position fixe des autres facteurs et sera calculé séparément pour chaque facteur:

où a i est le coefficient de régression pour le ième facteur; - la valeur moyenne du ième facteur; - la valeur moyenne de l'indice effectif.

Le coefficient b montre quelle partie de l'écart type modifie l'attribut résultant lorsque le facteur correspondant change de la valeur de son écart type , où s xi , s y - les écarts-types du i-ème facteur et du trait résultant.

Étant donné que les phénomènes économiques sont exposés à des causes multiples et complexes, des facteurs significatifs, à action systématique, doivent être inclus dans l’équation de régression multiple lorsqu’on élimine l’influence d’autres facteurs. Les facteurs les plus importants sont sélectionnés sur la base de l'analyse de proximité et de la matérialité de la relation entre les facteurs et l'indicateur effectif. Dans ce cas, la condition pour l'inclusion de facteurs dans le modèle est l'absence d'une corrélation très étroite entre eux, qui est proche de la fonctionnalité. La présence d'une relation linéaire très étroite entre les deux facteurs (le coefficient de corrélation linéaire r dépasse la valeur absolue de 0,85) est appelée colinéarité et entre plusieurs facteurs - multicolinéarité .

Les causes de la multicolinéarité entre les signes sont d’abord que les signes analysés caractérisent le même aspect d’un phénomène ou d’un processus (par exemple, le capital autorisé et le nombre d’employés caractérisent la taille de l’entreprise) et il est déconseillé de les inclure simultanément dans le modèle; deuxièmement, les signes de facteurs sont des éléments constitutifs l’un de l’autre, se dupliquent ou leur valeur totale donne une valeur constante (par exemple, le rapport entre l’offre d’énergie et le rapport capital / travail, la part des fonds empruntés et les fonds propres). Si des facteurs multicollinéaires sont inclus dans le modèle, l'équation de régression ne reflétera pas correctement les relations économiques réelles, les paramètres du modèle seront déformés (surestimés), la signification sera modifiée et l'interprétation économique des coefficients de régression et de corrélation sera difficile.

Par conséquent, lors de la construction d'un modèle, l'un des facteurs colinéaires est exclu sur la base d'une analyse qualitative et logique, ou les signes de facteurs initiaux sont transformés en de nouveaux facteurs, élargis. La qualité et l'adéquation du modèle à un phénomène et un processus socio-économiques réels sont déterminées par l'optimalité du nombre de signes de facteurs: plus le nombre de facteurs inclus est important, plus le modèle décrit le phénomène et le processus, mais un tel modèle est difficile à mettre en œuvre; avec un petit nombre de facteurs, le modèle n’est pas suffisamment adéquat.

Le problème de la sélection des signes factoriels et de la réduction de la dimension du modèle de corrélation multiple est résolu sur la base de méthodes d’analyse heuristiques et multidimensionnelles. Les méthodes d'analyse heuristiques incluent la méthode des expertises, basée sur les conditions préalables intuitives et logiques et une analyse substantive et qualitative d'indicateurs non paramétriques de l'étanchéité de la communication: coefficients de corrélation de rang, concordance. La méthode la plus couramment utilisée est la régression pas à pas , consistant à inclure séquentiellement des facteurs dans le modèle et à en évaluer la signification.

Lorsqu'un facteur est introduit, il est déterminé dans quelle mesure la somme des carrés des résidus diminue et que la valeur du coefficient de corrélation multiple augmente R. Si le facteur x k est inclus dans le modèle, la valeur de R augmente et le coefficient de régression a k ne change pas ou change légèrement, ce facteur est significatif et son inclusion dans le modèle nécessaire.

· La totalité des indicateurs étudiés doit être homogène en fonction des conditions de formation de signes effectifs et de signes factoriels (les observations distinguées doivent être exclues de la totalité);

· L' attribut résultant doit obéir à la loi de distribution normale, celui factoriel doit être proche de la distribution normale. Si le volume de l'agrégat est suffisamment important (n> 50), la normalité de la distribution peut être confirmée sur la base du calcul et de l'analyse des critères de Pearson, Yastremsky, Kolmogorov, Boyarsky et autres;

· Le phénomène ou processus simulé est décrit quantitativement (les paramètres doivent avoir une expression numérique) avec une ou plusieurs équations de relations de cause à effet. Il est conseillé de décrire les relations causales par des dépendances de forme linéaires ou proches de linéaires;

· Cohérence de la structure territoriale et temporelle de la population étudiée, absence de restrictions quantitatives sur les paramètres du modèle;

· Suffisance d'unités de population: leur nombre devrait être plusieurs fois supérieur au nombre de facteurs inclus dans le modèle. Chaque facteur doit prendre en compte au moins 5 à 6 observations, c’est-à-dire le nombre de signes factoriels devrait être de 5 à 6 fois inférieur au volume de la population étudiée.

Les principales étapes de l'analyse de corrélation et de régression sont les suivantes:

· Une analyse théorique préliminaire de l’essence du phénomène, permettant d’établir des relations de cause à effet entre les signes, de sélectionner les facteurs les plus importants, de décider de la mesure des signes effectifs et des signes factoriels;

· Préparation des informations initiales , y compris des questions concernant l'adéquation des unités d'observation, l'homogénéité de l'ensemble des caractéristiques étudiées et la proximité de leur distribution avec la normale;

· Le choix de la forme de la relation entre l'indicateur de performance et les facteurs basés sur l'énumération de plusieurs fonctions analytiques;

· L' étude de la proximité de la relation entre l'indicateur de performance et les facteurs, ainsi qu'entre des facteurs basés sur la construction d'une matrice de coefficients de corrélation linéaires appariés et de criblages de facteurs multicolinéaires;

· Sélection des facteurs significatifs (significatifs) inclus dans le modèle multifactoriel - l'équation de la régression multiple, sur la base des méthodes statistiques correspondantes;

· Calcul des paramètres de l'équation de régression multiple et évaluation de la signification des facteurs sélectionnés, des coefficients de corrélation et de régression en utilisant les critères t- Student et F- Fisher ;

· Analyse des résultats.

En règle générale, les relations entre les signes sont analysées sur la base d'observations d'échantillons. Par conséquent, afin de vérifier que les dépendances obtenues sont régulières plutôt que aléatoires, la signification (matérialité) des indicateurs de corrélation et de régression est estimée.

Corrélation - une analyse de régression est utilisée pour évaluer les indicateurs du plan d'entreprise et les niveaux réglementaires des indicateurs économiques, reflétant l'efficacité de l'utilisation des ressources de production, l'identification des réserves de production existantes, la réalisation d'une analyse comparative, l'évaluation du potentiel des entreprises, la prévision à court terme du développement de la production.

L' équation de régression multiple vous permet de trouver la valeur théorique possible de l'indicateur effectif pour certaines valeurs de signes factoriels.

Les paramètres de l'équation de régression multiple sont calculés par la méthode des moindres carrés basée sur la résolution d'un système d'équations normales. Pour une équation de régression linéaire avec n facteurs, un système est construit à partir de (n + 1) équations normales:

a 0 n + a 1 Sx 1 + a 2 Sx 2 + ... + a n Sx n = Sy,

a 0 Sx 1 + a 1 Sx 2 1 + a 2 Sx 1 x 2 + ... + a n Sx 1 x n = Syx 1 ,

:

a 0 Sx n + a 1 Sx 1 x n + a 2 Sx 2 x n + ... + a n Sx 2 n = Syx n .

La proximité de la relation entre les indicateurs étudiés pour la corrélation multiple est déterminée sur la base de divers coefficients.

Les coefficients de corrélation appariés r mesurent l'étroitesse de la relation linéaire entre les facteurs et entre la note résultante et chacun des facteurs considérés sans prendre en compte leur interaction avec d'autres facteurs.

Les coefficients de corrélation partielle caractérisent le degré d'influence des facteurs sur la note résultante, à condition que les autres facteurs soient fixés à un niveau constant. En fonction du nombre de facteurs dont l'influence est exclue, des coefficients de corrélation particuliers peuvent être de premier ordre (à l'exclusion de l'influence d'un facteur), de deuxième ordre (à l'exclusion de l'influence de deux facteurs), etc.

Le coefficient de corrélation partielle de premier ordre entre y et x 1, tout en excluant l'influence de x 2 dans un modèle à deux facteurs, est calculé à l'aide de la formule suivante: .

où r yx 1 , r yx 2 , r x1x2 - coefficients de corrélation appariés entre les signes correspondants.

Le coefficient de corrélation multiple cumulatif, R, estime la proximité de la relation entre l'attribut résultant et tous les facteurs. C'est le principal indicateur de corrélation multiple linéaire. Pour un modèle à deux facteurs, le coefficient de corrélation multiple cumulatif est calculé à l'aide de la formule suivante:

. Le coefficient de corrélation cumulatif R varie de 0 à 1. Plus les valeurs empiriques du trait résultant sont différentes de celles alignées le long de la ligne de régression multiple, plus la relation de corrélation entre les paramètres étudiés et le coefficient de corrélation multiple cumulatif est égal à un.

Le coefficient cumulatif de détermination multiple, égal à R 2 , indique dans quelle mesure la variation du trait résultant est due à l'influence des facteurs inclus dans le modèle.

L'indice de corrélation multiple cumulatif caractérise la proximité de la relation entre l'attribut résultant et tous les facteurs ayant une relation curviligne:

= - la dispersion du trait résultant sous l'influence de facteurs inclus dans le modèle; - dispersion résiduelle du trait résultant, provoquée par l'influence de facteurs non pris en compte par le modèle. Dans la forme de communication linéaire, le coefficient cumulatif et l'indice de corrélation multiple sont égaux.

La signification du coefficient de corrélation multiple R est déterminée par le critère de F - Fisher. Est déterminé par la valeur calculée de F calc , qui est comparée à la valeur de F crit dans le tableau. Le coefficient de corrélation multiple est considéré comme significatif, sous réserve de la relation: F calc > F crit .

ou .

n est le nombre d'observations, m le nombre de paramètres de l'équation.

F crit est sélectionné selon le tableau "Valeur à un critère de F - Fisher donné à un niveau de signification ", et .

Оценка существенности включения фактора в модель осуществляется по частному F – критерию Фишера. Фактор считается значимым при соблюдении соотношения: F расч > F крит .

Д л я фактора х 1 : ;

Для фактора х 2 : .





; Date d'ajout: 2014-01-25 ; просмотров: 40088 ; Le matériel publié viole-t-il le droit d'auteur? | | Protection des données personnelles | COMMANDE DE TRAVAIL


Vous n'avez pas trouvé ce que vous cherchiez? Utilisez la recherche:

Les meilleures phrases: lorsqu’il prend des travaux de laboratoire, l’élève prétend qu’il sait tout; l'enseignant fait semblant de le croire. 8386 - | 6665 - ou tout lire ...

Voir aussi:

border=0
2019 @ bolgarna.info

Génération de page terminée: 0.008 sec.