SGIPT
Internet Publikation für Allgemeine und Integrative Psychotherapie IP-GIPT DAS= 22.04.2001
Anfang Faktorenanalyse Dok-01 _ Überblick _ Relativ Aktuelles _ Rel. Beständiges _ Titelblatt _ Konzept _ Archiv _ Region _ Service iec-verlag _Mail: _ sekretariat@sgipt.org _ Zitierung & Copyright _
Diskussion (nur für Fachkundige mit entsprechender Interessenlage: Anmeldung erforderlich): GIPT-ADEIS@egroups.de
Willkommen in der Abteilung Kritik der Handhabung der Faktorenanalyse, hier (noch nicht zweit-korrigiert):Dokumentation-01
Bilanzkennzahlen der Chemischen Industrie
in den Jahren 1965 bis 1980
Eine korrelative, faktorenanalytische und numerische Studie
von Rudolf Sponsel, Erlangen
Datenquelle: HARTUNG, J. & ELPELT, B. (1984). Multivariate Statistik". München, S. 641
Eine Erklärung der Kennwerte der
Matrixanalysen finden professionell Interessierte hier
Für numerische Laien empfehle ich
vorab diese Seite
Übersichtsseite: Wissenschaft in der SGIPT
Inhaltsübersicht
Abstract - Zusammenfassung
Bei der Durchsicht der "Multivariaten Statistik"
von Hartung & Elpelt (1984, S. 641) stieß ich mehr zufällig
auf die dort veröffentlichten Rohdaten "Bilanzkennzahlen der Chemischen
Industrie in den Jahren 1965 bis 1980. Zur Durchführung von numerischen
Rundungsexperimenten sind Rohdaten, aus denen Korrelationsmatrizen gerechnet
werden können, sehr nützlich. Das war damals, 1994, wahrscheinlich
der Grund (ich weiß es nicht mehr genau) für die Berechnung.
Die Produkt-Moment-Korrelationsmethode führte zu einer originären
7*7 Korrelationsmatrix. Die erste Matrixanalyse erbrachte für mich
überraschend, daß zwei Eigenwerte "sehr
nahe" bei 0 lagen (0.00698 und 0.00098), zeigte also zwei Kollinearitäten
(lineare Abhängigkeiten) an, so daß eine 5er Hauptkomponenten-
Faktorenanalyse sehr erfolgversprechend war. Aus den fünf-Faktoren
rechnete ich daraufhin die Matrix zurück, um zu vergleichen, wie genau
die Reproduktion war. Sie war so gut, daß eine 2. Matrixanalyse mit
der aus den 5 Faktoren rückgerechneten 'Korrelationsmatrix' nur eine
mittlere Abweichung vom Betrage 0.0006 mit einem maximalen Abweichungsbetrag
0.0047 ergab. Diese Ergebnisse entsprechen im hohen Maße einer intuitiven
Vorstellung von fast "gleich". Obwohl die Abweichungen minimal sind, zeigt
doch die Matrixanalyse der aus den 5 Faktoren rückgerechneten Korrelationsmatrix
einen sehr kleinen negativen Eigenwert mit -.0000000000000000067220534694101275
an, der aber genügt, um die Matrix restlos entgleisen zu lassen mit
einer Reihe von imaginären Werten und der Folge, daß vier multiple
Korrelationskoeffizienten unzulässige Werte > 1 produzieren. Die Matrix
wurde "psychotisch". Das ist hier nicht weiter schlimm, wenn man vor
der
multivariaten Weiterverarbeitung die Matrix in Ordnung bringt. Das ist
im vorliegenden Fall besonders einfach, wenn man die Fast-Einsen in der
Hauptdiagonale auf 1 rundet. Die 3. Matrixanalyse bestätigt, daß
die Matrix dann wieder positiv definit wird. Vergleicht man die Konditionzahl
zur Schätzung der numerischen Stabilität der ersten und originären
Korrelationsmatrix (5163) mit der aus der 3. Matrixanalyse (6842),
so sind beide zwar sehr hoch, aber noch in der gleichen Größenordnung.
Die Konditionszahl der aus den 5-Faktoren rückgerechneten Matrix mit
1110000000000000000, also einer guten Trillion, zeigt eindrucksvoll, wie
minimalste Veränderungen im 10.000stel Bereich in der Haupdiagonale
extrem auf die numerische Stabilität der Matrix einwirken. Das genau
illustriert den Sinn von Stabilität bzw. Instabilität sehr gut.
|
Urdatenliste (nach Quelle Tabelle 9, S. 641):
i (Jahr)\j (Variable):
1=AI 2=EA
3=ER 4=UR 5=LIQ 6=DVR
7=KU
1 44.9 43.6
15.6 5.8 142.8 30.3
119.5
2 46.2 42.7
17.7 6.5 122
31 117.6
3 43.5 42.5
12.1 4.6 131.6 27.4
113.5
4 40.3 43.1
13.8 5.5 156.2 27.1
111.3
5 38.3 41.1
15.8 6 134.7
24.9 110.4
6 40.4 39.2
11.2 4.3 127.3 21.3
104.1
7 40.4 38.9
9.1 3.4 131.5
18.7 106.3
8 40.2 39
9.6 3.6 128.6
18.9 106
9 38 38.6
8.7 3 124.8
18.4 113.8
10 35.1 37.6
10.7 3.1 119.3 19
131.7
11 36.2 38.5
7.4 2.4 128.3
16.7 120.7
12 35.7 37.9
10.7 3.2 121.4 18.7
131.9
13 35.2 39
8.1 2.5 129.6
17.6 131.2
14 34.5 39.1
9 2.7 132.6
18.1 131
15 31.6 38
10.2 2.8 123.9 18.4
143.1
16 31.3 38.3
9 2.4 121.6
17.8 149.5
Die Matrix wird hier nur in dreistelliger Genauigkeit angegeben. Sie wurde auf Atari mit Omikron-Basic mit 17-stelliger (doppelter Genauigkeit) gerechnet.
Original input data with 17-digit-accuracy and read with
17-digit-accuracy (for control here the analysed original
matrix):
1 .793 .672 .8
.377 .815 -.742
.793 1 .802 .872
.685 .949 -.428
.672 .802 1 .96
.341 .923 -.296
.8 .872 .96 1
.482 .94 -.531
.377 .685 .341 .482 1
.483 -.415
.815 .949 .923 .94 .483
1 -.379
-.742 -.428 -.296 -.531 -.415 -.379 1
|
Numerische Laien hier und Professionell Interessierte hier |
Samp Or MD NumS Condit Determinant HaInRatio
R_OutIn K_Norm C_Norm
16 7 0 - 5163
.000000139 .0000000013 59230
.03(0) .042(2)
********** Summary of standard correlation matrix
analysis ***********
File = H641A16.D07 N-order= 7 N-sample=
16 Rank= 7 Missing data = 0
Positiv Definit=Cholesky successful________= Yes with 0 negat.
eigenvalue/s
HEVA: Highest eigenvalue abs.value_________= 5.0394588345069376
LEVA: Lowest eigenvalue absolute value_____= 9.7606899236595901D-4
CON: Condition number HEVA/LEVA___________~= 5163.0149855405772
DET: Determinant original matrix___________= 1.3904058985278835D-7
HAC: HADAMARD condition number_____________= 1.4172973438030602D-9
HCN: Heuristic condition |DET|CON__________= 2.6930115493017602D-11
D_I: Determinant Inverse absolute value____= 7192144
HDA: HADAMARD Inequality absolute value___<= 5.519269913256784D+15
HIR: HADAMARD RATIO: D_I / HDA ____________= 1.3030970609009614D-9
Highest inverse positive diagonal value____= 566.772907622
thus multiple r( 4.rest)_________________= .999117423
and 5 multiple r > .99
There are no negative inverse diagonal values.
Maximum range (upp-low) multip-r( 5.rest)_= .088
LES: Numerical stability analysis:
Ratio maximum range output / input _______= 59229.755251538215
PESO-Analysis correlation least Ratio RN/ON= .030233 (<-> Angle
= 1.73 )
Number of Ratios correlation RN/ON < .01__ = 0
PESO-Analysis Cholesky least Ratio RN/ON__ = .042004 (<->
Angle = 2.41 )
Number of Ratios Cholesky RN/ON < .1 _____ = 2
Ncor L1-Norm L2-Norm Max Min m|c|
s|c| N_comp M-S S-S
49 34.4 5.19
1 -.742 .652 .223
210 .266 .183
class boundaries and distribution of the correlation-coefficients
-1 -.8 -.6 -.4 -.2 0
.2 .4 .6 .8 1
0 2 6
4 0 0 4
4 6 23
Original input data with 17-digit-accuracy and read with
17-digit-accuracy (for control here the analysed original
matrix):
1 .793 .672 .8
.377 .815 -.742
.793 1 .802 .872
.685 .949 -.428
.672 .802 1 .96
.341 .923 -.296
.8 .872 .96 1
.482 .94 -.531
.377 .685 .341 .482 1
.483 -.415
.815 .949 .923 .94 .483
1 -.379
-.742 -.428 -.296 -.531 -.415 -.379 1
i.Eigenvalue Cholesky i.Eigenvalue
Cholesky i.Eigenvalue Cholesky
1. 5.03946 1
2. .95064 .6091
3. .75552 .5941
4. .22089 .1735
5. .02554 .437
6. 6.98D-3 .0987
7. 9.8D-4 .1377
Cholesky decomposition successful, thus the matrix is (semi)
positive definit.
analysed: 12.04.94 20:07:34 PRG version 15/03/94 MA_BAT6.BAS
Gesamtzeit_____________ 42
| Ergebnis: Die Korrelationsmatrix zeigt zwei Eigenwerte "sehr" nahe bei 0 (0.00698 und 0.00098), weshalb eine Faktorenanalyse mit einer 5-Faktorenlösung sehr erfolgversprechend und numerisch begründet erscheint, zumal die Matrix positiv definit ist, wie aus der gelungenen Choleskyzerlegung folgt, aber auch alle sämtlich positiven Eigenwerte anzeigen, was aufgrund der schlechten numerischen Eigenschaften von Matrizen und Computern keineswegs selbstverständlich ist; hier liegt eher ein Glücksfall vor. Andererseits wäre es aber auch kein Problem gewesen, mögliche "sehr" kleine negative Eigenwerte mit Hilfe der Centroidmethode von Thurstone oder der Singulärwertzerlegung SVD zu "therapieren" (wird später noch behandelt) - aber: man muß es auch tun, sonst kann es aufgrund völlig entgleister ("psychotischer") Werte zu bösen Überraschungen kommen. |
Die Faktorisierung der Matrix K = FF' bedeutet, daß
die Korrelationsmatrix in zwei Matrizen aus Faktoren derart zerlegt wird,
daß die Matrix der Faktoren (F) multipliziert mit ihrer Transponierten
(F') die Korrelationsmatrix reproduziert. Dies funktioniert nur, wenn die
Matrix positiv definit ist, was sie sein soll, aber nicht immer ist. Man
muß hier aufpassen, denn es gilt zu unterscheiden zwischen phänotypischen
und genotypischen Korrelationsmatrizen.: eine genotypische sieht aus wie
phänotypische und ist auch eine, weil positiv definit, eine phänotypische
Korrelationsmatrix sieht u. U. nur so aus (quadratisch, symmetrisch, Hauptdiagonalen
1, und für alle alle Koeffizienten gilt: -1 <= K > +1, obwohl sie,
wie z. B. negative Eigenwerte anzeigen, entgleist (für Kliniker: "psychotisch"
wird).
Daten in C:\OMI\NUMERIK\MATRIX\SMA\H641A16\H641A5FD.IMA
Ursprungsmatrix A von C:\OMI\NUMERIK\MATRIX\SMA\H641A16\H641A5FD.FAK
Faktorrückgerechnete Korrelationen HD=1 in:
C:\OMI\NUMERIK\MATRIX\SMA\H641A16\H641A5FD.F07
Auswertung vom 12.04.94 23:46:56
.8848 -.212 .3176 -.2496
.0935
.9488 .0823 -.2153 -.1909 -.0941
.8793 .4103 .0964 .2166
.0433
.9641 .1523 .0905 .195
-.0123
.609 -.3468 -.7085 .0621
.0536
.9564 .2614 2D-3 -.1082
-.0227
-.6067 .7202 -.298 -.1471
.0503
Ursprungsmatrix B von
.8848 .9488 .8793 .9641
.609 .9564 -.6067
-.212 .0823 .4103 .1523
-.3468 .2614 .7202
.3176 -.2153 .0964 .0905
-.7085 2D-3 -.298
-.2496 -.1909 .2166 .195
.0621 -.1082 -.1471
.0935 -.0941 .0433 -.0123
.0536 -.0227 .0503
Produkt-Matrix A * B mit Determinante= -1.3679202680667077D-40
.9997 .7925 .6717 .7997
.3769 .8164 -.7427
.7925 .9986 .8018 .8717
.6849 .9513 -.4288
.6717 .8018 .9996 .9607
.3406 .924 -.2964
.7997 .8717 .9607 .9991
.4816 .9413 -.5315
.3769 .6849 .3406 .4816
1 .4824 -.4146
.8164 .9513 .924
.9413 .4824 .9953 -.3778
-.7427 -.4288 -.2964 -.5315 -.4146
-.3778 .9998
5.
Vergleichsanalyse zwischen Originärer Korrelations- und aus 5-Faktoren
rückgerechneter 'Korrelationsmatrix'
******************* Residual
analysis *********************
Matrix residuals (whole matrix inclusive diagonal):
Mean absolute values of residuals = 6.0572659716564304D-4
Sigma absolute values of residuals = 8.0376863274828258D-4
Maximum range absolute values = 4.6626932473200503D-3
(r6.6)
Matrix residuals upper triangular matrix without diagonal:
Mean absolute values of residuals = 5.1731670278616708D-4
Sigma absolute values of residuals = 5.6597583770644069D-4
Maximum range absolute values = 2.5512331849943305D-3
(r2.6)
6.
Die 2. Matrix-Analyse der aus den 5-Faktoren rückgerechneten
7*7 Korrelationsmatrix, wobei die Hauptdiagonalelemente wie rückgerechnet
belassen wurden.
|
Numerische Laien hier und Professionell Interessierte hier |
H641A5FD.F07
Samp Or MD NumS Condit Determinant
HaInRatio R_OutIn K_Norm C_Norm
16 7 0 --1
1.1D+18 0
2.72D-82 59229.8 0(2) -1(-1)
********** Summary of standard correlation matrix
analysis ***********
File = H641A5FD.F07 N-order= 7 N-sample= 16
Rank= 7 Missing data = 0
Positiv Definit=Cholesky successful________= No with 1 negat.
eigenvalue/s
HEVA: Highest eigenvalue abs.value_________=
5.0394588345069375
LEVA: Lowest eigenvalue absolute value_____=
4.3368086899420177D-18
CON: Condition number HEVA/LEVA___________~=
1.1620200923768012D+18
DET: Determinant original matrix (OMIKRON)_= -6.0521944228970387D-37
DET: Determinant (CHOLESKY-Diagonal^2)_____= -999 (not
positive definit)
DET: Determinant (PESO-CHOLESKY)___________= -999 (not
positive definit)
DET: Determinant (product eigenvalues)_____= -5.9518242913044131D-37
DET: Determ.abs.val.(PESO prod.red.norms)__=
7.1980499862686598D-37
HAC: HADAMARD condition number_____________=
6.1692821860382305D-39
HCN: Heuristic condition |DET|CON__________=
5.2083388769275519D-55
D_I: Determinant Inverse absolute value____=
1.652293251216018D+36
HDA: HADAMARD Inequality absolute value___<=
6.0569163549289598D+117
HIR: HADAMARD RATIO: D_I / HDA ____________=
2.7279446411232426D-82
Highest inverse positive diagonal value____=
8.7207402937168458D+16
thus multiple r( 4.rest)_________________=
1
and 3 multiple r > .99
Highest inverse negative diagonal value____= -1.0818433882826868D+15
thus multiple r( 5.rest)_________________=
1 (!)
and there are 4 multiple r > 1 (!)
Maximum range (upp-low) multip-r( 5.rest)_=
.088
LES: Numerical stability analysis:
Ratio maximum range output / input _______=
59229.755251538215
PESO-Analysis correlation least Ratio RN/ON=
0 (<-> Angle = 0 )
Number of Ratios correlation RN/ON < .01__ =
2
PESO-Analysis Cholesky least Ratio RN/ON__ = (Not positiv definit)
Ncor L1-Norm L2-Norm Max
Min m|c| s|c| N_comp
M-S S-S
49 34.4 5.19
1 -.743 .652 .223
210 .267 .183
class boundaries and distribution of the correlation coefficients
-1 -.8 -.6 -.4 -.2 0
.2 .4 .6 .8 1
0 2 6
4 0 0 4
4 8 21
Original data with 17, input read with 17, computet
with 19,
and showed with 5 digit accuracy
(for control here the analysed original matrix):
Aus-5-Faktoren-rückgerechnete
Matrix
.99975 .79253 .67166 .79972 .37691
.81641 -.74271
.79253 .99858 .8018 .87168
.68491 .95129 -.42882
.67166 .8018 .99957 .96065
.34063 .92401 -.29639
.79972 .87168 .96065 .99906 .48163
.94129 -.5
.37691 .68491 .34063 .48163 .99996
.48241 -.41461
.81641 .95129 .92401 .94129 .48241
.99534 -.37781
-.74271 -.42882 -.29639 -.5 -.41461 -.37781 .99979
i.Eigenvalue Cholesky i.Eigenvalue
Cholesky i.Eigenvalue Cholesky
1. 5.03946 .9999
2. .95064 .6085
3. .75552 .5936
4. .22089 .1695
5. .02554 .4239
6. 0 0
7. 0 -.1427
The matrix is not positive definit. Cholesky decomposition is not
success-
Eigenvalues in per cent of trace = 6.9920466982559025
1 .7207 2 .136 3 .1081
4 .0316 5 3.7D-3 6 0
7 0
Anmerkung zu dem "sehr" kleinen negativen Eigenwert und den Folgen
| Die vollstaendige Nachkommaausgabe der Eigenwerte
ergibt:
5.0394588345069375 .95063997598015075 .75551885824615693 .22089318183831747 .025535847684339808 4.3368086899420177D-18 -6.7220534694101275D-18 = -.0000000000000000067220534694101275 Obwohl man diesen negativen Eigenwert für Zahlengenauigkeiten auf PC's als praktisch "klein" bezeichnen kann, führt er doch zu einer Entgleisgung der Matrix und produziert 4 multiple Korrelationskoeffizienten > 1 und eine Reihe von imaginären Werten (negative Zahlen in der Wurzel), nämlich: Multiple correlations of original matrix and derived
reduced norms (Cholesky)
|
analysed: 04/21/01 00:52:42 PRG version 05/24/94
MA9.BAS
Gesamtzeit_____________ 47.42
Rang_____________ 0
Determinante_____ 5E-3
Eigenwerte/Vekt__ 0
Peso Kor+Chol____ .46
NuStabAnalyse____ .115
Statistik________ .045
File = C:\OMI\NUMERIK\MATRIX\SMA\H641A5FD\H641A5FD.SMA
with data from C:\OMI\NUMERIK\MATRIX\SMA\H641A5FD\H641A5FD.F07
Date: 04/21/01 Time:00:52:42
7.
Die 3. Matrix-Analyse der aus den 5-Faktoren rückgerechneten 7*7 Korrelationsmatrix,
wobei die Hauptdiagonalelemente auf 1 gerundet bzw. gesetzt wurden.
|
Numerische Laien hier und Professionell Interessierte hier |
Samp Or MD NumS Condit Determinant
HaInRatio R_OutIn K_Norm C_Norm
-1 7 -1 -
6842 .000000054 3.53 D-10 59230
0(2) .036(2)
********** Summary of standard correlation matrix
analysis ***********
File = H641A5F1.F07 N-order= 7 N-sample=-1
Rank= 7 Missing data = ?
Positiv Definit=Cholesky successful________= Yes with 0 negat.
eigenvalue/s
HEVA: Highest eigenvalue abs.value_________=
5.0408565187688885
LEVA: Lowest eigenvalue absolute value_____=
7.3675891530261333D-4
CON: Condition number HEVA/LEVA___________~=
6841.9348772975862
DET: Determinant original matrix___________=
5.4283579972084107D-8
HAC: HADAMARD condition number_____________=
5.523584641276689D-10
HCN: Heuristic condition |DET|CON__________=
7.9339515715362855D-12
D_I: Determinant Inverse absolute value____=
18421777
HDA: HADAMARD Inequality absolute value___<=
5.2094244451973746D+16
HIR: HADAMARD RATIO: D_I / HDA ____________=
3.5362403469999529D-10
Highest inverse positive diagonal value____=
788.357293758
thus multiple r( 4.rest)________________=
.999365569
and 5 multiple r > .99
There are no negative inverse diagonal values.
Maximum range (upp-low) multip-r( 5.rest)_=
.088
LES: Numerical stability analysis:
Ratio maximum range output / input _______=
59229.755251538215
PESO-Analysis correlation least Ratio RN/ON=
4.47D-4 (<-> Angle = .03 )
Number of Ratios correlation RN/ON < .01__ =
2
PESO-Analysis Cholesky least Ratio RN/ON__ =
.035615 (<-> Angle = 2.04 )
Number of Ratios Cholesky RN/ON < .1 _____ =
2
Ncor L1-Norm L2-Norm Max
Min m|c| s|c| N_comp
M-S S-S
49 34.4 5.19
1 -.743 .652 .223
210 .267 .183
class boundaries and distribution of the correlation-coefficients
-1 -.8 -.6 -.4 -.2 0
.2 .4 .6 .8 1
0 2 6
4 0 0 4
4 8 21
Original input data with 17-digit-accuracy and read with
17-digit-accuracy (for control here the analysed original
matrix):
Aus-5-Faktoren-rückgerechnete
Matrix und Diagonalelemente auf 1 gerundet
1 .7925 .6717 .7997
.3769 .8164 -.7427
.7925 1 .8018 .8717
.6849 .9513 -.4288
.6717 .8018 1 .9607
.3406 .924 -.2964
.7997 .8717 .9607 1
.4816 .9413 -.5315
.3769 .6849 .3406 .4816 1
.4824 -.4146
.8164 .9513 .924 .9413 .4824
1 -.3778
-.7427 -.4288 -.2964 -.5315 -.4146 -.3778 1
i.Eigenvalue Cholesky i.Eigenvalue
Cholesky i.Eigenvalue Cholesky
1. 5.04086 1
2. .95122 .6098
3. .7557 .5946
4. .22172 .173
5. .02627 .4351
6. 3.49D-3 .0749
7. 7.4D-4 .114
Cholesky decomposition successful, thus the matrix is (semi)
positive definit.
analysed: 13.04.94 00:15:00 PRG version 04/04/94
MA6.BAS
Gesamtzeit_____________ 56