Standard-Matrix-Ananalyse (SMA) und Nicht-Linearitäts-Paradox in Korrelationsmatrizen?
Mit Erörterungen zur Reproduktionsgüte
Beispieldokumentation und eine Vermutung
von Rudolf Sponsel, Erlangen
Einführung * Behauptung * Urdaten * Korrelationsmatrix * Eigenwerte und Eigenvektoren * Matrixanalyse * Befund * Vermutung * Fragen * Folgerungen * Paradox * Faktorenanalytische Interpretation * Querverweise
Einführung
(Hintergrund)
Gibt es in einer Korrelationsmatrix lineare Abhängigkeiten, so zeigt
sich dies u.a. darin, daß die Determinante 0, mindestens ein Eigenwert
0 und der Rang um die Anzahl der linearen Abhängigkeiten in der Matrix
vermindert ist. Werden empirische Daten ("Messungen") verwendet und/oder
mit Computern und daher notwendigerweise mit Rundungen oder Abschneidungen
gerechnet, so zeigen sich diese Phänomene auf einer "Fast"-Ebene,
d.h. Determinante und mindestens ein Eigenwert sind "fast" 0, wobei der
Rang der Korrelationsmatrix voll erhalten erscheint bei gewöhnlich
sehr hoher numerischer Instabilität bis hin zur bösartigen Entgleisung
mit negativen Eigenwerten (wie im Beispiel unten)
und damit indefiniter (Pseudo-) Korrelations-Matrix.
Beschreibung des Problemsachverhalts:
Wie es scheint, gilt das oben Ausgeführte zur Determinante, Eigenwerten
und Rang der Matrix nicht nur für lineare Abhängigkeiten,
sondern auch für nicht-lineare, was mich verblüffte
und inhaltlich etwas paradox anmutet. Bei der Interpretation von Korrelationskoeffizienten
empfiehlt sich daher Vorsicht und es stellt sich erneut die Frage: was
bedeuten
Korrelationskoeffizienten eigentlich genau
? Eine
Frage, mit der sich Mathematiker und StatistikerInnen gewöhnlich -
leider - nicht befassen.
Auch nicht-lineare, quasi-funktionale Zusammenhänge in den Rohdaten können zu sehr hohen linearen Korrelationskoeffizienten führen, wie durch das Beispiel "Urdatenliste" und deren Korrelationen durch Modellbildung bewiesen wird: |
Beispiel Urdatenliste (N=15, V=8)
i\j: 1 2
3 4 5
6 7 8
1 1
1 1 1
1 1 1
1
2 3
9 27 81
243 729 2187 6561
3 1
1 1 1
1 1 1
1
4 4
16 64 256 1024
4096 16384 65536
5 1
1 1 1
1 1 1
1
6 3
9 27 81
243 729 2187 6561
7 2
4 8 16
32 64 128
256
8 1
1 1 1
1 1 1
1
9 4
16 64 256 1024
4096 16384 65536
10 3
9 27 81
243 729 2187 6561
11 2
4 8 16
32 64 128
256
12 2
4 8 16
32 64 128
256
13 3
9 27 81
243 729 2187 6561
14 2
4 8 16
32 64 128
256
15 2
4 8 16
32 64 128
256
Die Urdatenliste wurde konstruiert nach X=X^k
für K=1,2,....,8, wobei von den 15 Zeilen 11 gleiche vorkommen. Es
gibt also neben der vollständigen funktionalen Abhängigkeit der
Werte nach der Konstruktionsregel auch noch zusätzlich 11 lineare
Abhängigkeiten.
Nach der Theorie gilt: Zeilenrang = Spaltenrang.
Nachdem die Zeilen 1,3,5,8 [3 LA]; 2,6,10,13 [3 LA]; 4,9 [1 LA]; 7,11,14,15
[4 LA] gleich sind, finden sich in den 15 Zeilen insgesamt 11 lineare
Abhängigkeiten, also ist nach den Zeilen der Rang 4 und nach dem Satz
Zeilenrang = Spaltenrang auch der Spaltenrang = 4.
Abstract (für Quelle Korrelationen RWE3B.D08)
Samp
_Ord_
MD_
NumS_
Condition_
Determinant_HaInRatioR_
OutInK_
Norm_
C
Norm
15 8
0 --3 4.3D+18
0 7.31D-51 797.9
0(6) -1(-1)
********** Summary
of standard correlation matrix analysis ***********
File = RWE3B.D08
N-order= 8 N-sample= 15 Rank=
8 Missing data = 0
Positiv Definit=Cholesky successful________=
No with 3 negat. eigenvalue/s
HEVA: Highest eigenvalue abs.value_________=
7.5584045376409071
LEVA: Lowest eigenvalue absolute value_____=
1.7347234759768071D-18
CON: Condition number HEVA/LEVA___________~=
4.3571235659820871D+18
DET: Determinant original matrix (OMIKRON)_=
-1.7356107677457671D-88
DET: Determinant (CHOLESKY-Diagonal^2)_____=
-999 (not positive definit)
DET: Determinant (PESO-CHOLESKY)___________=
-999 (not positive definit)
DET: Determinant (product eigenvalues)_____=
-1.4411511391474387D-88
DET: Determ.abs.val.(PESO prod.red.norms)__=
4.6722614410629956D-88
HAC: HADAMARD condition number_____________=
6.6338901598846685D-92
HCN: Heuristic condition |DET|CON__________=
3.9833866115168662D-107
D_I: Determinant Inverse absolute value____=
5.7616604977555681D+87
HDA: HADAMARD Inequality absolute value___<=
7.8742172465472728D+137
HIR: HADAMARD RATIO: D_I / HDA ____________=
7.3171215847289083D-51
Highest inverse positive diagonal value____=
2.5325570432493188D+16
thus multiple r( 8.rest)_________________=
1
and 2 multiple r > .99
Highest inverse negative diagonal value____=
-3.3275022858770112D+16
thus multiple r( 1.rest)_________________=
1 (!)
and there are 6 multiple r >
1 (!)
Maximum range (upp-low) multip-r( 8.rest)_=
.018
LES: Numerical stability analysis:
Ratio maximum range output / input
_______= 797.92139607602617
PESO-Analysis correlation least Ratio RN/ON=
0 (<-> Angle = 0 )
Number of Ratios correlation RN/ON < .01__
= 6
PESO-Analysis Cholesky least Ratio RN/ON__
= (Not positiv definit)
Ncor
L1-Norm L2-Norm Max Min m|c|
s|c| N_comp M-S S-S
64 60.4
7.57 1 .757 .936
.069 378 .075 .065
class boundaries and distribution
of the correlation coefficients
-1 -.8 -.6 -.4
-.2 0 .2 .4 .6
.8 1
0 0
0 0 0 0
0 0 4 60
Korrelationsmatrix
Original data with 17, input read
with 17, computet with 19,
and showed with 3 digit accuracy
(for control here the analysed original matrix):
z/s 1
2 3 4
5 6 7
8
1 1
.981 .937 .889 .846 .809 .780 .757
2 .981 1
.987 .960 .931 .903 .880 .860
3 .937 .987
1 .992 .976 .958 .942 .927
4 .889 .960
.992 1 .995 .986 .975 .965
5 .846 .931
.976 .995 1 .997 .992 .986
6 .809 .903
.958 .986 .997 1 .998 .995
7 .780 .880
.942 .975 .992 .998 1 .999
8 .757 .860
.927 .965 .986 .995 .999 1
i.Eigenvalue
Cholesky i.Eigenvalue Cholesky i.Eigenvalue
Cholesky
1. 7.5584
1 2. .43077
.1963 3. .01082 .0348
4. 0
0 5. 0
-.991 6. 0
-1.9669
7. 0
-2.9319 8. 0
-3.8919
The matrix is not positive definit.
Cholesky decomposition is not success-
Eigenvalues
in per cent of trace = 8
1 .9448
2 .0538 3 0,0014
4 0 5
0
6 0
7 0 8
0
Eigenvectors:
.327 -.663 .562 .045
.173 -.237 -.21 -.075
.351 -.405 -.173 -.28 -.281
.574 .306 .32
.361 -.168 -.444 .412 .018
-.206 .42 -.505
.363 .02 -.397 -6D-3 -.409
-.393 -.555 .282
.362 .161 -.202 .076
.626 .454 -.438 -.082
.358 .265 .032 -.325
.425 -.421 .416 .407
.354 .34 .253 -.524
-.288 .047 -.045 -.577
.351 .395 .44
.603 -.261 .178 .106 .23
[Intern: analysed: 10/19/02
16:41:18 PRG version 05/24/94 MA9.BAS
File = C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\RWE3B.SMA
with data from C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\RWE3B.D08
Date: 10/19/02 Time:16:41:18]
Vermutung
In vielen nicht-linearen Beziehungen sind lineare
Beziehungen unterschiedlich ausgeprägt "enthalten". So betrachtet
könnt der lineare Korrelationskoeffizient auch Ausdruck von Linearität
in nicht-linearen Beziehungen sein. Eine andere Interpretation wäre,
daß nicht-lineare Beziehungen durch die Unterwerfung einer Korrelationsprozedur
"künstlich" (technisch. artefiziell) "linearisiert" werden.
Fragen
(1) Ist das mit allen funktionalen
bzw. fast-funktionalen Abhängigkeiten so? Falls nein: (2) unter welchen
Bedingungen ist das der Fall bzw. (3) nicht der Fall?
(4) Was bedeutet der Zahlenwert, wie kann man den Zahlenwert
des Korrelationskoeffizienten - besonders in nicht-linearen Beziehungen
- interpretieren? (5) Ist der Korrelationskoeffizient aufgrund seiner Vieldeutigkeit
überhaupt als interpretationsfähiges Zusammenhangs-Maß
geeignet? Diese Frage stellt sich verschärft, wenn man sich klar macht,
daß "die" Korrelation zwischen zwei Variablen nicht
die Korrelation zwischen den beiden, sondern die Korrelation der beiden
und
der - verdeckt - mit ihnen verbundenen Variablen ausdrückt (> partielle
Korrelationen) und daß nicht-lineare Beziehungen hohe oder niedrige
Korreleationskoeffzienten hervorrufen und starke lineare Zusammenhänge
unkorreliert erscheinen können.
Folgerungen
Geboten scheint die Unterscheidung zwischen linerarer
Abhängigkeit und ihrer Bedeutung. Auch aus sehr hohen - fast Funktionalität
anzeigenden - Korrelationskoeffizienten kann nicht auf lineare
Zusammenhänge in den Rohdaten geschlossen werden. Auch nicht-lineare,
quasi-funktionale Zusammenhänge in den Rohdaten erscheinen in der
Korrelationsmatrix
als scheinbar lineare - weil sie durch die Korrelationsprozedur
linearisiert werden. Andererseits erscheinen offenkundig hochgradig lineare
Abhängigkeiten als unkorreliert (Beispiel).
Paradox
Wieso nicht-lineare Beziehungen in den Rohdaten
durch die Korrelationsprozedur zu hochgradig linearen Zusammenhängen
wie sie sich in Korrelationskoeffizienten nahe oder gar = |1| ausdrücken
führen können erscheint paradox und widerspruchsvoll.
Vorbemerkung: Bevor in dieser Matrix die Faktoren berechnet werden können, müssen erst die negativen Eigenwerte beseitigt werden. Das kann hier durch 0 setzen geschehen, weil die negativen Eigenwerte erst ab der 17 Nachkommastelle wirksam werden.
Beispiel und Matrix scheinen auf den ersten Blick ein Musterbeispiel für eine Generalfaktorlösung. Der erste Eigenwert erklärt 94,48% der Varianz. Das ist eine ganze Menge. Die Interpretation eines Generalfaktores macht hier Sinn, denn im Grunde gibt es nur eine einzige Variable x, die etwas verrauscht durchpotenziert wird. Während in den Urdaten 7 minimal verrauschte nicht-lineare Abhängigkeiten vorliegen, erkennt die faktorenanalytische Interpretation im wesentlichen einen sog. General- Faktor. Das ist ein Argument für die Sinnig- oder Nützlichkeitkeit faktorenanalytischer Interpretation. [Zur Kritik der Faktorenanalyse].
Einerseits zeigt die genaue Residualanalyse, daß
die Reproduktion der Original-Korrelationsmatrix durch die Generalfaktor-
Lösung ziemlich ungenau ist. Eine sehr gute Reproduktion ergibt sich
erst durch die 2-faktorielle Lösung, woran man - zumindest für
dieses Beispiel - sehen kann, daß ungefähr 99% der Eigenwertsumme
nötig sind, um eine wirklich gute Reproduktion der ursprünglichen
Korrelationsmatrix zu erhalten.
Andererseits spricht dieses
Beispiel für eine großzügigere Fehlertoleranz-Praxis. Wir
wissen ja, daß es hier nur einen Generalfaktor gibt, so daß
man von diesem Beispiel her gesehen, Reproduktionsgüten auf der Basis
von Eigenwertbeträgen > 90% tolerieren könnte, was man
noch genauer zu untersuchen müßte.
1-faktorielle bzw. Generalfaktorlösung
Analysis from 10/19/02 19:20:12
with KORFAK1.BAS (08/31/94)
1 Factors data from file C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\FAK\RWE3B.F1
Reproduction matrix in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWE3BIMA
Reproduction correlations in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWED.F08
Einlesen im MAT-Format 11,12,13,...N*M-Wwerte
eingelesen 8 urspruengl. Zahl Variable
reproduziert durch 1 Faktoren
Eingelesen 8 urspruengl. Variablenzahl
Reproduziert durch 1 Faktoren
Faktormatrix F:
.898
.964
.993
.999
.994
.985
.974
.965
Transpose Factor Matrix F' :
.898 .964 .993 .999
.994 .985 .974 .965
Reproduction Matrix F * F' with DET= -1.3387182418693085D-135
.807 .866 .892
.898 .893 .885 .875 .867
.866 .929 .957
.963 .958 .949 .939 .930
.892 .957 .986
.992 .987 .978 .967 .958
.898 .963 .992 .998
.993 .984 .974 .964
.893 .958 .987 .993
.988 .979 .969 .959
.885 .949 .978 .984
.979 .970 .960 .950
.875 .939 .967 .974
.969 .960
.950 .940
.867 .930 .958 .964
.959 .950 .940 .931
Residualanalyse 1-faktorielle (generalfaktorielle) Lösung
Residual-Analysis: Mean= .03935459 Sigma= .03677616 Maximum range= .192888 (r1.1)
Matrix residuals (whole matrix inclusive
diagonal):
Mean absolute values of residuals
= .039354587174156118
Sigma absolute values of residuals
= .036776159986607634
Maximum range absolute values =
.19288800268411586 (r1.1)
Matrix residuals upper triangular matrix
without diagonal:
Mean absolute values of residuals
= .037091037799766047
Sigma absolute values of residuals
= .03212778
Maximum range absolute values =
.11456271398847758 (r1.2)
Analysis from 10/19/02 19:22:40
with KORFAK1.BAS (08/31/94)
2 Factors data from file C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\FAK\RWE3B.F2
Reproduction matrix in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWE3BIMA
Reproduction correlations in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWED.F08
Einlesen im MAT-Format 11,12,13,...N*M-Wwerte
eingelesen 8 urspruengl. Zahl Variable
reproduziert durch 2 Faktoren
Eingelesen 8 urspruengl. Variablenzahl
Reproduziert durch 2 Faktoren
Faktormatrix F:
.898 -.435
.964 -.266
.993 -.111
.999 .013
.994 .106
.985 .174
.974 .223
.965 .259
Transpose Factor Matrix F' :
.898 .964 .993 .999
.994 .985 .974 .965
-.435 -.266 -.111 .013 .106
.174 .223 .259
Reproduction Matrix F * F' with DET=
3.2133565966049679D-116
.997 .982 .94
.892 .847 .809 .778 .754
.982 1
.986 .96 .93 .903 .88 .861
.94 .986 .998
.99 .975 .959 .943 .929
.892 .96 .99
.998 .995 .986 .976 .967
.847 .93 .975
.995 1 .997 .992 .987
.809 .903 .959 .986
.997 1 .998 .995
.778 .88 .943
.976 .992 .998 .999 .998
.754 .861 .929 .967
.987 .995 .998 .998
Residualanalyse 2-faktorielle Lösung
Residual-Analysis: Mean= 0,00105997 Sigma= 0,00084087 Maximum range= 0,00341534 (r1.1)
Matrix residuals (whole matrix inclusive diagonal):
Mean absolute values of residuals
= 0,0010599715600319786
Sigma absolute values of residuals
= 0,00084086582805294614
Maximum range absolute values =
0,0034153443448344399 (r1.1)
Matrix residuals upper triangular matrix without
diagonal:
Mean absolute values of residuals
= 0,0010181110908423096
Sigma absolute values of residuals
= 0.00078832
Maximum range absolute values =
0,002701991536163343 (r1.3)
Suchen in der IP-GIPT,
z.B. mit Hilfe von "google": <suchbegriff>
site:www.sgipt.org
z.B. Paradoxien Korrelation site:www.sgipt.org. |