Outlier detection with DFBETA Cook-Distance in SmartPLS

Questions about the implementation and application of the PLS-SEM method, that are not related to the usage of the SmartPLS software.
Post Reply
Sebastian1
PLS Junior User
Posts: 2
Joined: Thu Sep 01, 2011 7:19 am
Real name and title:

Outlier detection with DFBETA Cook-Distance in SmartPLS

Post by Sebastian1 »

DEUTSCHE VERSION:

In der Literatur zur multiplen Regressionsanalyse (!) besteht die allg. Übereinkunft, dass insbesondere auffällige DFBETA- und Cook-Distanz-Werte einen Eingriff des Anwenders erfordern – also solche Beobachtungen, die gleichzeitig eine hohe Abweichung in der unabhängigen und den abhängigen Variablen aufweisen. Im Umkehrschluß gilt deshalb die wichtige Erkenntnis, dass Y-Ausreißer (identifiziert i.d.R. über das stud. Residuum) und X-Ausreißer (Mahalinobis-Distanz, zentrierter Hebelwerte) für das Ergebnis der Regressionsanalyse unbedeutend sind – sofern die Cook-Distanz / der DFBETA-Wert unauffällig ist. (vgl. u.a. Stevens (2002), S. 134; Cohen et al. (2003), S. 394). Ich möchte dementsprechend auf Basis meiner Regression für meine zentralen abhängigen Variablen (mehrere Regressionsmodelle) die Beobachtungen mit auffälligen DFBETA-Werten herauslöschen und dann in SmartPLS direkt ohne diese Ausreißer analysieren. [Im Zuge dieses Löschvorganges werden dann auch auffällige Y-Ausreißer (identifiziert i.d.R. über das stud. Residuum) bzw. X-Ausreißer (Mahalinobis-Distanz, zentrierter Hebelwerte) herausgelöscht, da DFBETA / Cook-Distanz-Werte als kombinierte Einflussmaße die „gleichzeitige Auffälligkeit“ voraussetzen.]

Halten Sie dieses Vorgehen für sinnvoll oder sollte ich anders vorgehen?

Vielen Dank für Ihre Hilfe!


ENGLISH VERSION:

In the literature about multiple regression analysis there is the general agreement that in particular striking high DFBETA- and Cook-Distance-Values require a user interference. Such observations (either high DFBETA- and Cook-Distance-Values), have a high deviation in the independent AND dependent variables. The reverse conclusion is therefore the important insight that singular Y-outliners (usually identified by the stud. residual) and singular X-outliners (Mahalinobis-Distance, centered leverage values) are negligible and unimportant for the overall result of the regression analysis – unless the Cook-Distance or DFBETA-Value is large (see Stevens (2002), p. 134;. Cohen et al (2003), p. 394).

Therefore I would like to delete the observations with large DFBETA/Cook-Distance values based on my regression for my main dependent variables (multiple regression models) and then analyze directly in SmartPLS without these outliers.
[In the course of this deletion process the conspicuous large Y-outliers (identified generally by the student. residual) and X-outliers (Mahalinobis distance, centered leverage values) will be deleted because DFBETA / Cook's distance is as a combined measure (see above).

I would greatly appreciate if you could give me your opinion on this procedure!

Thank you in advance!

Literatur/Literature:
> Cohen, J. / Cohen, P. / West, S. G. / Aiken, L. S. (2003), Applied
> Multiple Regression / Correlation Analysis for the Behavioral
> Sciences, 3. Auflage, New Jersey u.a.
>
> Stevens, J. (2002), Applied Multivariate Statistics For The Social
> Sciences, 4. Aufl., Mahwa u.a.
Thank you for your support.
Post Reply