Validität


Mit Validität (lat. validus ,kräftig‘, ,wirksam‘; engl. validity ,Gültigkeit‘) wird in erster Linie das argumentative Gewicht einer (vornehmlich wissenschaftlichen) Aussage, Untersuchung oder Theorie bezeichnet.

Wird Wissenschaft als System zur Erzeugung und Verfeinerung von Annahmen über Ursache-Wirkungs-Zusammenhänge verstanden, bezeichnet Validität die Gültigkeit bzw. Belastbarkeit dieser Annahmen. Im Gegensatz zur grundsätzlichen Falsifizierbarkeit (Widerlegbarkeit) und Verifizierbarkeit (Belegbarkeit) einer wissenschaftlichen Aussage ist Validität ein (abgestuftes) Gütekriterium für die Belastbarkeit einer bestimmten Aussage. Im Rahmen empirischer Untersuchungen bezieht sich Validität aber auch auf die Güte der Operationalisierung der in den Kausalmodellen beschriebenen einzelnen Faktoren, den Konstrukten.

Validität ist also einerseits die Belastbarkeit der Operationalisierung („Inwieweit misst das Testinstrument das, was es messen soll?“), andererseits die Belastbarkeit der auf den Messungen beruhenden Aussagen oder Schlussfolgerungen („Inwieweit trifft es zu, dass X Y beeinflusst?“).

Validität als Gütekriterium für Messinstrumente

Bei guten Messinstrumenten sind die Messwerte unabhängig vom Messenden; dieses Gütekriterium heißt Objektivität oder Beobachterübereinstimmung. Auch liefern gute Messinstrumente zuverlässig von denselben Objekten dieselben Messwerte; dieses Kriterium heißt Reliabilität oder Reproduzierbarkeit. Das dritte Gütekriterium, die Validität, ist ein Maß dafür, ob die bei der Messung erzeugten Daten wie beabsichtigt die zu messende Größe repräsentieren. Nur dann können die Daten sinnvoll interpretiert werden. Die Validität wird durch Experten-Schätzung festgelegt. Die Gütekriterien bauen aufeinander auf; ohne Objektivität keine Reliabilität, ohne Reliabilität keine Validität.

Validität als Gütekriterium für psychologische Tests

Psychologische Tests können als Messinstrumente betrachtet werden; daher sind Objektivität, Reliabilität und Validität auch die wichtigsten Gütekriterien psychodiagnostischer Verfahren. In ihren Technical recommendations for psychological tests and diagnostic techniques (1954) schlug die American Psychological Association vier Arten der Validität vor, diese sind Inhaltsvalidität, Konstruktvalidität und prognostische und diagnostische Kriteriumsvalidität, von denen „historisch und praktisch gesehen […] die kriteriumsbezogene Validität der bedeutsamste Aspekt“[1] ist. „Die Übereinkunft durch ein Rating ist wie alle Übereinkünfte nicht etwas Abgeschlossenes, sondern kann einem ständigen Wandel unterworfen sein. […] Es bleibt dabei jedem Testinterpreten überlassen, dieses Kriterium anzuerkennen oder zu verwerfen bzw. nach einem besseren zu suchen.“[2]

Beispiel

Als Standardbeispiel wird oft der Intelligenztest herangezogen. Betrachtet man die drei Gütekriterien Objektivität, Reliabilität und Validität, so sei für dieses Beispiel angenommen, dass die ersten beiden Gütekriterien gut erfüllt seien: Der Intelligenztest ist so konstruiert, dass sein Ergebnis (fast) unabhängig vom Testleiter ist (Objektivität) und das Testergebnis sich auch wiederholen lässt (Reliabilität). Die Validität, also die Gültigkeit, des Testverfahrens wird aber oft bezweifelt, wenn kritisiert wird, dass der Intelligenztest keine (genaue) Aussage über die wahre Intelligenz (das heißt das Konstrukt „Intelligenz“) mache und sich Intelligenz also gar nicht auf diese Weise messen lasse (siehe auch Kritik am Intelligenzbegriff).

Inhaltsvalidität

Inhaltsvalidität (engl. content validity) wird angenommen, wenn ein Verfahren zur Messung eines bestimmten Konstrukts oder Merkmals die bestmögliche Operationalisierung dieses Konstrukts ist. Das ist zum Beispiel bei Interessen- und Kenntnistests der Fall: Eine Klassenarbeit oder Führerscheinprüfung repräsentieren direkt die zu messenden Fähigkeiten. Daher spricht man auch von logischer oder trivialer Validität. Ob Inhaltsvalidität gegeben ist oder nicht, entscheiden Experten per Rating.

Konstruktvalidität

Unter dem Begriff ,Konstrukt‘ werden theoretische Eigenschaftsdimensionen (latente Variablen) verstanden. Konstruktvalidität bezieht sich auf die Zulässigkeit von Aussagen aufgrund der Operationalisierung über das gesamte dahinter liegende Konstrukt. Dies ist in der Regel dann der Fall, wenn der Bedeutungsumfang des Konstruktes vollständig, präzise und nachvollziehbar abgebildet ist. Als empirische Indikatoren der Konstruktvalidität gelten die konvergente und diskriminante (oder auch: divergente) Validität:

Konvergenzvalidität
Die Messdaten von Testverfahren, die dasselbe Konstrukt abbilden, müssten hoch miteinander korrelieren.
Diskriminanzvalidität
Die Messdaten von Testverfahren, die verschiedene Konstrukte abbilden, sollten nur gering miteinander korrelieren (sofern die Konstrukte auch tatsächlich voneinander unabhängig sind).

Sowohl konvergente als auch diskriminante Validität müssen gegeben sein, um einen vollständigen Nachweis der Konstruktvalidität zu gewährleisten. Das empirische Vorgehen bei der konvergenten und diskriminanten Validität sind Spezialfälle der Kriteriumsvalidität.

Bei der Multitrait-Multimethod-Analyse werden die konvergente Validität und die diskriminante Validität anhand einer einzigen Stichprobe miteinander verglichen. Dabei wird verkürzt gesagt erwartet, dass die konvergente Validität größer ist als die diskriminante Validität.

Faktoren für eine verminderte Konstruktvalidität können sein:[3]

  • vage Definition des Konstruktes
  • mono-operation bias: nur ein Aspekt des Konstruktes wird untersucht
  • mono-method bias: nur eine Methode wird zur Operationalisierung des Konstruktes verwendet
  • Hypothesenraten (Hawthorne-Effekt)
  • soziale Erwünschtheit
  • Erwartungen des Versuchsleiters (Rosenthal-Effekt)
  • Auslassen relevanter Faktorstufen
  • mehr als eine unabhängige Variable ist wirksam (s. Konfundierungseffekt)
  • Wechselwirkung zwischen Messung und Behandlung
  • eingeschränkte Generalisierbarkeit auf ähnliche Variablen

Kriteriumsvalidität

Kriteriumsvalidität bezieht sich auf den Zusammenhang zwischen den Ergebnissen des Messinstruments und einem empirischen Kriterium (Schnell, Hill & Esser, 2005, S. 155). Zum Beispiel: Ein Forscher untersucht den Zusammenhang seines neuen Intelligenztests mit den Schulnoten der Probanden, um die Gültigkeit seines Tests zu prüfen. Von „innerer (Kriteriums)validität“ wird dabei dann gesprochen, wenn als Kriterium ein anderer, als valide anerkannter Test herangezogen wird. Sofern als Kriterium ein objektives Maß (zum Beispiel psychophysiologische Maße oder ökonomische Größen) oder ein Expertenrating herangezogen wird, wird von äußerer (Kriteriums)validität gesprochen. Auch lässt sich unterscheiden nach dem Zeitpunkt, zu dem Übereinstimmung mit dem Kriterium vorliegen soll:

Diagnostische/Übereinstimmungsvalidität ({{Modul:Vorlage:lang}} Modul:Multilingual:149: attempt to index field 'data' (a nil value))
Messung und Erhebung des Außenkriteriums (etwa ein anderer Test) werden zeitgleich durchgeführt. Das Vorgehen zur Ermittlung der konvergenten und diskriminanten Testvalidität sind Spezialfälle dieser Kategorie.
Prognostische Validität/Vorhersagevalidität ({{Modul:Vorlage:lang}} Modul:Multilingual:149: attempt to index field 'data' (a nil value))
Die Messdaten werden zu einem Zeitpunkt erhoben, der vor der Erhebung des Außenkriteriums liegt. So kann der Grad bestimmt werden, in dem die Messdaten das Kriterium vorhersagen (zum Beispiel kann im Rahmen eines Assessment-Centers eine Prognose für beruflichen Erfolg gestellt werden).

Validität von Aussagen über Kausalzusammenhänge

Aufbauend auf den auf einzelne Konstrukte bezogenen Operationalisierungen ziehen in den meisten empirischen Studien Forscher erst in der statistischen Auswertung und danach im Hinblick auf ihre Kausalhypothesen Schlussfolgerungen über Ursache-Wirkungszusammenhänge. Die Begriffe der statistischen, internen und externen Validität beziehen sich auf das Zustandekommen, die Gültigkeit und Übertragbarkeit dieser (induktiven) Schlüsse. Der Validitätsgrad dieser Schlüsse lässt sich jeweils nur diskutieren und abschätzen, niemals beweisen, und es ist darum – wie gehabt – sinnvoller, eher vom ,Validitätsgrad‘ zu sprechen als vom Vorhandensein (oder Nicht-Vorhandensein) dieser Validitätsformen.

Statistische Validität

Für Aussagen oder in empirischen Studien gezogene Schlussfolgerungen (in der Regel über Ursache-Wirkungs-Verhältnisse) wird ein hoher Grad an statistischer Validität angenommen, wenn die Reliabilität und Teststärke der Messinstrumente und gewählten statistischen Verfahren hoch ist und allgemein die Fehlervarianz begrenzt wurde, die mathematischen Annahmen der statistischen Methoden nicht verletzt wurden und nicht einzelne Signifikanzen (zum Beispiel aus einer Korrelationsmatrix) „herausgefischt“ wurden (Fishing).

Interne Validität

Für Aussagen oder in empirischen Studien gezogene Schlussfolgerungen wird ein hoher Grad an interner Validität angenommen, wenn Alternativerklärungen für das Vorliegen oder die Höhe der gefundenen Effekte weitestgehend ausgeschlossen werden können. Interne Validität (oder Ceteris-paribus-Validität) liegt vor, wenn die Veränderung der abhängigen Variable eindeutig auf die Variation der unabhängigen Variable zurückgeführt werden kann (keine Alternativerklärung). Um dies zu gewährleisten, müssen Störvariablen kontrolliert bzw. durch verschiedene Methoden wie Elimination, Konstanthaltung und Parallelisierung ausgeschaltet werden. Damit die Effekte nicht auf Merkmale der Probanden zurückgeführt werden können, müssen diese zufällig den Versuchsbedingungen zugeteilt werden.

Die interne Validität wird gefährdet durch:[3]

  • Geschichte. Jedes ungeplante Ereignis zwischen zwei Messungen kann einen ungewollten Einfluss auf die Probanden haben. Beispiel: Bei der ersten Messung, vor der Behandlung mit einem neuen Antidepressivum, ist das Wetter kalt und regnerisch, bei der zweiten Messung, die eine Wirkung des Medikaments prüfen soll, ist das Wetter warm und sonnig.
  • Reifung. Probanden ändern sich allein durchs Älterwerden zwischen zwei Messungen.
  • Reaktivität. Probanden reagieren eventuell auf die Messungen selbst, zum Beispiel mit Habituation oder Sensitivierung, insbesondere wenn der Messvorgang unangenehm ist.
  • Veränderung beim Messinstrument. Während einer Studie können sich die Eigenschaften der Messinstrumente, einschließlich der messenden Personen, ändern. Diese können zum Beispiel durch Erfahrung genauer oder durch wachsende Langeweile ungenauer messen. Auch kann die abhängige Variable durch die Behandlung in einen Wertebereich gelangen, in dem das Messinstrument weniger genau ist. Dadurch kann es zu Boden- oder Deckeneffekten kommen. Beispiel: Um die Wirkung eines kognitiven Trainings für Kinder zu messen, wird ein Intelligenztest verwendet. Das Training ist so erfolgreich, dass die Kinder bei der zweiten Messung alle die volle Punktzahl erreichen.
  • Regression zur Mitte. Dieses statistische Artefakt kann Behandlungseffekte überlagern, wenn man, zum Beispiel um Boden- oder Deckeneffekte zu verhindern, Probanden mit besonders hohen (oder niedrigen) Anfangswerten im betreffenden Merkmal von vornherein ausschließt.
  • Selektion durch mangelhafte Randomisierung. Ist die Zuordnung der Probanden zu den Versuchsbedingungen nicht zufällig, können sich Experimental- und Kontrollgruppe schon vor der Behandlung unterscheiden, sodass die Messung des Behandlungseffektes verfälscht wird. Zudem können sich Geschichts-, Reifungs- und Instrumenteneffekte auf die Gruppen in unterschiedlicher Weise auswirken.
  • Ausfall. Wenn Probanden während der Studie wegfallen, kann dies an der Behandlung liegen. Die bei der zweiten Messung kleineren Gruppen sind Ergebnis einer ungewollten Selektion.
  • Richtung des Kausalschlusses. Ein Kausalzusammenhang zwischen unabhängiger und abhängiger Variable wird zweifelhaft, wenn (in einer anderen Studie) ebenfalls ein Effekt von der abhängigen auf die unabhängige Variable gefunden wird und diese Korrelation nicht durch eine dritte Variable erklärt werden kann.
  • Informationsaustausch. Wenn Probanden zwischen den Messungen interagieren (zum Beispiel „Ich glaube, ich gehöre zur Placebogruppe“), kann dies Auswirkungen auf den nächsten Messvorgang haben. Effekte der Konformität können die Effekte der Behandlung überlagern; oder eine Gruppe reagiert darauf, dass ihre Versuchsbedingungen viel unangenehmer sind, als die der anderen Gruppe, zum Beispiel mit Kompensation oder Demotivation.

Im Englischen existiert hierzu die Eselsbrücke THIS MESS. Dieses Akronym bezieht sich auf acht Faktoren, die Gefährdungen der internen Validität darstellen, nämlich Testing (vgl. Reaktivität), History (Geschichte), Instrument change (Veränderung beim Messinstrument), Statistical Regression toward the mean (Regression zur Mitte), Maturation (Reifung), Experimental mortality (Ausfall), Selection (Selektion durch mangelhafte Randomisierung) und Selection Interaction (Wechselwirkung zwischen Selektion und einem anderen Faktor, z. B. Reifung nur in der Experimentalgruppe).[4]

Externe Validität

Die externe Validität – auch Allgemeingültigkeit, Verallgemeinerungsfähigkeit oder ökologische Validität (vgl. Ökologischer Fehlschluss) – bezeichnet die Übereinstimmung von tatsächlichem und intendiertem Untersuchungsgegenstand. Grundidee ist hier die Frage nach der Generalisierbarkeit (Induktion). Nach der klassischen Sicht haben Aussagen oder in empirischen Studien gezogene Schlussfolgerungen einen hohen Grad an externer Validität, wenn sich die Resultate (a) auf die Grundgesamtheit verallgemeinern lassen, für die die Studie konzipiert wurde und (b) über das konkrete Setting der Studie hinaus auf andere Designs, Instrumente, Orte, Zeiten und Situationen übertragen lassen, also allgemeingültig, verallgemeinerungsfähig sind. Die häufigste Gefährdung der personenbezogenen externen Qualität (a) liegt in praktischen Problemen bei der Rekrutierung der Informationsträger, also der Personen, die befragt werden, oder der für ein Experiment benötigten Versuchspersonen. Ist ihre Teilnahme erzwungen oder freiwillig? Wie haben sie von der Teilnahmemöglichkeit erfahren (durch Zeitungsanzeige, Aushang usw.)? Was motiviert sie zur Teilnahme (interessiert sie das Thema, brauchen sie das Geld usw.)? Dies sind Filter, die die Qualität der Stichprobe einschränken können. Die häufigste Gefährdung der situationsbezogenen externen Qualität (b) liegt in der Künstlichkeit von Laborexperimenten.[5]

Die externe Validität erhöht sich mit jeder erfolgreichen Replikation der Befunde, denn durch die Wiederholung mit anderen Probanden (Altersgruppe, Geschlecht, Kultur usw.) oder Variationen der Versuchsbedingungen werden die Einschränkungen für die Gültigkeit der Befunde geringer. Beispiel: Solange Pawlow nur gezeigt hatte, dass Hunden beim Erklingen einer Glocke das Wasser im Munde zusammenläuft, wenn die Glocke zuvor oft genug gleichzeitig mit der Gabe von Futter erklang, hat er eben nur das gezeigt. Vom Phänomen der klassischen Konditionierung kann man erst sprechen, wenn viele Arten von Subjekten viele Arten von bedingten Reaktionen auf viele Arten von bedingten Reizen zeigen. Für die statistische Auswertung von Replikationsstudien steht die Methode der Metaanalyse zur Verfügung.

Aus dieser klassischen Sicht stehen interne und externe Validität im Widerstreit: Ein hohes Maß an interner Validität erreicht man am besten durch hochkontrollierte und deshalb recht künstliche (Labor-)Bedingungen. Besonders realitätsnahe Forschungsdesigns bergen hingegen die Gefahr unkontrollierbarer oder übersehener Störeinflüsse. Aus einer deduktivistischen Perspektive ist dies jedoch nur ein scheinbarer Widerspruch. Da beide Kriterien aus einer induktivistischen Forschungslogik heraus entwickelt wurden, steht die Generalisierung empirischer Befunde (bspw. aus einem Experiment) im Vordergrund. Hier ist die Frage nach der der Replizierbarkeit der Ergebnisse unter verschiedenen Bedingungen mit verschiedenen Stichproben eine sinnvolle Frage. Eine deduktivistische Forschungslogik verfolgt jedoch ein anderes Ziel. Hier wird versucht eine (allgemeingültige) Theorie anhand einer speziellen Vorhersage zu falsifizieren, nicht, wie in einer empiristischen Forschungslogik, eine Theorie durch genügend Beobachtungen zu verifizieren. Widerspricht nach dieser Logik die Beobachtung der Theorie, gilt diese als falsifiziert. Hierbei ist es irrelevant, ob die Ergebnisse in irgendeiner Weise „repräsentativ“ sind. Bestätigt sich die Vorhersage einer Theorie in einem Experiment, gilt die Theorie als bewährt, muss aber weiteren Prüfungen unterzogen werden. Einwände, die die Gültigkeit der Ergebnisse des Experiments in Frage stellen, sind Einwände gegen die interne Validität des Experiments.

Das Forschungsdesign hat einen großen Einfluss auf die Zulässigkeit und Gültigkeit der Kausalschlüsse, darum werden die Validitäten bei experimentellen und quasi-experimentellen Forschungsdesigns immer kritisch hinterfragt.

Validität in der biologischen Nomenklatur

Der Begriff „Validität“ bezieht sich in der biologischen Nomenklatur auf die formale Gültigkeit eines Taxons (eine systematische Einheit von Lebewesen). Die Gültigkeit ist gegeben, wenn die Erstbeschreibung des Taxons den entsprechenden formalen Ansprüchen genügt (in der Botanik als „gültige Publikation“ bezeichnet). In diesem Fall gilt auch der für das Taxon gewählte Name als „valide“ (gültig). Ist der vergebene Name des Taxons aufgrund formaler Mängel nicht valide, handelt es sich bei diesem Namen um ein Nomen nudum.

Siehe auch

  • Testtheorie
  • Erkenntnistheorie
  • Empirie
  • Validierung

Weiterführendes und Einzelnachweise

Literatur

Neben den Einzelnachweisen bieten folgende Werke weiterführende Informationen:

  • D. T. Campbell, D. W. Fiske: Convergent and discriminant validation by the multitrait-multimethod matrix. In: Psychological Bulletin, 56, 1959, S. 81–105.
  • A. Diekmann: Empirische Sozialforschung. 18. Auflage, Reinbek bei Hamburg 2007
  • Liebert, R. M. & Liebert, L. L.: Science and behavior: An introduction to methods of psychological research. Prentice Hall, Englewood Cliffs, NJ 1995
  • Rainer Schnell, Paul B. Hill, Elke Esser: Methoden der Empirischen Sozialforschung. 8., unveränderte Auflage, R. Oldenbourg Verlag, München 2008
  • Shadish, W., Cook, T. und Campbell, D.: Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Houghton Mifflin, Boston 2002

Weblinks

Wiktionary: Validität – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. G. A. Lienert, U. Raatz: Testaufbau und Testanalyse. 5., völlig neubearbeitete und erweiterte Auflage, Weinheim, Beltz, 1994, S. 220
  2. Gustav A. Lienert: Testaufbau und Testanalyse. Psychologie Verlags Union, 4. Auflage 1989, S. 256
  3. 3,0 3,1 Joachim Krauth: Experimental Design. Elsevier/Saunders 2000. ISBN 0444506373
  4. P. M. Wortman: Evaluation research - A methodological perspective. In: Annual Review of Psychology. 34. Jahrgang, 1983, S. 223–260, doi:10.1146/annurev.ps.34.020183.001255.
  5. E. Aronson, T. D. Wilson, R. M. Akert: Sozialpsychologie. Pearson Studium. 6. Auflage 2008. ISBN 978-3-8273-7359-5, S. 42 f