Donnerstag, Dezember 09, 2004

Statistische Extras

80% der Statistik die ich bisher so bei Inhaltsanalysen gesehen habe ist rein deskriptiver Vergleich von Häufigkeiten und einer eher intuitiven Einteilung in "etwas mehr" "mehr" und "viel mehr". Wenn überhaupt Signifikanztests berechnet werden, dann ein Chi-Quadrat (Chi2) Test oder ein Mann-Whitney U-Test (bei Rangdaten).
Nach dem also einige meiner Vorschläge im Seminar vom Stand der Kunst aus etwas "unorthodox" waren, wollte ich den Raum hier nutzen um kurz zu erklären, was ich mir dabei eigentlich gedacht habe.

(A) Kreuzvalidierung
Bei den Variablen, die wir raten/beurteilen lassen, wird unsere Beurteilerübereinstimmung vermutlich deutlich geringer ausfallen als bei Variablen bei denen lediglich die Häufigkeit eines Merkmals ausgezählt werden muss (bspw. Anzeigen) oder bei Variablen bei der die Untersuchungseinheit (Beitrag) nur in eine von mehreren klar unterscheidbaren Kategorien fallen kann (bspw. Kommentar vs. Reportage). Das ist an sich völlig in Ordnung und liegt in der Natur der Sache, aber wenn unsere Beurteilerübereinstimmung unter die "magische" Grenze von 0.8 fällt müssen wir unser Tun zusätzlich rechtfertigen. Eine Möglichkeit hierzu ist die Kreuzvalidierung, bei der man die Gültigkeit der Messung dadurch bestätigt, dass man sie mit anderen Messungen vergleicht.
In unserem Fall könnten wir die Übereinstimmung der Beurteilung einer Seite zu verschiedenen Zeitpunkten (r(t1-t2)) für jede Variable mit der Übereinstimmung in den Beurteilungen derselben Seite zu einem Zeitpunkt bei verschiedenen Variablen (r(V1-V2)) vergleichen. Letztere sollte kleiner sein, und wenn wir unsere Variablen gut, d.h. unabhängig voneinander, gewählt haben sollte r(V1-V2) nahe Null sein. Auf alle Fälle sollte r(V1-V2) kleiner sein als die Übereinstimmung zwischen den Beurteilungen verschiedener Seiten anhand derselben Variable zu einem Zeitpunkt (r(S1-S2)). r(S1-S2) sollte trotzdem kleiner sein als r(t1-t2).
Da wir leider die Übereinstimmung zwischen Beurteilern leider nur auf Beitragsebene erheben können (pro Seite haben wir ja nur einen Wert (pro Messzeitpunkt)) müssen wir auf diesen Vergleich leider verzichten, wenn die Variablen pro Seite erhoben werden. Trotzdem ergibt sich mit r(t1-t2) > r(S1-S2) > r (V1-V2) eine IMHO recht anspruchsvolle Vorhersage.

(B) Regressionsgeraden zur Erfassung von Vielfalt
Obwohl der Vergleich von Vielfalt letztlich damit steht und fällt, dass die Kategorien (für alle Messobjekte) gleich breit sind, kann man noch etwas mehr tun als auszuzählen, wie viele Kategorien überhaupt auftreten (K-Spanne).
Man könnte die Kategorien anhand der Anzahl von Fällen pro Kategorie ordnen und dann (bspw. in Excel) eine Regressionsgerade durch die Häufigkeitswerte legen lassen. Je geringer die Steigung dieser Kurve, desto gleichmäßiger verteilen sich die Häufigkeiten auf die Kategorien. Im Grenzfall der völligen Gleichverteilung wäre die Steigung 0. Ist umgekehrt die Kurve sehr steil entfällt der Löwenanteil auf wenige Kategorien.
Der Vorteil dieses Verfahrens gegenüber der Verwendung der K-Spanne liegt darin, dass es weniger empfindlich auf Ausreißer reagiert. Hätte eine Zeitung bspw. 80% Wirtschaftsnachrichten und 19% Politik würde man ihr eigentlich eine geringe Themenvielfalt bescheinigen. Stammt das fehlende 1% der Beiträge allerdings aus verschiedensten Sparten kann es vorkommen, dass diese Zeitung genauso viele Sparten abdeckt wie eine ausgewogenere Zeitung (K-Spanne 1 = K-Spanne 2). Gegenüber dem Augenschein ("das sieht man doch") hat das Verfahren den Vorzug der Präzision und der Objektivität. Davon abgesehen hindert das Ergebnis niemanden daran eigene Beobachtungen einfließen zu lassen, es liefert diesen nur ein solides Fundament.

Alles lesen!