Donnerstag, Dezember 09, 2004

"Qualität"

neulich kam im Gespräch mit Johannes die Frage auf, was den nun "Qualität" eigentlich sein soll, bzw. wie wir sie für unsere Zwecke definieren und erfassen können.
Als Laie, der von ästhetischen und publizistischen Theorien keine Ahnung hat würde ich sagen "Qualität" kann _nicht_ sein (a) "inhaltlich oder formal so nah an den traditionellen Medien wie möglich". Nicht nur, dass eine solche Definition den Status-Quo zum Höchstmaß erklärt und jede Neuerung als Qualitätsverlust definiert, sie würde auch das Ergebnis unserer Untersuchung vorwegnehmen und sie sinnlos machen. Ebenso kann Qualität nicht (b) "inhaltlich und formal so nah an alternativen Medien wie möglich" sein, aus ähnlichen Gründen.
Ebenfalls ausschließen wollen würde ich jede subjektive Erfassung von Qualität, weil es in der Bevölkerung und vor allem unter den Kodierern ein diesbezügliches Vorurteil gegenüber den alternativen Medien gibt. Wollten wir ermitteln wie vorurteilsbehaftet verschiedene Stichproben von Journalistikstudenten gegenüber alternativen Medien sind, wäre eine subjektive Beurteilung der Qualität sicher der Königsweg (und ich persönlich würde mich auch sehr für das Ergebnis interessieren), für einen Vergleich alternativer Medien mit traditionellen taugt sie IMHO nicht.
Eine vierte Einschränkung ergibt sich für mich aus dem vertretbaren Aufwand. Bspw. wäre eine detaillierte Analyse der in den Beiträgen vorgenommenen Bewertungen ein interessanter Qualitätsaspekt (im Sinne von Objektivität), ist aber IMHO in unserem Rahmen nicht zu machen. Das Auszählen von Zitaten (im Sinne von "wer kommt zu Wort" dies wiederum als Indikator für Objektivität) ist vermutlich die Grenze des Vertretbaren.
In unserem aktuellen Codebuch (noch nicht online) haben wir als Qualitätsaspekte Vielfalt (Themen, Akteure, journ. Darstellungsformen, Zitate), Aktualität (Zeit zum Ereignis)* Objektivität bzw. Ausgewogenheit (Funktion d. Beitrags, Meinung pro/contra Status-quo), Sprache (Fehler, Lesbarkeit) sowie Vollständigkeit der Quellen- und Autorenangaben. Das letzte Element ist zugegebenermaßen tendenziell eher ein Standard traditioneller Medien, wir haben es aber – nach Diskussion in der Gruppe – aufgenommen, weil wir fanden, dass es doch als Standard soliden journalistischen Handelns gelten kann. Was man – unserer Meinung nach – bspw. von der Ortsmarke nicht behaupten kann, da sie primär eine Konvention der traditionellen Medien ist (in our humble opinion).
Persönlich bin ich mit der Liste nicht so ganz zufrieden. Teilweise ist der von uns gewählte Indikator nur mittelbar mit dem entsprechenden Teilaspekt der Qualität verbunden und die Teilaspekte selbst sind eher vom Standpunkt der Erfassbarkeit formuliert und nicht ihn eine Theorie der Qualität eingebettet bzw. aus dieser hervorgegangen. Falls es dazu eine Diskussion gab, muss ich sie verpasst haben. Für weitere Vorschläge wäre ich dankbar, nutzt bitte die Kommentarfunktion.

Alles lesen!

Statistische Extras

80% der Statistik die ich bisher so bei Inhaltsanalysen gesehen habe ist rein deskriptiver Vergleich von Häufigkeiten und einer eher intuitiven Einteilung in "etwas mehr" "mehr" und "viel mehr". Wenn überhaupt Signifikanztests berechnet werden, dann ein Chi-Quadrat (Chi2) Test oder ein Mann-Whitney U-Test (bei Rangdaten).
Nach dem also einige meiner Vorschläge im Seminar vom Stand der Kunst aus etwas "unorthodox" waren, wollte ich den Raum hier nutzen um kurz zu erklären, was ich mir dabei eigentlich gedacht habe.

(A) Kreuzvalidierung
Bei den Variablen, die wir raten/beurteilen lassen, wird unsere Beurteilerübereinstimmung vermutlich deutlich geringer ausfallen als bei Variablen bei denen lediglich die Häufigkeit eines Merkmals ausgezählt werden muss (bspw. Anzeigen) oder bei Variablen bei der die Untersuchungseinheit (Beitrag) nur in eine von mehreren klar unterscheidbaren Kategorien fallen kann (bspw. Kommentar vs. Reportage). Das ist an sich völlig in Ordnung und liegt in der Natur der Sache, aber wenn unsere Beurteilerübereinstimmung unter die "magische" Grenze von 0.8 fällt müssen wir unser Tun zusätzlich rechtfertigen. Eine Möglichkeit hierzu ist die Kreuzvalidierung, bei der man die Gültigkeit der Messung dadurch bestätigt, dass man sie mit anderen Messungen vergleicht.
In unserem Fall könnten wir die Übereinstimmung der Beurteilung einer Seite zu verschiedenen Zeitpunkten (r(t1-t2)) für jede Variable mit der Übereinstimmung in den Beurteilungen derselben Seite zu einem Zeitpunkt bei verschiedenen Variablen (r(V1-V2)) vergleichen. Letztere sollte kleiner sein, und wenn wir unsere Variablen gut, d.h. unabhängig voneinander, gewählt haben sollte r(V1-V2) nahe Null sein. Auf alle Fälle sollte r(V1-V2) kleiner sein als die Übereinstimmung zwischen den Beurteilungen verschiedener Seiten anhand derselben Variable zu einem Zeitpunkt (r(S1-S2)). r(S1-S2) sollte trotzdem kleiner sein als r(t1-t2).
Da wir leider die Übereinstimmung zwischen Beurteilern leider nur auf Beitragsebene erheben können (pro Seite haben wir ja nur einen Wert (pro Messzeitpunkt)) müssen wir auf diesen Vergleich leider verzichten, wenn die Variablen pro Seite erhoben werden. Trotzdem ergibt sich mit r(t1-t2) > r(S1-S2) > r (V1-V2) eine IMHO recht anspruchsvolle Vorhersage.

(B) Regressionsgeraden zur Erfassung von Vielfalt
Obwohl der Vergleich von Vielfalt letztlich damit steht und fällt, dass die Kategorien (für alle Messobjekte) gleich breit sind, kann man noch etwas mehr tun als auszuzählen, wie viele Kategorien überhaupt auftreten (K-Spanne).
Man könnte die Kategorien anhand der Anzahl von Fällen pro Kategorie ordnen und dann (bspw. in Excel) eine Regressionsgerade durch die Häufigkeitswerte legen lassen. Je geringer die Steigung dieser Kurve, desto gleichmäßiger verteilen sich die Häufigkeiten auf die Kategorien. Im Grenzfall der völligen Gleichverteilung wäre die Steigung 0. Ist umgekehrt die Kurve sehr steil entfällt der Löwenanteil auf wenige Kategorien.
Der Vorteil dieses Verfahrens gegenüber der Verwendung der K-Spanne liegt darin, dass es weniger empfindlich auf Ausreißer reagiert. Hätte eine Zeitung bspw. 80% Wirtschaftsnachrichten und 19% Politik würde man ihr eigentlich eine geringe Themenvielfalt bescheinigen. Stammt das fehlende 1% der Beiträge allerdings aus verschiedensten Sparten kann es vorkommen, dass diese Zeitung genauso viele Sparten abdeckt wie eine ausgewogenere Zeitung (K-Spanne 1 = K-Spanne 2). Gegenüber dem Augenschein ("das sieht man doch") hat das Verfahren den Vorzug der Präzision und der Objektivität. Davon abgesehen hindert das Ergebnis niemanden daran eigene Beobachtungen einfließen zu lassen, es liefert diesen nur ein solides Fundament.

Alles lesen!