Um das Für und Wider von Notengebung als solcher soll es hier gar nicht so gehen, sondern bloß um die Frage, wie mit Schulnoten korrekterweise umgegangen werden muss – und wie es tatsächlich geschieht. Also um die Frage, ob und inwieweit Vergabe und Verwendung von Noten von wissenschaftlich-mathematischen Methoden gedeckt sind, wenn man jene als das ansieht, was sie ja auch sind: Messwerte.

Spoiler: Es bleibt nicht arg viel übrig.

Inhalt

  1. Motivation für diesen Artikel
  2. Wer misst, irrt.
  3. Notenskala, aber anders
  4. Das nicht sehr überraschende Ergebnis

Anwendungsbeispiel: das bayerische Grundschulabitur

Eltern aus Bayern kennen das (wir haben es gerade erleben dürfen), alle anderen sind womöglich sehr erstaunt: Die (schulische) Zukunft der Viertklässler wird nach Maßgabe einer einzigen Zahl entschieden:[1]

Die Eignung für den Bildungsweg des Gymnasiums liegt vor, wenn die Gesamtdurchschnittsnote mindestens 2,33 beträgt. Die Eignung für den Bildungsweg der Realschule liegt vor, wenn die Gesamtdurchschnittsnote mindestens 2,66 beträgt.

Denn so steht es geschrieben in der Grundschulordnung (§ 6 Abs. 5).
Im Absatz darüber steht, dass diese „Gesamtdurchschnittsnote aus den Fächern Deutsch, Mathematik und Heimat- und Sachunterricht“ gebildet werden soll.
Einem Juristen leuchtet vermutlich auch unmittelbar ein, dass „mindestens“ natürlich eigentlich „höchstens“ bedeutet. Sei's drum.

Messen heißt Fehler machen – immer.

Nun kann und will ich an dieser Stelle nicht eine ganze Abhandlung über Messtheorie und Fehlerrechnung unterbringen. Vielleicht glaubt man mir trotzdem:
Eine Messung ohne Fehlerangabe ist sinnlos, und die Angabe einer Größe mit mehr Stellen als die Genauigkeit hergibt ist es ebenso.
Das versuchte ich auch damals meinen StudentInnen im physikalischen Praktikum mit Mühe beizubringen. Im Alltag ist es oft sehr schwer umzusetzen, ich weiß. Es stimmt halt leider trotzdem.

Und man bedenke, wie viele Fehlerquellen in unserem Fall hineinspielen:

  • Systematische Fehler durch verschiedene LehrerInnen (mit je unterschiedlichem Charakter, Anspruch und auch Voreingenommenheiten), durch unterschiedliche Ausstattungen der Schulen, durch verschiedene Entwicklungsstände der Kinder und verschiedene Elternhäuser, sowie viele weitere äußere Gegebenheiten
  • Zufällige Fehler, die immer passieren. Nur diese Art von Ungenauigkeit kann potentiell mittels Wiederholen der Messung reduziert werden (was vielleicht ein wenig für die absurd hohe Anzahl an Proben spricht). Die notwendige Subjektivität bei der Beurteilung – es gibt keine wirklich „strengen“ Maßstäbe für die allermeisten Benotungen – spielt hier auch hinein. Typische Beispiele könnten sein:
    „Gebe ich dafür noch einen Punkt oder nicht?“ (LehrerIn)
    „Ich habe die Frage falsch verstanden!“ (Kind)

Wenn also die „Gesamtdurchschnittsnote aus den Fächern Deutsch, Mathematik und Heimat- und Sachunterricht“ von oben auf ein Hundertstel genau sein soll (denn nichts anderes bedeuten 2,33 oder 2,66 ja wohl), wie gut müssen dann die einzelnen Messungen sein, aus denen sie gebildet wird?

Nehmen wir also an, „2,33“ stünde für die Gesamtnote \( g = 2{,}33\) mit einem Fehler \( \Delta g = \pm 0{,}005\) (zufällige und systematische Fehler!).
Der relative Fehler, den wir nicht überschreiten dürfen, ist dann
\[ \frac{\Delta g}{g} = \frac{0{,}005}{2{,}33} \approx 0{,}2 \, \% \]
Das ist eine wirklich beeindruckende Genauigkeit – Respekt! Zum Vergleich: Wer schafft es, mit einem normalen Maßband eine Strecke von zum Beispiel 2 m sicher auf nur 4 mm genau zu bestimmen?

OK, das war eben etwas unsauber – die Noten in den einzelnen Fächern werden im Zeugnis ja bloß auf ganze Zahlen gerundet angegeben. (Aber wenn sie halt auch zu so unsinnigen Formulierungen greifen…) Die Regel könnten wir also genauso gut so umschreiben:
„Eignung liegt vor, wenn die Summe der Noten mindestens (höchstens?) N ≤ 7 beträgt.“ Beziehungsweise 7 < N ≤ 8 für die Realschule.

Nehmen wir jetzt an, das Kind A habe in zwei von den drei Fächern eine 2 und in einem eine 3, Kind B dagegen habe in einem Fach statt der 2 eine 3. A hält also exakt die 2,33 ein (N = 7) und B die 2,66 (N = 8).

Den relativen Fehler pro Fachnote nehmen wir jetzt willkürlich mit 10 % an. Dann gilt für den jeweiligen absoluten Fehler:
\[
\frac{\Delta N_i}{N_i} = 0{,}10
\Rightarrow \Delta N_i = \begin{cases}
\pm 0{,}2 \quad \text{für } N_i = 2\\
\pm 0{,}3 \quad \text{für } N_i = 3
\end{cases}
\] mit \( i= \{1,2,3 \} \simeq \{\text{Deutsch}, \text{Mathe}, \text{HSU}\} \).

Laut Fehlerfortpflanzungsregel addieren sich bei Summen von Messgrößen deren absolute Fehler. Damit negative Abweichungen nicht zu einem rechnerisch besseren Ergebnis führen, quadriert man zuerst und bildet hinterher wieder die Wurzel:
\[
\Delta G = \sqrt{(\Delta N_1)^2 + (\Delta N_2)^2 + (\Delta N_3)^2 }
\]
Das ergibt für Kind A ein \(\Delta G \approx \pm 0{,}2 \); bei Kind B ist \(\Delta G \approx \pm 0{,}5 \).

Mit anderen Worten: Die Gesamtnoten sind nicht wirklich „2,33“ bzw. „2,66“ (da lügt man sich mit Verve in die Tasche), sondern vielmehr
Kind A: \(\quad 6{,}8 \leq G \leq 7{,}2 \quad \Leftrightarrow \quad 2{,}27 \leq g \leq 2{,}40 \)
Kind B: \( \quad7{,}5 \leq G \leq 8{,}5 \quad \Leftrightarrow \quad 2{,}50 \leq g \leq 2{,}83 \)

Bei diesen sich schon fast überlappenden Fehlerbereichen müsste die Genauigkeit der Einzelnoten also schon deutlich besser als 10 % sein, um ernsthaft eine Aussage treffen zu können, welcher Stempel dem Kind nun aufzudrücken ist.

Finde ich persönlich ja sehr mutig…


Das ist aber letztlich auch alles egal, denn:

Noten sind ordinalskaliert.

Das klingt ja auch wieder mal kompliziert! Ist es eigentlich aber nicht. Statistiker unterscheiden Messdaten unter anderem anhand ihres Skalenniveaus:
Nominalskala ⊂ Ordinalskala ⊂ Kardinalskala.

Nominalskalierte Daten haben nur qualitative Merkmale und man kann von zwei solchen Messwerten sagen, ob sie gleich oder ungleich sind, aber keine Reihenfolge festlegen; Beispiel: Blutgruppen (Blutgruppe A ist nicht „kleiner“ oder „besser“ als B).

Ordinalskalierte Daten haben etwas mehr innere Struktur, nämlich eine Reihenfolge. Von zwei solchen Daten kann man außerdem entscheiden, ob sie gleich groß sind bzw. welche größer ist; Beispiel: Tabellenplatz beim Sport (Platz 2 ist besser als Platz 4, aber der 2. ist nicht die „Hälfte“ vom 4. Platz).

Kardinalskalierte Daten schließlich sind als einzige „richtige“ Zahlen und erlauben auch die üblichen Rechenoperationen; Beispiel: Temperatur.[2]

Die geneigten Leser haben sicherlich schon erraten, wohin der Hase läuft:

Schulnoten weisen sowohl eine natürliche Reihenfolge (eine 1 ist besser als eine 2, eine 2 ist besser als eine 3 usw.) als auch unterschiedliche Abstände zwischen den einzelnen Werten auf (der Notenbereich der 1 umfasst den Bereich von 92% bis 100% der maximal erreichbaren Punkte, der Notenbereich der 5 dagegen den Bereich von 0% bis 49%). Aus diesem Grund sind Rechenoperationen wie etwa das Addieren oder das Subtrahieren von Noten nicht sinnvoll: Zwei „2er“ ergeben keinen „4er“ (…) Wenn man aber Schulnoten nicht addieren (oder dividieren) kann, folgt daraus auch, dass man beispielsweise kein arithmetisches Mittel aus ihnen bilden darf – auch wenn das leider an sehr vielen Schulen konsequent falsch praktiziert wird (und damit Generationen von Schülerinnen und Schülern für die Statistik verdorben werden).

schreibt Christian Reinboth in Grundlagen der Statistik: Wie unterscheidet man zwischen Nominal-, Ordinal- und Kardinalskala?

Oder Wikipedia:

Schulnoten werden oft so verwendet, als wären sie intervallskaliert, indem z. B. der Durchschnitt berechnet wird. Problematisch wird es, wenn eine solche Verwendung ernste Konsequenzen hat (…)

Was ginge, wäre die Angabe des Medians einer Notenverteilung, also der Note, die genau in der Mitte der sortierten Liste aller Noten liegt.
(In dem Fall wäre auch eine solche Aussage sinnvoll: „Du liegst in Deutsch im Mittel bei einer 3.“ Wenn es sich dagegen um ein arithmetisches Mittel handelt, ist sie das nicht.)
Mehrere Mediane zusammenzuzählen ist aber wieder genauso schräg.


Zusammenfassung

Mit anderen Worten: Die ganze Rechnerei ist völlig unsinnig. Durchschnittsnoten anzugeben gaukelt eine Genauigkeit vor, die es nicht geben kann, weil sowohl Messmethode wie Messgrößen ganz grundsätzlich dafür nicht geeignet sind.

Nicht, dass diese Erkenntnis irgendetwas ändern würde, aber loswerden wollte ich sie halt doch.

Titelfoto: Charles 🇵🇭 / Unsplash


  1. Aberaber, es gibt doch die Option auf Probeunterricht! (Vermutlich abgeleitet von Probe, bayr. für Klassenarbeit, denn aus vielen davon besteht dieser Test im Wesentlichen…) Und es gibt ja auch so viele andere Wege zum Studium!! Und überhaupt ist das alles inzwischen viel durchlässiger geworden!1! – Stimmt schon, aber ich kann mich des Eindrucks schwer erwehren, dass es sich bei diesen oft vorgebrachten Argumenten in erster Linie um eine Art autosuggestives Mantra handelt. ↩︎

  2. Hier gibt es noch Feinheiten zu beachten: Die Skala kann einen natürlichen Nullpunkt haben (Intervallskala, z. B. Kelvin) oder nicht (Verhältnisskala, z. B. Grad Celsius): 20 °C sind 10 °C mehr als 10 °C, bedeuten aber nicht die doppelte Temperatur. 200 K ist dagegen in der Tat doppelt so viel wie 100 K. ↩︎