2  Prüfung

Text als Datenbasis prädiktiver Modelle

Bild von mcmurryjulie auf Pixabay

2.1 Prüfungsform: Datenanalyse als Quarto-Blog-Post

Als Prüfungsleistung ist ein Corpus an Twitter-Daten, die an deutsche, aktuelle Politiker gerichtet sind, auf Hate Speech hin zu untersuchen.

  • Der Dozent weißt jedis Studenti einen deutschen Politiker (bzw. dessen Twitter-Account) zu.
  • Der Bericht der Analyse ist als Quarto Blog-Posts zu formatieren.
  • Einzureichen ist die URL des Posts.
  • Der Post muss während des gesamten Prüfungszeitraums online sein, gehostet von einem beliebigen Provider (z.B. Netlify oder Github).
  • Nach Einreichen des Posts dürfen keine Änderungen mehr vorgenommen werden.
  • Zu Dokumentationszwecken soll ein PDF-Print des Posts in die Abgabe mit hochgeladen werden. Das PDF-Print des Posts muss identisch (exakt gleich) sein zum Post, der über die URL verfügbar ist.
  • Der Quelltext des Posts soll bei Github vorliegen.
  • Die Methoden des Textminings aus dem Unterricht sollen angewendet werden
  • Zusätzlich dürfen sonstige Techniken des Textminings (die nicht im Unterricht behandelt wurden), angewendet werden
  • Darüber hinaus sollen prädiktive Modelle zur Klassifikation von Hate-Speech (ja/nein) berechnet werden.
  • Ein Trainingsdatensatz wird gemeinsam erstellt.
  • Methoden der Inferenzstatistik (wie Bayes) sind nicht nötig.
  • Es soll eine mittlere vierstellige Zahl an Tweets verarbeitet werden oder wenigstens so viele Tweets wie verfügbar.

2.2 Politiker-Accounts

U.a. folgende Politiker-Accounts können als Prüfungsgegenstand verwendet werden (nach Hinweisen des Dozenten):

  • Olaf Scholz
  • Annalena Baerbock
  • Christian Lindner
  • Robert Habeck (bzw. der Account seines Ministeriums)
  • Cem Özdemir
  • Volker Wissing
  • Nancy Faeser
  • Friedrich Merz
  • Björn Höcke
  • Sarah Wagenknecht

2.3 Hinweise zur Prüfungsform Datenanalyse

Alle folgenden Hinweise gelten nur insoweit Ihre Lehrkraft Ihnen keine anders lautenden Hinweise gegeben hat (schriftlich).

2.4 Allgemeines

  1. Gegenstand dieser Prüfungsform ist eine Projektarbeit in Form von Analyse eines Datensatzes nach einer Forschungsfrage und die Dokumentation dieser Analyse.

  2. Schreiben Sie Ihre Datenanalyse in Form eines Berichts, der sich an den Gliederungspunkten wie unten dargestellt orientiert.

  3. Wenden Sie die passenden, im Unterricht eingeführten, statistischen Verfahren an. Es steht Ihnen frei, andere (nicht im Unterricht behandelte) Verfahren zur Analyse der Daten anzuwenden, nach Maßgabe der fachlichen Angemessenheit.

  4. Werten Sie die Daten mit R oder Python aus.

  5. Die R-Syntax soll im Hauptteil des Berichts dokumentiert werden. R-Output darf ggf. gekürzt wiedergegeben werden.

  6. Fügen Sie keine Erklärungen oder Definitionen von statistischen Verfahren an.

  7. Beschreiben und interpretieren Sie jede Analyse bzw. jeden R-Code bzw. jedes Ergebnis (jede R-Ausgabe).

  8. Von hoher Bedeutung ist die Korrektheit der Beschreibung und Interpretation der statistischen Modellierung (z.B. mit der Regressionsanalyse).

  9. Es hat keinen Einfluss auf Ihre Note, ob sich ein (erwarteter) Effekt zeigt und wie stark dieser Effekt ggf. ist.

  10. Zu Beginn der Analyse müssen folgende Metadaten gut ersichtlich platziert sein (z.B. auf einem Deckblatt):

  • Vorname Nachname der Autors/der Autorin
  • Matrikelnummer
  • Modulname
  • Abgabedatum
  1. Die Abgabefrist endet mit Verstreichen des regulären Prüfungszeitraums (soweit nicht vom Prüfer anderweitig angegeben).

  2. Studentis mit Nachteilsausgleich melden sich beim Prüfer und zeigen ihren Antrag auf Nachteilsausgleich an.

2.5 Einzureichende Dateien

  1. Einzureichen sind folgende Dateien:
  1. der Bericht in menschenlesbarer Form (s. Formatierungshinweise)
  2. alle Dateien, die Quellcode der Analyse beinhalten.
  3. die Rohdaten
  1. Der Name der Dateien kann frei gewählt werden (bzw. folgt keinen technischen Restriktionen).

2.6 Formatierung des Berichts

  1. Der Bericht ist nur elektronisch, nicht ausgedruckt einzureichen.

  2. Der Bericht kann in einem paginierten Format (z.B. Word) oder einem nicht-paginierten Format (HTML-Dokument) verfasst werden. Abzugeben ist aber eine PDF-Datei oder eine HTML-Datei, die alle Bilder und sonstige Medien enthält (“Stand-Alone-HTML”).

  3. Die Wahl eines bestimmten Stylesheets ist nicht von Bedeutung. Lesbarkeit und Übersichtlichkeit in der Formatierung sind unabhängig davon anzustreben.

  4. Im Kopfbereich (oder auf einem Deckblatt) sind die relevanten Metadatan anzugeben wie Name (Nachname, Vorname) der Autorin/des Autors, Abgabedatum, Titel der Arbeit, Modul.

2.7 Formalia

  1. Richtlinien einer Wortzahl gibt es nicht. Entscheidend ist, dass relevante Analysen durchgeführt und beschrieben wurden. Schreiben Sie so knapp wie möglich und so ausführich wie nötig.

  2. Der Anspruch richtet sich nach dem Inhalt und Niveau des auf diese Prüfung vorbereitenden Unterricht (auch aus Modulen vorheriger Semester). Oft sind das Module in quantitativer Datenanalyse (und wissenschaftliches Arbeiten). Deren Inhalte sollen im Rahmen dieser Prüfungsleistung als selbständig und flüssig verfügbare Kompetenz von den Studentis demonstriert werden.

  3. Die Gliederung der Arbeit kann sich an den PPDAC-Zyklus und am Data Science Model von Wickham und Grolemund orientieren.

2.8 Beurteilungskriterien

Die Arbeit wird im Hinblick auf drei Kriterien bewertet:

  1. Formalia (z. B. Vollständigkeit der Abarbeitung, Angemessenheit der äußeren Gestaltung, Fokus auf Wesentliche, Übersichtlichkeit, Ästhetik, Reproduzierbarkeit)

  2. Methodik (z. B. Richtige Auswahl und Anwendung der Verfahren, methodisches Verständnis)

  3. Inhalt (z. B. Verständlichkeit, Breite und Tiefe der Problemlösung, Korrektheit der Interpretation)

Sie erhalten für jedes der drei Kriterien eine Teilnote sowie eine Gesamtnote. Außerdem erhalten Sie ggf. für die Kriterien noch ausformulierte Hinweise.

Die Gesamtnote muss sich nicht als Mittelwert der Teilnoten ergeben.

Insbesondere kann eine Fünf in einem der Kriterien zum Durchfallen führen, auch wenn die anderen beiden Kriterien gut oder sehr gut beurteilt wurden.

2.9 Beispiele für Aspekte der Beurteilungskriterien

  1. Wurden deskriptive Statistiken (an angemessenen Ort) berichtet?

  2. Wurden Diagramme und Tabellen angemessen eingesetzt?

  3. Wurde Inferenzstatistik (angemessen) eingesetzt?

  4. Wurden Effektstärkemaße (idealerweise mit Konfidenzintervallen dazu) berichtet?

  5. Wurden alle relevanten Informationen für ein statistisches Verfahren angegeben (z.B. zum gewählten Prior)?

  6. Wurde die Aussagekraft von Modellergebnissen richtig eingeschätzt?

  7. Waren die Schlussfolgerungen, die aus den statistischen Ergebnissen gezogen wurden, angemessen (z. B. wurde erkannt, dass ein Nicht-Verwerfeen einer Hypothese nicht automatisch ein Bestätigen derselben bedeutet)?

  8. Wurde angemessen gerundet (inkl. konsistente Anzahl von Nachkommastellen)?

  9. Passen die statistischen Verfahren zu den Hypothesen?

  10. Wurden die Voraussetzungen der statistischen Verfahren geprüft?

  11. Sind die Ergebnisse reproduzierbar (Daten und Syntax eingereicht)?

2.10 Beispiele für Fehler

Schwere Fehler, die zum Durchfallen oder deutlichem Abwerten der Note führen können, sind z.B.:

  • fehlende Inferenzstatistik (oder adäquatem Ersatz)
  • falsche Interpretation von Posteriori-Verteilungen oder p-Werten
  • keine Angabe von Konfidenzintervallen
  • falsche Interpretation von Konfidenzintervallen
  • Wahl des falschen Intervalls (Vorhersageintervall vs. Perzentilintervall vs. HDI)
  • falsche Entscheidung zum Hypothesentest auf Basis entsprechender Kennwerte (wie ROPE-Wahrscheinlichkeit oder p-Wert)
  • falsche Wahl des statistischen Verfahrens
  • fehlende Deskriptivstatistik

Häufige kleinere Mängel sind z. B.

  • pixelige Abbildungen
  • R-Ausgaben oder R-Syntax als Screenshot
  • fehlende Seitenzahlen (nur bei paginierten Formaten, nicht bei HTML)
  • unübersichtliche Diagramme
  • kein (verlinktes) Inhaltsverzeichnis ︎
  • fehlende oder unverständliche Achsenbeschriftung bei Diagrammen
  • fehlende oder falsche Beschreibung der/des Skalenniveau(s) der untersuchten Variablen

2.11 Sonstiges

Eine automatische Prüfung auf Plagiate mittels geeigneter, von der Hochschule bereitgestellter Software ist möglich.