Lernhilfen
1.1 Ihr Lernerfolg
1.1.1 Was Sie hier lernen und wozu das gut ist
Alle Welt spricht von Big Data, aber ohne die Analyse sind die groĂen Daten nur groĂes Rauschen. Was letztlich interessiert, sind die Erkenntnisse, die Einblicke, nicht die Daten an sich. Dabei ist es egal, ob die Daten groĂ oder klein sind. NatĂŒrlich erlauben die heutigen Datenmengen im Verbund mit leistungsfĂ€higen Rechnern und neuen Analysemethoden ein VerstĂ€ndnis, das vor Kurzem noch nicht möglich war. Und wir stehen erst am Anfang dieser Entwicklung. Vielleicht handelt es sich bei diesem Feld um eines der dynamischsten Fachgebiete der heutigen Zeit. Sie sind dabei: Sie lernen einiges Handwerkszeugs des âDatenwissenschaftlersâ. Wir konzentrieren uns auf das vielleicht bekannteste Teilgebiet: Ereignisse vorhersagen auf Basis von hoch strukturierten Daten und geeigneter Algorithmen und Verfahren. Nach diesem Kurs sollten Sie in der Lage sein, typisches Gebabbel des Fachgebiet mit LĂ€ssigkeit mitzumachen. Ach ja, und mit einigem Erfolg Vorhersagemodelle entwickeln.
1.1.2 Lernziele
Kurz gesagt: Sie lernen die Grundlagen von Data Science zur Analyse von Text.\(\square\)
Nach diesem Kurs sollten Sie âŠ
- Daten aus Sozialen Netzwerken wie Twitter automatisiert in groĂer Menge auslesen können
- GÀngige Methoden des Textminings mit R anwenden können (z.B. Tokenizing, Stemming, Regex)
- Verfahren des Maschinenlernens auf Textdaten anwenden können
- Den Forschungsstand zum Thema Erkennung von Hatespeech in Ausschnitten kennen
1.1.3 Ăberblick
Abb. Abbildung fig-ueberblick gibt einen Ăberblick ĂŒber den Verlauf und die Inhalte des Buches. Das Diagramm hilft Ihnen zu verorten, wo welches Thema im Gesamtzusammenhang steht.
1.2 SelbstÀndige Vorbereitung vor Kursbeginn
Die folgenden Inhalte werden in diesem Buch/Kurs vorausgesetzt. Falls Ihnen der Stoff nicht gelÀufig ist, sollten Sie sich selbstÀndig damit vertraut machen.
- Grundlagen der Statistik wie im Kurs Statistik1 vermittelt
- EinfĂŒhrung in die Inferenzstatistik wie im Kurs Bayes:Start! vermittelt
- Grundlagen der Prognosemodellierung wie im Kurs Data Science 1 vermittelt
1.3 Lernhilfen
1.3.1 PDF-Version
Um eine PDF-Version eines Kapitels zu erhalten, können Sie im Browser die Druckfunktion nutzen (Strg-P). WĂ€hlen Sie dort âPDFâ als Ziel.
1.3.2 Videos
Auf dem YouTube-Kanal des Autors finden sich eine Reihe von Videos mit Bezug zum Inhalt dieses Buchs. Besonders diese Playlist passt zu den Inhalten dieses Buchs.
1.3.3 Software allgemein
Installieren Sie R und seine Freunde.
Installieren Sie bitte auch die folgende R-Pakete1:
- tidyverse
- easystats
- weitere Pakete werden im Unterricht bekannt gegeben (es schadet aber nichts, jetzt schon Pakete nach eigenem Ermessen zu installieren)
R Syntax aus dem Unterricht findet sich im Github-Repo bzw. Ordner zum jeweiligen Semester.
Wenn Ihnen die Lehrkraft ein RStudio-Cloud-Projekt zur VerfĂŒgung stellt, nutzen Sie es. Dort sind alle R-Pakete, DatensĂ€tze und Syntax-Vorlagen schon bereit gestellt. Sie sparen sich also eine Menge Installationsarbeit.\(\square\)
- Gibt R eine
Warning
aus, ist das zumeist kein Problem und kann ignoriert werden. - Starten Sie R neu, bevor Sie R-Pakete installieren.
- Wenn Sie Probleme mit der Installation auf Ihrem Computer haben, können Sie (ĂŒbergangsweise oder dauerhaft) die Online-Version von RStudio, RStudio Cloud verwenden (in gewissem Umfang kostenlos).\(\square\)
1.3.4 Software: Bayes
Wenn in diesem Modul Inferenzstatistik nötig ist, benötigen Sie Software fĂŒr Bayes-Inferenz.
Folgendes R-Paket ist fĂŒr die Bayes-Inferenz nötig:
- rstanarm
1.3.5 Online-UnterstĂŒtzung
Dieser Kurs kann in PrÀsenz und Online angeboten werden. Wenn Sie die Wahl haben, empfehle ich die Teilnahme in PrÀsenz, da der Lernerfolg höher ist. Online ist es meist schwieriger, sich zu konzentrieren. Aber auch online ist es möglich, den Stoff gut zu lernen, s. Abbildung fig-believe-in-you.
Bitte beachten Sie, dass bei einer Teilnahme in PrÀsenz eine aktive Mitarbeit erwartet wird. Hingegen ist bei einer Online-Teilnahme keine/kaum aktive Mitarbeit möglich.
Hier finden Sie einige Werkzeuge, die das Online-Zusammenarbeiten vereinfachen:
- Frag-Jetzt-Raum zum anonymen Fragen stellen wÀhrend des Unterrichts. Der Keycode wird Ihnen bei Bedarf vom Dozenten bereitgestellt.
- Padlet zum einfachen (und anonymen) Hochladen von Arbeitsergebnissen der Studentis im Unterricht. Wir nutzen es als eine Art Pinwand zum Sammeln von ArbeitsbeitrÀgen. Die Zugangsdaten stellt Ihnen der Dozent bereit.
- Nutzen Sie das vom Dozenten bereitgestelle Forum, um Fragen zu stellen und Fragen zu beantworten.
1.3.6 Fundorte fĂŒr DatensĂ€tze
Hier finden Sie DatensÀtze, die sich eignen, um die Analyse von Daten zu lernen:
1.3.7 Aufgabensammlung
Die Webseite Datenwerk beherbergt eine Sammlung an Ăbungsaufgaben rund um das Thema Datenanalyse. es gibt eine Suchfunktion (wenn Sie den Namen der Aufgabe wissen) und eine Tag-Liste, wenn Sie Aufgaben nach Themengebiet durchsehen wollen.
1.3.8 Tipps zum Lernerfolg
Stetige Mitarbeit - auch und gerade auĂerhalb des Unterrichts - ist der SchlĂŒssel zum PrĂŒfungserfolg. Vermeiden Sie, das Lernen aufzuschieben. Bleiben Sie dran!\(\square\)
- Lerngruppe: Treten Sie einer Lerngruppe bei.
- Tutorium: Besuchen Sie ein Tutorium, falls eines angeboten wird.
- Vor- und Nachbereitung: Bereiten Sie den Unterricht vor und nach.
- Selbsttest: Testen Sie sich mit Flashcards (Karteikarten mit Vor- und RĂŒckseite). Wenn Sie alle Aufgaben dieses Kurses aus dem FF beherrschen, sollte die PrĂŒfung kein Problem sein.
- Ăbungen: Bearbeiten Sie alle Ăbungsaufgaben gewissenhaft.
- Portal Datenwerk: Gehen Sie die Aufgaben auf dem Portal Datenwerk durch (soweit relevant).
- Fallstudien: Schauen Sie sich meine Fallstudiensammlungen an: https://sebastiansauer-academic.netlify.app/courseware/casestudies/
- Lehrkraft ansprechen: Sprechen Sie die Lehrkraft an, wenn Sie Fragen haben. Haben Sie keine Scheu! Bitte lesen Sie aber vorab die Hinweise, um Redundanz zu vermeiden.
- Dabei bleiben: Vermeiden Sie âBullimie-Lernenâ (lange nix, dann alles auf einmal), sondern bevorzugen Sie âLern-Snacksâ (immer wieder ein bisschen)
1.3.9 Selbstlernkontrolle
FĂŒr jedes Kapitel sind (am Kapitelende) Aufgaben eingestellt, jeweils mit Lösung. Ein Teil dieser Aufgaben hat eine kurze, eindeutige Lösung (z.B. â42â oder âAntwort Câ); ein (kleiner) Teil der Aufgaben verlangen komplexere Antworten (z.B. âWelche Arten von Prioris gibt es bei stan_glm()
?). Nutzen Sie die Fragen mit eindeutiger, kurzer Lösung um sich selber zu prĂŒfen. Nutzen Sie die Fragen mit komplexerer, lĂ€ngerer Lösung, um ein Themengebiet tiefer zu erarbeiten.
FortwĂ€hrendes Feedback zu Ihrem Lernfortschritt ist wichtig, damit Sie Ihre LernbemĂŒhungen steuern können. Bearbeiten Sie daher die bereitgestellten Arbeiten ernsthaft.\(\square\)
1.3.10 Lernen lernen
Hier sind einige Quellen (Literatur), die Ihnen helfen sollen, das Lernen (noch besser) zu lernen:
1.4 Literatur
Zentrale Kursliteratur fĂŒr die theoretischen Konzepte ist Hvitfeldt und Silge (2021); das Buch ist frei online verfĂŒgbar.
Eine gute ErgÀnzung ist das Lehrbuch von Chollet, Kalinowski, und Allaire (2022), welches grundlegende Data-Science-Konzepte erlÀutert und mit tidymodels umsetzt. Es ist in einer [Online-Version beim Verlag frei zugÀnglich](https://livebook.manning.com/book/deep-learning-with-r-second-edition.
James u. a. (2021) haben ein weithin renommiertes und sehr bekanntes Buch verfasst. Es ist allerdings etwas anspruchsvoller aus Rhys (2020), daher steht es nicht im Fokus dieses Kurses, aber einige Schwenker zu Inhalten von James u. a. (2021) gibt es. Schauen Sie mal rein, das Buch ist gut!
1.5 FAQ
-
Folien
- Frage: Gibt es ein Folienskript?
- Antwort: Wo es einfache, gute Literatur gibt, gibt es kein Skript. Wo es keine gute oder keine einfach zugÀngliche Literatur gibt, dort gibt es ein Skript.
-
Englisch
- Ist die Literatur auf Englisch?
- Ja. Allerdings ist die Literatur gut zugĂ€nglich. Das Englisch ist nicht schwer. Bedenken Sie: Englisch ist die lingua franca in Wissenschaft und Wirtschaft. Ein solides VerstĂ€ndnis englischer (geschriebener) Sprache ist fĂŒr eine gute Ausbildung unerlĂ€sslich. Zu dem sollte die Kursliteratur fachlich passende und gute BĂŒcher umfassen; oft sind das englische Titel.
-
Anstrengend
- Ist der Kurs sehr anstrengend, aufwÀndig?
- Der Kurs hat ein mittleres Anspruchsniveau.
-
Mathe
- Muss man ein Mathe-Crack sein, um eine gute Note zu erreichen?
- Nein. Mathe steht nicht im Vordergrund. Schauen Sie sich die Literatur an, sie werden wenig Mathe darin finden.
-
PrĂŒfungsliteratur
- Welche Literatur ist prĂŒfungsrelevant?
- PrĂŒfungsrelevant im engeren Sinne ist das Skript sowie alles, was im Unterricht behandelt wurde.
-
PrĂŒfung
- Wie sieht die PrĂŒfung aus?
- Die PrĂŒfung ist angewandt, z.B. eine Datenanalyse. Es wird keine Klausur geben, in der reines Wissen abgefragt wird.
-
Nur R?
- Wird nur R in dem Kurs gelehrt? Andere Programmiersprachen sind doch auch wichtig.
- In der Datenanalyse gibt es zwei zentrale Programmiersprachen, R und Python. Beide sind gut und beide werden viel verwendet. In einer Grundausbildung sollte man sich auf eine Sprache begrenzen, da sonst den Sprachen zu viel Zeit eingerÀumt werden muss. Wichtiger als eine zweite Programmiersprache zu lernen, mit der man nicht viel mehr kann als mit der ersten, ist es, die Inhalte des Fachs zu lernen.