Appendix

Datensatzerläuterungen

Big 5 Persönlichkeitsfaktoren

Fragebogen zu den BIG 5 Persönlichkeitsfaktoren durch das 50-Item Lexical Big-Five Factor Markers Inventar (IPIP) mit 5000 Beobachtungen. Jede der fünf Persönlichkeitseigenschaften wurde mithilfe von jeweils 10 Items gemessen. Die unterschiedlichen Fragen konnten auf einer Likert Skala beantwortet werden (1: Sehr unzutreffend, 2: Moderat unzutreffend, 3: Weder zutreffend noch unzutreffend, 4: Moderat zutreffend, 5: Sehr zutreffend). Invers kodierte Items sind in der Beschreibung unten entsprechend markiert. Der Datensatz ist eine modifizierte Version von https://openpsychometrics.org/_rawdata/.

Demographische Variablen: Alter in Lebensjahren und Geschlecht (f: Frauen, m: Männer)
Extraversion: E1 = Ich bringe eine Party in Schwung; E2 = Ich spreche nicht viel. (INVERS); E3 = Ich fühle mich wohl unter Menschen; E4 = Ich halte mich im Hintergrund. (INVERS); E5 = Ich beginne Gespräche; E6 = Ich habe wenig zu sagen. (INVERS); E7 = Ich spreche mit vielen verschiedenen Leuten auf Parties; E8 = Ich mag es nicht, Aufmerksamkeit auf mich zu ziehen. (INVERS); E9 = Es macht mir nichts aus, im Zentrum der Aufmerksamkeit zu stehen; E10 = Ich bin still unter Fremden. (INVERS)
Neurotizismus: N1 = Ich gerate leicht in Stress; N2 = Ich bin die meiste Zeit entspannt. (INVERS); N3 = Ich grübel über Dinge; N4 = Ich fühle mich selten deprimiert oder bedrückt. (INVERS); N5 = Ich bin leicht beunruhigt; N6 = Ich rege mich leicht auf; N7 = Ich wechsel oft meine Stimmung; N8 = Ich habe häufig Stimmungsschwankungen; N9 = Ich bin leicht gereizt; N10 = Ich fühle mich oft deprimiert oder bedrückt.
Verträglichkeit: V1 = Ich empfinde wenig für andere. (INVERS); V2 = Ich bin interessiert an anderen Menschen; V3 = Ich beleidige andere. (INVERS); V4 = Ich fühle mit anderen Menschen mit; V5 = Ich bin nicht interessiert an den Problemen anderer Leute. (INVERS); V6 = Ich habe ein weiches Herz; V7 = Ich bin nicht wirklich interessiert an anderen. (INVERS); V8 = Ich nehme mir Zeit für andere; V9 = Ich fühle die Gefühle anderer; V10 = Ich kann andere beruhigen.
Gewissenhaftigkeit: G1 = Ich bin immer vorbereitet; G2 = Ich lasse meine Sachen herumliegen. (INVERS); G3 = Ich achte auf Details; G4 = Ich verursache großes Durcheinander. (INVERS); G5 = Ich erledige Hausarbeiten unmittelbar; G6 = Ich vergesse oft, Dinge an ihren Platz zurückzulegen. (INVERS); G7 = Ich mag Ordnung; G8 = Ich drücke mich vor meinen Pflichten. (INVERS); G9 = Ich folge einem Plan; G10 = Ich bin anspruchsvoll in meiner Arbeit.
Offenheit für neue Erfahrungen: O1 = Ich besitze einen großen Wortschatz; O2 = Ich habe Schwierigkeiten abstrakte Ideen zu verstehen. (INVERS); O3 = Ich habe eine lebhafte Vorstellungskraft; O4 = Ich bin an abstrakten Ideen nicht interessiert. (INVERS); O5 = Ich habe ausgezeichnete Ideen; O6 = Ich habe kein gutes Vorstellungsvermögen. (INVERS); O7 = Ich verstehe Dinge schnell; O8 = Ich gebrauche schwierige Wörter; O9 = Ich verbringe Zeit damit über Dinge nachzudenken; O10 = Ich bin voller Ideen.

Statistische Bildung

In dieser Studie mit 146 ProbandInnen wurde zum einen versucht, einen Zusammenhang zwischen statistischer Bildung und Risikoverhalten zu finden und zum anderen eine Verbesserung statistischer Bildung durch eine graphische Hilfestellung zu entdecken.

Dafür wurden zwei verschiedene Fragebogenversionen ausgeteilt. In der einen gab es nach rund der Hälfte der Aufgaben eine graphische Hilfestellung, die eine mögliche Lösungsstrategie zu einem Teil der Aufgaben erklärt (Interventionsgruppe). Die andere Version beinhaltete lediglich eine schriftliche Erklärung. Statistische Bildung (engl. Statistical literacy) ist als Interpretieren, kritisches Bewerten und die Fähigkeit über statistische Informationen zu sprechen definiert.

Demographische Variablen: Version = Fragebogenversion mit Intervetion und ohne; Geschlecht = Biologisches Geschlecht mit f:weiblich, m:männlich; Alter = Alter in Lebensjahren; Schulbildung = Höchste abgeschlossene Schulausbildung.
Fragen zur Selbsteinschätzung: Risikosportarten = Praktizieren mindestens einer Risikosportart; Statistische_Kenntnisse = Selbsteinschätzung der eigenen Statistikkenntnisse auf einer Skala von 0 (keine Kenntnisse) bis 6 (ausgezeichnete Kenntnisse); Interesse_Wissenschaft = Subjektives Interesse an Wissenschaft auf einer Skala von 0 (kein Interesse) bis 6 (sehr starkes Interesse).
DOSPERT Skala: Dospert_verhalten = Median der DOSPERT Skala zum Risikoverhalten mit einer Skala von 1 (sehr unwahrscheinlich) bis 7 (sehr wahrscheinlich); Dospert_wahrnehmung = Median der DOSPERT Skala zur Risikowahrnehmung mit einer Skala von 1 (überhaupt kein Risiko) bis 7 (sehr hohes Risiko); Dospert_nutzen = Median der DOSPERT Skala zum Risikonutzen mit einer Skala von 1 (gar kein nutzen) bis 7 (sehr hoher Nutzen).
Mittlere Lösungswahrscheinlichkeit: Bildung_pre = Mittlere Lösungswahrscheinlichkeit über alle Fragen vor der Intervention; Bildung_post = Mittlere Lösungswahrscheinlichkeit über alle Fragen nach Intervention; Bildung_gesamt = Mittlere Lösungswahrscheinlichkeit insgesamt.

Bitcoin Aktienkurs

Preise der Bitcoin Aktie zwischen Januar 2019 und Dezember 2020 mit 731 Einträgen.

Spalten: Datum = Datum der Preismessung; Preis = Preise der Aktie zu einem bestimmten Datum in Euro.

Radiochemotherapie

450 erfundene PatientInnen mit einer Krebserkrankungen (malignen Neoplasie) wurden in Hinblick auf verschiedene Aspekte untersucht. Die Variablen wurden mithilfe des simstudy Packages simuliert.

Demographische Variablen: Alter = Lebensalter in Jahren (Simulation: Normalverteilung mit Mittelwert von 45 und Varianz von 20); Geschlecht = Biologisches Geschlecht mit “f” für Frauen und “m” für Männer.
Fragebögen: Lebensqualitaet = Fragebogenergebnis zur Lebensqualität auf einer Skala von 1 (keine Lebensqualität) bis 10 (absolute Zufriedenheit). (Simulation: Korrelation mit Schmerzen durch \(\rho\) von -0.6); Schmerzen = Fragebogenergebnis zur subjektiven Schmerzintensität auf einer Skala von 1 (keine Schmerzen) bis 10 (unterträgliche Schmerzen).
Leukoyzten: Leukos_t0 = Leukozytenanzahl (E9/L) bei Therapiebeginn (Simulation: Normalverteilung mit 1.01xLeukos_t6); Leukos_t6 = Leukozytenanzahl (E9/L) sechs Monate nach Therapiebeginn (Simulation: Normalverteilung mit 6.02 + 0.01xGeschlecht - 0.02xBehandlung mit einer Varianz von 0.1).
Infektionsvariablen: Infektionen = Anzahl an Infektionen innerhalb von 2 Jahren (Simulation: Negative Binomialverteilung mit 1 + 0.3xBehandlung + 0.02xAlter und einer Varianz von 0.4); Stationaer = Stationärer Krankenhausaufenthalt (Simulation: Binomialverteilung mit 0.08 - 0.003xGeschlecht + 0.01xInfektionen); Komorb = Komorbiditäten: Keine, Lunge, Herz, Gehirn (Simulation: Multinomialverteilung mit den Wahrscheinlichkeiten 0.6;0.15;0.15;0.1 für keine; Lunge; Herz; Gehirn); Beob_zeit = Beobachtungszeit der PatientInnen innerhalb von 15 Jahren (Simulation: Weibull Verteilung mit 1.2xBehandlung - .7xGeschlecht, scale = 50 und shape = 0.5); Status = 0: zensiert (ausgeschieden aus der Studie), 1: Tod (Simulation: Simulation: scale = 20, shape = 1).

SARS-CoV-2 Diagnostik

Kontingenztafel des Vergleichs der diagnostischen Qualität zwischen PCR-Test und Antigen-Schnelltest.

Spalten: PCR = Positives oder negatives Ergebnis des PCR-Tests. Ein positiver Test entspricht einer sicheren Diagnose einer SARS-CoV-2 Infektion; Schnelltest = Positives oder negatives Ergebnis eines Antigen-Schnelltests.

Eye Tracking

Vergleich von zwei Eye Tracking Studien zur Untersuchung der Anzahl fixierter Gesichter in Abhängigkeit der Informationsdichte.

Spalten: Gesichter = Anzahl fixierter Gesichter; Dichte = Gezeigte Informationsdichte; Studie = Study 1 oder Study 2.

IQ und Kreativität

Studie zur Erfassung des Zusammenhangs zwischen Intelligenz und Kreativität an verschiedenen Messzeitpunkten.

Spalten: ID = Personenidentifikationsnummer; Zeitpunkt = Messzeitpunkt; Gruppe = Experimentalgruppen; IQ = Durchschnittlicher Intelligenzquotient; Kreativitaet = Erfundener Score zur Messung der Kreativität

Musikstreaming Nutzerstatistik

Ein Datensatz mit den 50 am meisten gehörten Liedern eines Nutzers in einem bestimmten Zeitraum auf einer Musikstreaming Plattform.

Spalten: Lied = Name des Liedes; Interpret = Name des Interpreten; Album = Name des Albums; Anzahl = Anzahl der Lieder auf dem jeweiligen Album; Bekanntheit = Index zur Quantifizierung der Bekanntheit; Release = Veröffentlichungsdatum des jeweiligen Albums oder Liedes

Videostreaming Nutzerstatitstik

Die Nutzerstatistik eines Users beim Film- und Serienschauen auf einer Videostreaming Plattform.

Spalten: Titel = Names des Filmes oder der Serie; Staffel = Staffelnummer; Folge = Name der Folge; Watchdate = Datum, an dem der Titel geschaut wurde. Beachte, dass aus didaktischen Gründen bewusst das falsche Datenformat vorliegt.

Fußballwetten

Tipps von sechs verschiedenen Personen zur Fußball Weltmeisterschaft 2018.

Spalten: Thomas_bayes = Tipps von Thomas Bayes; Egon_pearson = Tipps von Egon Pearson; Jerzy_neyman = Tipps von Jerzy_Neyman; Alice = Tipps von Alice; Bob = Tipps von Bob; Charlie = Tipps von Charlie; Ergebnis = Wahres Ergebnis des Spiels.

Literaturverzeichnis

Cunningham, S. (2021). Causal inference: The mixtape. Yale university press.

Fahrmeir, L., Heumann, C., Künstler, R., Pigeot, I., & Tutz, G. (2016). Statistik: Der Weg zur Datenanalyse (8th ed.). Springer.

Hernán, M. A., & Robins, J. M. (2020). Causal inference: What if. Chapman & Hall/CRC.

McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan (2nd ed.). Chapman; Hall/CRC.

Vittinghoff, E., Glidden, D. V., Shiboski, S. C., & McCulloch, C. E. (2012). Regression methods in biostatistics: Linear, logistic, survival, and repeated measures models (2nd ed.). Springer.

Wickham, H. (2019). Advanced R (2nd ed.). CRC press.

Xie, Y., Allaire, J. J., & Grolemund, G. (2018). R markdown: The definitive guide. CRC Press.

Verwendete Softwareversionen

Zur Erstellung dieses Buches wurden R 4.4.1 und RStudio 2024.9.1.394 verwendet. Die geladenen Packages sind wie folgt:

Tabelle 12.1: Packageliste Teil 1.
Package	Version
forcats	1, 0, 0
stringr	1, 5, 1
dplyr	1, 1, 4
purrr	1, 0, 2
readr	2, 1, 5
tidyr	1, 3, 1
tibble	3, 2, 1
tidyverse	2, 0, 0
remp	1, 0, 3
RColorBrewer	1, 1, 3
scales	1, 3, 0
emmeans	1, 10, 2
VGAM	1, 1, 11
splines	4, 4, 1
stats4	4, 4, 1
afex	1, 3, 1
lme4	1, 1, 35, 3
Matrix	1, 7, 0
car	3, 1, 2
carData	3, 0, 5
effectsize	0, 8, 9
correlation	0, 8, 6
sloop	1, 0, 1

Tabelle 12.2: Packageliste Teil 2.
Package	Version
here	1, 0, 1
patchwork	1, 3, 0
janitor	2, 2, 0
xtable	1, 8, 4
broom	1, 0, 6
lubridate	1, 9, 3
knitr	1, 49
rio	1, 1, 0
MASS	7, 3, 60, 2
see	0, 9, 0
corrplot	0, 92
ggsci	3, 1, 0
ggfortify	0, 4, 17
ggridges	0, 5, 6
ggplot2	3, 5, 1
ggsurvfit	1, 1, 0
survival	3, 7, 0
stats	4, 4, 1
graphics	4, 4, 1
grDevices	4, 4, 1
utils	4, 4, 1