/*

Originalpaper: Bzdok, D. and Yeo, B.T., 2017. Inference in the age of big data: Future perspectives on neuroscience. Neuroimage, 155, pp.549-564.

Zusammenfassung von A. Bonkhoff

Inhaltliche Zusammenfassung:

Über 100 Jahre basierten Forschungsergebnisse zumeist auf Studien von überschaubarer Größe, in denen jeweils eine kleine Anzahl an Messvariablen erhoben wurde. In den letzten Jahren hingegen entstanden immer größere biomedizinische Datensätze, beispielhaft sei hier die britische Langzeitstudie UK Biobank mit 500.000 Teilnehmern und mehr als 1000 Messpunkten pro Individuum genannt. In ihrer Stellungnahme widmen sich Danilo Bzdok und Thomas Yeo der Frage: Wie verändert dieser nie dagewesene Datenreichtum die damit einhergehende Datenanalyse, insbesondere in den Neurowissenschaften?

Im Kern elaborieren sie, warum ihrer Meinung nach in der Zukunft immer mehr nicht-parametrische, generative statistische Modelle zur Anwendung kommen und sowohl frequentistische, als auch bayesianische Aspekte bedacht werden sollten. Dem klassischen Hypothesentest stellen sie die Vorhersage außerhalb der Stichprobe („out-of-sample prediction“) als Inferenzmöglichkeit an die Seite.

Wissenschaft und Wirtschaft sind in den vergangenen Jahren durch die Akquisition immer größerer Datensätze transformiert worden – ein Wandel, der in der Medizin und den Neurowissenschaften gerade erst beginnt und weitreichende Veränderungen, zumal Verbesserungen erzielen könnte: In den USA könnte die Auswertung von Millionen medizinischer Gesundheitsdaten mithilfe moderner Statistikverfahren jährliche Kosten um ~US$300 Billionen senken, in Großbritannien und Nordirland könnten auf ähnliche Weise £16 - £66 Billionen eingespart werden.

Neben der bedingungslosen Verfügbarkeit von hochqualitativen, großen Datensätzen ist entscheidend, wie Neurowissenschaftler diese Daten auswerten können. Denn: In wie fern verhelfen mehr Daten dazu, neuartige Hypothesen artikulieren und neue Antworten finden zu können? Bzdok und Yeo fordern eine zukünftige Verschmelzung von neurowissenschaftlichen und statistischen Denkstilen.

Die Weiterentwicklung von Auswertungsmethoden könnte ihrer Meinung nach Erkenntnisse und Interventionen auf der Ebene eines Individuums und einhergehend damit eine personalisierte Medizin ermöglichen. So könnten nicht nur Gruppenunterschiede benannt, sondern i) eine frühere Diagnose, ii) der Krankheitsverlauf, und iii) das Therapieansprechen für einzelne Patienten vorhergesagt werden.

In diesen Zusammenhang ist es essentiell, den Unterschied zwischen klassischer statistischer Inferenz und „out-of-sample prediction“ zu bedenken. Die klassische Inferenz betrachtet zwei sich gegenseitig ausschließende Hypothesen und versucht die Nullhypothese basierend auf einem p-Wert zu wiederlegen. Eine Weiterentwicklung der Hypothesen erfolgt durch zahlreiche Verifizierungs- und Falsifikationsschritte gemäß Poppers “Logik der Forschung”.
Nun ist zu beachten, dass die Methoden der klassischen Inferenz vor etwa 100 Jahren entwickelt wurden, als die Größe der Datensätze eine andere war. In Daten-reichen Szenarien werden p-Werte automatisch niedriger, da selbst kleine Effekte durch eine große Gruppenzahl signifikant werden.

Die „out-of-sample prediction“ ist vergleichsweise jung. Eine kurze Erläuterung dieses Ansatzes: Zunächst versucht man, eine zugrundeliegende komplexe Struktur in einem Datensatz automatisch zu lernen und den Lernerfolg im Anschluss an bisher nicht gesehenen Beispielen auszuwerten. Können diese vorhergesagt werden?
Während bei der klassischen Inferenz meist Aussagen auf Gruppenebene getroffen und ein retrospektiver Blickwinkel eingenommen wird, stehen bei der „out-of-sample prediction“ die Aussagen über ein einzelnes Beispiel (im medizinischen Kontext: ein einzelner Patient) im Zentrum, die Ausrichtung ist prospektiv.
Die Entstehung immer größerer Datensätze und immer höhere Rechenkapazitäten ermöglichen darüber hinaus die großflächige hochqualitative Anwendung komplexer generativer Modelle, wie zum Beispiel die probabilistische Unabhängigkeitsanalyse („Independent Component Analysis“, ICA) oder „Dynamic Causal Modelling“ (DCM) und erhöhen dadurch die biologische Interpretierbarkeit von Ergebnissen maßgeblich.
Letztlich führen Bzdok und Yeo aus, dass durch “Big Data” in den Neurowissenschaften nicht nur konzeptuelle, statistische und technische Herausforderungen, sondern auch gesellschaftliche und bildungstechnische entstehen könnten. Im Gegensatz zu Methoden der klassischen Statistik wird Machine Learning bisher nur an wenigen Universitäten gelehrt – als globales Phänomen könnte sich ein Mangel an Data scientists bemerkbar machen (der sog. „Talent gap“). Eine Besonderheit ist zudem die Angleichung der Anforderungen an (Neuro-)Wissenschaftler und in der Industrie tätigen Data scientists. Höhere Gehälter und bessere Arbeitsbedingungen könnten zukünftige Neurowissenschaftler daher mehrheitlich in die Industrie locken („Big data brain drain“).
Daher fordern die Autoren einen Aktionsplan, um brillante Köpfe in der Wissenschaft zu halten und die Kenntnisse der angehenden Neurowissenschaftler auch in der Statistik und Programmieren zu steigern.

(Kondensierte) Zusammenfassung der methodischen Hintergründe:

Im Analyse-Alltag müssen zahlreiche Entscheidungen getroffen werden, um eine finale statistische Herangehensweise auszuwählen:

Habe ich viele oder wenige Daten (viele: nicht-parametrische, ggf. generative Modelle vs wenige: parametrische)? Möchte ich Gruppenunterschiede finden (klassischer Hypothesentest) oder womöglich Aussagen auf der Ebene von Individuen treffen („out-of-sample prediction“)? Daran anknüpfend: Möchte ich neue Werte insbesondere vorhersagen können (a.e. Diskriminative Modelle) oder etwas über die zugrunde liegenden biologischen Prozesse lernen (a.e. Generative Modelle)?

Daher sollte eine genaue Kenntnis der zur Verfügung stehenden Methoden für wissenschaftlich tätige Ärzte von zentraler Bedeutung sein (unabhängig, ob in den bildgebenden Neurowissenschaften, der Genetik oder im tierexperimentellen Bereich).

Parametrische Modelle

Nicht-parametrische Modelle

versuchen eine zugrundeliegende Datenstruktur aufzufangen, die sich mit einer festen Anzahl an Modellparametern repräsentieren lässt

treffen typischerweise schwächere Annahmen über die Datenstruktur

versprechen interpretierbare Ergebnisse, eine leichte Implementierung und schnellere Schätzbarkeit

die Modell-Komplexität ist Daten-getrieben, die Modellstruktur kann sich flexibel anpassen

oft beste Wahl, wenn nur wenige Daten vorhanden sind

sind viele Daten vorhanden, könnten sie durch komplexere Datenrepräsentationen die Entdeckung von neuen neurobiologischen Einsichten ermöglichen, „they allow data to speak for themselves“ (Gharamani, 2015)

Beispiele: Methode der kleinsten Quadrate (Ordinary Least Squares, OLS), Generalisierte lineare Modelle (General linear model, GLM), Gaussian mixture models, linear support vector machines (linear SVMs), Hauptkomponentenanalyse (principal component analysis, PCA), Unabhängigkeitsanalyse (Independent Component Analysis, ICA), Faktorenanalyse (factor analysis), classical canonical correlation analysis (CCA), k-means clustering, regularisierte Regressionsmodelle (i.e. Lasso, elastic net, ridge regression)

Beispiele: random forests, boosting, nearest-neighbor algorithms, Gaussian process methods, kernel support vector machines, kernel Hauptkomponentenanalyse (kernel PCA), kernel Unabhängigkeitsanalyse (kernel ICA), generalized additive models, hierarchical clustering

 

Diskriminative Modelle

Generative Modelle

versuchen eine direkte Funktion zu finden, die Features x auf die Zielvariable y projizieren (i.e., y = f(x))

schätzen zunächst die gemeinsame Wahrscheinlichkeitsverteilung P(x,y), um anschließend die Vorhersage von y (i.e. P(y|x)) über das Bayes Theorem zu erhalten, durch die Berechnung von P(x,y) können synthetische, bisher nicht beobachtete Beispieldaten erzeugt werden

werden oft benutzt, um eine optimale Vorhersage zu treffen

können auch benutzt werden, um Vorhersagen zu erstellen, aber ermöglichen darüber hinaus eine detailliertere Einsicht der zugrunde liegenden Prozesse, eine bessere Interprätierbarkeit

 

benötigen mehr Daten und mehr Computerresourcen

Beispiele: logistic regression, support vector machines, decision-tree algorithms (random forests, gradient boosted trees), viele neuronale Netzwerkalgorithmen

Beispiele: linear and quadratic discriminant analysis, Naive Bayes, hidden Markov models, Gaussian mixture models, latent Dirichlet allocation, dictionary learning methods, lineare Faktorenmodelle, ICA, PCA, probabilistic canonical correlation analysis, viele nicht-parametrische Modelle, bestimmte modern Neuronale Netze (z.B. Autoencoder)

Lineare Regression: kann diskriminativ oder generativ sein

 

Frequentistische Ansätze

Bayesianische Ansätze

Modellparameter: feste, unbekannte Konstanten, werden durch numerische Optimierung der Maximum Likelihood als Punktwert (point estimtate) geschätzt

Schätzung der Modellparameter und ihrer Unsicherheit über die Berechnung der A-Posteriori-Wahrscheinlichkeitsverteilung (posterior distribution) und Marginalisierung

Vermeidung von handselektierten Vorannahmen (Prior) der Modellparameter, dadurch Untersucher-unabhängig

Vorannahmen (Prior) der Modellparameter werden spezifiziert, dadurch gewisse Subjektivität und Abhängigkeit von Domänenwissen

weniger rechenintensiv

rechenintensiv

Im Allgemeinen ist der Übergang zwischen den beiden statistischen Ansätzen fließend und oftmals können frequentistische Probleme zu bayesianischen umformuliert werden und bayesianische zu frequentistischen.

 

Weiterführende Lektüre für ein „Data science“ Eigenstudium:

  • James, G., Witten, D., Hastie, T. and Tibshirani, R., 2013. An introduction to statistical learning(Vol. 112). New York: springer.
    • Link: http://www-bcf.usc.edu/~gareth/ISL/
    • Bietet eine gute und intuitiver verständliche Übersicht über die grundlegenden Ideen von Machine learning, ergänzt mit Beispielen in R.
  • Coursera: Machine learning by Andrew Ng (Standford University)
    • Link: https://www.coursera.org/learn/machine-learning
    • Im Rahmen dieses Moocs („massive open online course“) lehrt Andrew Ng, einer der Gründer des Online Bildung Unternehmens Coursera, mit Hilfe von Videos und kleinen Programmieraufgaben in Octave (ähnlich zu Matlab) die Grundsätze von Machine Learning.
  • Scikit-learn
    • Link: http://scikit-learn.org/stable/
    • Scikit-learn ist eine offen zugängliche Machine learning Bibliothek in der Python Programmiersprache, die zahlreiche implementierte Algorithmen zur Klassifikation, Regression oder zum Clustering in Kombination mit einer detaillierten Dokumentation anbietet.

Weiterführende, vertiefende Lektüre:

Journalbeiträge:

  • Arbabshirani, M.R., Plis, S., Sui, J. and Calhoun, V.D., 2017. Single subject prediction of brain disorders in neuroimaging: promises and pitfalls. NeuroImage, 145, pp.137-165.
  • Halevy, A., Norvig, P., Pereira, F., 2009. The unreasonable effectiveness of data. Intell. Syst., IEEE 24, 8–12.
  • Haufe, S., Meinecke, F., Görgen, K., Dähne, S., Haynes, J.-D., Blankertz, B., Bießmann, F., 2014. On the interpretation of weight vectors of linear models in multivariate neuroimaging. NeuroImage 87, 96–110.
  • Stephan, K.E., Schlagenhauf, F., Huys, Q.J.M., Raman, S., Aponte, E.A., Brodersen, K.H., Rigoux, L., Moran, R.J., Daunizeau, J., Dolan, R.J., 2017. Computational neuroimaging strategies for single patient predictions. NeuroImage 145, 180–199.
  • Varoquaux, G., Raamana, P.R., Engemann, D.A., Hoyos-Idrobo, A., Schwartz, Y. and Thirion, B., 2017. Assessing and tuning brain decoders: cross-validation, caveats, and guidelines. NeuroImage, 145, pp.166-179.
  • Yarkoni, T. and Westfall, J., 2017. Choosing prediction over explanation in psychology: Lessons from machine learning. Perspectives on Psychological Science, 12(6), pp.1100-1122.

Bücher:

  • Bishop, C.M., 2006. Pattern Recognition and Machine Learning. Springer, Heidelberg.
  • Efron, B., Hastie, T., 2016. Computer-Age Statistical Inference. Cambridge University Press.
  • Goodfellow, I., Bengio, Y., Courville, A., 2016. Deep Learning. MIT Press, USA.
  • Hastie, T., Tibshirani, R., Friedman, J., 2001. The elements of statistical learning. Springer Ser. Stat., (Heidelberg, Germany).
  • Shalev-Shwartz, S., Ben-David, S., 2014. Understanding Machine Learning: From Theory to Algorithms. Cambridge University Press.

DGN logo 2018 vert 400

 

*/
Wir nutzen Cookies, um die Zugriffe auf unserer Webseite zu analysieren. Sie können dem jederzeit widersprechen. Weitere Hinweise und die Möglichkeit zum Opt-out finden Sie in der Datenschutzerklärung.
Datenschutzerklärung Ok