VdM #7 – An Explorable Explainer
besprochen von Jane Momme
K-Means Clustering
An Explorable Explainer von Yi Zhe Ang
Die meisten theoretischen Beschreibungen lassen mathematische Vorgehensweisen nur schwer innerhalb der eigenen Vorstellungskraft lebendig werden. Jedoch gelingt Yi Zhe Ang durch seine Übersetzung des K-Means Algorithmus in einen sogenannten Explorable Explainer genau das: Er verschafft einem abstrakten logischen Konzept Lebendigkeit. Mit seiner Visualisierung lädt er Nutzerinnen und Nutzer ein, Veränderung selbst herzuleiten. Deshalb haben wir den Explorable Explainer von Yi Zhe Ang als unsere Visualisierung des Monats #7 ausgewählt.
Spurensuche in wissenschaftlichen Daten
Auf der Suche nach verborgenen Strukturen in ihren Daten bedienen sich Wissenschaftlerinnen und Wissenschaftler auch einer Methode, die man als Clustering versteht. Hierbei geht es darum, in einem Datenset zusammengehörende Gruppen zu identifizieren, die sich aufgrund von bestimmten Merkmalen klar von anderen Gruppen unterscheiden lassen. In der Regel wird auf größtmögliche Gleichheit innerhalb derselben Gruppe und größtmögliche Unterschiede zwischen verschiedenen Gruppen geclustert. Clustering kommt in ganz unterschiedlichen Disziplinen zum Einsatz, von Machine Learning bis hin zur psychologischen Marktforschung.
Der K-Means Algorithmus
Eine Möglichkeit, um Clustering effizient durchzuführen, ist der sogenannte K-Means Algorithmus. Die Daten lassen sich hier in eine Anzahl ausgewählter Gruppen einordnen, deren Anzahl vorab festgelegt wird – die sogenannten Cluster. Dem K-Means Algorithmus liegt zu Grunde, dass er versucht die Distanz zwischen Datenmerkmalen und einem festgelegten zentralen Punkt im jeweiligen Cluster solange zu verringern, bis die richtige Gruppe für jeden einzelnen Datenpunkt ermittelt wurde (Yu et al., 2020).
Explorable Explanation Designs: Eine Einladung selbstständig in Konzepte einzutauchen
Explorable Explanation Designs sind interaktive und informative Darstellungsformate eines gewählten Konzepts. Dieses erkunden die Nutzenden anhand der ihnen zugrunde liegenden Computersimulationen selbständig. Ziel der Designs ist es oftmals, eine aktive und spielerische Art der Informationsaneignung zu ermöglichen. Am Beispiel des K-Means Clustering Algorithmus gelingt Yi Zhe Ang das sehr eindrucksvoll: Durch die unmittelbare und spontane Reaktivität der Visualisierung auf jede Mausbewegung sind die Nutzerinnen und Nutzer plötzlich Teil eines interaktiven und gar spielerischen Prozesses. Alle sonst so unsichtbaren Rechenschritte des K-Means Algorithmus macht die Visualisierung sichtbar und schafft durch diese Sichtbarkeit eine neue Art von Verständnis. Selbst in die Welt des K-Means Algorithmus tauchen, können Interessierte hier.
Komplexe Inhalte interaktiv Entdecken und Verstehen
Insbesondere für Lernende scheint dieses Designformat des Explorable Explainers besonders wertvoll. Da der Algorithmus sich durch unsere Scrollbewegung sowie eigene Angaben vor unseren Augen verändert, macht er uns selbst zu Entdeckerinnen und Entdeckern. Der Explainer kann fortschreiten und berechnen, jedoch auch zurückgehen und nochmal veranschaulichend erklärbar machen, was zuvor vielleicht noch Fragen aufgeworfen hat. Im Falle des Clustering-Prozesses mit K-Means wird dies zum Beispiel am Einfluss sogenannter Ausreißer erkennbar: Bei Ausreißern handelt es sich um Datenpunkte, die sich signifikant vom Rest der gesammelten Beobachtungen unterscheiden. Aus der Theorie ist bekannt, dass der K-Means Algorithmus sehr anfällig für den Einfluss von Ausreißern ist. Wenn sie nicht berücksichtigt werden, können sie auf einmal ihre eigenen Cluster bilden (Yu et al., 2020). Letzteres ist jedoch statistisch nicht gewünscht und kann infolgedessen zu fehlerhaften Ergebnissen führen.
Obwohl der Einfluss von Ausreißern theoretisch gut unterlegt ist, ist die tatsächliche Auswirkung von Ausreißern erst einmal wenig greifbar. Es erscheint abstrakt sich vorzustellen, wie groß oder klein der Einfluss eines solchen Datenpunktes auf den Clustering-Prozess sein kann. Innerhalb des K-Means Explorable Explainers ist jedoch genau das möglich. Die Nutzenden können Ausreißer selbst positionieren und beobachten, wie sich die Verteilung der Cluster in Abhängigkeit davon verändert, wie stark sich der einzelne Datenpunkt von den anderen Observationen unterscheidet. Statistische Abstraktheit erwacht so vor unseren eigenen Augen zum Leben und verwandelt sich in erkundbare und damit nachvollziehbare Konkretheit.
Gekonntes Zusammenspiel von Sprache und Design
Die schriftlich dargelegten Erklärungen an der Seite der Visualisierung komplementieren den Informationscharakter des Designs. Sie greifen die durch die pastelligen Farben hergestellte sanfte Verspieltheit im Sprachduktus durch einen humorvollen, aber dennoch klar verständlichen Ton auf. Die eventuell sonst aufdringlich erscheinende Aufforderung mathematisch verstanden werden zu müssen, die der Algorithmus bei Lernenden möglicherweise hervorrufen kann, wird durch die farbliche Gestaltung und das leicht bedienbare Interface in eine sanfte Einladung transformiert, eigenständig die Welt des K-Means Algorithmus zu erkunden.
Individuelle Einstellungen berücksichtigen Nutzungsvorlieben
Darüber hinaus ermöglicht uns Yi Zhe Ang, die Erlebniswelt des K-Means Algorithmus ganz und gar auf die eigenen Vorlieben abgestimmt zu erkunden. Die manuell einstellbare Kleinschrittigkeit oder aber auch die Möglichkeit eines schnellen Durchlaufens der interaktiven Visualisierung hängt dabei ganz und gar von der Informationslust und dem gewünschten Tempo der Nutzenden ab. Aus der Perspektive der Wissenschaftskommunikationsforschung schafft Yi Zhe Ang eindrucksvoll ein nutzendenzentriertes Format. Es nimmt auf individuelle Bedürfnisse Rücksicht und reagiert darauf.
Demzufolge ist es nicht verwunderlich, dass Yi Zhe Angs Werk 2022 mit einem Information is Beautiful Award in Silber ausgezeichnet wurde und außerdem den The Pudding Cup ’22 gewonnen hat. Bei der VISxAI 2022 wurde der Explorable Explainer in der Kategorie Best Submission prämiert.
Literatur:
Yu, H., Wen, G., Gan, J., Zheng, W. & Lei, C. (2020). Self-paced Learning for K-means Clustering Algorithm. Pattern Recognition Letters, 132, 69–75.
Alle Bilder © Yi Zhe Ang
Hier direkt zum Explorable Explainer
Über die Visualisierung des Monats
In der Serie „Visualisierung des Monats“ stellen wir jeweils am zweiten Mittwoch des Monats eine herausragende Visualisierung vor. Ein Kriterium bei der Auswahl ist, inwieweit diese aus Design-Perspektive ästhetisch und emotional ansprechend ist. Außerdem schauen wir uns den Informationsgehalt an. Dazu gehört auch, wie die Nutzerinnen und Nutzer der Visualisierung dabei unterstützt werden, komplexe Zusammenhänge besser zu verstehen. Die Auswahl erfolgt innerhalb des KielSCN-Teams und bezieht das Fachwissen aus den Bereichen Informationdesign, Bildungswissenschaften und Emotionsforschung sowie der Wissenschaftskommunikationsforschung ein.