Heinrich-Heine-Universität Network-Analysis 

 Datenbankauswahl:
Mit welcher PSYNDEX-Datenbank möchten Sie arbeiten?
Best-Guess-Author-Merging (empfohlen)
 
mit Autoren-Verdachtskanten
(aktiv)
PSYNDEX-Original
 
  Was ist der
  Unterschied?


Home

Analyse-Tools

Statistiken

Sonstiges

 

Herzlich willkommen in der kleinen Welt der Psychologie!

1. Einleitung
2. Analyse-Tools
3. Statistiken
4. Technische Umsetzung
5. Anmerkung

1. Einleitung

Das
Small-World-Phänomen wurde von Stanley Milgram (1967) entdeckt, der in seinen Experimenten Hinweise darauf fand, dass über nur wenige Ecken erstaunlich viele Personen miteinander bekannt und auf diese Weise verbunden sind. Auf diesen Seiten ermöglicht es Ihnen die Abteilung für Diagnostik und Differentielle Psychologie der Heinrich-Heine-Universität Düsseldorf, eine kleine Anwendung des Small-World-Phänomens auf die akademische Psychologie selbst auszuprobieren.

Sie können hier das Small-World-Phänomen anhand der Psyndex-Datenbank untersuchen. In dieser Datenbank werden die Veröffentlichungen von Autoren aus einer Reihe von Fachgebieten - hauptsächlich der Psychologie, aber auch der Medizin, der Pädagogik und der Soziologie - gesammelt und erfasst.

Wir haben die Psyndex-Datenbank in einem Netzwerk abgebildet. Zwei Autoren sind darin miteinander über eine Kante verbunden, falls sie schon einmal zusammen etwas veröffentlicht haben; zwischen diesen beiden besteht dann die Relation Co-Autorschaft. Es existiert eine Verbindung zwischen zwei beliebigen Autoren genau dann, wenn es eine ununterbrochene Kette von Koautorschaften zwischen Ihnen gibt: diese Verbindung kann entweder eine direkte Verbindung sein, oder über eine beliebige Zahl anderer Autoren verlaufen. Die vorliegende Webapplikation modelliert die Autoren als Knoten und die Relationen als Kanten eines Graphen. Die Länge einer Verbindung wird anhand der zu durchlaufenden Kantenanzahl bestimmt. Ist also ein Autor A mit einem Autor C über den Autor B verbunden, so beträgt die Länge der Verbindung 2 (es sind zwei Veröffentlichungen bzw. Kanten notwendig, um die beiden Autoren zu verbinden).

2. Analyse-Tools

2.1 Shortest-Path-Analyse
Die
Shortest-Path-Analyse berechnet die kürzesten Verbindungen zwischen zwei Autoren. Hierzu werden die Autorennamen in die Eingabefelder eingetragen. Der korrekte Autorenname lässt sich aus der automatisch generierten Autovervollständigungs-Tabelle per Mausklick auswählen. Verbindungskanten werden als Pfeile dargestellt, welche zusätzlich eine Nummer enthalten. Die Nummer gibt die Anzahl der gemeinsamen Veröffentlichungen zwischen den jeweiligen Autoren an. Durch Anklicken des Pfeils wird die Artikelansicht aufgerufen, aus welcher die Rohdaten des Artikels zu entnehmen sind. Sofern mehrere Artikel vorhanden sind, kann durch Klicken des rechten oder linken Pfeils die Artikelanzeige vor- bzw. zurückgeblättert werden.

2.2 Co-Autoren-Analyse
Die Co-Autoren-Analyse ermittelt zu einem beliebigen Autor alle Co-Autoren sowie CoCo-Autoren. CoCo-Autoren sind über einen Pfad der Länge zwei miteinander verbunden. Der Pfeil vor den Autorennamen verlinkt auch hier auf die Artikelansicht.

3. Statistiken

3.1 Vernetzung der Komponenten
Unter der Menügruppe Statistiken werden eine Reihe von Kennzahlen zur Datenbank berechnet. Die Seite
Vernetzung gibt Aufschluss über die Gesamtstruktur des Graphen. Der Graph lässt sich in disjunkte Teilgraphen zerlegen, was bedeutet, dass einige Autorengemeinschaften bildlich gesprochen Inseln bilden, die nicht über eine Koautorschaft mit dem Restgraphen verbunden sind. Diese Inseln werden Zusammenhangskomponenten genannt und können von der Außenwelt nicht über eine Kante erreicht werden. Dargestellt wird, wie viele dieser Zusammenhangskomponenten es gibt und wie viele Autoren eine Zusammenhangskomponente ausmachen. Dabei zeigt sich, dass ungefähr 60% aller Autoren der Psyndex-Datenbank in einer einzigen, großen Zusammenhangskomponente enthalten sind, innerhalb derer alle Autoren untereinander vernetzt sind. Über das Eingabefeld auf der rechten Seite können Sie einen Autor auswählen, um festzustellen, in welcher Zusammenhangskomponente er sich befindet. Die jeweilige Komponente wird durch einen roten Pfeil angezeigt.

3.2 Ø-Pfadlängen
Die Seite Mittl. Pfadlänge zeigt für alle Autoren ein Histogramm, das ihre durchschnittlichen, kürzesten Weglängen zu jeweils allen anderen Autoren darstellt. Voraussetzung für diese Berechnung ist, dass zwischen je zwei beliebigen Autoren ein Weg existiert. Daher wurde das Histogramm über der Hauptzusammenhangskomponente, welche den größten Anteil aller Autoren umfaßt, erstellt. Zwei Autoren, die über eine Koautorschaft miteinander verbunden sind, haben darin eine Entfernung von 1, weil sie mit einer einzigen Kante verbunden werden können. Der durchschnittlich kürzeste Weg zwischen zwei beliebigen Autoren beträgt ungefähr 6,7. Das bedeutet, dass im Mittel nur knapp 7 Veröffentlichungen notwendig sind, um zwei beliebige, zufällig herausgegriffene Autoren über Co-Autorschaften miteinander zu verbinden. Diese Ergebnis spricht für eine - aus wissenschaftlicher Sicht wünschenswerte - hohe Vernetzung innerhalb der akademischen Psychologie. Interessant ist auch die durchschnittliche, kürzeste Weglänge eines einzelnen Autors zu allen anderen Autoren. Hierzu wurde ein Ranking erstellt, das die am besten verknüpften Autoren aufführt, welche im Mittel zu allen anderen Autoren in der Datenbank die kürzeste Weglänge aufweisen (vertreten sind darin narürlich vor allem Autoren, die schon viel und mit vielen Koautoren publiziert haben). Als Dateidownload im ASCII-Format gibt es das komplette Ranking sowie die Liste in alphabetischer Sortierung.

3.3 Co-Autoren-Statistik
Die Co-Autoren Statistik zeigt die durchschnittliche Anzahl an Co-Autoren bzw. CoCo-Autoren bezogen auf den Gesamtgraphen. Zum Dateidownload wird ein Ranking über die Anzahl an Co-Autoren zu jedem Autor angeboten.

3.4 Publikationen
Der Menüpunkt Publikationen informiert über die Anzahl an Publikationen pro Autor. Es wird der Gesamtdurchschnitt über alle Autoren berechnet und eine Tabelle zum Download angeboten, die jeden Autor mit seiner Publikationenanzahl erfasst.

4. Technische Umsetzung

Ein erster Modellierungsschritt ist die Repräsentation der Psyndexdatenbank als Graph, in dem Autoren durch Knoten und Co-Autorschaften durch Kanten dargestellt werden. Dieser Graph dient als Datenbasis für die
Shortest-Path und Co-Autoren Analyse und kann, da auf ihm nur Leseoperationen durchgeführt werden, von mehreren Benutzern gleichzeitig für Berechnungen verwendet werden.

Um die statistischen Auswertungen zu beschleunigen, wurde die PSYNDEX-Datenbank außer in einem Suchgraphen auch in eine POSTGRE-SQL Datenbank eingespeist.

Die PSYNDEX Datenbank beinhaltet insgesamt derzeit (Stand: 06/2008) 107672 verschiedene Autorennamen, die nach Anwendung unserer Verschmelzungsalgorithmen zur Verbesserung der Datenqualität (durch Vermeidung von Autorendoppelungen) auf tatsächlich 98371 verschiedene Autoren abgebildet werden. Die Gesamtanzahl der Artikel in der PSYNDEX Datenbank beträgt zur Zeit 217892.

Die Shortest-Path Analyse entspricht einer Breitensuche auf dem Graphen, bei der alle gefundenen kürzesten Wege als Ausgabe geliefert werden. Anhand der Breitensuche lassen sich darüber hinaus Größe und Anzahl der verschiedenen Zusammenhangskomponenten berechnen, die unter dem Menüpunkt Vernetzung betrachtet werden können.

Die Berechnung der durchschnittlichen Pfadlänge von jedem Autor zu allen anderen Autoren in der Hauptkomponente (~52.000 Autoren) nahm auf einem AMD Athlon 3000+, 2 GHz, 2GB RAM letztendlich 3 Stunden in Anspruch. Die Ergebnisse dieser Auswertung sind unter Mittl. Pfadlänge zu finden.

Um den Suchvorgang nach Autoren zu erleichtern, werden mit Hilfe des Ajax-Programmierkonzepts aus den eingegebenen Anfangsbuchstaben automatisch Autorennamenvorschläge generiert. Auf diese Weise ist lokal eine "live"-Suche nach Autorennamen möglich, ohne dass große Datenmengen an den Browser geschickt werden müssen (denn der komplette Datensatz verbleibt auf dem Server, und es werden lediglich die zu den eingegebenen Anfangsbuchstaben passenden Namen an den Benutzer geschickt). Die Tastatureingabe löst eine JavaScript-Funktion aus, die den Abruf der Daten vom Server ohne vollständiges Neuladen der HTML-Seite ermöglicht.

Der Suchgraph wurde mit Hilfe verketteter Listen so optimiert, dass die Suchzeit nach dem kürzesten Weg zwischen zwei Autoren mit Hilfe einer Breitensuche auf dem Graphen minimiert wird.

5. Anmerkung

Aufgrund inkonsistenter Schreibweisen und z.T. uneinheitlich verwendeter Abkürzungen (wie Aaker, David und Aaker, David-A.) bieten wir Ihnen an, in drei unterschiedlichen Interpretationen der Psyndex-Datenbank zu recherchieren. Diese können am oberen Bildschirmrand ausgewählt werden (PSYNDEX-Datenbankauswahl). Für eine genaue Beschreibung der Unterschiede zwischen den Datenbanken klicken Sie bitte
hier.


Viel Spaß beim Recherchieren wünschen Ihnen

Jochen Musch & Dennis Winter




Literatur:

Milgram, S. (1967). [The Small World Problem]. Psychology Today, Mai, 60-67.

Watts, D.J. (2004). [ Six Degrees: The Science of a Connected Age.] New York: Norton.


Links:

Das Kleine-Welt-Phänomen in der Wikipedia

Das Small-World-Projekt an der Columbia University

.