Erstellung eines öffentlichen Datensatzes für die Untersuchung maschineller Lernverfahren in der psychosozialen Online-Beratung. Ein kooperatives Projekt der Fakultät für Informatik, Prof. Jens Albrecht und des Instituts für E-Beratung, Fakultät Sozialwissenschaften, Prof. Robert Lehmann. (Gefördert durch Vorlaufforschungsmittel der TH Nürnberg 2023)
Ziel des Projektes ist die Erstellung und Veröffentlichung eines ersten deutschsprachigen Datensatzes für die Inhaltsanalyse in der psychosozialen Beratung. Er soll frei verfügbare Trainingsdaten bieten, mit denen entsprechende Modelle erforscht werden können. Außerdem soll auch eine bereits trainierte Klassifikation publiziert werden, die direkt für die Textkategorisierung eingesetzt und als Benchmark für andere Modelle genutzt werden kann. Dafür werden inhaltliche Kategorien definiert und Daten gelabelt (z.B. “Mitgefühl”, “Reflexion”, “offene Frage”).
Dieser Datensatz wird nach Veröffentlichung den englischen Namen GECCo (German E-Counseling Conversations Dataset) tragen.
Ergebnisse
Die aufbereiteten Daten sind als csv-Dateien veröffentlicht:
https://github.com/th-nuernberg/gecco-dataset
Das Modell liegt einsehbar zum Testen bereit:
https://huggingface.co/th-nuernberg/gbert-large-german-counseling-gecco
Rechts bei “Inference API” ein Beispiel auswählen oder einen eigenen Text eingeben und “Compute” drücken. Probieren Sie es mal aus!
Der Abschlussbericht ist veröffentlicht:
Albrecht, Jens; Lehmann, Robert; Poltermann, Aleksandra (2024). GeCCo 1.0 – Erstellung eines öffentlichen Datensatzes für die KI-basierte Inhaltsanalyse in der Online-Beratung. Abschlussbericht 2023. Schriftenreihe der Technischen Hochschule Nürnberg Georg Simon Ohm. https://doi.org/10.34646/thn/ohmdok-1389
Studentische Arbeit
- Konzeption und Aufbau eines Daten-Pools für Analyse- und Trainingsdaten einschließlich Möglichkeiten zur Datenkatalogisierung, Suche und rechtebasierter Zugriffsteuerung. Andreas Bendheimer (BA 2023, Wirtschaftsinformatik: Prof. Dr. Jens Albrecht)
- Analyse und Training von Transformer-Modellen für die Kategorisierung von Dialog-Daten aus der psychosozialen Beratung. Jens Altstädter (BA 2023, Informatik: Prof. Dr. Jens Albrecht)