Projekte

Textmining und Sprachverarbeitung - Hochschule Hannover

Forschungsprojekte:


LernMINT: Modellierung von Erwerb und Nutzung von Fachsprache im Physikunterrricht

LernMINT
Beschreibung: Promotionsstipendium im Rahmen des Promotionskollegs LernMINT. In den MINT-Fächer gehört das Schreiben von Versuchsprotokollen zu den fachsprachlich anspruchsvollen Aufgaben, deren Progression von der 5. bis 13. Klassenstufe in der Schule angestrebt wird. Die Nutzung maschineller Auswerteverfahren und der Modellierung der Lernprogression kann hier die Lehrkraft bei der Korrektur und der individuellen Förderung unterstützen. Der fachspezifischen Terminologie kommt dabei eine besondere Bedeutung zu. Im Projekt soll für die Physik über den Aufbau einer schulbezogenen Terminologiesammlung und die Verwendung von Verfahren wie künstlichen neuronalen Netzen eine anwendungsorientierte Auswertung von Protokollen erzielt werden. Der Transfer der gewonnenen Erkenntnisse von der Physik auf andere MINT-Fächer wird angestrebt.

LernMINT: Webseite des Promotionsprogramms

Beteiligte: Prof. Dr. Christian Wartena, Prof. Dr. Gunnar Friege, Vitor Lécio Fontanella M.Sc.




Extraktion von juristischen Verweisstrukturen: Intertextualität in Gesetzen, Kommentaren und Gerichtsurteilen (JuVer)

Logo JuVer
Beschreibung: In der Rechtswissenschaft spielen Texte eine zentrale Rolle und werden im Kontext weiterer Texte interpretiert. In diesem Projekt sollen Verfahren entwickelt werden, um diese komplexen Zusammenhänge innerhalb und zwischen den Texten explizit zu machen. Das Projekt beinhaltet die Entwicklung einer Pilotanwendung, den Aufbau eines Korpusses aus juristischen Texten und die Analyse der Bezüge zwischen den Verträgen. Dabei werden Methoden aus der künstlichen Intelligenz eingesetzt um Verweise zwischen den Texten systematisch zu erfassen.

Veröffentlichungen:
  • Frieda Josi, Christian Wartena, Ulrich Heid (2021): Identifizierung von häufig vorkommenden Textabschnitten in juristischen Korpora. Manuskript zur Veröffentlichung eingereicht.

  • Frieda Josi, Christian Wartena, Ulrich Heid (2021): Representing Standard Text Formulations as Directed Graphs. Link zur Originalveröffentlichung
    Konferenzbeitrag - eigene Version

  • Frieda Josi, Christian Wartena, Ulrich Heid: Preparing Legal Documents for NLP Analysis: Improving the Classification of Text Elements by Using Page Features Manuskript zur Veröffentlichung akzeptiert (8th International Conference on Natural Language Processing (NATP 2022), Zürich).

  • Frieda Josi, Christian Wartena, Ulrich Heid: Generalisierung von formelhaften Textbestandteilen in juristischen Korpora: Einsatz- und Entwicklungspotential Manuskript zur Veröffentlichung akzeptiert (IRI§22 Internationales Rechtsinformatik Symposion IRIS 2022, Salzburg).

  • Weitere Veröffentlichungen: NLP@HsH ResearchGate
Beteiligte: Prof. Dr. Christian Wartena, Prof. Dr. Fabian Schmieder,
Frieda Josi M.A., Jean Charbonnier M.A.

Informationen: Projektwebseite




Analyse von Erneuerungsverträgen

Beschreibung: In dem Kooperationsprojekt zwischen der Hannover Rück und der Hochschule Hannover soll untersucht werden, wie unternehmensinterne Underwriter beim Prüfen und Bewerten der Risiken in Vertragstexten und insbesondere beim Vergleich von aktualisierten Vertragstexten mit den früheren Versionen mit Methoden aus dem Bereich der automatischen Sprachverarbeitung unterstützt werden können.
Hierzu soll ein Prototyp eines Legal Tech Tools entwickelt werden.

Veröffentlichungen:
Beteiligte: Prof. Dr. Christian Wartena, Prof. Dr. Fabian Schmieder, Frieda Josi M.A.




Verantwortungsvolle KI: Bias in gelernten semantischen Wortrepräsentationen

Verantwortungsvolle KI
Beschreibung: Promotionsstipendium im Rahmen des Promotionskollegs Verantwortungsvolle Künstliche Intelligenz in der Digitalen Gesellschaft. Ziel des Promotionsvorhabens ist es Methoden für die Erstellung und Verwendung von Word Embeddings (gelernte semantische Darstellungen von Wörtern) zu entwickeln, die mit einem Bias im Trainingskorpus umgehen können. Erstens wird untersucht, wie ein Bias in Word Embeddings definiert und erkannt werden kann. Zweitens werden Verfahren entwickelt, um Bias, die es gibt, sichtbar zu machen, zum Beispiel indem die Dimensionen der Wortdarstellungen möglichst explizit gemacht werden und die latenten Repräsentation in explizite überführt werden. Hiermit können Gründe für die Klassifikation eines Wortes oder für eine gefundenen Ähnlichkeit zwischen Wörtern transparent gemacht werden. Drittens soll untersucht werden, in wie fern die Ansätze von Bolukbasi et al. (2016) und Zhao et al. (2018) zur Entfernung von einem Gender-bias verallgemeinert werden können und der Effekt eines beliebigen Bias (Alter, Herkunft, Hautfarbe aber auch Textsorte oder Stil) minimiert werden kann. Hiervon kann eine Anwendung, wie zum Beispiel die Erkennung von beleidigender Sprache profitieren mit dem Ziel die Gefahr, dass beleidigende Sprache vom Algorithmus mit unerwünschten Faktoren assoziiert wird, zu verringern.

Verantworungsvolle Künstliche Intelligenz in der Digitalen Gesellschaft: Webseite des Promotionsprogramms

Beteiligte: Prof. Dr. Christian Wartena, Prof. Dr. Eirini Ntoutsi




Nachnutzung von Open-Access-Abbildungen (NOA)

Beschreibung: Das NOA Projekt entwickelt ein Verfahren um multimediale Open Access Objekte automatisiert zu sammeln, zu erschließen und mithilfe der Wikimedia Commons bereitzustellen. Aktuell befinden sich über 1. Mio. Abbildungen in einer separaten Bilddatenbank. Das NOA Projekt wurde gestartet, um die Nachnutzbarkeit von Forschungsrohdaten, beispielsweise Abbildungen, zu erleichtern. Veröffentlichte Forschungsergebnisse erscheinen hauptsächlich als Textpublikationen angereichert mit Rohdaten. Diese Rohdaten, im NOA Projekt überwiegend Grafiken, Abbildungen und Fotos, sollen nun für weitere Forschungsarbeiten zur Verfügung gestellt werden.

Eine weitere Aufgabenstellung, des Projektes, ist die Bereitstellung der Abbildungen für die Öffentlichkeit. Dies soll mithilfe der Wikimedia-Infrastruktur durchgeführt werden. Den Autoren der Wikipedia soll zukünftig automatisch Bilder vorgeschlagen werden, die sie frei für die erstellten Artikel verwenden können. Die automatische Zuordnung der Bilder soll über die vorhandenen Kategorien der Wikipedia erfolgen. Die wissenschaftlichen Forschungsrohdaten werden somit leichter recherchierbar und können weltweit von Wikipedia-Nutzern verwendet werden.

DFG Projektnummer: 315976924

Link zur NOA-Bildersuche: noa.wp.hs-hannover.de

Link zur Projektseite: blogs.tib.eu/wp/noa

Beteiligte: Prof. Dr. Christian Wartena, Dr. Ina Blümel, Lambert Heller, Lucia Sohmen, Jean Charbonnier, John Rothman, Birte Rohden, Frieda Josi

Veröffentlichungen:
  • Jean Charbonnier, Christian Wartena: Predicting Word Concreteness and Imagery IWCS, Gothenburg 2019

  • Lucia Sohmen, Jean Charbonnier, Ina Blümel, Christian Wartena, Lambert Heller: Figures in Open Access Scientific Publications TPDL 2018

  • Frieda Josi, Christian Wartena, Jean Charbonnier: Text-based annotation of scientific images using Wikimedia categories TIR 2018

  • Jean Charbonnier, Christian Wartena: Using Word Embeddings for Unsupervised Acronym Disambiguation Paper at Coling 2018

  • Jean Charbonnier, Lucia Sohmen, John Rothman, Birte Rohden, Christian Wartena: NOA: A Search Engine for Reusable Scientific Images Beyond the Life Sciences 27.03.2018 NOA: A Search Engine for Reusable Scientific Images Beyond the Life Sciences

  • Frieda Josi: Textbasierte Annotation von Abbildungen mit Kategorien von Wikimedia 12.02.2018 Master Thesis

  • Birte Rohden: Konzeption, Entwicklung und Evaluation einer Web-Oberfläche für die wissenschaftliche Bildersuchmaschine NOA 16.01.2018 Bachelor Thesis

  • Lucia Sohmen: Erste Ergebnisse des DFG geförderten Projekts NOA – Nachnutzung von Open-Access-Abbildungen 12.09.2017 Link zum Vortrag

  • Lambert Heller: Das DFG-Projekt NOA. Wissenschaftskommunikation im Zeitalter von Open Access und Open Science. 13. 12.2016 L3S Open Science

  • Ina Blümel, Simone Cartellieri, Lambert Heller, Christian Wartena: Discovery and efficient reuse of technology pictures using Wikimedia infra­structures. 08.07.2016 https://zenodo.org/record/51562

  • Ina Blümel, Simone Cartellieri, Lambert Heller, Christian Wartena: Entwicklung eines Verfahrens zur automatischen Sammlung, Erschließ­ung und Bereitstellung multimedialer Open-Access-Objekte mittels der Infrastruktur von Wikimedia Commons und Wikidata. 30.10.2014 urn:nbn:de:bsz:960-opus4-6755