TU Darmstadt / ULB / TUbiblio

Automatic Question Generation to Support Reading Comprehension of Learners - Content Selection, Neural Question Generation, and Educational Evaluation

Steuer, Tim (2023)
Automatic Question Generation to Support Reading Comprehension of Learners - Content Selection, Neural Question Generation, and Educational Evaluation.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00023032
Dissertation, Erstveröffentlichung, Verlagsversion

Kurzbeschreibung (Abstract)

Simply reading texts passively without actively engaging with their content is suboptimal for text comprehension since learners may miss crucial concepts or misunderstand essential ideas. In contrast, engaging learners actively by asking questions fosters text comprehension. However, educational resources frequently lack questions. Textbooks often contain only a few at the end of a chapter, and informal learning resources such as Wikipedia lack them entirely. Thus, in this thesis, we study to what extent questions about educational science texts can be automatically generated, tackling two research questions. The first question concerns selecting learning-relevant passages to guide the generation process. The second question investigates the generated questions' potential effects and applicability in reading comprehension scenarios.

Our first contribution improves the understanding of neural question generation's quality in education. We find that the generators' high linguistic quality transfers to educational texts but that they require guidance by educational content selection. In consequence, we study multiple educational context and answer selection mechanisms.

In our second contribution, we propose novel context selection approaches which target question-worthy sentences in texts. In contrast to previous works, our context selectors are guided by educational theory. The proposed methods perform competitive to related work while operating with educationally motivated decision criteria that are easier to understand for educational experts.

The third contribution addresses answer selection methods to guide neural question generation with expected answers. Our experiments highlight the need for educational corpora for the task. Models trained on noneducational corpora do not transfer well to the educational domain. Given this discrepancy, we propose a novel corpus construction approach. It automatically derives educational answer selection corpora from textbooks. We verify the approach's usefulness by showing that neural models trained on the constructed corpora learn to detect learning-relevant concepts.

In our last contribution, we use the insights from the previous experiments to design, implement, and evaluate an automatic question generator for educational use. We evaluate the proposed generator intrinsically with an expert annotation study and extrinsically with an empirical reading comprehension study. The two evaluation scenarios provide a nuanced view of the generated questions' strengths and weaknesses. Expert annotations attribute an educational value to roughly 60 % of the questions but also reveal various ways in which the questions still fall short of the quality experts desire. Furthermore, the reader-based evaluation indicates that the proposed educational question generator increases learning outcomes compared to a no-question control group.

In summary, the results of the thesis improve the understanding of the content selection tasks in educational question generation and provide evidence that it can improve reading comprehension. As such, the proposed approaches are promising tools for authors and learners to promote active reading and thus foster text comprehension.

Typ des Eintrags: Dissertation
Erschienen: 2023
Autor(en): Steuer, Tim
Art des Eintrags: Erstveröffentlichung
Titel: Automatic Question Generation to Support Reading Comprehension of Learners - Content Selection, Neural Question Generation, and Educational Evaluation
Sprache: Englisch
Referenten: Steinmetz, Prof. Dr. Ralf ; Schroeder, Prof. Dr. Ulrik
Publikationsjahr: 2023
Ort: Darmstadt
Kollation: viii, 163 Seiten
Datum der mündlichen Prüfung: 16 Dezember 2022
DOI: 10.26083/tuprints-00023032
URL / URN: https://tuprints.ulb.tu-darmstadt.de/23032
Kurzbeschreibung (Abstract):

Simply reading texts passively without actively engaging with their content is suboptimal for text comprehension since learners may miss crucial concepts or misunderstand essential ideas. In contrast, engaging learners actively by asking questions fosters text comprehension. However, educational resources frequently lack questions. Textbooks often contain only a few at the end of a chapter, and informal learning resources such as Wikipedia lack them entirely. Thus, in this thesis, we study to what extent questions about educational science texts can be automatically generated, tackling two research questions. The first question concerns selecting learning-relevant passages to guide the generation process. The second question investigates the generated questions' potential effects and applicability in reading comprehension scenarios.

Our first contribution improves the understanding of neural question generation's quality in education. We find that the generators' high linguistic quality transfers to educational texts but that they require guidance by educational content selection. In consequence, we study multiple educational context and answer selection mechanisms.

In our second contribution, we propose novel context selection approaches which target question-worthy sentences in texts. In contrast to previous works, our context selectors are guided by educational theory. The proposed methods perform competitive to related work while operating with educationally motivated decision criteria that are easier to understand for educational experts.

The third contribution addresses answer selection methods to guide neural question generation with expected answers. Our experiments highlight the need for educational corpora for the task. Models trained on noneducational corpora do not transfer well to the educational domain. Given this discrepancy, we propose a novel corpus construction approach. It automatically derives educational answer selection corpora from textbooks. We verify the approach's usefulness by showing that neural models trained on the constructed corpora learn to detect learning-relevant concepts.

In our last contribution, we use the insights from the previous experiments to design, implement, and evaluate an automatic question generator for educational use. We evaluate the proposed generator intrinsically with an expert annotation study and extrinsically with an empirical reading comprehension study. The two evaluation scenarios provide a nuanced view of the generated questions' strengths and weaknesses. Expert annotations attribute an educational value to roughly 60 % of the questions but also reveal various ways in which the questions still fall short of the quality experts desire. Furthermore, the reader-based evaluation indicates that the proposed educational question generator increases learning outcomes compared to a no-question control group.

In summary, the results of the thesis improve the understanding of the content selection tasks in educational question generation and provide evidence that it can improve reading comprehension. As such, the proposed approaches are promising tools for authors and learners to promote active reading and thus foster text comprehension.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Alleiniges Durchlesen eines Textes ohne aktive Auseinandersetzung mit dessen Inhalt führt oft zu mangelndem Textverständnis, denn Lernende überlesen häufig Kernkonzepte oder missverstehen wesentliche Ideen. Um das Verständnis eines Textes zu verbessern, sind Fragen hilfreich. Allerdings mangelt es vielen Texten an Fragen: Lehrbücher enthalten oft nur wenige Fragen und informelle Lernressourcen wie Wikipedia enthalten meist überhaupt keine.

In der nachfolgenden Arbeit wird deshalb erforscht, inwieweit Fragen zu Fachtexten automatisch generiert werden können und es werden zwei Forschungsfragen betrachtet: In der ersten Forschungsfrage wird die automatische Auswahl lernrelevanter Inhalte zur Steuerung des Fragegenerierungsprozesses untersucht. Die zweite Forschungsfrage befasst sich mit dem Einsatz der generierten Fragen in Lernszenarien.

Im Rahmen der Forschungsfragen wird zunächst die linguistische Güte neuronaler Fragegeneratoren in der Bildung analysiert. Bei der Analyse ergibt sich, dass die hohe sprachliche Qualität der generierten Fragen auch auf Fachtexten besteht. Jedoch werden durch übliche Fragegeneratoren viele nicht-lernrelevante Fragen erzeugt.

Infolgedessen wird die automatische Auswahl lernrelevanter Sätze und Antworten zur Verbesserung der Fragegenerierung untersucht. Es wird eine neuartige, pädagogisch motivierte Kontextselektion zur Auswahl lernrelevanter Sätze konzipiert, implementiert und evaluiert. Der vorgeschlagene Ansatz erzielt eine vergleichbare Auswahlgenauigkeit wie der Stand der Forschung und ist durch seine pädagogisch motivierten Entscheidungskriterien für Anwender leichter verständlich.

Weiterhin wird in der Dissertation die Antwortselektion untersucht, um den Fragegenerierungsprozess durch erwartete Antworten zu verbessern. Die Experimente verdeutlichen die Relevanz der Korpora-Auswahl: Modelle, die auf allgemeinen Antwortselektionskorpora trainiert werden, selektieren oftmals Antworten, die nicht zwangsläufig lernrelevant sind. Infolgedessen wird ein Ansatz zur automatischen Konstruktion von Korpora mithilfe lernrelevanter Konzepte aus Lehrbüchern vorgeschlagen. Die Nützlichkeit des Ansatzes zeigt sich dadurch, dass neuronale Modelle, die auf den konstruierten Korpora trainiert wurden, lernrelevante Konzepte in Texten erkennen.

Basierend auf den vorangegangenen Experimenten wird ein automatischer Fragegenerator zur Verbesserung des Leseverständnisses konzipiert, implementiert und evaluiert. Dieser neuartige Ansatz wird mit einer intrinsischen Evaluation mit Bildungsexperten und einer extrinsischen Evaluation mit einer empirischen Studie zum Leseverständnis evaluiert. Beide Evaluationen bieten einen differenzierten Blick auf die Stärken und Schwächen des Fragegenerators. Experten bewerten ca. 60 % der generierten Fragen als hilfreich, auch wenn manche Fragen in verschiedener Hinsicht hinter der gewünschten Qualität zurückblieben. Weiterhin erhöhen die Fragen des vorgeschlagenen Ansatzes den Lernerfolg im Vergleich zu einer Kontrollgruppe.

Zusammenfassend tragen die Ergebnisse dieser Dissertation zu einem tiefergehenden Verständnis von automatischer Inhaltsauswahl für Fragegeneratoren im Bildungsbereich bei und liefern dazu neuartige Ansätze zur Kontextselektion, Antwortselektion und zur lernrelevanten Fragegenerierung. In einer durchgeführten Studie verbesserte der vorgeschlagene Fragegenerierungsprozess das Leseverständnis. Somit sind die vorgeschlagenen Ansätze zur Fragegenerierung wahrscheinlich ein nützliches Hilfsmittel für Autoren und Lernende, um aktives Lesen und somit das Leseverständnis zu fördern.

Deutsch
Status: Verlagsversion
URN: urn:nbn:de:tuda-tuprints-230328
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 18 Fachbereich Elektrotechnik und Informationstechnik
18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Datentechnik
18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Datentechnik > Multimedia Kommunikation
Hinterlegungsdatum: 01 Feb 2023 13:09
Letzte Änderung: 02 Feb 2023 10:10
PPN:
Referenten: Steinmetz, Prof. Dr. Ralf ; Schroeder, Prof. Dr. Ulrik
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 16 Dezember 2022
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen