GeMTeX - German Medical Text Corpus
Medizinische Texte für die Forschung automatisiert erschließen
-
Im klinischen Alltag fallen viele Texte wie Arztbriefe und Befunde an, die wertvolle Informationen zur Krankheitsgeschichte, zum -verlauf und zur Behandlung enthalten. Mit Hilfe dieser Texte könnten Programme für die automatische Verarbeitung natürlicher Sprache (Natural Language Processing, kurz NLP) Ärztinnen und Ärzte sowie Forschende bei ihrer Arbeit unterstützen. Allerdings kann das volle Potenzial der klinischen Dokumente aufgrund fehlender Standardisierung nicht ausgeschöpft werden. Die Methodenplattform GeMTeX (German Medical Text Corpus) möchte diese Lücke schließen und hat zum Ziel, medizinische Texte aus der Patientenversorgung für Forschungsprojekte verfügbar zu machen. Damit soll der größte medizinische Textkorpus in deutscher Sprache entstehen.
Damit die Texte aus der Routineversorgung für Klinik und Forschung genutzt werden können, müssen sie zunächst für Programme computergestützter Verarbeitung natürlicher Sprache (NLP) lesbar sein. Hierfür sind große Mengen an annotierten Texten aus der täglichen Patientenversorgung notwendig. Annotierte Texte sind Dokumente, die durch systematische Anmerkungen zusätzliche Informationen enthalten, z. B. Angaben zu Diagnosen oder Medikationen. Die Anmerkungen werden von angehenden Ärztinnen und Ärzten manuell überprüft und dienen damit als Referenz für die weitere Verbesserung der automatischen Annotation. Auf diese Weise strukturierte Informationen können zusammen mit vorliegenden Daten für Analysen und statistische Modelle verwendet werden.
Das Team am Institut für Allgemeinmedizin am LMU Klinikum beschäftigt sich im Rahmen von GeMTeX mit einem Teilprojekt, das sich mit der Annotation von unerwünschten Arzneimittelwirkungen befasst.
https://www.smith.care/de/gemtex_mii/ueber-gemtex/
https://www.smith.care/wp-content/uploads/2024/03/GeMTeX_Faktenblatt_DE_RGB.pdf
-
Noch keine Publikationen.