PUMA
Istituto di Scienza e Tecnologie dell'Informazione     
Marcheggiani D. Beyond Linear Chain: A Journey through Conditional Random Fields for Information Extraction from Text.
 
 
Abstract
(English)
Natural language, spoken and written, is the most important way for humans to communicate information to each other. In the last decades emph{natural language processing} (NLP) researchers have studied methods aimed at making computers "understand" the information enclosed in human language. emph{Information Extraction} (IE) is a field of NLP that studies methods aimed at extracting information from text so that it can be used to populate a structured information repository, such as a relational database. IE is divided into several subtasks, each of which aims to extract different structures from text, such as entities, relations, or more complex structures such as ontologies. In this thesis the term ``information extraction'' is (somehow arbitrarily) used to identify only the subtasks that are formulated as emph{sequence labeling} tasks. Recently, the main approaches by means of which IE has been tackled rely on supervised machine learning, which needs human-labeled data examples in order to train the systems that extract information from yet unseen data. When IE is tackled as a sequence labeling task (as in e.g., emph{named-entity recognition}, emph{concept extraction}, and in some cases emph{opinion mining}), among the best-performing supervised machine learning methods are certainly emph{probabilistic graphical models}, and, specifically, emph{Conditional Random Fields} (CRFs). In this thesis we investigate two major aspects related to information extraction from text via CRFs: the creation of CRFs models that outperform the commonly adopted, state-of-the-art, ``linear-chain'' CRFs, and the impact of the quality of training data on the accuracy of CRFs system for IE. In the first part of the thesis we use the capabilities of the CRFs framework to create new kinds of CRFs (i.e., two-stage, ensemble, multi-label, hierarchical), that unlike the commonly adopted linear-chain CRFs have a customized structure that fits the task taken into consideration. We exemplify this approach on two different tasks, i.e., IE from medical documents and opinion mining from product reviews. CRFs, like any machine learning-based approach, may suffer if the quality of the training data is low. Therefore, the second part of the thesis is devoted to (1) the study of how the quality of the training data affects the accuracy of a CRFs system for IE; and (2) the production of human-annotated training data via semi-supervised emph{active learning} (AL).
Abstract
(Italiano)
Il linguaggio naturale, scritto e parlato, `e il principale modo con cui gli esseri umani comunicano informazioni. Negli ultimi decenni, i ricercatori di elaborazione del linguaggio naturale (natural language processing - NLP) hanno studiato metodi per fare "capire" ai computer le informazioni racchiuse nel linguaggio naturale. L'estrazione di informazioni (information extraction - IE) `e un campo dell'elaborazione del linguaggio naturale che studia metodi atti ad estrarre informazioni da testo in modo che possano essere usate per popolare repository di informazioni strutturate come database relazionali. L'estrazione di informazioni `e divisa in diversi subtask, ognuno dei quali mira ad estrarre tipi differenti di informazione strutturata come entit`a, relazioni e strutture pi`u complesse come le ontologie. In questa tesi il termine ``estrazione di informazioni'' `e (in un modo arbitrario) usato per identificare i subtask che sono formulati come task di etichettatura di sequenze. Recentemente, gli approcci principali per mezzo di cui l'IE `e stato affrontato sono metodi di apprendimento automatico supervisionato, che richiedono dati etichettati da umani per allenare sistemi che estraggono informazioni da dati sconosciuti. Quando l'IE `e affrontato come un task di etichettatura di sequenze (come ad esempio in emph{named-entity recognition}, emph{concept extraction}, ed in alcuni casi emph{opinion mining}) tra i migliori metodi di apprendimento automatico ci sono certamente i modelli grafico-probabilistici e in particolare i conditional random fields (CRFs). In questa tesi investighiamo due aspetti principali riguardanti l'estrazione di informazioni via CRFs: la creazione di modelli CRFs che superano le performance dei ``linear-chain'' CRFs comunemente adottati e allo stato dell'arte, e l'impatto della qualit`a dei dati di training sull'accuratezza di un modello CRFs per l'estrazione di informazioni. Nella prima parte della tesi sfruttiamo le capacit`a dei CRFs per creare nuovi tipi di CRFs (i.e., two-stage, ensemble, multi-label, hierarchical), che diversamente dai comuni linear-chain CRFs hanno una struttura fatta ad hoc per il task che si vuole risolvere. Illustriamo questo approccio su due task differenti: l'estrazione di informazioni da documenti medici e l'opinion mining da review di prodotti. I CRFs come ogni altro algoritmo di apprendimento automatico possono avere qualche problema se la qualit`a dei dati di training `e bassa. Quindi, la seconda parte di questa tesi si concentra su (1) lo studio di come la qualit`a dei dati di training impatta sull'accuratezza di un sistema CRFs per l'estrazione di informazioni; (2) la produzione di dati di training annotati da umani tramite tecniche di apprendimento attivo (active learning - AL) semi supervisionato.
Subject machine learning
sequence labeling
conditional random fields
natural language processing
I.2 ARTIFICIAL INTELLIGENCE
68-XX Computer science For papers involving machine computations and programs in a specific mathematical area


Icona documento 1) Download Document PDF


Icona documento Open access Icona documento Restricted Icona documento Private

 


Per ulteriori informazioni, contattare: Librarian http://puma.isti.cnr.it

Valid HTML 4.0 Transitional