Título
Automatic detection of disfluencies in a corpus of university lectures
Autor
Medeiros, Henrique Rodrigues Barbosa de
Resumo
pt
Esta tese aborda a identificação de sequências disfluentes e respetivas regiões estruturais. As
experiências aqui descritas baseiam-se em segmentação e informação relativa a prosódia, calculadas
a partir de um corpus de aulas universitárias em Português Europeu, contendo cerca de 32 horas de
fala e de cerca de 7,7% de disfluências.
O conjunto de características utilizadas provou ser discriminatório na identificação das regiões contidas
na produção de disfluências. Os melhores resultados dizem respeito à deteção do interregnum,
seguida da deteção do ponto de interrupção. Foram testados vários métodos de aprendizagem automática,
sendo as Árvores de Decisão e Regressão as que geralmente obtiveram os melhores resultados.
O conjunto de características mais informativas para a identificação e distinção de regiões disfluentes
abrange rácios de duração de palavras, nível de confiança da palavra atual, rácios envolvendo
silêncios e declives de pitch e de energia. Características tais como o número de fones e sílabas por
palavra provaram ser mais úteis para a identificação do interregnum, enquanto pitch e energia foram os
mais adequados para identificar o ponto de interrupção.
Foram também realizadas experiências focando a deteção de pausas preenchidas. Por enquanto,
para estas experiências foi utilizado apenas material proveniente de alinhamento forçado, já que o sistema
de reconhecimento automático não está bem adaptado a este domínio.
Este estudo representa um novo passo no sentido da deteção automática de pausas preenchidas
para Português Europeu, utilizando recursos prosódicos. Em trabalho futuro pretende-se estender esse
estudo para transcrições automáticas e também abordar outros domínios, explorando conjuntos mais
extensos de características linguísticas.
en
This dissertation focuses on the identification of disfluent sequences and their distinct structural
regions. Reported experiments are based on audio segmentation and prosodic features, calculated
from a corpus of university lectures in European Portuguese, containing about 32 hours of speech and
about 7.7% of disfluencies.
The set of features automatically extracted from the forced alignment corpus proved to be discriminant
of the regions contained in the production of a disfluency. The best results concern the detection of
the interregnum, followed by the detection of the interruption point. Several machine learning methods
have been applied, but experiments show that Classification and Regression Trees usually outperform
the other methods.
The set of most informative features for cross-region identification encompasses word duration ratios,
word confidence score, silent ratios, and pitch and energy slopes. Features such as the number of
phones and syllables per word proved to be more useful for the identification of the interregnum, whereas
energy slopes were most suited for identifying the interruption point.
We have also conducted initial experiments on automatic detecting filled pauses, the most frequent
disfluency type. For now, only force aligned transcripts were used, since the ASR system is not well
adapted to this domain.
This study is a step towards automatic detection of filled pauses for European Portuguese using
prosodic features. Future work will extend this study for fully automatic transcripts, and will also tackle
other domains, also exploring extended sets of linguistic features.