Estudo de técnicas de modelado e aprendizaxe baseadas en vectores aplicadas ó procesamento da linguaxe natural
Data de defensa | 14/09/2022 |
Titulación | Máster Universitario en Enxeñaría Informática |
Centro | Escola Superior de Enxeñaría Informática |
Dirección |
Titoría: Eva María Lorenzo Iglesias Cotitoría: Pedro Celard Pérez |
Tribunal |
Secretaría: María Lourdes Borrajo Diz Vogalía: Francisco Javier Rodríguez Martínez Presidencia: Arno Formella |
Resumo | As publicacións realizadas polos usuarios nas diferentes plataformas como redes sociais, libros, artigos ou sitios web incrementaron considerablemente nos últimos anos. Este crecemento exponencial da dixitalización de documentos provoca un aumento da dificultade para localizar e acceder a este contido, polo que se necesita a utilización de algoritmos de minería propios para o procesamento de textos e a extracción de nova información. Este tipo de algoritmo funciona con estruturas que requiren ter un tipo exacto de datos que se empreguen como entrada adecuada para eles. Técnicas como "bag of words", "n-grams" ou "word embeddings" crean este tipo de estruturas. Neste último caso, asígnaselle un vector a cada palabra, gardando así a súa información semántica nel, desta maneira pódense asociar ou disociarse a outros vectores segundo o diferentes contextos gramaticais. O obxectivo deste traballo de fin de mestrado é realizar unha investigación sobre os desenvolvementos tecnolóxicos no campo das "word embeddings", analizando as técnicas actuais que permiten este tipo de representacións da linguaxe natural en diferentes contornos e temas. Para conseguir o propósito, realizarase un estudo das técnicas de preprocesamento, word embeddings e clasificación de documentos, para continuar coa realización de probas experimentais utilizando diferentes implementacións de algoritmos de representación vectoriais sobre corpus de textos. Como resultado, elaborarase un informe cas conclusións obtidas. |