1. INTRODUCCIÓN

    El problema de la desambiguación morfológica es la elección del análisis morfológico correcto para una palabra dentro del contexto de una frase entre todos los análisis morfológicos válidos para esta palabra. El uso de cadenas de Markov ha constituido un método sencillo y eficaz para el cálculo de la dependencia del análisis con el contexto de la frase y, por tanto, para la desambiguación morfológica.

2. CADENAS DE MARKOV

    El inglés es donde más tiempo se lleva estudiando el análisis morfológico de las palabras mediante el ordenador. En este idioma, las palabras tienen una única forma poco relacionada con la clase gramatical a la que pertenecen debido a su escasa riqueza flexiva. Esto ha hecho que los esfuerzos por realizar un análisis morfológico automático se hayan basado en el estudio de la palabra dentro del entorno de la frase más que en contemplar la palabra de forma aislada.

    En cambio en el español ocurre todo lo contrario, ya que la mayor flexibilidad de este idioma no hace tan dependiente la clase gramatical de una palabra con su contexto. De esta forma aparecen las dos siguientes líneas de desarrollo de análisis morfológico del español:

    • Métodos basados en la morfología en dos niveles descrita por Koskenniemi.
    • Métodos basados en el aprendizaje automático.

    Sin embargo, una vez realizado el análisis de la palabra fuera del contexto de la frase, en la mayoría de los casos este proceso produce más de un etiquetado posible para la palabra. De esta forma, se hace necesario un proceso desambiguador posterior que, en función del contexto de la palabra, seleccione el etiquetado correcto entre todos los posibles para esa palabra.

    Uno de los modelos más utilizados para la desambiguación morfológica es el análisis probabilístico de secuencias de etiquetas mediante un modelo matemático basado en cadenas de Markov. El uso de cadenas de Markov permite estudiar la probabilidad de un determinado análisis en función de los precedentes, tomando como correcto aquel con mayor probabilidad. En función de la probabilidad que se maximiza existen dos tipos diferentes de etiquetado probabilístico: tomar la secuencia de etiquetas más probable para la frase (Viterbi Tagging) y tomar las etiquetas más probables para cada palabra dentro de la frase (Maximum Likelihood Tagging). El cálculo del modelo se puede realizar mediante entrenamiento a partir de un texto previamente etiquetado o bien mediante un modelo inicial impreciso calculado a partir del método anterior y un refinamiento del modelo de Markov oculto (HMM) a partir de texto sin etiquetar.

3. APLICACIÓN AL CASTELLANO 

    La riqueza flexiva de este lenguaje plantea varias dificultades de índole práctica. Una de las mayores dificultades viene producida por el aumento del número de etiquetas posibles para el análisis. En el análisis de textos en castellano hay que considerar, además de la clase gramatical de la palabra (nombre, adjetivo, etc.), otros accidentes gramaticales como son el género, número, tiempo verbal, etc.

    Debido a que los algoritmos de etiquetado Viterbi Tagging y Maximum Likelihood Tagging están diseñados para generar una única cadena de etiquetas, es necesario combinar estos nuevos atributos con la clase gramatical para formar un conjunto de nuevas etiquetas.

    La combinación de las etiquetas de los diferentes atributos de una palabra (clase, género, etc.) aumenta considerablemente el número de etiquetas posibles en el proceso de análisis. Esto provoca un aumento del número de estados de la cadena de Markov necesaria para el análisis, lo cual supone un importante incremento tanto de requisitos computacionales como de capacidad de almacenamiento.

4. REFERENCIAS

Wikipedia: Markov property