You are on page 1of 6

Anlisis lxico El lenguaje Lenguaje es el empleo de la palabra para expresar ideas, comunicarse, establecer relaciones entre los seres

humanos. Un lenguaje es un conjunto de palabras, su pronunciacin y los mtodos para combinarlas en frases y oraciones, generalmente infinito y que se forma mediante combinaciones de palabras definidas en un diccionario terminolgico previamente establecido. Las combinaciones posibles deben respetar un conjunto de reglas sintcticas establecidas, a ello se le conoce con el nombre de Sintaxis. Adems, las palabras deben tener determinado sentido, deben ser comprendidas por un grupo humano en un contexto dado, a ello se le denomina Semntica. Cuando hablamos de lenguajes se pueden diferenciar dos clases muy bien definidas Los lenguajes naturales como el espaol, el ruso , el ingles, el francs, etc. Los lenguajes formales como los lenguajes de programacin, el lenguaje de la lgica matemtica, etc. Existen muchas definiciones de lenguaje natural, una que pudiera acercarnos a entender mejor este concepto plantea: Se denomina Lenguaje Natural a un lenguaje escrito o hablado usado por una comunidad que es precisamente lo contrario a un lenguaje para establecer comunicacin con una computadora, mediante la entrada de datos, o la programacin de su funcionamiento La comprensin y reconocimiento del lenguaje natural es uno de los problemas mas complejos a que se enfrenta la Inteligencia Artificial debido a la complejidad, irregularidad y diversidad del lenguaje humano y a los problemas filosficos y psicolgicos asociados al significado de frases, oraciones y textos en su conjunto. La escritura, los smbolos, las imgenes y la voz son los medios de comunicacin fundamentales en la interaccin hombre/mquina. La experiencia practica acumulada, en el campo del Lenguaje Natural, ha sealado la conveniencia de orientar el reconocimiento del lenguaje natural ms al anlisis de frases, oraciones y textos en su conjunto, que al reconocimiento de palabras aisladas. En otras palabras, priorizar el reconocimiento del sistema en su conjunto, sobre el reconocimiento de sus partes integrantes. Elementos del lenguaje ELEMENTOS DE LINGSTICA

La lingstica se divide en cinco ramas que son: A.- FONTICA: Estudia el conjunto de sonidos de una lengua.

B.- FONOLOGA: Estudia la funcin y el valor de los FONEMAS (Fonema: sonido de una letra).

C.- SEMNTICA: Estudia el significado de los lingsticos.

D.- MORFOSINTAXIS O GRAMTICA: Estudia las formas, clases, reglas y relaciones que rigen la combinacin entre signos lingsticos.

E.- LEXICOLOGA: Estudia el vocabulario de una lengua. Tomando en consideracin estas cinco ramas, formamos el circuito del habla, el cual est constituido por tres elementos, los cuales son: el hablante, el mensaje y el oyente, dando stos origen al Lenguaje o sea la manera que tenemos de comunicarnos con nuestros semejantes. El lenguaje puede ser: Hablado, Escrito, Pictogrfico, Mmico, etc. El alfabeto El alfabeto, abecedario o abec de una lengua o idioma es el conjunto ordenado de sus letras. Es tambin la agrupacin, con un orden determinado, de las grafas utilizadas para representar el lenguaje que sirve de sistema de comunicacin. La morfologa Es la rama de la lingstica que estudia la estructura interna de las palabras para delimitar, definir y clasificar sus unidades, las clases de palabras a las que da lugar (morfologa flexiva) y la formacin de nuevas palabras (morfologa lxica). Tambin: es el estudio de las formas de las palabras' y, por extensin, 'estudio de la palabra Diccionario Es una obra de consulta de palabras o trminos que se encuentran ordenados alfabticamente. De dichas palabras o trminos se proporciona su significado, etimologa, ortografa y, en el caso de ciertas lenguas, fija su pronunciacin y separacin silbica. La informacin que proporciona vara segn el tipo de diccionario del que se trate.

La disciplina que se encarga, entre otras tareas, de elaborar diccionarios es la lexicografa. Unidad lxica A la hora de determinar los componentes del lxico, se plantean las condiciones que han de cumplir cada uno de ellos. Se entiende que el lxico est formado por palabras; pero "palabra" es habitualmente un concepto dudoso. Cuando se desea trabajar de manera sistemtica y formal con el lxico, es de necesidad que sus unidades estn claramente diferenciadas. Existen dos enfoques para definir "palabra": 1.Como una unidad del lenguaje aislable, con fonolgico y ortogrfico diferenciados. significacin propia y aspectos

sta y sus variaciones son ampliamente disputadas, ya que no existen referencias claras para "aislar" esa unidad. Por significado: las preposiciones carecen de un significado autnomo. Por sonido: en la cadena hablada de las lenguas romances, las palabras se solapan, lo que generara confusin. Por grafa: ha de precisarse algn grafema que las separe. Introduccin al anlisis lxico Fundamento de cualquier sistema de PLN. Objetivo: analizar las palabras del texto. Palabra: unidad bsica de procesamiento. Las oraciones y textos estn formados por palabras. La palabra lleva asociada un conjunto de informacin morfolgica, sintctica y semntica necesaria en procesos de anlisis posteriores. Toda esta informacin se almacena en el lxico o diccionario. Token y type Dos conceptos: Token: aparicin concreta de una palabra en un texto dentro de un contexto determinado. Type: Unidad abstracta que engloba a todas las apariciones de una misma palabra en un texto. Ejemplo: El perro sin amo no es perro ni amo. perro: dos token y un type. amo: dos token y un type. Tokenizacion

Separacin de un texto en secuencias de unas unidades lingsticas elementales (palabras). Tokens: Palabras entre espacios en blanco. Diferencias mayscula-minscula (si no es pertinente). Signos de puntuacin. Algunas unidades multi-palabra: nombres propios. Fechas. Unidades monetarias. etc. Ejemplo: La Casa no es la casa? No, es la casa La: tres tokens, un type. Casa: tres tokens, un type. No se considera la mayscula Separacin de signos de puntuacin como tokens independientes Lema y lexema Muchas palabras pueden variar en su forma: Flexin y derivacin. Todas responden a una misma palabra: lexema. Lema: forma nica con la que se nombra un lexema. Forma no marcada: Nombres y adjetivos: masculino singular Verbos: infinitivo Forma cannica: tem del diccionario. Lematizacin: proceso de asociar los tokens de un texto a su lema correspondiente. Ejemplo: Andara, he andado, anduve, etc.: andar Blanca, blanco: blanco Casas, casa, casita, casona, etc.: casa Freeling. Raz y morfema Estructura interna de una palabra: Raz o tema: significado lxico. Morfema: significado gramatical. Libre ra Carnice ra Cant abamos Luch abamos Casa s Stemmer: proceso de extraccin de la raz o tema de las palabras de un texto.

Ejemplo: Cantara en todas las madrugadas Canta en toda la madrugada Se pierden los rasgos morfolgicos. til, por ejemplo, en recuperacin de informacin, donde la morfologa no es relevante. Stemmer de Porter y de Lancaster Anlisis morfolgico Descomponer la palabra en raz + morfemas : Stemer: Hermano herman Identificar morfema para interpretacin y/o formacin de nuevas palabras: casa(lugar para vivir) + s (plural) En-torp-e-cedor-es Obtener el lema asociado Necesario para acceder a la informacin del lxico. Hermano/a hermano Cantaramos cantar Formacin y derivacin de palabras. Composicin: unin o concatenacin de dos palabras distintas para formar una nica. Brisa Parabrisas Limpiaparabrisas Derivacin: adjuncin de morfemas a una raz para formar una palabra diferente Camin Camionero. Cantar Cantante Siglas y Acrnimos Euro, CAM, etc. Lxico Repositorio de informacin lingstica estructurado por palabras (lexemas). Recurso bsico para la mayora de tareas de PLN Informacin que puede estar asociada a cada unidad lxica en un diccionario: Categora gramatical. Informacin morfolgica. Informacin sintctica. Informacin semntica Categora sintctica: Categoras cerradas determinante, preposicin, Otras abiertas verbo, adjetivos, nombres Informacin morfolgica: Caractersticas de concordancia: gnero, nmero, persona, tiempo, voz, aspecto, etc. Reglas de flexin y derivacin: morfemas.

Reglas de formacin de las palabras: compuestas y derivadas. Informacin sintctica: Subcategorizacin y patrones sintcticos. Concurrencias y n-gramas.