Saltar a un capítulo clave
No es casualidad que ahora podamos comunicarnos con los ordenadores utilizando el lenguaje humano -fueron entrenados para ello- y en este artículo vamos a descubrir cómo. Empezaremos por ver la definición y la historia del procesamiento del lenguaje natural, antes de pasar a los distintos tipos y técnicas. Por último, veremos el impacto social que ha tenido el procesamiento del lenguaje natural.
Definición del Procesamiento del Lenguaje Natural
El procesamiento del lenguaje natural (PLN) es una rama de la inteligencia artificial (IA) que ayuda en el proceso de programar ordenadores/software informático para que "aprendan" lenguas humanas. El objetivo de la PNL es crear software que comprenda el lenguaje tan bien como nosotros.
El procesamiento del lenguaje natural tiene sus raíces en la lingüística, la informática y el aprendizaje automático, y existe desde hace más de 50 años (¡casi tanto como el ordenador moderno!).
Hoy podemos ver los resultados del PLN en cosas como Siri de Apple, los resultados de búsqueda sugeridos de Google y aplicaciones de aprendizaje de idiomas como Duolingo.
Historia del Procesamiento del Lenguaje Natural
Los inicios de la PNL tal y como la conocemos hoy surgieron en la década de 1940, tras la Segunda Guerra Mundial. La naturaleza global de la guerra puso de relieve la importancia de comprender múltiples lenguas diferentes, y los técnicos esperaban crear un "ordenador" que pudiera traducir las lenguas por ellos.
La creación de dicho ordenador resultó bastante difícil, y lingüistas como Noam Chomsky identificaron problemas relacionados con la sintaxis. Por ejemplo, Chomsky descubrió que algunas frases parecían gramaticalmente correctas, pero su contenido no tenía sentido. Sostuvo que para que los ordenadores entendieran el lenguaje humano, tendrían que entender las estructuras sintácticas.
Estructurassintácticas - En 1957, Noam Chomsky publicó su influyente libro Estructuras sintácticas, en el que defendía que la sintaxis debía tratarse separadamente de la semántica y que debía existir un enfoque formal y estandarizado para analizar la sintaxis.
En la década de 1990, la PNL había recorrido un largo camino y ahora se centraba más en la estadística que en la lingüística, en "aprender" más que en traducir, y utilizaba más algoritmos de Aprendizaje Automático. Utilizar el Aprendizaje Automático significaba que la PNL había desarrollado la capacidad de reconocer trozos similares de discurso y ya no necesitaba basarse en coincidencias exactas de expresiones predefinidas. Por ejemplo, un software que utilizara PNL entendería tanto "¿Qué tiempo hace?" como "¿Qué tiempo hace?".
En 2011, Apple lanzó el primer asistente virtual de PNL de éxito y disponible públicamente, Siri.
¿Cómo funciona el Procesamiento del Lenguaje Natural?
Probablemente ya te estés preguntando cómo funciona la PNL; aquí es donde los conocimientos de lingüística te serán útiles.
La PNL utiliza la IA para captar el lenguaje humano del mundo real y realizar tareas de procesamiento con el fin de convertir el lenguaje en un código que el ordenador pueda entender. Este proceso consta de dos partes:
Preprocesamiento (a veces denominado procesamiento de datos): consiste en descomponer el lenguaje y convertirlo en datos con los que pueda trabajar un algoritmo.
- Desarrollo del algoritmo - Una vez que el lenguaje se ha convertido en datos, hay que desarrollar un algoritmo para procesarlos y utilizarlos.
Veamos ahora algunas de las técnicas de preprocesamiento más comunes. Estas técnicas tienen sus raíces en la lingüística y el análisis lingüístico. Hoy no veremos el desarrollo de algoritmos, ya que está menos relacionado con la lingüística.
Técnicas de Procesamiento del Lenguaje Natural
Existen dos tipos principales de preprocesamiento: el análisis sintáctico y el semántico. Antes de sumergirnos en estas técnicas, veamos algunas definiciones de estos dos términos.
Sintaxis - La disposición y el orden de las palabras dentro de una frase. La estructura sintáctica más básica es sujeto-verbo-objeto (SVO).
Semántica - Rama de la lingüística que estudia el significado, la lógica y la relación de las palabras y entre ellas.
Análisis sintáctico
El análisis sintáctico consiste en examinar una frase en su conjunto para comprender su significado, en lugar de analizar palabras sueltas. Hay varias técnicas de análisis sintáctico que utiliza la PNL.
Análisis sintáctico
El análisis sintáctico consiste en descomponer una frase en cada uno de sus constituyentes. Un constituyente es una unidad del lenguaje que cumple una función en una frase; pueden ser palabras sueltas, frases o cláusulas. Por ejemplo, la frase "El gato tocael piano de cola" tiene dos constituyentes principales: la frase nominal(el gato) y la frase verbal(toca el piano de cola). La frase verbal puede dividirse a su vez en otros dos constituyentes, el verbo(toca) y la frase nominal(el piano de cola).
El análisis sintáctico consiste en representar los constituyentes de cada frase en un árbol sintáctico, como el que se muestra a continuación:
Los árboles sintácticos nos muestran la relación entre las palabras de una frase y cómo se combinan para formar constituyentes. Por ejemplo, podemos ver que"el piano de cola" es un constituyente, pero"toca el" no lo es. Esta información puede convertirse en datos para un algoritmo de PNL.
Stemming
La separación de palabras es un proceso morfológico que consiste en reducir las palabras conjugadas a su raíz.
Conjugación (adj. conjugado) - Inflexión de un verbo para mostrar diferentes significados gramaticales, como el tiempo, el aspecto y la persona. La inflexión de los verbos suele consistir en añadir sufijos al final del verbo o cambiar la ortografía de la palabra.
Palabra raíz - Caminar (verbo)
Conjugaciones - caminar, caminó, camina, caminante
Devolver cada palabra a su forma original puede ayudar a los algoritmos de la PNL a reconocer que, aunque las palabras se escriban de forma diferente, tienen el mismo significado esencial. También significa que sólo es necesario almacenar en una base de datos las palabras raíz, en lugar de todas las conjugaciones posibles de cada palabra.
Segmentación del texto
La segmentación de textos es el proceso de separar el lenguaje en unidades significativas, como morfemas (por ejemplo, un-, suerte, -y), palabras, frases, párrafos e intención (es decir, ¿cuál es el propósito del lenguaje? ¿hace una pregunta, proporciona una afirmación o da una orden?).
Análisis semántico
A veces las frases pueden seguir todas las reglas sintácticas pero no tener sentido semántico. Por eso es importante realizar también análisis semánticos. Éstos ayudan a los algoritmos a comprender el tono, el propósito y el significado intencionado del lenguaje.
Análisis de Sentimiento
El análisis de sentimientos es una técnica de PNL que pretende comprender si el lenguaje es positivo, negativo o neutro. También puede determinar el tono del lenguaje, como enfadado o urgente, así como la intención del lenguaje (por ejemplo, obtener una respuesta, presentar una queja, etc.). El análisis de sentimientos funciona encontrando vocabulario que existe en listas preexistentes.
Adjetivos como decepcionado, equivocado, incorrecto y molesto se recogerían en la fase de preprocesamiento y permitirían al algoritmo saber que el fragmento de lenguaje (por ejemplo, una reseña) era negativo.
Desambiguación
La desambiguación de palabras es el proceso de intentar eliminar las ambigüedades léxicas. Una ambigüedad léxica se produce cuando no está claro qué significado tiene una palabra.
"Nos vemos en el banco".
La palabra banco tiene más de un significado, por lo que existe una ambigüedad sobre qué significado se pretende aquí. Observando el contexto más amplio, se podría eliminar esa ambigüedad.
"Necesito ingresar dinero, así que nos vemos en el banco".
Ahora podemos ver que la palabra banco se refiere a un establecimiento financiero y no a una ribera o al verbo bancar.
Eliminar las ambigüedades léxicas ayuda a garantizar que se está entendiendo el significado semántico correcto.
Ejemplos de Procesamiento del Lenguaje Natural
Ahora que tenemos una buena idea de lo que es el PLN y cómo funciona, veamos algunos ejemplos reales de cómo afecta el PLN a nuestra vida cotidiana.
Filtros de correo electrónico
Si abres tu correo electrónico y miras el menú, probablemente encontrarás diferentes carpetascomo "spam" o "social". Los correos electrónicosque has recibido se han "filtrado" automáticamente a estas carpetas en función del vocabulario que contienen. Esto es un tipo de análisis de sentimiento.
Texto predictivo
Uno de los primeros usos de la PNL fue en el texto predictivo. Hoy en día, el texto predictivo utiliza técnicas de PNL y "aprendizaje profundo" para corregir la ortografía de una palabra, adivinar qué palabra utilizarás a continuación y hacer sugerencias para mejorar tu escritura.
Actividad: Intenta enviar un mensaje utilizando sólo texto predictivo. Es posible crear un mensaje completo utilizando únicamente las palabras sugeridas propuestas por el texto predictivo. Gracias a la PNL, estas palabras serán únicas y adaptadas a ti, ¡y pueden crear mensajes muy divertidos (y reveladores)!
Aplicaciones lingüísticas
El procesamiento del lenguaje natural ha mejorado enormemente las aplicaciones de traducción de idiomas. Puede ayudar a garantizar que la traducción tenga sentido sintáctico y gramatical en la nueva lengua, en lugar de limitarse a traducir directamente palabras sueltas.
El impacto social del Procesamiento del Lenguaje Natural
En 2016, los investigadores Hovy & Spruit publicaron un artículo sobre las implicaciones sociales y éticas de la PNL. En él, destacan que hasta hace poco no se consideraba necesario debatir las consideraciones éticas de la PNL; esto se debía principalmente a que la PNL no implica la participación de seres humanos. Sin embargo, los investigadores son cada vez más conscientes del impacto social que los productos de la PNL pueden tener en las personas y en la sociedad en su conjunto.
He aquí algunos de los principales problemas que identificaron:
Exclusión - La PNL puede aprender de las culturas dominantes, facilitando su uso y haciéndola más apropiada para quienes proceden de esas culturas dominantes.
Sobregeneralización - La PNL puede llevar al software a hacer suposiciones generalizadas sobre cosas como nuestro sexo, edad, religión y orientación sexual.
Sesgo - La mayoría de las herramientas de PNL se centran en el inglés y, por tanto, pueden producir datos más ricos para los angloparlantes que para los demás.1
Procesamiento del Lenguaje Natural - Puntos clave
- El procesamiento del lenguaje natural (PLN) es una rama de la inteligencia artificial (IA) que ayuda a programar software informático para que "aprenda" lenguas humanas.
- El procesamiento del lenguaje natural tiene sus raíces en la lingüística, la informática y el aprendizaje automático.
- La PNL utiliza la IA para captar el lenguaje humano del mundo real y realizar tareas de procesamiento para convertir el lenguaje en código que el ordenador pueda entender. Este proceso consta de dos partes: el preprocesamiento y el desarrollo de algoritmos.
- El preprocesamiento consiste en categorizar el lenguaje en datos con los que pueda trabajar un algoritmo. Las técnicas comunes de preprocesamiento incluyen el análisis sintáctico (por ejemplo, el análisis sintáctico, el stemming y la segmentación del texto) y el análisis semántico (por ejemplo, el análisis de sentimientos y la desambiguación).
- Podemos ver ejemplos de PLN en el texto predictivo, los filtros de correo electrónico, las aplicaciones de aprendizaje de idiomas, los asistentes virtuales (p. ej., Siri), etc.
Referencias
- D. Hovy & S. L. Spruit. El impacto social del procesamiento del lenguaje natural. 2016.
Aprende más rápido con las 7 tarjetas sobre Procesamiento de Lenguaje Natural
Regístrate gratis para acceder a todas nuestras tarjetas.
Preguntas frecuentes sobre Procesamiento de Lenguaje Natural
Acerca de StudySmarter
StudySmarter es una compañía de tecnología educativa reconocida a nivel mundial, que ofrece una plataforma de aprendizaje integral diseñada para estudiantes de todas las edades y niveles educativos. Nuestra plataforma proporciona apoyo en el aprendizaje para una amplia gama de asignaturas, incluidas las STEM, Ciencias Sociales e Idiomas, y también ayuda a los estudiantes a dominar con éxito diversos exámenes y pruebas en todo el mundo, como GCSE, A Level, SAT, ACT, Abitur y más. Ofrecemos una extensa biblioteca de materiales de aprendizaje, incluidas tarjetas didácticas interactivas, soluciones completas de libros de texto y explicaciones detalladas. La tecnología avanzada y las herramientas que proporcionamos ayudan a los estudiantes a crear sus propios materiales de aprendizaje. El contenido de StudySmarter no solo es verificado por expertos, sino que también se actualiza regularmente para garantizar su precisión y relevancia.
Aprende más