Lingüística computacional en HSE: Anastasia Bonch-Osmolovskaya sobre el nuevo programa de maestría. Historia, desarrollo y establecimiento de la lingüística computacional como dirección científica.

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”


INTRODUCCIÓN

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA


Introducción

En la vida sociedad moderna Las tecnologías de la información automatizadas desempeñan un papel importante. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo de la tecnología de la información es muy desigual: si el nivel actual tecnologia computacional Y los medios de comunicación son sorprendentes, pero en el campo del procesamiento semántico de la información los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de simular estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta para pensar. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia se ocupa de los problemas del uso del lenguaje natural en los sistemas automáticos de procesamiento de información. Ligüística computacional. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: se han obtenido sistemas de traducción automática de textos de un lenguaje natural a otro, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos. sido creado discurso oral y muchos otros. Este trabajo está dedicado a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.


1. El lugar y el papel de la lingüística computacional en la investigación lingüística

En el mundo moderno, la lingüística computacional se utiliza cada vez más para realizar diversos estudios lingüísticos.

La lingüística computacional es un campo del conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada del significado a textos en formato natural). idioma). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección y corrección automática de errores al ingresar textos en una computadora, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lengua y habla, textos y diversos tipos de tablas gramaticales, la parte procesal incluye medios para manipular unidades de lengua y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procesal de la lingüística computacional.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido para resolver estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc. ).

Sin embargo, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Así, en varios países (Rusia, Estados Unidos, Japón, etc.) los experimentos y sistemas industriales traducción automática de textos de un idioma a otro, se han construido varios sistemas experimentales para comunicarse con computadoras en lenguaje natural, se está trabajando en la creación de bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, EE. UU., Alemania, Francia , etc.), se están construyendo sistemas análisis automático y síntesis del habla oral (Rusia, Estados Unidos, Japón, etc.), se están realizando investigaciones en el campo de la construcción de modelos de lenguaje natural.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procesales de los sistemas automáticos de procesamiento de información textual. ¿Qué debería preferirse: procedimientos computacionales potentes basados ​​en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un componente declarativo potente con interfaces informáticas relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Conducirá al logro de objetivos prácticos más rápidamente, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, para el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de información textual está confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar de los innegables éxitos de esta ciencia, la pasión por los procedimientos algorítmicos no ha dado el éxito esperado. Incluso hubo cierta decepción respecto de la capacidad de los medios procesales.

A la luz de lo anterior, parece prometedor desarrollar un camino de desarrollo de la lingüística informática, en el que los principales esfuerzos estarán dirigidos a crear poderosos diccionarios de lenguas y unidades de habla, estudiar su estructura semántico-sintáctica y crear procedimientos básicos para la comprensión morfológica, Análisis y síntesis semántico-sintáctico y conceptual de textos. Esto nos permitirá resolver una amplia gama de problemas aplicados en el futuro.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico a los procesos de recopilación, acumulación, procesamiento y recuperación de información. Los más importantes de ellos son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación del usuario con sistemas de información inteligentes automatizados (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural;

8. Extraer información objetiva de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información, existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto son sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye en su composición la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está del todo resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar un sistema complejo de reglas para verificar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de las palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe clasificarse como una clase de tareas de inteligencia artificial. Sólo puede resolverse por completo modelando los procesos del pensamiento humano. En este caso, aparentemente será necesario crear poderosas bases de conocimiento enciclopédico y herramientas de software para la manipulación del conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es completamente solucionable. Debe plantearse y solucionarse como un problema de control semántico-sintáctico de los textos.

El problema de automatizar la indexación de documentos y consultas es tradicional para los sistemas automatizados de recuperación de información textual. En un principio, la indexación se entendía como el proceso de asignar índices de clasificación a documentos y consultas que reflejaran su contenido temático. Posteriormente, este concepto se transformó y el término "indexación" comenzó a referirse al proceso de traducir descripciones de documentos y consultas del lenguaje natural al lenguaje formalizado, en particular, al lenguaje de las "imágenes de búsqueda". Las imágenes de búsqueda de documentos comenzaron, por regla general, a formarse en forma de listas de palabras clave y frases que reflejaban su contenido temático, y las imágenes de búsqueda de consultas, en forma de estructuras lógicas en las que las palabras clave y frases estaban conectadas entre sí. por operadores lógicos y sintácticos.

Es conveniente indexar automáticamente los documentos basándose en los textos de sus resúmenes (si los hay), ya que los resúmenes reflejan el contenido principal de los documentos de forma concentrada. La indexación se puede realizar con o sin control de tesauro. En el primer caso, en el texto del título del documento y su resumen se buscan palabras y frases clave del diccionario automático de referencia y solo se incluyen en el AML aquellas que se encuentran en el diccionario. En el segundo caso, las palabras y frases clave se aíslan del texto y se incluyen en el POD, independientemente de su pertenencia a algún diccionario de referencia. También se implementó una tercera opción, donde, junto con los términos del tesauro de máquina, el AML también incluía términos extraídos del título y la primera oración del resumen del documento. Los experimentos han demostrado que los POD compilados automáticamente utilizando títulos y resúmenes de documentos proporcionan una búsqueda más completa que los POD compilados manualmente. Esto se explica por el hecho de que el sistema de indexación automática refleja más completamente varios aspectos del contenido de los documentos que el sistema de indexación manual.

La indexación automática de consultas plantea aproximadamente los mismos problemas que la indexación automática de documentos. Aquí también hay que extraer palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Las conexiones lógicas entre palabras y frases clave y los operadores contextuales se pueden ingresar manualmente o mediante un procedimiento automatizado. Un elemento importante del proceso de indexación automática de una consulta es la adición de las palabras clave y frases que la constituyen con sus sinónimos e hipónimos (a veces también hiperónimos y otros términos asociados con los términos de la consulta original). Esto se puede hacer de forma automática o interactiva utilizando un diccionario de sinónimos automático.

Ya hemos considerado parcialmente el problema de la automatización de la búsqueda de información documental en relación con la tarea de indexación automática. Lo más prometedor aquí es buscar documentos utilizando sus textos completos, ya que el uso de todo tipo de sustitutos para este fin (descripciones bibliográficas, imágenes de búsqueda de documentos y los textos de sus resúmenes) conlleva la pérdida de información durante la búsqueda. Las mayores pérdidas se producen cuando se utilizan descripciones bibliográficas como sustitutos de los documentos primarios, y las pérdidas más pequeñas se producen cuando se utilizan resúmenes.

Las características importantes de la calidad de la recuperación de información son su integridad y precisión. La integridad de la búsqueda se puede garantizar teniendo en cuenta al máximo las conexiones paradigmáticas entre las unidades del lenguaje y el habla (palabras y frases), y la precisión, teniendo en cuenta sus conexiones sintagmáticas. Existe la opinión de que la integridad y la precisión de una búsqueda están inversamente relacionadas: las medidas para mejorar una de estas características conducen a un deterioro de la otra. Pero esto sólo es cierto para la lógica de búsqueda fija. Si se mejora esta lógica, entonces se podrán mejorar ambas características simultáneamente.

Es recomendable construir el proceso de búsqueda de información en bases de datos de texto completo como un proceso de comunicación interactiva entre el usuario y el sistema de recuperación de información (IRS), en el que visualiza secuencialmente fragmentos de texto (párrafos) que satisfacen las condiciones lógicas de la solicitud, y selecciona aquellas que sean relevantes para él y sean de su interés. Los resultados finales de la búsqueda pueden aparecer como textos completos documentos y cualquier fragmento de los mismos.

Como se desprende de las discusiones anteriores, a la hora de buscar información automáticamente es necesario superar la barrera del idioma que surge entre el usuario y el sistema de información debido a la variedad de formas de representación de un mismo significado que se presenta en los textos. Esta barrera se vuelve aún más importante si la búsqueda debe realizarse en bases de datos multilingües. Una solución radical al problema podría ser la traducción automática de textos de documentos de un idioma a otro. Esto se puede hacer con antelación, antes de cargar documentos en un motor de búsqueda, o durante el proceso de búsqueda de información. En el último caso, la solicitud del usuario debe traducirse al idioma del conjunto de documentos en el que se realiza la búsqueda, y los resultados de la búsqueda deben traducirse al idioma de la solicitud. Este tipo de motores de búsqueda ya funcionan en Internet. VINITI RAS también creó un sistema de navegador cirílico, que permite buscar información en textos en ruso mediante consultas en inglés con resultados de búsqueda también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística informática es la construcción de procesadores lingüísticos que garanticen la comunicación del usuario con sistemas de información automatizados inteligentes (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural. Dado que en los sistemas inteligentes modernos la información se almacena en forma formalizada, los procesadores lingüísticos, actuando como intermediarios entre una persona y una computadora, deben resolver las siguientes tareas principales: 1) la tarea de pasar de los textos de las solicitudes de información de entrada a los mensajes en formato natural lenguaje para representar su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) la tarea de pasar de una representación formalizada del significado de los mensajes de salida a su representación en lenguaje natural (al transmitir información a una persona). La primera tarea debe resolverse mediante un análisis morfológico, sintáctico y conceptual de las consultas y mensajes de entrada, la segunda, mediante una síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

El análisis conceptual de solicitudes y mensajes de información consiste en identificar su estructura conceptual (los límites de los nombres de los conceptos y las relaciones entre conceptos en el texto) y traducir esta estructura a un lenguaje formalizado. Se realiza tras un análisis morfológico y sintáctico de solicitudes y mensajes. La síntesis conceptual de mensajes consiste en la transición de la representación de los elementos de su estructura en un lenguaje formalizado a una representación verbal (verbal). Posteriormente, a los mensajes se les da el formato sintáctico y morfológico necesario.

Para la traducción automática de textos de un lenguaje natural a otro, es necesario disponer de diccionarios de correspondencia de traducción entre los nombres de los conceptos. El conocimiento sobre dichas correspondencias de traducción fue acumulado por muchas generaciones de personas y se recopiló en forma de publicaciones especiales: diccionarios bilingües o multilingües. Para especialistas que tengan algún conocimiento de idiomas extranjeros, estos diccionarios sirvieron como valiosas ayudas para la traducción de textos.

En los diccionarios tradicionales bilingües y multilingües de uso general, los equivalentes de traducción se indicaban principalmente para palabras individuales y, con mucha menos frecuencia, para frases. La indicación de equivalentes de traducción de frases era más típica de los diccionarios terminológicos especiales. Por lo tanto, al traducir secciones de textos que contienen palabras polisemánticas, los estudiantes a menudo encontraban dificultades.

A continuación se muestran correspondencias de traducción entre varios pares de frases en inglés y ruso sobre temas “escolares”.

1) El murciélago parece un ratón con alas – El murciélago parece un ratón con alas.

2) A los niños les gusta jugar en la arena de la playa - A los niños les encanta jugar en la arena de la orilla del mar.

3) Una gota de lluvia cayó sobre mi mano - Una gota de lluvia cayó sobre mi mano.

4) La madera seca arde fácilmente; la madera seca arde bien.

5) Fingió no oírme - Fingió no oírme.

Aquí frases en ingles no son expresiones idiomáticas. Sin embargo, su traducción al ruso sólo puede considerarse, con cierta extensión, como una simple traducción palabra por palabra, ya que casi todas las palabras incluidas en ellas son ambiguas. Por lo tanto, aquí sólo los logros de la lingüística informática pueden ayudar a los estudiantes.

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”


INTRODUCCIÓN

1. El lugar y el papel de la lingüística computacional en la investigación lingüística

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA


Introducción

Las tecnologías de la información automatizadas juegan un papel importante en la vida de la sociedad moderna. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo de la tecnología de la información es muy desigual: si el nivel moderno de la tecnología informática y las comunicaciones es sorprendente, en el campo del procesamiento semántico de la información los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta para pensar. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática se ocupa de los problemas del uso del lenguaje natural en sistemas automáticos de procesamiento de información. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: sistemas de traducción automática de textos de una lengua natural a otra, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos de información oral. discurso, y se han creado muchos otros. Este trabajo está dedicado a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.


En el mundo moderno, la lingüística computacional se utiliza cada vez más para realizar diversos estudios lingüísticos.

La lingüística computacional es un campo del conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada del significado a textos en formato natural). idioma). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección y corrección automática de errores al ingresar textos en una computadora, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lengua y habla, textos y diversos tipos de tablas gramaticales, la parte procesal incluye medios para manipular unidades de lengua y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procesal de la lingüística computacional.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido para resolver estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc. ).

Sin embargo, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Así, en varios países (Rusia, EE. UU., Japón, etc.) se han construido sistemas experimentales e industriales para la traducción automática de textos de un idioma a otro, se han construido una serie de sistemas experimentales para comunicarse con computadoras en lenguaje natural. , se está trabajando en la creación de bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, Estados Unidos, Alemania, Francia, etc.), se están construyendo sistemas de análisis y síntesis automática del habla oral (Rusia, Estados Unidos, Japón, etc. .), se están realizando investigaciones en el campo de la construcción de modelos de lenguaje natural.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procesales de los sistemas automáticos de procesamiento de información textual. ¿Qué debería preferirse: procedimientos computacionales potentes basados ​​en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un componente declarativo potente con interfaces informáticas relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Conducirá al logro de objetivos prácticos más rápidamente, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, para el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de información textual está confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar de los innegables éxitos de esta ciencia, la pasión por los procedimientos algorítmicos no ha dado el éxito esperado. Incluso hubo cierta decepción respecto de la capacidad de los medios procesales.

A la luz de lo anterior, parece prometedor desarrollar un camino de desarrollo de la lingüística informática, en el que los principales esfuerzos estarán dirigidos a crear poderosos diccionarios de lenguas y unidades de habla, estudiar su estructura semántico-sintáctica y crear procedimientos básicos para la comprensión morfológica, Análisis y síntesis semántico-sintáctico y conceptual de textos. Esto nos permitirá resolver una amplia gama de problemas aplicados en el futuro.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico a los procesos de recopilación, acumulación, procesamiento y recuperación de información. Los más importantes de ellos son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación del usuario con sistemas de información inteligentes automatizados (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural;

8. Extraer información objetiva de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información, existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto son sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye en su composición la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está del todo resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar un sistema complejo de reglas para verificar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de las palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe clasificarse como una clase de tareas de inteligencia artificial. Sólo puede resolverse por completo modelando los procesos del pensamiento humano. En este caso, aparentemente será necesario crear poderosas bases de conocimiento enciclopédico y herramientas de software para la manipulación del conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es completamente solucionable. Debe plantearse y solucionarse como un problema de control semántico-sintáctico de los textos.

Desde 2012, el Instituto de Lingüística de la Universidad Estatal de Humanidades de Rusia forma maestros en el programa de maestría. Ligüística computacional(dirección Lingüística fundamental y aplicada). Este programa está diseñado para preparar profesionales. lingüistas que dominan los conceptos básicos de la lingüística y métodos modernos Trabajo de investigación, análisis experto, ingeniería y capaz de participar eficazmente en el desarrollo de tecnologías informáticas lingüísticas innovadoras.

En el proceso educativo participan los desarrolladores de importantes proyectos de investigación y desarrollo. sistemas comerciales en el campo del procesamiento automático de textos, lo que garantiza la conexión de la formación de maestría con la corriente principal de la lingüística informática moderna. Atención especial Se paga por la participación de los maestros en conferencias rusas e internacionales.

Entre los profesores se encuentran autores de libros de texto básicos sobre especialidades lingüísticas, especialistas de talla mundial, directores de proyectos de grandes sistemas automáticos de procesamiento del lenguaje: Ya.G. Testelets, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov, así como empleados de empresas líderes mundiales en el campo de la lingüística computacional: IBM (sistema Watson), Yandex, ABBYY (sistemas Lingvo, FineReader, Compreno).

La base para la formación de maestros en este programa es el enfoque de proyectos. La participación de los estudiantes de maestría en trabajos de investigación en el campo de la lingüística computacional se lleva a cabo sobre la base de la Universidad Estatal Rusa de Humanidades y sobre la base de empresas que desarrollan programas en el campo de AOT (ABBYY, IBM, etc.), que Por supuesto, es una gran ventaja tanto para los propios maestros como para sus posibles empleadores. En particular, en el programa de maestría se admiten maestros específicos, cuya formación es proporcionada por futuros empleadores.

Pruebas de ingreso: "Modelos y métodos formales de la lingüística moderna". Se puede obtener información precisa sobre el momento del examen en el sitio web del Departamento de Maestría de la Universidad Estatal de Humanidades de Rusia.

Jefes de magistratura - jefe. Centro Educativo y Científico de Lingüística Computacional, Director de Investigación Lingüística de ABBYY Vladimir Pavlovich Selegey y Doctor en Filología, Profesor Vera Isaakovna Podleskaya .

Programa del examen de ingreso y entrevista para la disciplina “Modelos y métodos formales de la lingüística moderna”.

Comentarios sobre el programa.

  • Cualquier pregunta del programa puede ir acompañada de tareas relacionadas con descripciones de fenómenos lingüísticos específicos relacionados con la sección de la pregunta: construcción de estructuras, descripción de restricciones, posibles algoritmos de construcción y/o identificación.
  • Las preguntas marcadas con asteriscos son opcionales (aparecen bajo el número 3 de los billetes). El conocimiento del material relevante es una ventaja importante para los candidatos, pero no es obligatorio.
  • Además de las preguntas teóricas, los boletos de examen ofrecerán un pequeño fragmento de un texto especial (lingüístico) en inglés para traducción y discusión. Los solicitantes deben demostrar un nivel satisfactorio de competencia en terminología científica en inglés y habilidades de análisis de textos científicos. Como ejemplo de un texto que no debería causar serias dificultades al solicitante, a continuación se muestra un fragmento del artículo https://en.wikipedia.org/wiki/Anaphora_(linguistics):

En lingüística, anáfora (/əˈnæfərə/) es el uso de una expresión cuya interpretación depende de otra expresión en contexto (su antecedente o poscedente). En un sentido más estricto, anáfora es el uso de una expresión que depende específicamente de una expresión antecedente y, por tanto, se contrasta con la catáfora, que es el uso de una expresión que depende de una expresión poscedente. El término anafórico (de referencia) se llama anáfora. Por ejemplo, en la oración Sally llegó, pero nadie la vio, el pronombre ella es una anáfora y se refiere al antecedente Sally. En la oración Antes de su llegada, nadie vio a Sally, el pronombre ella se refiere a la Sally poscedente, por lo que ella ahora es una catáfora (y una anáfora en el sentido más amplio, pero no en el más estricto). Por lo general, una expresión anafórica es una proforma o algún otro tipo de expresión deíctica (dependiente del contexto). Tanto la anáfora como la catáfora son especies de endófora y se refieren a algo mencionado en otra parte de un diálogo o texto.

La anáfora es un concepto importante por diferentes razones y en diferentes niveles: primero, la anáfora indica cómo se construye y mantiene el discurso; en segundo lugar, la anáfora une diferentes elementos sintácticos al nivel de la oración; tercero, la anáfora presenta un desafío para el procesamiento del lenguaje natural en lingüística computacional, ya que la identificación de la referencia puede resultar difícil; y cuarto, la anáfora dice algunas cosas sobre cómo se entiende y procesa el lenguaje, lo cual es relevante para los campos de la lingüística interesados ​​en la psicología cognitiva.

CUESTIONES TEÓRICAS

CUESTIONES GENERALES DE LINGÜÍSTICA

  • Objeto de la lingüística. Lenguaje y habla. Sincronía y diacronía.
  • Niveles de lenguaje. Modelos formales de niveles lingüísticos.
  • Sintagmática y paradigmática. El concepto de distribución.
  • Fundamentos de las comparaciones interlingüísticas: lingüística tipológica, genealógica y areal.
  • *Lingüística matemática: objeto y métodos de investigación.

FONÉTICA

  • Materia de fonética. Fonética articulatoria y acústica.
  • Fonética segmentaria y suprasegmental. Prosodia y entonación.
  • Conceptos básicos de fonología. Tipología de sistemas fonológicos y sus implementaciones fonéticas.
  • *Herramientas informáticas y métodos de investigación fonética.
  • *Análisis y síntesis del discurso.

MORFOLOGÍA

  • Tema de morfología. Morfos, morfemas, alomorfos.
  • Inflexión y formación de palabras.
  • Significados gramaticales y formas de implementarlos. Categorías gramaticales y gramamas. Significados gramaticales morfológicos y sintácticos.
  • Los conceptos de forma de palabra, raíz, lema y paradigma.
  • Partes de la oración; Enfoques básicos para identificar partes del discurso.
  • *Modelos formales para describir la inflexión y formación de palabras.
  • *Morfología en tareas de procesamiento automático del lenguaje: revisión ortográfica, lematización, POS-tagging

SINTAXIS

  • Tema de sintaxis. Modos de expresar relaciones sintácticas.
  • Formas de representar la estructura sintáctica de una oración. Ventajas y desventajas de los árboles y componentes de dependencia.
  • Formas de describir el orden lineal. Falta de proyectividad y rotura de componentes. El concepto de transformación; transformaciones asociadas con el orden lineal.
  • La relación entre sintaxis y semántica: valencias, modelos de control, actantes y circonstantes.
  • Diátesis y colaterales. Derivación del actante.
  • Organización comunicativa del enunciado. Tema y rema, dado y nuevo, contraste.
  • *Principales teorías sintácticas: MST, generativismo, gramática funcional, HPSG
  • *Modelos matemáticos de sintaxis: clasificación de lenguajes formales según Chomsky, algoritmos de reconocimiento y su complejidad.

SEMÁNTICA

  • Tema de semántica. Imágenes lingüísticas ingenuas y científicas del mundo. Hipótesis de Sapir-Whorf.
  • El significado en el lenguaje y el habla: significado y referente. Tipo de referencia (estado denotativo).
  • Semántica léxica. Formas de describir la semántica de una palabra.
  • Semántica gramatical. Categorías principales utilizando el ejemplo del idioma ruso.
  • Semántica de la oración. Componente proposicional. Deixis y anáfora. Cuantificadores y conectivos. Modalidad.
  • Jerarquía y sistematicidad de significados léxicos. Polisemia y homonimia. Estructura semántica de una palabra polisemántica. Los conceptos de invariante y prototipo.
  • Relaciones paradigmáticas y sintagmáticas en el vocabulario. Funciones léxicas.
  • Interpretación. Lengua de interpretación. Escuela Semántica de Moscú
  • Semántica y lógica. El valor de verdad del enunciado.
  • Teoría de los actos de habla. El enunciado y su fuerza ilocutiva. Performativos. Clasificación de actos de habla.
  • Fraseología: inventario y métodos de descripción de unidades fraseológicas.
  • *Modelos y métodos de semántica formal.
  • *Modelos de semántica en la lingüística computacional moderna.
  • *Semántica distributiva y operativa.
  • *Ideas básicas de gramática de la construcción.

TIPOLOGÍA

  • Clasificaciones tipológicas tradicionales de las lenguas.
  • Tipología de categorías gramaticales de sustantivo y verbo.
  • Tipología oración simple. Los principales tipos de construcciones: acusativo, ergativo, activo.
  • Tipología del orden de las palabras y correlaciones de Greenberg. Lenguajes de ramificación izquierda y derecha.

LEXICOGRAFÍA

  • El vocabulario como inventario de la cultura; variación social del vocabulario, uso léxico, norma, codificación.
  • Tipología de diccionarios (sobre material ruso). Reflexión de vocabulario en diccionarios de diversos tipos.
  • Lexicografía bilingüe utilizando la lengua rusa.
  • Lexicografía descriptiva y prescriptiva. Diccionarios lingüísticos profesionales.
  • Detalles de los principales diccionarios explicativos rusos. Estructura de una entrada de diccionario. Interpretación e información enciclopédica.
  • Vocabulario y gramática. La idea de un modelo integral de lenguaje en la Escuela Semántica de Moscú.
  • *Metodología de un lexicógrafo.
  • *Métodos de corpus en lexicografía.

LINGÜÍSTICA DEL TEXTO Y DEL DISCURSO

  • El concepto de texto y discurso.
  • Mecanismos de comunicación entre frases. Los principales tipos de medios de su implementación lingüística.
  • La oración como unidad del lenguaje y como elemento del texto.
  • Unidades superfrasales, principios de su formación y aislamiento, propiedades básicas.
  • Principales categorías de clasificación de textos (género, estilo, registro, área temática, etc.)
  • *Métodos de clasificación automática de géneros.

SOCIOLINGÜÍSTICA

  • El problema de la asignatura y los límites de la sociolingüística, su carácter interdisciplinar. Conceptos básicos de sociología y demografía. Niveles de estructura lingüística y sociolingüística. Conceptos básicos y direcciones de la sociolingüística.
  • Contactos lingüísticos. Bilingüismo y diglosia. Procesos divergentes y convergentes en la historia del lenguaje.
  • Diferenciación social del lenguaje. Formas de existencia del lenguaje. Lenguaje literario: uso-norma-codificación. Áreas funcionales del lenguaje.
  • Socialización del lenguaje. La naturaleza jerárquica de la identidad social y lingüística. El comportamiento lingüístico de un individuo y su repertorio comunicativo.
  • Métodos de investigación sociolingüística.

LINGÜÍSTICA INFORMÁTICA

  • Tareas y métodos de la lingüística computacional.
  • Lenguaje del cuerpo. Principales características del caso.
  • Representación del conocimiento. Ideas básicas de la teoría de marcos de M. Minsky. Sistema Framenet.
  • Tesauros y ontologías. WordNet.
  • Fundamentos del análisis estadístico de textos. Diccionarios de frecuencias. Análisis de colocación.
  • *El concepto de aprendizaje automático.

LITERATURA

Educativo (nivel básico)

Baranov A.N. Introducción a la Lingüística Aplicada. M.: Editorial URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Conceptos básicos de fraseología ( curso corto) Tutorial. 2da edición. Moscú: Flintá, 2014.

Belikov V.A., Krysin L.P. Sociolingüística. M., Universidad Estatal Rusa de Humanidades, 2001.

Burlak S.A., Starostin S.A. Lingüística histórica comparada. M.: Academia. 2005

Vakhtin N.B., Golovko E.V.. Sociolingüística y sociología del lenguaje. San Petersburgo, 2004.

Knyazev S.V., Pozharitskaya S.K. Lengua literaria rusa moderna: fonética, gráfica, ortografía, ortografía. 2da ed. M., 2010

Kobozeva I.M. Semántica lingüística. M.: Editorial URSS. 2004.

Kodzasov S.V., Krivnova O.F. Fonética general. M.: RSUH, 2001.

Krongauz M.A. Semántica. M.: RSUH. 2001.

Krongauz M.A. Semántica: Tareas, encargos, textos. M.: Academia. 2006..

Maslov yu.s. Introducción a la lingüística. Ed. 6to, borrado. M.: Academia, phil. falso. Universidad Estatal de San Petersburgo,

Plungyan V.A. Morfología general: Introducción a la materia. Ed. 2do. M.: Editorial URSS, 2003.

Testelets Ya.G. Introducción a la sintaxis general. M., 2001.

Shaikevich A.Ya. Introducción a la lingüística. M.: Academia. 2005.

Científico y de referencia

Apresyan Yu.D. Obras seleccionadas, volumen I. Semántica léxica: 2ª ed., español. y adicional M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D. Obras seleccionadas, Volumen II. Descripción integral de la lengua y lexicografía del sistema. M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D.(ed.) Nuevo diccionario explicativo de sinónimos de la lengua rusa. Moscú - Viena: "Lenguas de la cultura rusa", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(ed.) Imagen lingüística del mundo y lexicografía sistémica (ed. Yu. D. Apresyan). M.: "Lenguas de las culturas eslavas", 2006, Prefacio y capítulo. 1, págs.26-74.

Bulygina T.V., Shmelev A.D. Conceptualización lingüística del mundo (basada en la gramática rusa). M.: Escuela "Lenguas de la cultura rusa", 1997.

Weinreich W. Contactos lingüísticos. Kyiv, 1983.

Vezhbitskaya A. Universales semánticos y descripción de lenguas. M.: Escuela "Lenguas de la cultura rusa". 1999.

Galperín I.R. El texto como objeto de investigación lingüística. 6ª edición. M.: LKI, 2008 ("Patrimonio lingüístico del siglo XX")

Zaliznyak A.A.“Inflexión nominal rusa” con la aplicación de obras seleccionadas sobre la lengua rusa moderna y la lingüística general. M.: Idiomas cultura eslava, 2002.

Zaliznyak A.A., Paducheva E.V. Hacia una tipología de cláusulas de relativo. / Semiótica e informática, vol. 35. M., 1997, pág. 59-107.

Ivanov Vyach. Sol.. Lingüística del tercer milenio. Preguntas para el futuro. M., 2004. P. 89-100 (11. Situación lingüística en el mundo y previsión para el futuro próximo).

Kibrik A.E. Ensayos sobre cuestiones generales y aplicadas de la lingüística. M.: Editorial de la Universidad Estatal de Moscú, 1992.

Kibrik A.E. Constantes y variables del lenguaje. San Petersburgo: Aletheya, 2003.

Labov U. Sobre el mecanismo de los cambios lingüísticos // Novedades en lingüística. Número 7. M., 1975. P.320-335.

Lyons J. Semántica lingüística: Introducción. M.: Lenguas de cultura eslava. 2003.

Lyon Juan. Lengua y lingüística. Curso de introducción. M: URSS, 2004

Lakoff J. Mujeres, fuego y cosas peligrosas: lo que nos dicen las categorías del lenguaje sobre el pensamiento. M.: Lenguas de cultura eslava. 2004.

Lakoff J, Johnson M. Metáforas por las que vivimos. Por. De inglés Edición 2. M.: URSS. 2008.

Diccionario Enciclopédico Lingüístico / Ed. Y EN. Yartseva. M.: Editorial científica "Gran Enciclopedia Rusa", 2002.

Melchuk I.A. Curso de morfología general. Tt. I-IV. Moscú-Viena: "Lenguas de la cultura eslava", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Melchuk I.A. Experiencia en la teoría de modelos lingüísticos “SIGNIFICADO ↔ TEXTO”. M.: Escuela "Lenguas de la cultura rusa", 1999.

Fedorova L.L. Semiótica. M., 2004.

Filippov K.A. Lingüística del texto: Curso de conferencias - 2ª ed., español. y adicional Ed. San Petersburgo Universidad, 2007.

Haspelmath, M., et al.. (eds.). Atlas mundial de estructuras del lenguaje. Oxford, 2005.

Secadora, MS y Haspelmath, M.(eds.) Atlas mundial de estructuras lingüísticas en línea. Leipzig: Instituto Max Planck de Antropología Evolutiva, 2013. (http://wals.info)

Croft W. Tipología y Universales. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.). Tipología de lenguas y descripción sintáctica. 2da edición. Cambridge, 2007.

V. I. Belikov. Acerca de los diccionarios "que contienen las normas de la lengua literaria rusa moderna cuando se utilizan como idioma estatal Federación Rusa" 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Lingüística informática y tecnologías intelectuales: basado en los materiales de la Conferencia Internacional anual “Diálogo”. vol. 1-11. - M.: Editorial Nauka, de la Universidad Estatal Rusa de Humanidades, 2002-2012. (Artículos sobre lingüística computacional, http://www.dialog-21.ru).

Corpus Nacional de la Lengua Rusa: 2006-2008. Nuevos resultados y perspectivas. / Rep. ed. V. A. Plungyan. - San Petersburgo: Nestor-Historia, 2009.

Novedad en lingüística extranjera. vol. XXIV, Lingüística computacional / Comp. B. Yu.Gorodetsky. M.: Progreso, 1989.

Shimchuk E. G. Lexicografía rusa: libro de texto. M.: Academia, 2009.

Corpus Nacional de la Lengua Rusa: 2003-2005. Compendio de artículos. M.: Indrik, 2005.

Para contactos:

Centro Educativo y Científico de Lingüística Computacional del Instituto de Lingüística de la Universidad Estatal Rusa de Humanidades

Lingüística (del latín lingua -
lenguaje), lingüística, lingüística - ciencia,
estudiar idiomas.
Esta es la ciencia del lenguaje humano natural en general.
y sobre todos los idiomas del mundo como el suyo
representantes individuales.
En el sentido amplio de la palabra, la lingüística
dividido en científico y práctico. Más a menudo
Lo que se entiende por lingüística es precisamente
Lingüística científica. Es parte de la semiótica como
ciencia de los signos.
La lingüística es estudiada profesionalmente por científicos lingüistas.

Lingüística e Informática.
Los sistemas automatizados juegan un papel importante en la vida de la sociedad moderna.
tecnologías de la información. Pero el desarrollo de la tecnología de la información está ocurriendo.
muy desigualmente: si el nivel moderno de la tecnología informática y
Los medios de comunicación asombran la imaginación, luego en el campo del procesamiento semántico.
información, los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de
Logros en el estudio de los procesos de pensamiento humano, procesos del habla.
comunicación entre personas y la capacidad de simular estos procesos en una computadora. Y ésta es una tarea de extrema complejidad. Cuando se trata de crear prometedores
tecnología de la información, entonces los problemas del procesamiento automático de textos
La información presentada en lenguajes naturales pasa a primer plano.
Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Más
Además, el lenguaje natural es una herramienta de pensamiento. Él también lo es
un medio universal de comunicación entre personas: un medio de percepción,
acumulación, almacenamiento, procesamiento y transmisión de información.
Problemas de utilizar el lenguaje natural en automático.
La ciencia de la lingüística informática se ocupa del procesamiento de información. esta ciencia
Surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta.
el siglo pasado. En un principio, durante su formación, tuvo diversas
títulos: lingüística matemática, lingüística computacional, ingeniería
lingüística. Pero a principios de los años ochenta se le asignó el nombre.
Ligüística computacional.

La lingüística computacional es un campo del conocimiento relacionado con la resolución de problemas.
Procesamiento automático de información presentada en lenguaje natural.
Los problemas científicos centrales de la lingüística computacional son el problema
modelar el proceso de comprensión del significado de los textos (transición de texto a
representación formalizada de su significado) y el problema de la síntesis del habla (transición de
representación formalizada del significado de textos en lenguaje natural). Estos problemas
surgen al resolver una serie de problemas aplicados:
1) detección automática y corrección de errores al ingresar textos en una computadora,
2) análisis automático y síntesis del habla oral,
3) traducción automática de textos de un idioma a otro,
4) comunicación con una computadora en lenguaje natural,
5) clasificación e indexación automática de documentos de texto, su
resúmenes automáticos, búsqueda de documentos en bases de datos de texto completo.
Durante el último medio siglo en el campo de la lingüística computacional se han obtenido
Resultados científicos y prácticos importantes: se crearon sistemas de máquinas.
traducción de textos de un lenguaje natural a otro, sistemas automatizados
búsqueda de información en textos, sistemas de análisis y síntesis automática del habla oral y
muchos otros. Pero también hubo decepciones. Por ejemplo, el problema de la traducción automática.
Los textos de un idioma a otro resultaron ser mucho más difíciles de lo imaginado.
Pioneros de la traducción automática y sus seguidores. Lo mismo puede decirse de
búsqueda automatizada de información en textos y la tarea de análisis y síntesis de información oral
discurso. Al parecer, los científicos e ingenieros tendrán que trabajar mucho más para
lograr los resultados deseados.

Procesamiento del lenguaje natural; sintáctico,
análisis morfológico y semántico del texto). Esto también incluye:
Lingüística de corpus, creación y uso de corpus de textos electrónicos.
Creación de diccionarios electrónicos, tesauros, ontologías. Por ejemplo, Lingvo. Diccionarios
Se utiliza, por ejemplo, para la traducción automática y la revisión ortográfica.
Traducción automática de textos. Popular entre los traductores de ruso
es pronto. Entre los gratuitos se encuentra Google Translate.
Extracción automática de hechos del texto (extracción de información)
extracción, minería de texto)
Resumen automático de texto. Esta característica está habilitada
por ejemplo, en Microsoft Word.
Construir sistemas de gestión del conocimiento. Ver Sistemas Expertos
Creación de sistemas de respuesta a preguntas.
Reconocimiento óptico de caracteres (OCR). Por ejemplo, el programa FineReader
Reconocimiento automático de voz (ASR). Hay software de pago y gratuito.
Síntesis automática de voz

El contenido del artículo.

LINGÜÍSTICA INFORMÁTICA, dirección en lingüística aplicada, centrada en el uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para modelar el funcionamiento del lenguaje en determinadas condiciones, situaciones, áreas problemáticas, etc., así como todo el ámbito de aplicación de Modelos informáticos del lenguaje en lingüística y disciplinas afines. En realidad, sólo en este último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático del lenguaje también puede considerarse como un campo de aplicación de la informática y la teoría de la programación para la resolución de problemas en la ciencia del lenguaje. En la práctica, sin embargo, la lingüística computacional incluye casi todo lo relacionado con el uso de computadoras en lingüística.

La lingüística computacional se constituyó como un campo científico especial en los años 1960. El término ruso "lingüística informática" es una traducción del inglés computacional lingüística. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia rusa adquiere un significado más limitado, acercándose al concepto de "lingüística cuantitativa". El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista Computer Linguistics se publica trimestralmente en Estados Unidos. Gran parte del trabajo organizativo y científico lo lleva a cabo la Asociación de Lingüística Computacional, que tiene estructuras regionales (en particular, una sucursal europea). Cada dos años se celebran congresos internacionales sobre lingüística computacional (COLING). Los temas correspondientes suelen estar ampliamente representados en diversas conferencias sobre inteligencia artificial.

Kit de herramientas para lingüística computacional.

La lingüística computacional como disciplina aplicada especial se distingue principalmente por su instrumento, es decir. por uso herramientas informáticas Procesamiento de datos lingüísticos. Dado que los programas informáticos que modelan ciertos aspectos del funcionamiento de un lenguaje pueden utilizar una variedad de herramientas de programación, no parece necesario hablar del aparato conceptual general de la lingüística informática. Sin embargo, no lo es. Existen principios generales del modelado informático del pensamiento, que de alguna manera se implementan en cualquier modelo informático. Se basan en la teoría del conocimiento, que se desarrolló originalmente en el campo de la inteligencia artificial y luego se convirtió en una de las ramas de la ciencia cognitiva. Las categorías conceptuales más importantes de la lingüística informática son estructuras de conocimiento como "marcos" (conceptuales o, como dicen, estructuras conceptuales para la representación declarativa del conocimiento sobre una situación temáticamente unificada tipificada), "escenarios" (estructuras conceptuales para la comprensión procesal). representación de conocimiento sobre una situación estereotipada o un comportamiento estereotipado), “planes” (estructuras de conocimiento que capturan ideas sobre posibles acciones que conducen al logro de un determinado objetivo). Estrechamente relacionado con la categoría de fotograma está el concepto de “escena”. La categoría de escena se utiliza predominantemente en la literatura sobre lingüística computacional como designación de una estructura conceptual para la representación declarativa de lo actualizado y resaltado. lenguaje significa(lexemas, construcciones sintácticas, categorías gramaticales, etc.) situaciones y sus partes.

Un conjunto organizado de estructuras de conocimiento forma en cierta manera el "modelo mundial" del sistema cognitivo y su modelo informático. En los sistemas de inteligencia artificial, el modelo mundial forma un bloque especial que, dependiendo de la arquitectura elegida, puede incluir conocimientos generales sobre el mundo (en forma de proposiciones simples como "hace frío en invierno" o en forma de reglas de producción). “si afuera está lloviendo, entonces es necesario llevar impermeable o paraguas”), algunos datos específicos (“El pico más alto del mundo es el Everest”), así como valores y sus jerarquías, a veces separados en un “bloque axiológico” especial.

La mayoría de los elementos de los conceptos de las herramientas de la lingüística computacional son homónimos: designan simultáneamente algunas entidades reales del sistema cognitivo humano y formas de representar estas entidades utilizadas en su descripción y modelado teórico. En otras palabras, los elementos del aparato conceptual de la lingüística informática tienen aspectos ontológicos e instrumentales. Por ejemplo, en el aspecto ontológico, la división del conocimiento declarativo y procedimental corresponde a diferentes tipos de conocimiento disponibles para una persona: el llamado conocimiento QUÉ (declarativo; como, por ejemplo, el conocimiento de la dirección postal de algún NN), por un lado, y el conocimiento CÓMO (procedimental; tal , por ejemplo, conocimiento que le permite encontrar el apartamento de este NN, incluso sin conocer su dirección formal), por el otro. En el aspecto instrumental, el conocimiento puede materializarse en un conjunto de descripciones (descripciones), en un conjunto de datos, por un lado, y en un algoritmo, una instrucción realizada por una computadora o algún otro modelo de sistema cognitivo, en el otro.

Direcciones de la lingüística computacional.

El campo de CL es muy diverso e incluye áreas como el modelado informático de la comunicación, el modelado de la estructura de la trama, las tecnologías de hipertexto para la presentación de texto, la traducción automática y la lexicografía informática. En un sentido estricto, los problemas de CL a menudo se asocian con un área aplicada interdisciplinaria con el nombre un tanto desafortunado de "procesamiento del lenguaje natural" (traducción del término inglés Natural Language Processing). Surgió a finales de los años 1960 y se desarrolló dentro de la disciplina científica y tecnológica de la “inteligencia artificial”. En su forma interna, la frase "procesamiento del lenguaje natural" cubre todas las áreas en las que se utilizan computadoras para procesar datos lingüísticos. Mientras tanto, en la práctica se ha arraigado una comprensión más estrecha de este término: el desarrollo de métodos, tecnologías y sistemas específicos que garantizan la comunicación humana con una computadora en un lenguaje natural o natural limitado.

El rápido desarrollo del campo del “procesamiento del lenguaje natural” se produjo en la década de 1970, lo que estuvo asociado con un crecimiento exponencial inesperado en el número de usuarios finales de computadoras. Dado que es imposible enseñar lenguajes y tecnologías de programación a todos los usuarios, ha surgido el problema de organizar la interacción con los programas informáticos. La solución a este problema de comunicación siguió dos caminos principales. En el primer caso se intentó adaptar los lenguajes de programación y los sistemas operativos al usuario final. Como resultado, aparecieron los idiomas. nivel alto como Visual Basic, así como sistemas operativos convenientes construidos en el espacio conceptual de metáforas familiares para los humanos: ESCRITORIO, BIBLIOTECA. La segunda forma es desarrollar sistemas que permitan la interacción con una computadora en un área problemática específica en lenguaje natural o alguna versión limitada del mismo.

La arquitectura de los sistemas de procesamiento del lenguaje natural en el caso general incluye un bloque para analizar el mensaje de voz del usuario, un bloque para interpretar el mensaje, un bloque para generar el significado de la respuesta y un bloque para sintetizar la estructura superficial de la declaración. Una parte especial del sistema es el componente de diálogo, que registra las estrategias para llevar a cabo el diálogo, las condiciones para utilizar estas estrategias y las formas de superar posibles fallas de comunicación (fallas en el proceso de comunicación).

Entre los sistemas informáticos de procesamiento del lenguaje natural se suelen distinguir los sistemas de preguntas y respuestas, los sistemas interactivos de resolución de problemas y los sistemas de procesamiento de textos conectados. Inicialmente, los sistemas de preguntas y respuestas comenzaron a desarrollarse como reacción a la mala calidad de la codificación de consultas al buscar información en sistemas de recuperación de información. Dado que el área problemática de tales sistemas era muy limitada, esto simplificó un poco los algoritmos para traducir consultas a una representación en un lenguaje formal y el procedimiento inverso para convertir una representación formal en declaraciones en un lenguaje natural. Entre los desarrollos nacionales, los programas de este tipo incluyen el sistema POET, creado por un equipo de investigadores bajo la dirección de E.V. Popov. El sistema procesa solicitudes en ruso (con pequeñas restricciones) y sintetiza la respuesta. El diagrama de flujo del programa implica pasar por todas las etapas de análisis (morfológica, sintáctica y semántica) y las correspondientes etapas de síntesis.

Los sistemas conversacionales de resolución de problemas, a diferencia de los sistemas del tipo anterior, juegan un papel activo en la comunicación, ya que su tarea es obtener una solución al problema a partir del conocimiento que en él mismo se presenta y la información que se puede obtener del usuario. . El sistema contiene estructuras de conocimiento que registran secuencias típicas de acciones para resolver problemas en un área problemática determinada, así como información sobre los recursos necesarios. Cuando un usuario hace una pregunta o establece una tarea específica, se activa el script correspondiente. Si faltan algunos componentes del script o faltan algunos recursos, el sistema inicia la comunicación. Así funciona, por ejemplo, el sistema SNUKA solucionador de problemas planificar operaciones militares.

Los sistemas para procesar textos conectados tienen una estructura bastante diversa. Su característica común puede considerarse el uso generalizado de tecnologías de representación del conocimiento. Las funciones de sistemas de este tipo son comprender el texto y responder preguntas sobre su contenido. La comprensión no se considera como una categoría universal, sino como un proceso de extracción de información de un texto, determinado por una intención comunicativa específica. En otras palabras, el texto se "lee" sólo asumiendo que es exactamente lo que el usuario potencial quiere saber sobre él. Por lo tanto, los sistemas para procesar textos interconectados resultan no ser universales, sino orientados a problemas. Ejemplos típicos de sistemas del tipo analizado son los sistemas INVESTIGADOR y TAILOR, que forman un único paquete de software que permite al usuario obtener información de resúmenes de patentes que describen objetos físicos complejos.

El área más importante de la lingüística informática es el desarrollo de sistemas de recuperación de información (IRS). Este último surgió a finales de los años cincuenta y principios de los sesenta como respuesta al fuerte aumento del volumen de información científica y técnica. Según el tipo de información almacenada y procesada, así como las funciones de búsqueda, los sistemas de recuperación de información se dividen en dos grandes grupos: documentales y fácticos. Los sistemas de recuperación de información documental almacenan los textos de los documentos o sus descripciones (resúmenes, fichas bibliográficas, etc.). El IRS fáctico se ocupa de la descripción de hechos específicos, y no necesariamente en forma de texto. Pueden ser tablas, fórmulas y otros tipos de presentación de datos. También existen sistemas de información mixtos, que incluyen tanto documentos como información fáctica. Actualmente, los sistemas de información fáctica se construyen sobre la base de tecnologías de bases de datos (DB). Para garantizar la recuperación de información en el sistema de recuperación de información, se crean lenguajes de recuperación de información especiales, que se basan en tesauros de recuperación de información. El lenguaje de recuperación de información es un lenguaje formal diseñado para describir ciertos aspectos del plan de contenido de los documentos almacenados en el sistema de recuperación de información y la solicitud. El procedimiento para describir un documento en un lenguaje de recuperación de información se llama indexación. Como resultado de la indexación, a cada documento se le asigna su descripción formal en un lenguaje de recuperación de información: una imagen de búsqueda del documento. La consulta se indexa de forma similar, a la que se le asigna una imagen de consulta de búsqueda y una prescripción de búsqueda. Los algoritmos de recuperación de información se basan en comparar la prescripción de búsqueda con la imagen de la consulta de búsqueda. El criterio para emitir un documento según una solicitud puede ser una coincidencia total o parcial de la imagen de búsqueda del documento y la instrucción de búsqueda. En algunos casos, el usuario tiene la oportunidad de formular él mismo los criterios de emisión. Esto está determinado por su necesidad de información. Los sistemas automatizados de recuperación de información suelen utilizar lenguajes de recuperación de información de descriptores. El tema de un documento se describe mediante un conjunto de descriptores. Los descriptores son palabras y términos que denotan categorías y conceptos simples y bastante elementales del área del problema. Se ingresan tantos descriptores en la imagen de búsqueda del documento como diferentes temas cubiertos en el documento. El número de descriptores no está limitado, lo que permite describir el documento en una matriz multidimensional de características. A menudo, en un lenguaje de recuperación de información de descriptores, se imponen restricciones a la compatibilidad de los descriptores. En este caso, podemos decir que el lenguaje de recuperación de información tiene sintaxis.

Uno de los primeros sistemas que trabajó con un lenguaje de descriptores fue el sistema estadounidense UNITERM, creado por M. Taube. Las palabras clave del documento (uniterms) funcionaban como descriptores en este sistema. La peculiaridad de este IRS es que inicialmente no se especificaba el diccionario del idioma de la información, sino que surgió en el proceso de indexación del documento y consulta. El desarrollo de sistemas modernos de recuperación de información está asociado con el desarrollo de sistemas de recuperación de información que no son de tipo tesauro. Estos sistemas de información trabajan con el usuario en un lenguaje natural limitado y la búsqueda se realiza a través de los textos de resúmenes de documentos, a través de sus descripciones bibliográficas y, a menudo, a través de los propios documentos. Para la indexación en el IRS de tipo no tesauro, se utilizan palabras y frases de lenguaje natural.

Hasta cierto punto, el campo de la lingüística informática puede incluir trabajos en el campo de la creación de sistemas de hipertexto, considerados como una forma especial de organizar el texto e incluso como un elemento fundamental. el nuevo tipo texto, que contrasta en muchas de sus propiedades con el texto ordinario formado en la tradición de impresión de Gutenberg. La idea de hipertexto está asociada al nombre de Vannevar Bush, asesor científico del presidente F. Roosevelt. V. Bush fundamentó teóricamente el proyecto. sistema tecnico“Memex”, que permitía al usuario conectar textos y sus fragmentos mediante varios tipos de conexiones, principalmente mediante relaciones asociativas. La falta de tecnología informática dificultó la implementación del proyecto, ya que el sistema mecánico resultó ser demasiado complejo para su implementación práctica.

La idea de Bush renació en la década de 1960 con el sistema Xanadu de T. Nelson, que ya implicaba el uso de tecnología informática. "Xanadu" permitió al usuario leer un conjunto de textos ingresados ​​al sistema diferentes caminos, en diferentes secuencias, el software hizo posible recordar la secuencia de los textos vistos y seleccionar casi cualquiera de ellos en un momento arbitrario. T. Nelson llamó hipertexto a un conjunto de textos con relaciones que los conectan (un sistema de transiciones). Muchos investigadores ven la creación del hipertexto como el comienzo de una nueva era de la información, opuesta a la era de la imprenta. La linealidad de la escritura, que exteriormente refleja la linealidad del habla, resulta ser una categoría fundamental que limita el pensamiento humano y la comprensión del texto. El mundo del significado no es lineal, por lo tanto, la compresión de información semántica en un segmento lineal del habla requiere el uso de un "envoltorio comunicativo" especial: división en tema y rema, división del plan de contenido de un enunciado en explícito (enunciado, proposición, enfoque) e implícitas (presuposición, consecuencia, implicatura del discurso). El rechazo de la linealidad del texto tanto en el proceso de su presentación al lector (es decir, durante la lectura y la comprensión) como en el proceso de síntesis, según los teóricos, contribuiría a la "liberación" del pensamiento e incluso al surgimiento de su nuevas formas.

En un sistema informático, el hipertexto se presenta en forma de gráfico, cuyos nodos contienen textos tradicionales o sus fragmentos, imágenes, tablas, vídeos, etc. Los nodos están conectados por varias relaciones, cuyos tipos son especificados por los desarrolladores. software hipertexto o por el propio lector. Las relaciones definen las posibilidades potenciales de movimiento o navegación a través del hipertexto. Las relaciones pueden ser unidireccionales o bidireccionales. En consecuencia, las flechas bidireccionales permiten al usuario moverse en ambas direcciones, mientras que las flechas unidireccionales permiten al usuario moverse solo en una dirección. La cadena de nodos por la que pasa el lector al visualizar los componentes del texto forma un camino o ruta.

Las implementaciones informáticas del hipertexto pueden ser jerárquicas o en red. La estructura jerárquica (en forma de árbol) del hipertexto limita significativamente las posibilidades de transición entre sus componentes. En tal hipertexto, las relaciones entre componentes se asemejan a la estructura de un tesauro basado en relaciones género-especie. El hipertexto en red permite el uso de varios tipos de relaciones entre componentes, sin limitarse a las relaciones género-especie. Según el método de existencia del hipertexto, se distinguen los hipertextos estáticos y dinámicos. El hipertexto estático no cambia durante la operación; en él el usuario puede registrar sus comentarios, pero no cambian la esencia del asunto. Para el hipertexto dinámico, el cambio es una forma normal de existencia. Normalmente, los hipertextos dinámicos funcionan donde es necesario analizar constantemente el flujo de información, es decir, en servicios de información de diversa índole. El hipertexto es, por ejemplo, el Sistema de Información de Arizona (AAIS), que se actualiza mensualmente con entre 300 y 500 resúmenes al mes.

Las relaciones entre los elementos del hipertexto pueden ser fijadas inicialmente por los creadores o pueden generarse cada vez que un usuario accede al hipertexto. En el primer caso estamos hablando de hipertextos de estructura dura, y en el segundo, de hipertextos de estructura blanda. La estructura rígida es tecnológicamente bastante comprensible. La tecnología para organizar una estructura blanda debe basarse en un análisis semántico de la proximidad de los documentos (u otras fuentes de información) entre sí. Esta es una tarea no trivial en lingüística computacional. Hoy en día, el uso de tecnologías de estructura blanda en palabras clave está muy extendido. La transición de un nodo a otro en una red de hipertexto se realiza como resultado de la búsqueda de palabras clave. Dado que el conjunto de palabras clave puede ser diferente cada vez, la estructura del hipertexto cambia cada vez.

La tecnología para construir sistemas de hipertexto no distingue entre información textual y no textual. Mientras tanto, la inclusión de información visual y sonora (videos, imágenes, fotografías, grabaciones de sonido, etc.) requiere un cambio significativo en la interfaz de usuario y un software y soporte informático más potente. Estos sistemas se denominan hipermedia o multimedia. La visibilidad de los sistemas multimedia predeterminó su uso generalizado en la enseñanza y en la creación de versiones informáticas de enciclopedias. Hay, por ejemplo, CD-ROM bellamente elaborados con sistemas multimedia basados ​​en enciclopedias infantiles publicadas por Dorlin Kindersley.

En el marco de la lexicografía informática, se están desarrollando tecnologías informáticas para compilar y operar diccionarios. Los programas especiales (bases de datos, archivadores de computadora, programas de procesamiento de textos) le permiten generar automáticamente entradas de diccionario, almacenar información del diccionario y procesarla. Muchos programas lexicográficos informáticos diferentes se dividen en dos grandes grupos: programas de soporte de obras lexicográficas y diccionarios automáticos de varios tipos, incluidas las bases de datos lexicográficas. Un diccionario automático es un diccionario en un formato de máquina especial destinado a ser utilizado en una computadora por un usuario o un programa de procesamiento de textos de computadora. En otras palabras, existe una distinción entre diccionarios automáticos para el usuario final humano y diccionarios automáticos para programas de procesamiento de textos. Los diccionarios automáticos destinados al usuario final difieren significativamente en la interfaz y la estructura de la entrada del diccionario de los diccionarios automáticos incluidos en los sistemas de traducción automática, sistemas de resumen automático, sistemas de recuperación de información, etc. En la mayoría de los casos se trata de versiones informáticas de diccionarios convencionales conocidos. Existen análogos informáticos de los diccionarios explicativos en el mercado de software. en Inglés(Webster automático, automático Diccionario Editorial en inglés Collins, versión automática del New Great Diccionario inglés-ruso editado por Yu.D. Apresyan y E.M. Mednikova), también existe una versión informática del diccionario de Ozhegov. Los diccionarios automáticos para programas de procesamiento de textos pueden denominarse diccionarios automáticos en sentido estricto. Por lo general, no están destinados al usuario medio. Las características de su estructura y el alcance del material de vocabulario están determinadas por los programas que interactúan con ellos.

El modelado informático de la estructura de la trama es otra área prometedora de la lingüística informática. El estudio de la estructura de la trama se relaciona con los problemas de la crítica literaria estructural (en un sentido amplio), la semiótica y los estudios culturales. Los programas informáticos disponibles para modelar tramas se basan en tres formalismos básicos para la representación de tramas: las direcciones morfológica y sintáctica de la representación de tramas, así como el enfoque cognitivo. Las ideas sobre la estructura morfológica de la trama se remontan a las famosas obras de V.Ya. Propp ( cm.) sobre un cuento de hadas ruso. Propp notó que con la abundancia de personajes y eventos en un cuento de hadas, el número de funciones de los personajes es limitado, y propuso un aparato para describir estas funciones. Las ideas de Propp formaron la base programa de computadora CUENTO, que modela la generación de una trama de cuento de hadas. El algoritmo del programa TALE se basa en la secuencia de funciones de los personajes del cuento de hadas. De hecho, las funciones de Propp definieron un conjunto de situaciones tipificadas, ordenadas sobre la base de un análisis de material empírico. Las posibilidades de vincular diversas situaciones en las reglas de generación estaban determinadas por una secuencia típica de funciones, en la forma en que esto puede establecerse a partir de los textos de los cuentos de hadas. En el programa se describieron secuencias de funciones típicas como escenarios típicos de encuentro de personajes.

La base teórica del enfoque sintáctico de la trama de un texto fueron las “gramáticas narrativas” o “gramáticas narrativas”. Aparecieron a mediados de los años 1970 como resultado de la transferencia de las ideas de la gramática generativa de N. Chomsky a la descripción de la macroestructura del texto. Si los componentes más importantes de la estructura sintáctica en una gramática generativa eran frases verbales y nominales, entonces en la mayoría de las gramáticas argumentales la exposición (escenario), el evento y el episodio se destacaban como básicos. En la teoría de las gramáticas argumentales, se han discutido ampliamente las condiciones de minimalidad, es decir, las restricciones que determinan el estatus de una secuencia de elementos argumentales como una trama normal. Sin embargo, resultó que esto no es posible mediante métodos puramente lingüísticos. Muchas restricciones son de naturaleza sociocultural. Las gramáticas argumentales, si bien diferían significativamente en el conjunto de categorías del árbol generacional, permitían un conjunto muy limitado de reglas para modificar la estructura narrativa.

A principios de la década de 1980, uno de los alumnos de R. Schenk, V. Lehnert, como parte de su trabajo sobre la creación de un generador de tramas por computadora, propuso un formalismo original de unidades de trama emocionales (Unidades de trama afectivas), que resultó ser un medio poderoso. de representar la estructura de la trama. A pesar de que originalmente fue desarrollado para un sistema de inteligencia artificial, este formalismo se utilizó en estudios puramente teóricos. La esencia del enfoque de Lehnert era que la trama se describía como un cambio secuencial en los estados cognitivo-emocionales de los personajes. Así, el foco del formalismo de Lehnert no está en los componentes externos de la trama (exposición, evento, episodio, moralidad) sino en las características de su contenido. En este sentido, el formalismo de Lehnert es en parte un retorno a las ideas de Propp.

La competencia de la lingüística informática también incluye la traducción automática, que actualmente está experimentando un renacimiento.

Literatura:

Popov E.V. Comunicación con una computadora en lenguaje natural.. M., 1982
Sadur V.G. Comunicación del habla con computadoras electrónicas y problemas de su desarrollo.. – En el libro: Comunicación oral: problemas y perspectivas. Moscú, 1983.
Baranov A.N. Categorías de inteligencia artificial en semántica lingüística. Marcos y guiones. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelado de la comunicación en sistemas hombre-máquina.. – Apoyo lingüístico sistemas de información. M., 1987
Olker H.R. Cuentos de hadas, tragedias y formas de presentar la historia mundial. – En el libro: Lenguaje y modelización de la interacción social. M., 1987
Gorodetsky B.Yu. Lingüística computacional: modelado de la comunicación lingüística
McQueen K. Estrategias discursivas para la síntesis de textos en lenguaje natural.. – Novedades en lingüística extranjera. vol. XXIV, Lingüística Computacional. M., 1989
Popov E.V., Preobrazhensky A.B. . Características de la implementación de sistemas NL.
Preobrazhensky A.B. Estado de desarrollo de los sistemas NL modernos. - Inteligencia artificial. Libro 1, Sistemas de comunicación y sistemas expertos. M., 1990
Subbotín M.M. Hipertexto. Nueva forma comunicación escrita. – VINITI, Ser. Ciencias de la Computación, 1994, volumen 18
Baranov A.N. Introducción a la Lingüística Aplicada. M., 2000