Lingüística informática en el HSE: Anastasia Bonch-Osmolovskaya en un nuevo programa de maestría. Historia, desarrollo y formación de la lingüística informática como dirección científica.

CURSO DE TRABAJO

sobre disciplina "Informática"

sobre el tema: "Lingüística informática"


INTRODUCCIÓN

2. Interfaces modernas de lingüística informática.

CONCLUSIÓN

LITERATURA


Introducción

En la vida de la sociedad moderna, la tecnología de información automatizada desempeña un papel importante. Con el tiempo, su valor aumenta constantemente. Pero el desarrollo de la tecnología de la información es muy desigual: si el nivel actual de tecnología informática y comunicaciones es sorprendente, en el campo del procesamiento semántico de la información, el éxito es mucho más modesto. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre las personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de información avanzadas, surgen los problemas del procesamiento automático de la información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su idioma. Además, el lenguaje natural es un instrumento de pensamiento. También es un medio universal de comunicación entre las personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. Los problemas del uso del lenguaje natural en los sistemas automáticos de procesamiento de información se abordan mediante la lingüística informática. Esta ciencia surgió hace relativamente poco, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido resultados científicos y prácticos significativos en el campo de la lingüística informática: se han creado sistemas para la traducción automática de textos de un lenguaje natural a otro, sistemas para la búsqueda automática de información en textos, sistemas para el análisis automático y la síntesis del habla oral, y muchos otros. Este trabajo está dedicado a la construcción de una interfaz informática óptima mediante la lingüística informática durante la investigación lingüística.


1. El lugar y el papel de la lingüística informática en la investigación lingüística.

En el mundo moderno, cuando se realizan diversos estudios lingüísticos, la lingüística informática se usa cada vez más.

La lingüística informática es un campo de conocimiento relacionado con la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada de significado a textos de lenguaje natural). Estos problemas surgen al resolver una serie de problemas aplicados, y en particular, problemas de detección automática y corrección de errores al ingresar textos en computadoras, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en un lenguaje natural y clasificación automática e indexar documentos de texto, su resumen automático, buscar documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística informática se pueden dividir en dos partes: declarativas y de procedimiento. La parte declarativa incluye diccionarios de unidades de lenguaje y habla, textos y varios tipos de tablas de gramática, la parte de procedimiento - medios para manipular unidades de lenguaje y habla, textos y tablas de gramática. La interfaz de la computadora se refiere a la parte procesal de la lingüística informática.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la presentación de las herramientas declarativas en la memoria de la computadora y de la calidad de las herramientas de procedimiento. Hasta la fecha, aún no se ha alcanzado el nivel necesario de solución a estos problemas, aunque se está trabajando en el campo de la lingüística informática en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc.).

Sin embargo, se pueden observar serios logros científicos y prácticos en el campo de la lingüística informática. Entonces, en varios países (Rusia, EE. UU., Japón, etc.) se han construido sistemas experimentales e industriales de traducción automática de textos de un idioma a otro, se han construido varios sistemas experimentales para comunicarse con las computadoras en un lenguaje natural, se está trabajando para crear bancos de datos terminológicos, tesauros, Se están construyendo diccionarios de máquinas bilingües y multilingües (Rusia, EE. UU., Alemania, Francia, etc.), sistemas para el análisis automático y la síntesis del habla oral (Rusia, EE. UU., Japón, etc.), se están realizando investigaciones en el campo de la construcción de modelos de lenguajes naturales.

Un problema metodológico importante de la lingüística informática aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y de procedimiento de los sistemas automáticos de información de procesamiento de texto. ¿Qué debería preferirse: poderosos procedimientos computacionales basados \u200b\u200ben sistemas de diccionario relativamente pequeños con rica información gramatical y semántica, o un poderoso componente declarativo con interfaces de computadora relativamente simples? La mayoría de los científicos creen que la segunda forma es preferible. Conducirá rápidamente al logro de objetivos prácticos, ya que en este caso habrá menos puntos muertos y obstáculos difíciles de superar y aquí será posible usar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, principalmente en el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de texto, es confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. De hecho, aquí, a pesar de los éxitos indiscutibles de esta ciencia, el entusiasmo por los procedimientos algorítmicos no trajo el éxito esperado. Incluso hubo cierta decepción en las posibilidades de las herramientas de procedimiento.

A la luz de lo anterior, tal forma de desarrollo de la lingüística informática parece ser prometedora, cuando los principales esfuerzos se dirijan a crear poderosos diccionarios de unidades de lenguaje y habla, estudiar su estructura semántica-sintáctica y crear procedimientos básicos para el análisis morfológico, semántico-sintáctico y conceptual y la síntesis de textos. Esto permitirá resolver aún más una amplia gama de problemas aplicados.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico para los procesos de recopilación, acumulación, procesamiento y búsqueda de información. Los más importantes de ellos son:

1. Automatización de la compilación y el procesamiento lingüístico de diccionarios de máquinas;

2. Automatización de procesos para detectar y corregir errores al ingresar textos en las computadoras;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación automática y resumen de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. La construcción de procesadores lingüísticos que garanticen que los usuarios se comuniquen con sistemas automatizados de información inteligente (en particular, con sistemas expertos) en un lenguaje natural o en un lenguaje cercano al natural;

8. Extracción de información objetiva de textos informales.

Nos detenemos en detalle sobre los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información existe la necesidad de resolver el problema de la detección automática y la corrección de errores en los textos cuando se ingresan en las computadoras. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de ortografía, control sintáctico y semántico de textos. El primero de ellos puede resolverse utilizando el procedimiento de análisis morfológico, utilizando un diccionario de máquina de referencia bastante poderoso de los conceptos básicos de las palabras. En el proceso de control ortográfico, las palabras del texto se someten a análisis morfológicos, y si sus fundamentos se identifican con los fundamentos del diccionario de referencia, se consideran correctos; si no se identifican, entonces, acompañados por el microcontexto, se emiten para ver a una persona. Una persona detecta y corrige palabras distorsionadas, y el sistema de software correspondiente hace estas correcciones en el texto corregido.

La tarea de control sintáctico de textos para detectar errores en ellos es mucho más complicada que la tarea de su control ortográfico. En primer lugar, porque incluye en su composición y la tarea de la ortografía el control como su componente obligatorio, y en segundo lugar, porque el problema de analizar textos no formados en su totalidad aún no se ha resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede ir de dos maneras: o bien cree diccionarios de máquina bastante representativos de estructuras sintácticas estándar y compare con ellos las estructuras sintácticas del texto analizado; o desarrollar un sistema complejo de reglas para verificar la consistencia gramatical de los elementos de texto. El primer camino nos parece más prometedor, aunque, por supuesto, no excluye la posibilidad de utilizar elementos del segundo camino. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical para palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe atribuirse a la clase de tareas de inteligencia artificial. En su totalidad, solo se puede resolver modelando los procesos del pensamiento humano. En este caso, aparentemente, será necesario crear poderosas bases de conocimiento enciclopédico y software de manipulación de conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, este problema es completamente solucionable. Debe plantearse y resolverse como una tarea de control semántico-sintáctico de textos.

El problema de automatizar la indexación de documentos y consultas es tradicional para los sistemas automatizados de búsqueda de texto. Inicialmente, la indexación se entendía como el proceso de asignación de índices de clasificación a documentos y solicitudes que reflejaban su contenido temático. Posteriormente, este concepto se transformó y el término "indexación" comenzó a llamarse el proceso de traducir descripciones de documentos y consultas de un lenguaje natural a uno formal, en particular, al lenguaje de "imágenes de búsqueda". Las imágenes de búsqueda de documentos, por regla general, comenzaron a tomar forma en forma de listas de palabras clave y frases que reflejaban su contenido temático, y buscar imágenes de consultas, en forma de construcciones lógicas en las que las palabras clave y las frases estaban conectadas entre sí por operadores lógicos y sintácticos.

La indexación automática de documentos se realiza convenientemente de acuerdo con los textos de sus resúmenes (si los hay), ya que en los resúmenes el contenido principal de los documentos se refleja de forma concentrada. La indexación se puede hacer con o sin control de diccionario de sinónimos. En el primer caso, en el texto del título del documento y su resumen, se buscan palabras clave y frases del diccionario de la máquina de referencia y solo las que se encontraron en el diccionario se incluyen en la AML. En el segundo caso, las palabras clave y las frases se extraen del texto y se incluyen en la AML independientemente de si pertenecen a algún diccionario de referencia. También se implementó una tercera opción, donde, junto con los términos del diccionario de sinónimos de la máquina, la AML también incluía términos extraídos del título y la primera oración del resumen del documento. Los experimentos han demostrado que los POD compilados automáticamente por títulos y resúmenes de documentos proporcionan una búsqueda más completa que los POD compilados manualmente. Esto se explica por el hecho de que el sistema de indexación automática refleja más completamente varios aspectos del contenido de los documentos que el sistema de indexación manual.

Con la indexación automática de consultas, surgen aproximadamente los mismos problemas que con la indexación automática de documentos. Aquí también debe seleccionar palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Las conexiones lógicas entre palabras clave y frases y operadores contextuales pueden ingresarse manualmente o mediante un procedimiento automatizado. Un elemento importante del proceso de indexación automática de una consulta es la adición de sus palabras clave y frases con sus sinónimos e hipónimos (a veces también hiperónimos y otros términos asociados con los términos originales de la consulta). Esto se puede hacer de forma automática o interactiva utilizando un tesauro de máquina.

Ya hemos considerado parcialmente el problema de automatizar la búsqueda de información documental en relación con la tarea de indexación automática. Lo más prometedor aquí es la búsqueda de documentos en sus textos completos, ya que el uso para este fin de cualquier tipo de sustitutos (descripciones bibliográficas, imágenes de búsqueda de documentos y textos de sus resúmenes) conduce a la pérdida de información durante la búsqueda. Las mayores pérdidas se producen cuando sus descripciones bibliográficas se utilizan como sustitutos de los documentos primarios, y la menor cuando se utilizan resúmenes.

Las características importantes de la calidad de la recuperación de información son su integridad y precisión. La integridad de la búsqueda puede garantizarse teniendo en cuenta al máximo las conexiones paradigmáticas entre unidades de lenguaje y habla (palabras y frases), y la precisión teniendo en cuenta sus conexiones sintagmáticas. Existe la opinión de que la integridad y precisión de la búsqueda están inversamente relacionadas: las medidas para mejorar una de estas características conducen a un deterioro de la otra. Pero esto es cierto solo para la lógica de búsqueda fija. Si se mejora esta lógica, ambas características se pueden mejorar simultáneamente.

Es aconsejable construir el proceso de búsqueda de información en bases de datos de texto completo como un proceso de diálogo entre el usuario y el sistema de recuperación de información (IPS), en el que analiza secuencialmente fragmentos de texto (párrafos, párrafos) que satisfacen las condiciones lógicas de la consulta y selecciona aquellos que son para él son de interés Como resultado final de la búsqueda, se pueden mostrar textos completos de documentos y cualquier fragmento de ellos.

Como se puede ver en los argumentos anteriores, en la búsqueda automática de información es necesario superar la barrera del idioma que surge entre el usuario y el IPS en relación con la variedad de formas de presentación del mismo significado que ocurre en los textos. Esta barrera se vuelve aún más importante si tiene que buscar en bases de datos multilingües. Una solución cardinal al problema aquí puede ser la traducción automática de documentos de un idioma a otro. Esto se puede hacer de antemano, antes de descargar documentos al motor de búsqueda, o en el proceso de búsqueda de información. En este último caso, la solicitud del usuario debe traducirse al idioma de la matriz de documentos en los que se realiza la búsqueda, y los resultados de la búsqueda al idioma de la solicitud. Los motores de búsqueda de este tipo ya se están ejecutando en Internet. El sistema de navegador cirílico también se creó en VINITI RAS, que le permite buscar información en textos en ruso mediante una consulta en inglés con los resultados de búsqueda también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística informática es la construcción de procesadores lingüísticos que permitan a los usuarios comunicarse con sistemas de información automatizados inteligentes (en particular, sistemas expertos) en un lenguaje natural o en un lenguaje cercano al natural. Dado que la información se almacena formalmente en sistemas inteligentes modernos, los procesadores lingüísticos, que actúan como intermediarios entre una persona y una computadora, deben resolver las siguientes tareas principales: 1) la tarea de pasar de textos de solicitudes de información de entrada y mensajes en un lenguaje natural a representar su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) el problema de la transición de una presentación formal del significado de los mensajes de salida a su presentación en lenguaje natural (cuando se emite información a una persona). La primera tarea debe resolverse mediante el análisis morfológico, sintáctico y conceptual de las solicitudes y mensajes de entrada, la segunda, mediante la síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

Un análisis conceptual de las solicitudes y mensajes de información consiste en revelar su estructura conceptual (los límites de los nombres de los conceptos y las relaciones entre los conceptos en el texto) y traducir esta estructura a un lenguaje formal. Se lleva a cabo después del análisis morfológico y sintáctico de solicitudes y mensajes. La síntesis conceptual de los mensajes consiste en la transición de la presentación de los elementos de su estructura en un lenguaje formalizado a la representación verbal (verbal). Después de eso, los mensajes reciben el diseño sintáctico y morfológico necesario.

Para la traducción automática de textos de un lenguaje natural a otro, es necesario tener diccionarios de correspondencias traduccionales entre los nombres de los conceptos. El conocimiento de tales correspondencias traslacionales fue acumulado por muchas generaciones de personas y se formalizó en forma de publicaciones especiales: diccionarios bilingües o multilingües. Para los especialistas que hablan idiomas extranjeros en un grado u otro, estos diccionarios sirvieron como herramientas valiosas para traducir textos.

En los diccionarios tradicionales bilingües y multilingües de propósito general, los equivalentes de traducción se indicaban principalmente para palabras individuales, para frases, con mucha menos frecuencia. La indicación de equivalentes traduccionales para frases fue más característica de los diccionarios terminológicos especiales. Por lo tanto, al traducir segmentos de textos que contienen palabras polisémicas, los estudiantes a menudo tuvieron dificultades.

A continuación se encuentran las correspondencias traslacionales entre varios pares de frases en inglés y ruso sobre temas de "escuela".

1) El murciélago se parece a un ratón con alas: un murciélago se parece a un ratón con alas.

2) A los niños les gusta jugar en la arena de la playa. A los niños les encanta jugar en la arena junto al mar.

3) Una gota de lluvia cayó sobre mi mano - Una gota de lluvia cayó sobre mi mano.

4) La madera seca se quema fácilmente: la madera seca se quema bien.

5) Fingió no escucharme - Fingió no escucharme.

Aquí, las frases en inglés no son expresiones idiomáticas. Sin embargo, su traducción al ruso con solo un tramo de la palabra puede considerarse como una simple traducción palabra por palabra, ya que casi todas sus palabras son ambiguas. Por lo tanto, solo los logros en lingüística informática pueden ayudar a los estudiantes aquí.

CURSO DE TRABAJO

sobre disciplina "Informática"

sobre el tema: "Lingüística informática"


INTRODUCCIÓN

1. El lugar y el papel de la lingüística informática en la investigación lingüística.

2. Interfaces modernas de lingüística informática.

CONCLUSIÓN

LITERATURA


Introducción

En la vida de la sociedad moderna, la tecnología de información automatizada desempeña un papel importante. Con el tiempo, su valor aumenta constantemente. Pero el desarrollo de la tecnología de la información es muy desigual: si el nivel actual de tecnología informática y comunicaciones es sorprendente, en el campo del procesamiento semántico de la información, el éxito es mucho más modesto. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre las personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de información avanzadas, surgen los problemas del procesamiento automático de la información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su idioma. Además, el lenguaje natural es un instrumento de pensamiento. También es un medio universal de comunicación entre las personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. Los problemas del uso del lenguaje natural en los sistemas automáticos de procesamiento de información se abordan mediante la lingüística informática. Esta ciencia surgió hace relativamente poco, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido resultados científicos y prácticos significativos en el campo de la lingüística informática: se han creado sistemas para la traducción automática de textos de un lenguaje natural a otro, sistemas para la búsqueda automática de información en textos, sistemas para el análisis automático y la síntesis del habla oral, y muchos otros. Este trabajo está dedicado a la construcción de una interfaz informática óptima mediante la lingüística informática durante la investigación lingüística.


En el mundo moderno, cuando se realizan diversos estudios lingüísticos, la lingüística informática se usa cada vez más.

La lingüística informática es un campo de conocimiento relacionado con la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada de significado a textos de lenguaje natural). Estos problemas surgen al resolver una serie de problemas aplicados, y en particular, problemas de detección automática y corrección de errores al ingresar textos en computadoras, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en un lenguaje natural y clasificación automática e indexar documentos de texto, su resumen automático, buscar documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística informática se pueden dividir en dos partes: declarativas y de procedimiento. La parte declarativa incluye diccionarios de unidades de lenguaje y habla, textos y varios tipos de tablas de gramática, la parte de procedimiento - medios para manipular unidades de lenguaje y habla, textos y tablas de gramática. La interfaz de la computadora se refiere a la parte procesal de la lingüística informática.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la presentación de las herramientas declarativas en la memoria de la computadora y de la calidad de las herramientas de procedimiento. Hasta la fecha, aún no se ha alcanzado el nivel necesario de solución a estos problemas, aunque se está trabajando en el campo de la lingüística informática en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc.).

Sin embargo, se pueden observar serios logros científicos y prácticos en el campo de la lingüística informática. Entonces, en varios países (Rusia, EE. UU., Japón, etc.) se han construido sistemas experimentales e industriales de traducción automática de textos de un idioma a otro, se han construido varios sistemas experimentales para comunicarse con las computadoras en un lenguaje natural, se está trabajando para crear bancos de datos terminológicos, tesauros, Se están construyendo diccionarios de máquinas bilingües y multilingües (Rusia, EE. UU., Alemania, Francia, etc.), sistemas para el análisis automático y la síntesis del habla oral (Rusia, EE. UU., Japón, etc.), se están realizando investigaciones en el campo de la construcción de modelos de lenguajes naturales.

Un problema metodológico importante de la lingüística informática aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y de procedimiento de los sistemas automáticos de información de procesamiento de texto. ¿Qué debería preferirse: poderosos procedimientos computacionales basados \u200b\u200ben sistemas de diccionario relativamente pequeños con rica información gramatical y semántica, o un poderoso componente declarativo con interfaces de computadora relativamente simples? La mayoría de los científicos creen que la segunda forma es preferible. Conducirá rápidamente al logro de objetivos prácticos, ya que en este caso habrá menos puntos muertos y obstáculos difíciles de superar y aquí será posible usar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, principalmente en el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de texto, es confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. De hecho, aquí, a pesar de los éxitos indiscutibles de esta ciencia, el entusiasmo por los procedimientos algorítmicos no trajo el éxito esperado. Incluso hubo cierta decepción en las posibilidades de las herramientas de procedimiento.

A la luz de lo anterior, tal forma de desarrollo de la lingüística informática parece ser prometedora, cuando los principales esfuerzos se dirijan a crear poderosos diccionarios de unidades de lenguaje y habla, estudiar su estructura semántica-sintáctica y crear procedimientos básicos para el análisis morfológico, semántico-sintáctico y conceptual y la síntesis de textos. Esto permitirá resolver aún más una amplia gama de problemas aplicados.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico para los procesos de recopilación, acumulación, procesamiento y búsqueda de información. Los más importantes de ellos son:

1. Automatización de la compilación y el procesamiento lingüístico de diccionarios de máquinas;

2. Automatización de procesos para detectar y corregir errores al ingresar textos en las computadoras;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación automática y resumen de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. La construcción de procesadores lingüísticos que garanticen que los usuarios se comuniquen con sistemas automatizados de información inteligente (en particular, con sistemas expertos) en un lenguaje natural o en un lenguaje cercano al natural;

8. Extracción de información objetiva de textos informales.

Nos detenemos en detalle sobre los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información existe la necesidad de resolver el problema de la detección automática y la corrección de errores en los textos cuando se ingresan en las computadoras. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de ortografía, control sintáctico y semántico de textos. El primero de ellos puede resolverse utilizando el procedimiento de análisis morfológico, utilizando un diccionario de máquina de referencia bastante poderoso de los conceptos básicos de las palabras. En el proceso de control ortográfico, las palabras del texto se someten a análisis morfológicos, y si sus fundamentos se identifican con los fundamentos del diccionario de referencia, se consideran correctos; si no se identifican, entonces, acompañados por el microcontexto, se emiten para ver a una persona. Una persona detecta y corrige palabras distorsionadas, y el sistema de software correspondiente hace estas correcciones en el texto corregido.

La tarea de control sintáctico de textos para detectar errores en ellos es mucho más complicada que la tarea de su control ortográfico. En primer lugar, porque incluye en su composición y la tarea de la ortografía el control como su componente obligatorio, y en segundo lugar, porque el problema de analizar textos no formados en su totalidad aún no se ha resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede ir de dos maneras: o bien cree diccionarios de máquina bastante representativos de estructuras sintácticas estándar y compare con ellos las estructuras sintácticas del texto analizado; o desarrollar un sistema complejo de reglas para verificar la consistencia gramatical de los elementos de texto. El primer camino nos parece más prometedor, aunque, por supuesto, no excluye la posibilidad de utilizar elementos del segundo camino. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical para palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe atribuirse a la clase de tareas de inteligencia artificial. En su totalidad, solo se puede resolver modelando los procesos del pensamiento humano. En este caso, aparentemente, será necesario crear poderosas bases de conocimiento enciclopédico y software de manipulación de conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, este problema es completamente solucionable. Debe plantearse y resolverse como una tarea de control semántico-sintáctico de textos.

Desde 2012, el Instituto de Lingüística de la RSUH ha estado preparando maestrías bajo el programa de maestría. Ligüística computacional (dirección Lingüística Fundamental y Aplicada) Este programa está diseñado para preparar profesionales lingüistasquienes conocen los conceptos básicos de la lingüística y los métodos modernos de investigación, análisis de expertos, ingeniería y pueden participar de manera efectiva en el desarrollo de tecnologías informáticas de lenguaje innovadoras.

El proceso educativo involucra a los desarrolladores de grandes sistemas de investigación y comerciales en el campo del procesamiento automático de textos, que proporciona un vínculo entre la formación de maestros y la corriente principal de la lingüística informática moderna. Se presta especial atención a la participación de maestros en conferencias rusas e internacionales.

Entre los profesores se encuentran autores de libros de texto básicos sobre especialidades lingüísticas, especialistas de clase mundial, gerentes de proyectos de grandes sistemas automáticos de procesamiento del lenguaje: Ya.G. Testelets, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegei, L.L. Iomdin, A.S. Starostin, S.A. Sharov, así como empleados de empresas que son líderes mundiales en el campo de la lingüística informática: IBM (sistema Watson), Yandex, ABBYY (sistemas Lingvo, FineReader, Compreno).

La base para la preparación de maestros para este programa es el enfoque del proyecto. La participación de los estudiantes universitarios en el trabajo de investigación en el campo de la lingüística informática se lleva a cabo sobre la base de la RSUH y sobre la base de empresas involucradas en el desarrollo de programas en el campo de AOT (ABBYY, IBM, etc.), lo que, por supuesto, es una gran ventaja tanto para los maestros como para sus potenciales empleadores. En particular, los maestros objetivo están inscritos en la magistratura, cuya capacitación es proporcionada por futuros empleadores.

Pruebas de ingreso: "Modelos y métodos formales de la lingüística moderna". La información exacta sobre el tiempo del examen se puede obtener en el sitio web del departamento de magistrados de la RSUH.

Jefes de magistratura - jefe. Centro Educativo y Científico de Lingüística Informática, Director de Investigación Lingüística en ABBYY Vladimir Pavlovich Selegey y Doctor en Filosofía, profesor. Vera Isaakovna Podlesskaya .

El programa de examen de ingreso y entrevista en la disciplina "Modelos y métodos formales de la lingüística moderna".

Comentarios sobre el programa

  • Cualquier problema del programa puede ir acompañado de tareas relacionadas con descripciones de fenómenos lingüísticos específicos relacionados con la sección de la pregunta: construcción de estructuras, descripción de restricciones, posibles algoritmos para la construcción y / o identificación.
  • Las preguntas marcadas con asteriscos son opcionales (en el puesto de boletos en el número 3). La posesión de material relevante es una gran ventaja para los candidatos, pero no es obligatorio.
  • Además de las preguntas teóricas, las entradas para el examen ofrecerán un pequeño fragmento de un texto especial (lingüístico) en inglés, para traducción y discusión. Los solicitantes deben demostrar un nivel satisfactorio de conocimiento de la terminología científica en inglés y las habilidades para analizar un texto científico. Como ejemplo de un texto que no debería causar serias dificultades al solicitante, el siguiente es un fragmento del artículo https://en.wikipedia.org/wiki/Anaphora_(linguistics):

En lingüística, anaphora (/ əˈnæfərə /) es el uso de una expresión cuya interpretación depende de otra expresión en contexto (su antecedente o postcedente). En un sentido más estricto, anáfora es el uso de una expresión que depende específicamente de una expresión antecedente y, por lo tanto, se contrasta con la cataphora, que es el uso de una expresión que depende de una expresión posterior. El término anafórico (referente) se llama anáfora. Por ejemplo, en la oración que llegó Sally, pero nadie la vio, el pronombre ella es anáfora, refiriéndose al antecedente Sally. En la oración Antes de su llegada, nadie vio a Sally, el pronombre al que se refiere se refiere al saliente posterior, por lo que ahora es una catafora (y un anáfora en el sentido más amplio, pero no más estrecho). Por lo general, una expresión anafórica es una proforma o algún otro tipo de expresión deíctica (dependiente del contexto). Tanto la anáfora como la cataphora son especies de endóforas, que se refieren a algo mencionado en otro lugar en un diálogo o texto.

La anáfora es un concepto importante por diferentes razones y en diferentes niveles: primero, la anáfora indica cómo se construye y mantiene el discurso; segundo, la anáfora une diferentes elementos sintácticos al nivel de la oración; tercero, la anáfora presenta un desafío para el procesamiento del lenguaje natural en la lingüística computacional, ya que la identificación de la referencia puede ser difícil; y cuarto, anáfora cuenta algunas cosas sobre cómo se entiende y procesa el lenguaje, lo cual es relevante para los campos de la lingüística interesados \u200b\u200ben la psicología cognitiva.

PREGUNTAS TEORICAS

PREGUNTAS GENERALES DE IDIOMA

  • El objeto de la lingüística. Lenguaje y habla. Sincronía y diacronía.
  • Niveles de lenguaje. Modelos formales de niveles de lenguaje.
  • Sintagmática y paradigmática. El concepto de distribución.
  • Los fundamentos de las comparaciones entre idiomas: lingüística tipológica, genealógica y areal.
  • * Lingüística matemática: objeto y métodos de investigación.

FONÉTICA

  • El tema de la fonética. Fonética articulada y acústica.
  • Segmentos y fonética suprasegmental. Prosodia y entonación.
  • Los conceptos básicos de fonología. Tipología de sistemas fonológicos y sus realizaciones fonéticas.
  • * Herramientas informáticas y métodos de investigación fonética.
  • * Análisis y síntesis del habla.

MORFOLOGÍA

  • El tema de la morfología. Morfos, morfemas, alomorfos.
  • Inflexión y derivación.
  • Significados gramaticales y métodos de su implementación. Categorías gramaticales y gramática. Significados gramaticales morfológicos y sintácticos.
  • Los conceptos de forma de palabra, fundamentos, lemas y paradigmas.
  • Partes de la oración; enfoques básicos para la asignación de partes del discurso.
  • * Modelos formales para la descripción de la inflexión y la formación de palabras.
  • * Morfología en tareas de procesamiento automático del lenguaje: ortografía, lematización, etiquetado POS

SINTAXIS

  • El tema de la sintaxis. Formas de expresar relaciones sintácticas.
  • Formas de representar la estructura sintáctica de una oración. Ventajas y desventajas de los árboles y componentes de dependencia.
  • Formas de describir el orden lineal. Desproyectividad y componentes de brecha. El concepto de transformación; transformaciones asociadas con el ordenamiento lineal.
  • La conexión entre sintaxis y semántica: valencias, modelos de control, actants y sirconstants.
  • Diátesis y prenda. Derivación actante.
  • Organización comunicativa del enunciado. El tema y el rema, este y el nuevo, contrastan.
  • * Teorías sintácticas básicas: MCT, gramática generativa, funcional, HPSG
  • * Modelos matemáticos de sintaxis: clasificación de lenguajes formales según Chomsky, algoritmos de reconocimiento y su complejidad.

SEMÁNTICA

  • El tema de la semántica. Imágenes de lenguaje ingenuo y científico del mundo. El Sepir - Hipótesis de Whorf.
  • Significado en lenguaje y habla: significado y referente. Tipo de referencia (estado denotativo).
  • Semántica léxica. Formas de describir la semántica de una palabra.
  • Semántica gramatical. Las principales categorías en el ejemplo del idioma ruso.
  • Semántica de una oración. Componente proposicional. Deixis y anáfora. Cuantificadores y ligamentos. Modalidad.
  • Jerarquía y significados léxicos sistemáticos. Polisemia y homonimia. La estructura semántica de una palabra polisémica. Los conceptos de invariante y prototipo.
  • Relaciones paradigmáticas y sintagmáticas en vocabulario. Funciones léxicas
  • Interpretación. El lenguaje de la interpretación. Escuela semántica de moscú
  • Semántica y lógica. El verdadero significado de la declaración.
  • Teoría de los actos de habla. El enunciado y su fuerza ilocucionaria. Performativos. Clasificación de los actos de habla.
  • Fraseología: inventario y métodos para describir unidades fraseológicas.
  • * Modelos y métodos de semántica formal.
  • * Modelos de semántica en lingüística informática moderna.
  • * Semántica distributiva y operativa.
  • * Ideas clave de construcciones gramaticales.

TIPOLOGÍA

  • Clasificación tipológica tradicional de las lenguas.
  • Tipología de categorías gramaticales de un nombre y un verbo.
  • Tipología de una oración simple. Los principales tipos de estructuras: acusativas, ergativas, activas.
  • Tipología del orden de las palabras y las correlaciones de Greenberg. Idiomas de rama izquierda y derecha.

LEXICOGRAFÍA

  • El vocabulario como inventario de la cultura; Variación social del vocabulario, usus léxico, norma, codificación.
  • Tipología de diccionarios (en material ruso). Reflexión de vocabulario en diccionarios de varios tipos.
  • Lexicografía bilingüe que involucra el idioma ruso.
  • Lexicografía descriptiva y prescriptiva. Diccionarios lingüísticos profesionales.
  • Los detalles de los principales diccionarios explicativos rusos. La estructura de la entrada del diccionario. Interpretación e información enciclopédica.
  • Vocabulario y gramática. El concepto de un modelo de lenguaje integrado en la escuela semántica de Moscú.
  • * La metodología del lexicógrafo.
  • * Métodos de corpus en lexicografía.

LINGÜÍSTICA DE TEXTO Y DISCURSO

  • El concepto de texto y discurso.
  • Mecanismos de comunicación interfrase. Las principales variedades de medios de su implementación del lenguaje.
  • La oración como unidad de lenguaje y como elemento de texto.
  • Unidad de superfrase, principios de su formación y separación, propiedades básicas.
  • Las principales categorías de clasificación de texto (género, estilo, registro, área temática, etc.)
  • * Métodos de clasificación automática de género.

SOCIOLINGÜÍSTICA

  • El problema del tema y los límites de la sociolingüística, su naturaleza interdisciplinaria. Conceptos básicos de sociología y demografía. Niveles de estructura lingüística y sociolingüística. Conceptos básicos y orientaciones de la sociolingüística.
  • Contactos de idiomas. Bilingüismo y diglosia. Procesos divergentes y convergentes en la historia del lenguaje.
  • Diferenciación social del lenguaje. Formas de la existencia del lenguaje. Lenguaje literario: codificación de la norma Uzus. Esferas funcionales del lenguaje.
  • Socialización del lenguaje. La naturaleza jerárquica de la identidad social y lingüística. El comportamiento lingüístico del individuo y su repertorio comunicativo.
  • Métodos de investigación sociolingüística.

LINGÜÍSTICA INFORMÁTICA

  • Tareas y métodos de lingüística informática.
  • Lenguaje del cuerpo. Las principales características del cuerpo.
  • Representación del conocimiento. Las ideas principales de la teoría de marcos M. Minsky. Sistema FrameNet.
  • Tesauros y ontologías. WordNet
  • Fundamentos del análisis estadístico de textos. Diccionarios de frecuencia. Análisis de colocación.
  • * El concepto de aprendizaje automático.

LITERATURA

Entrenamiento (nivel básico)

Baranov A.N.Introducción a la lingüística aplicada. M .: Editorial URRS, 2001.

Baranov A.N., Dobrovolsky D.O.Fundamentos de la fraseología (curso corto) Libro de texto. 2da edicion. Moscú: Flint, 2014.

Belikov V.A., Krysin L.P.Sociolingüística. M., Universidad Estatal Humanitaria de Rusia, 2001.

Burlak S.A., Starostin S.A. Lingüística histórica comparada. M .: Academia. 2005

Vakhtin N.B., Golovko E.V. Sociolingüística y sociología del lenguaje. SPb., 2004.

Knyazev S.V., Pozharitskaya S.K.Lengua literaria rusa moderna: fonética, gráficos, ortografía, ortopedia. 2da ed. M., 2010

Kobozeva I.M. Semántica lingüística. M .: editorial URSS. 2004

Kodzasov S.V., Krivnova O.F. Fonética general. M .: RGGU, 2001.

Krongauz M.A. Semántica. M .: RGGU. 2001

Krongauz M.A. Semántica: tareas, tareas, textos. M .: Academia. 2006 ..

Maslov Yu.S.Liderando en lingüística. Ed. Sexto, borrado M .: Academia, Phil. Fak SPbSU

Plungyan V.A. Morfología general: Introducción a los problemas. Ed. 2do. M .: editorial URSS, 2003.

Testelets Ya.G. Introducción a la sintaxis general. M., 2001.

Shaykevich A.Ya. Introducción a la lingüística. M .: Academia. 2005

Científico y de antecedentes

Apresyan Yu.D. Obras seleccionadas, Volumen I. Semántica léxica: 2ª ed., Español. y añadir. M .: Escuela "Idiomas de la cultura rusa", 1995.

Apresyan Yu.D.Obras seleccionadas, Volumen II. Descripción integral del lenguaje y lexicografía sistémica. M .: Escuela "Idiomas de la cultura rusa", 1995.

Apresyan Yu.D.(Ed.) Un nuevo diccionario explicativo de sinónimos de la lengua rusa. Moscú - Viena: "Idiomas de la cultura rusa", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(Ed.) La imagen lingüística del mundo y la lexicografía sistémica (ed. Ed. Yu. D. Apresyan). M .: "Lenguas de las culturas eslavas", 2006, Prefacio y cap. 1, p. 26-74.

Bulygina T.V., Shmelev A.D.Conceptualización lingüística del mundo (basada en la gramática rusa). M .: Escuela "Idiomas de la cultura rusa", 1997.

Weinreich W.Contactos de idiomas. Kiev, 1983.

Vezhbitskaya A.Universales semánticos y descripción de idiomas. M .: Escuela "Idiomas de la cultura rusa". 1999

Halperin I.R.El texto como objeto de investigación lingüística. 6ta ed. M .: LKI, 2008 ("Patrimonio lingüístico del siglo XX")

Zaliznyak A.A. "Inflexión nominal rusa" con la aplicación de trabajos seleccionados sobre el idioma ruso moderno y la lingüística general. M .: Lenguas de la cultura eslava, 2002.

Zaliznyak A.A., Paducheva E.V.A la tipología de oraciones relativas. / Semiótica e informática, vol. 35. M., 1997, p. 59-107.

Ivanov Vyach. Dom .. Lingüística del tercer milenio. Preguntas para el futuro. M., 2004. S. 89-100 (11. La situación lingüística del mundo y el pronóstico para el futuro cercano).

Kibrik A.E.Ensayos sobre cuestiones generales y aplicadas de lingüística. M .: Editorial de la Universidad Estatal de Moscú, 1992.

Kibrik A.E.Constantes y variables del lenguaje. San Petersburgo: Aletheia, 2003.

Labov U. Sobre el mecanismo de los cambios lingüísticos // Nuevo en lingüística. Tema 7. M., 1975. S. 320-335.

Lyons J. Semántica lingüística: Introducción. M .: Lenguas de la cultura eslava. 2003.

Lyons John. Lengua y Lingüística. Curso introductorio. M: URSS, 2004

Lakoff J. Mujeres, fuego y cosas peligrosas: lo que las categorías de idiomas nos dicen sobre el pensamiento. M .: Lenguas de la cultura eslava. 2004

Lakoff J., Johnson M. Las metáforas en las que vivimos. Por. De inglés Vol.2. M .: URSS. 2008

Diccionario Enciclopédico Lingüístico / Ed. Y EN. Yartseva M .: Editorial científica "Big Russian Encyclopedia", 2002.

Melchuk I.A. Curso de morfología general. TT I-IV. Moscú-Viena: "Lenguas de la cultura eslava", Wiener Slavistischer Almanach, Sonderband 38 / 1-38 / 4, 1997-2001.

Melchuk I.A. Experiencia en la teoría de modelos lingüísticos "SENSE ↔ TEXT". M .: Escuela "Idiomas de la cultura rusa", 1999.

Fedorova L.L. Semiótica. M., 2004.

Filippov K.A. Lingüística del texto: Lecture Course - 2nd ed., Spanish. y añadir. Ed. San Petersburgo Universidad, 2007.

Haspelmath, M. y col.. (eds.) Atlas mundial de estructuras lingüísticas. Oxford, 2005.

Secadora, M.S. y Haspelmath, M. (eds.) El Atlas mundial de las estructuras lingüísticas en línea. Leipzig: Instituto Max Planck de Antropología Evolutiva, 2013. (http://wals.info)

Croft W.Tipología y Universales. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.). Tipología del lenguaje y descripción sintáctica. 2da edicion. Cambridge, 2007.

V.I. Belikov. Acerca de los diccionarios "que contienen las normas del idioma literario ruso moderno cuando se usa como idioma estatal de la Federación Rusa". 2010 // Portal de Gramota.ru (http://gramota.ru/biblio/research/slovari-norm)

Lingüística computacional y tecnologías intelectuales: Basado en los materiales de la Conferencia Internacional anual "Diálogo". Vol. 1-11. - M.: Editorial de la Ciencia, de la Universidad Estatal Humanitaria de Rusia, 2002-2012. (Artículos sobre lingüística informática, http://www.dialog-21.ru).

Cuerpo Nacional de la Lengua Rusa: 2006-2008. Nuevos resultados y perspectivas. / Ans. ed. V.A. Plungyan. - San Petersburgo: Nestor-Istoriya, 2009.

Nuevo en lingüística extranjera. Vol. XXIV, Lingüística computacional / Comp. B. Yu. Gorodetsky. M .: Progreso, 1989.

Shimchuk E. G. Lexicografía rusa: Libro de texto. M .: Academia, 2009.

Cuerpo Nacional de la Lengua Rusa: 2003-2005. Recopilación de artículos. M .: Indrik, 2005.

Para contactos:

Centro Educativo y Científico de Lingüística Informática, Instituto de Lingüística, Universidad Estatal Rusa para las Humanidades

Lingüística (del lat. Lingua -
lenguaje), lingüística, lingüística - ciencia,
Aprendiendo idiomas.
Esta es la ciencia del lenguaje humano natural en general.
y sobre todos los idiomas del mundo como su
representantes individualizados.
En el sentido más amplio de la palabra, lingüística.
subdividido en científico y práctico. Más a menudo
lingüística total significa exactamente
lingüística científica Es parte de la semiótica como
firmar ciencia.
Los lingüistas se dedican profesionalmente a los lingüistas.

Lingüística e Informática.
En la vida de la sociedad moderna, un papel importante es jugado por automatizado
Tecnologías de la información. Pero el desarrollo de la tecnología de la información está sucediendo.
muy desigual: si el nivel actual de computación y
los medios de comunicación son increíbles, entonces en el campo del procesamiento semántico
El éxito de la información es mucho más modesto. Estos éxitos dependen principalmente de
logros en el estudio de los procesos del pensamiento humano, los procesos del habla
comunicación entre personas y la capacidad de simular estos procesos en una computadora. Y esta es una tarea de extrema complejidad. Cuando se trata de crear promesas
tecnología de la información, entonces los problemas del procesamiento automático de texto
La información proporcionada en los idiomas naturales se destaca.
Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su idioma. Más
Además, el lenguaje natural es un instrumento de pensamiento. Él también lo es
Medios universales de comunicación entre las personas: un medio de percepción,
acumulación, almacenamiento, procesamiento y transmisión de información.
Los problemas de usar lenguaje natural en sistemas automáticos
El procesamiento de la información se ocupa de la ciencia de la lingüística informática. Esta ciencia
surgió relativamente recientemente, a finales de los años cincuenta y sesenta
siglo pasado Al principio, durante su formación, tuvo varias
nombres: lingüística matemática, lingüística computacional, ingeniería
lingüística. Pero a principios de los ochenta, se le asignó el nombre
lingüística informática

La lingüística computacional es un campo de conocimiento relacionado con la resolución de problemas.
Procesamiento automático de la información presentada en un lenguaje natural.
Los problemas científicos centrales de la lingüística informática son el problema
modelando el proceso de comprensión del significado de los textos (transición de texto a
presentación formalizada de su significado) y el problema de la síntesis del habla (transición de
presentación formal de significado a textos en lenguaje natural). Estos problemas
surgen al resolver una serie de problemas aplicados:
1) detección automática y corrección de errores al ingresar textos en una computadora,
2) análisis automático y síntesis del discurso oral,
3) traducción automática de textos de un idioma a otro,
4) comunicación con computadoras en un lenguaje natural,
5) clasificación automática e indexación de documentos de texto, sus
resumen automático, búsqueda de documentos en bases de datos de texto completo.
Durante el último medio siglo en el campo de la lingüística informática se han obtenido
Resultados científicos y prácticos significativos: se crearon sistemas de máquinas
traducción de textos de un lenguaje natural a otro, sistemas automatizados
búsqueda de información en textos, sistemas de análisis automático y síntesis de discurso oral y
muchos otros Pero hubo decepciones. Por ejemplo, el problema de la traducción automática
los textos de un idioma a otro resultaron ser mucho más complicados de lo que imaginaban
pioneros en traducción automática y sus seguidores. Lo mismo se puede decir de
Búsqueda automatizada de información en textos y sobre la tarea de análisis y síntesis de textos orales.
habla. Los científicos e ingenieros aparentemente tendrán que trabajar duro para
lograr los resultados deseados.

Procesamiento natural del lenguaje;
análisis morfológico, semántico del texto). Esto también incluye:
Lingüística de corpus, creación y uso de corpus de texto electrónico.
Creación de diccionarios electrónicos, tesauros, ontologías. Por ejemplo, Lingvo. Diccionarios
utilizado, por ejemplo, para traducción automática, corrección ortográfica.
Traducción automática de textos. Entre los traductores rusos, populares
es Promt. Entre el traductor gratuito conocido Google Translate
Extraer automáticamente hechos del texto (extraer información)
extracción, minería de texto)
Resumen automático (resumen de texto automático en inglés). Esta característica está habilitada.
por ejemplo, en Microsoft Word.
Construcción de sistemas de gestión del conocimiento. Ver sistemas expertos
Creación de sistemas de preguntas y respuestas (sistemas de preguntas y respuestas en inglés).
Reconocimiento óptico de caracteres (OCR). Por ejemplo, FineReader
Reconocimiento automático de voz (Ing. ASR). Hay software pago y gratuito
Síntesis automática de voz

El contenido del articulo

LINGÜÍSTICA INFORMÁTICA,una dirección en lingüística aplicada, centrada en el uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para simular el funcionamiento del idioma en ciertas condiciones, situaciones, áreas problemáticas, etc., así como todo el alcance del uso de modelos de lenguaje informático en lingüística y disciplinas relacionadas. En realidad, solo en el último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático de un lenguaje también puede considerarse como una esfera de aplicación de la informática y la teoría de la programación para resolver problemas de la ciencia del lenguaje. En la práctica, sin embargo, prácticamente todo lo relacionado con el uso de las computadoras en lingüística se refiere a la lingüística informática.

Como área científica especial, la lingüística informática se formó en la década de 1960. El término ruso "lingüística informática" es un documento de seguimiento de la lingüística computacional inglesa. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se usa en la literatura, pero en la ciencia doméstica adquiere un significado más estrecho, abordando el concepto de "lingüística cuantitativa". La corriente de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista Computer Linguistics se publica trimestralmente en los Estados Unidos. El gran trabajo organizativo y científico lo lleva a cabo la Asociación de Lingüística Informática, que tiene estructuras regionales (en particular, la rama europea). Cada dos años, conferencias internacionales sobre lingüística informática - COLING. Los temas relevantes también suelen estar ampliamente representados en varias conferencias sobre inteligencia artificial.

Instrumentación de la lingüística informática.

La lingüística informática como disciplina aplicada especial se destaca principalmente por el instrumento, es decir sobre el uso de herramientas informáticas para procesar datos de idiomas. Dado que los programas de computadora que simulan ciertos aspectos del funcionamiento del lenguaje pueden usar una variedad de herramientas de programación, parece que no podemos hablar sobre el aparato conceptual general de la lingüística informática. Sin embargo, no lo es. Hay principios generales de modelado informático del pensamiento que de alguna manera se implementan en cualquier modelo informático. Se basan en la teoría del conocimiento, desarrollada originalmente en el campo de la inteligencia artificial, y luego se convirtió en una de las secciones de la ciencia cognitiva. Las categorías conceptuales más importantes de la lingüística informática son las estructuras de conocimiento, tales como "marcos" (estructuras conceptuales o, como dicen, conceptuales para la representación declarativa del conocimiento sobre una situación única típicamente temática), "guiones" (estructuras conceptuales para la representación procesal del conocimiento sobre una situación estereotípica o comportamiento estereotípico), "planes" (estructuras de conocimiento, fijación de ideas sobre posibles acciones que conducen al logro de un objetivo específico). Estrechamente relacionado con la categoría del cuadro está el concepto de "escena". La categoría de escena se usa principalmente en la literatura sobre lingüística informática como una designación de la estructura conceptual para la representación declarativa de situaciones y sus partes que se actualizan en un acto de habla y se resaltan por medios lingüísticos (tokens, construcciones sintácticas, categorías gramaticales, etc.).

De cierta manera, un conjunto organizado de estructuras de conocimiento forma el "modelo del mundo" del sistema cognitivo y su modelo informático. En los sistemas de inteligencia artificial, el modelo del mundo forma un bloque especial que, según la arquitectura elegida, puede incluir conocimientos generales sobre el mundo (en forma de proposiciones simples como "hace frío en invierno" o en forma de reglas de producción "si llueve afuera, entonces debe ponerse un impermeable o tomar un paraguas "), algunos hechos específicos (" El pico más alto del mundo - Everest "), así como los valores y sus jerarquías, a veces resaltados en un" bloque axiológico "especial.

La mayoría de los elementos de los conceptos de las herramientas de lingüística informática son homónimos: denotan simultáneamente algunas entidades reales del sistema cognitivo humano y las formas de representar estas entidades utilizadas en su descripción teórica y modelado. En otras palabras, los elementos del aparato conceptual de la lingüística informática tienen aspectos ontológicos e instrumentales. Por ejemplo, en el aspecto ontológico, la separación del conocimiento declarativo y del procedimiento corresponde a varios tipos de conocimiento que tiene una persona: el llamado conocimiento QUÉ (declarativo; tal, por ejemplo, el conocimiento de la dirección postal de alguna NN), por un lado, y el conocimiento AS (procesal; tal , por ejemplo, el conocimiento que le permite encontrar el apartamento de este NN, sin siquiera saber su dirección formal), por el otro. En el aspecto instrumental, el conocimiento puede incorporarse en el conjunto de descripciones (descripciones), en un conjunto de datos, por un lado, y en un algoritmo, una instrucción que es ejecutada por una computadora o algún otro modelo de un sistema cognitivo, por el otro.

Direcciones de lingüística informática.

El campo de RC es muy diverso e incluye áreas tales como modelado de comunicación asistida por computadora, modelado de estructura de trama, tecnologías de hipertexto para presentar texto, traducción automática, lexicografía por computadora. En un sentido estricto, los problemas de CL a menudo se asocian con un campo aplicado interdisciplinario con el nombre un tanto desafortunado "Procesamiento del lenguaje natural" (traducción del término en inglés Procesamiento del lenguaje natural). Surgió a fines de la década de 1960 y se desarrolló en el marco de la disciplina científica y tecnológica "inteligencia artificial". En su forma interna, la frase "procesamiento del lenguaje natural" cubre todas las áreas en las que las computadoras se utilizan para procesar datos del lenguaje. Mientras tanto, en la práctica, se ha solucionado una comprensión más limitada de este término: el desarrollo de métodos, tecnologías y sistemas específicos que aseguran la comunicación humana con las computadoras en un lenguaje natural o natural.

El rápido desarrollo de la dirección del "procesamiento del lenguaje natural" se produjo en la década de 1970, que se asoció con un aumento exponencial inesperado en el número de usuarios finales de computadoras. Dado que el aprendizaje de idiomas y la tecnología de programación para todos los usuarios es imposible, ha surgido el problema de organizar la interacción con los programas de computadora. La solución a este problema de comunicación fue de dos maneras principales. En el primer caso, se hicieron intentos para adaptar los lenguajes de programación y los sistemas operativos al usuario final. Como resultado, aparecieron lenguajes de alto nivel como Visual Basic, así como sistemas operativos convenientes construidos en el espacio conceptual de metáforas familiares para las personas: ESCRITORIO, BIBLIOTECA. La segunda forma es el desarrollo de sistemas que permitan interactuar con las computadoras en un área problemática específica en un lenguaje natural o alguna versión limitada del mismo.

La arquitectura de los sistemas de procesamiento de lenguaje natural en el caso general incluye un bloque para analizar el mensaje de voz de un usuario, un bloque para interpretar el mensaje, un bloque para generar el significado de la respuesta y un bloque para sintetizar la estructura superficial de la declaración. Una parte especial del sistema es el componente de diálogo, en el que se fijan las estrategias de diálogo, las condiciones para aplicar estas estrategias y las formas de superar posibles fallas comunicativas (fallas en el proceso de comunicación).

Entre los sistemas informáticos para procesar un lenguaje natural, generalmente se distinguen los sistemas de preguntas y respuestas, los sistemas de diálogo para resolver problemas y los sistemas para procesar textos conectados. Inicialmente, los sistemas de preguntas y respuestas comenzaron a desarrollarse como reacción a la mala calidad de la codificación de consultas al buscar información en los sistemas de recuperación de información. Dado que el área problemática de tales sistemas era muy limitada, esto simplificó de alguna manera los algoritmos para traducir consultas en representaciones de lenguaje formal y el procedimiento inverso para convertir representaciones formales en expresiones de lenguaje natural. A partir de desarrollos nacionales, este tipo de programa incluye el sistema POET creado por un equipo de investigadores dirigido por E.V. Popov. El sistema procesa solicitudes en ruso (con ligeras restricciones) y sintetiza la respuesta. El diagrama de bloques del programa implica el paso de todas las etapas de análisis (morfológicas, sintácticas y semánticas) y las etapas correspondientes de síntesis.

Los sistemas de diálogo para resolver problemas, a diferencia de los sistemas del tipo anterior, desempeñan un papel activo en la comunicación, ya que su tarea es obtener una solución al problema sobre la base del conocimiento que se presenta en sí mismo y la información que se puede obtener del usuario. El sistema contiene estructuras de conocimiento en las que se registran secuencias típicas de acciones para resolver problemas en esta área problemática, así como información sobre los recursos necesarios. Cuando un usuario hace una pregunta o plantea una tarea específica, se activa el script correspondiente. Si falta algún componente del script o faltan algunos recursos, el sistema inicia la comunicación. Así es como, por ejemplo, funciona el sistema SNUKA, que resuelve las tareas de planificación de operaciones militares.

Los sistemas de procesamiento de texto conectados tienen una estructura bastante diversa. Su característica común es el uso generalizado de las tecnologías de representación del conocimiento. Las funciones de los sistemas de este tipo son comprender el texto y responder preguntas sobre su contenido. La comprensión se considera no como una categoría universal, sino como un proceso de extracción de información de un texto, determinado por una intención comunicativa específica. En otras palabras, el texto se "lee" solo con la instalación de lo que el usuario potencial quiere saber al respecto. Por lo tanto, los sistemas para procesar textos coherentes están lejos de ser universales, pero están orientados a los problemas. Ejemplos típicos de sistemas del tipo en discusión son RESEARCHER y TAILOR, que forman un único paquete de software que permite al usuario obtener información de resúmenes de patentes que describen objetos físicos complejos.

El área más importante de la lingüística informática es el desarrollo de sistemas de recuperación de información (IPS). Este último surgió a fines de la década de 1950, principios de la década de 1960 como respuesta a un fuerte aumento en el volumen de información científica y técnica. Según el tipo de información almacenada y procesada, así como las funciones de búsqueda, los IPS se dividen en dos grandes grupos: documentales y de hecho. Los documentos documentales contienen textos de documentos o sus descripciones (resúmenes, tarjetas bibliográficas, etc.). Los IPS factográficos tratan con una descripción de hechos específicos, y no necesariamente en forma de texto. Pueden ser tablas, fórmulas y otros tipos de representación de datos. Hay IPS mixtos, que incluyen tanto documentos como información objetiva. Actualmente, los IPS factuales se construyen sobre la base de tecnologías de bases de datos (DB). Para garantizar la recuperación de información en IPS, se crean lenguajes especiales de recuperación de información, que se basan en tesauros de recuperación de información. El lenguaje de recuperación de información es un lenguaje formal diseñado para describir ciertos aspectos del plan de contenido de los documentos almacenados en el IPS y la solicitud. El procedimiento para describir un documento en un lenguaje de recuperación de información se denomina indexación. Como resultado de la indexación, a cada documento se le asigna su descripción formal en el lenguaje de recuperación de información: la imagen de búsqueda del documento. Del mismo modo, la consulta se indexa, lo que se atribuye a la imagen de búsqueda de la consulta y al orden de búsqueda. Los algoritmos de recuperación de información se basan en comparar un orden de búsqueda con una imagen de consulta de búsqueda. El criterio para emitir un documento para una solicitud puede consistir en una coincidencia total o parcial de la imagen de búsqueda del documento y la instrucción de búsqueda. En algunos casos, el usuario tiene la oportunidad de formular los criterios de entrega. Esto está determinado por su necesidad informativa. En los IPS automatizados, los lenguajes de recuperación de información de descriptores se usan con mayor frecuencia. El tema del documento se describe mediante un conjunto de descriptores. Los descriptores son palabras, términos que denotan categorías simples y bastante elementales y conceptos del área del problema. Se ingresan tantos descriptores en la imagen de búsqueda del documento como hay varios temas cubiertos en el documento. El número de descriptores no está limitado, lo que nos permite describir un documento en una matriz de características multidimensional. A menudo, en la información del descriptor, se imponen restricciones de idioma sobre la compatibilidad de los descriptores. En este caso, podemos decir que el lenguaje de recuperación de información tiene una sintaxis.

Uno de los primeros sistemas que trabajó con lenguaje descriptor fue el sistema americano UNITERM creado por M. Taube. Como descriptores en este sistema, las palabras clave del documento, uniterms, funcionaban. La peculiaridad de este IPS es que inicialmente el diccionario del lenguaje de información no se definió, sino que surgió en el proceso de indexación del documento y la solicitud. El desarrollo de sistemas modernos de recuperación de información está asociado con el desarrollo de IPS del tipo libre de bestaurus. Tales IPS trabajan con el usuario en un lenguaje natural limitado, y la búsqueda se lleva a cabo en los textos de resúmenes de documentos, en sus descripciones bibliográficas y, a menudo, en los propios documentos. Para indexar en el IPS del tipo libre de bestaurus, se utilizan palabras y frases del lenguaje natural.

Hasta cierto punto, el trabajo en el campo de la creación de sistemas de hipertexto se puede atribuir al campo de la lingüística informática, que se considera como una forma especial de organizar el texto e incluso como un tipo de texto fundamentalmente nuevo, en contraste con muchas de sus propiedades con el texto ordinario formado en la tradición de impresión de Gutenberg. La idea del hipertexto está asociada con el nombre de Vannevar Bush, el asesor científico del presidente F. Roosevelt. W. Bush fundamentó teóricamente el borrador del sistema técnico Memex, que permitió al usuario vincular textos y sus fragmentos de acuerdo con varios tipos de conexiones, principalmente por relaciones asociativas. La falta de tecnología informática dificultó la implementación del proyecto, ya que el sistema mecánico demostró ser demasiado complejo para la implementación práctica.

La idea de Bush en la década de 1960 recibió un renacimiento en el sistema Xanadu de T. Nelson, que ya asumía el uso de la tecnología informática. "Xanadu" permitió al usuario leer la totalidad de los textos ingresados \u200b\u200ben el sistema de varias maneras, en diferentes secuencias, el software hizo posible recordar la secuencia de textos vistos y seleccionar de ellos casi en cualquier momento. Muchos textos con sus relaciones (sistema de transición) se llamaron hipertexto de T. Nelson. Muchos investigadores ven la creación de hipertexto como el comienzo de una nueva era de la información, en oposición a la era de la tipografía. La linealidad de la escritura, que refleja externamente la linealidad del discurso, resulta ser una categoría fundamental que limita el pensamiento humano y la comprensión del texto. El mundo del significado no es lineal, por lo tanto, la compresión de información semántica en un segmento de discurso lineal requiere el uso de "paquetes comunicativos" especiales: dividir por tema y relieve, dividir el plan del contenido del enunciado en capas explícitas (afirmación, proposición, enfoque) e implícitas (presuposición, consecuencia, discurso implicativo) . El rechazo de la linealidad del texto tanto en el proceso de su presentación al lector (es decir, al leer y comprender) como en el proceso de síntesis, según los teóricos, contribuiría a la "liberación" del pensamiento e incluso al surgimiento de sus nuevas formas.

En un sistema informático, el hipertexto se presenta en forma de gráfico, en cuyos nodos hay textos tradicionales o sus fragmentos, imágenes, tablas, videos, etc. Los nodos están conectados por una variedad de relaciones, cuyos tipos son establecidos por los desarrolladores del software de hipertexto o por el lector. Las relaciones definen el potencial de movimiento o navegación de hipertexto. Las relaciones pueden ser unidireccionales o bidireccionales. En consecuencia, las flechas bidireccionales permiten al usuario moverse en ambas direcciones, y las flechas unidireccionales, solo en una dirección. La cadena de nodos a través de la cual pasa el lector al ver los componentes del texto forma una ruta o ruta.

Las implementaciones de hipertexto informático son jerárquicas o de red. La estructura jerárquica de hipertexto en forma de árbol limita significativamente las posibilidades de transición entre sus componentes. En tal hipertexto, las relaciones entre los componentes se asemejan a la estructura de un tesauro basado en relaciones genéricas. El hipertexto de red le permite utilizar varios tipos de relaciones entre componentes, sin limitarse a la relación "género - tipo". Por cierto, existe hipertexto, se distinguen hipertextos estáticos y dinámicos. El hipertexto estático no cambia durante la operación; en él, el usuario puede grabar sus comentarios, pero no cambian la esencia del asunto. Para el hipertexto dinámico, el cambio es una forma normal de existencia. Los hipertextos dinámicos generalmente funcionan donde es necesario analizar constantemente el flujo de información, es decir en servicios de información de diversos tipos. El hipertexto es, por ejemplo, el Sistema de Información de Arizona (AAIS), que se actualiza mensualmente por 300-500 ensayos por mes.

La relación entre los elementos de hipertexto puede ser arreglada inicialmente por los creadores, o puede generarse cada vez que un usuario accede al hipertexto. En el primer caso, estamos hablando de hipertextos de una estructura rígida, y en el segundo caso, hipertextos de una estructura blanda. La estructura rígida es tecnológicamente entendible. La tecnología para organizar una estructura blanda debe basarse en un análisis semántico de la proximidad de los documentos (u otras fuentes de información) entre sí. Esta es una tarea no trivial de la lingüística informática. Actualmente, el uso de tecnologías de estructura blanda en palabras clave está muy extendido. La transición de un nodo a otro en la red de hipertexto se lleva a cabo como resultado de la búsqueda de palabras clave. Dado que el conjunto de palabras clave puede variar cada vez, la estructura del hipertexto cambia cada vez.

La tecnología para construir sistemas de hipertexto no distingue entre información textual y no textual. Mientras tanto, la inclusión de información visual y de audio (videos, imágenes, fotografías, grabaciones de sonido, etc.) requiere un cambio significativo en la interfaz de usuario y un software y soporte informático más potentes. Dichos sistemas se denominan hipermedia o multimedia. La visibilidad de los sistemas multimedia predeterminó su uso generalizado en la formación, en la creación de versiones informáticas de enciclopedias. Por ejemplo, hay CD-ROM bien hechos con sistemas multimedia para enciclopedias infantiles publicados por Dorlin Kindersley.

En el marco de la lexicografía por computadora, las tecnologías informáticas se desarrollan para compilar y operar diccionarios. Los programas especiales (bases de datos, archivadores de computadora, programas de procesamiento de texto) le permiten generar automáticamente entradas de diccionario, almacenar información de diccionario y procesarla. Muchos programas lexicográficos informáticos diferentes se dividen en dos grandes grupos: programas de apoyo al trabajo lexicográfico y diccionarios automáticos de varios tipos, incluidas las bases de datos lexicográficas. Un diccionario automático es un diccionario en un formato de máquina especial destinado a ser utilizado en una computadora por un usuario o un programa de procesamiento de texto basado en computadora. En otras palabras, se distinguen los diccionarios automáticos de un usuario final humano y los diccionarios automáticos para programas de procesamiento de textos. Los diccionarios automáticos destinados al usuario final difieren significativamente en la interfaz y estructura de la entrada del diccionario de los diccionarios automáticos incluidos en los sistemas de traducción automática, sistemas de abstracción automática, recuperación de información, etc. Muy a menudo, son versiones informáticas de diccionarios convencionales conocidos. Existen análogos informáticos de los diccionarios explicativos del idioma inglés en el mercado de software (diccionario automático de Webster, Collins, inglés explicativo automático, versión automática del New Large English-Russian Dictionary editado por Yu.D. Apresyan y E.M. Mednikova), también hay una computadora versión del diccionario de Ozhegov. Los diccionarios automáticos para programas de procesamiento de textos pueden denominarse diccionarios automáticos en el sentido exacto. Generalmente no están destinados al usuario promedio. Las características de su estructura, el alcance del material de vocabulario son establecidos por aquellos programas que interactúan con ellos.

El modelado por computadora de la estructura de la trama es otra área prometedora de la lingüística informática. El estudio de la estructura de la trama se relaciona con los problemas de la crítica literaria estructural (en sentido amplio), la semiótica y los estudios culturales. Los programas informáticos disponibles para el modelado de parcelas se basan en tres formalismos básicos de presentación de parcelas: las direcciones morfológicas y sintácticas de la presentación de parcelas, así como en el enfoque cognitivo. Las ideas sobre la estructura morfológica de la estructura de la trama se remontan a las famosas obras de V.Ya. Propp ( cm.) sobre un cuento de hadas ruso. Propp señaló que con la abundancia de personajes y eventos de un cuento de hadas, el número de funciones de los personajes es limitado, y propuso un dispositivo para describir estas funciones. Las ideas de Propp formaron la base del programa informático TALE, que simula la creación de la trama de un cuento de hadas. El algoritmo del programa TALE se basa en la secuencia de funciones de los personajes del cuento de hadas. De hecho, las funciones de Propp fueron impulsadas por muchas situaciones tipificadas, ordenadas en base a un análisis de material empírico. Las posibilidades de vincular diversas situaciones en las reglas de generación se determinaron mediante una secuencia típica de funciones, en la forma en que es posible establecer a partir de los textos de los cuentos de hadas. En el programa, las secuencias típicas de funciones se describieron como escenarios típicos de reuniones de personajes.

La base teórica del enfoque sintáctico de la trama del texto estaba compuesta por "gramáticas de la historia" o "gramáticas de la historia". Aparecieron a mediados de la década de 1970 como resultado de la transferencia de las ideas de la gramática generativa de N. Khomsky a la descripción de la macroestructura del texto. Si los grupos verbales y nominales fueron los componentes más importantes de la estructura sintáctica en la gramática generativa, en la mayoría de las gramáticas de los sujetos, la exposición (escenario), el evento y el episodio se destacaron como básicos. En la teoría de las gramáticas de los sujetos, se discutieron ampliamente las condiciones de minimidad, es decir, las limitaciones que determinaron el estado de una secuencia de elementos de la trama como una trama normal. Resultó, sin embargo, que usando métodos puramente lingüísticos, esto no podía hacerse. Muchas restricciones son de naturaleza sociocultural. Las gramáticas de la historia, que difieren significativamente en el conjunto de categorías en el árbol de generación, permitieron un conjunto muy limitado de reglas para modificar la estructura narrativa (narrativa).

A principios de la década de 1980, uno de los estudiantes de R. Schenk, V. Lenert, en el marco de la creación de un generador de historias informáticas, propuso el formalismo original de las unidades de la trama emocional (Unidades de la trama afectiva), que resultó ser un medio poderoso para representar la estructura de la trama. A pesar de que se desarrolló originalmente para el sistema de inteligencia artificial, este formalismo se utilizó en estudios puramente teóricos. La esencia del enfoque de Lehnert fue que la trama se describió como un cambio secuencial en los estados cognitivo-emocionales de los personajes. Por lo tanto, el enfoque del formalismo de Lehnert no está en los componentes externos de la trama: la exposición, el evento, el episodio, la moralidad, sino en sus características sustanciales. En este sentido, el formalismo de Lehnert es en parte un retorno a las ideas de Propp.

La lingüística informática también incluye la traducción automática, que actualmente está experimentando un renacimiento.

Literatura:

Popov E.V. Comunicación con computadoras en un lenguaje natural.. M., 1982
Sadur V.G. Comunicación verbal con computadoras electrónicas y problemas de su desarrollo.. - En el libro: Comunicación oral: problemas y perspectivas. M. 1983
Baranov A.N. Categorías de inteligencia artificial en semántica lingüística. Marcos y guiones. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelado de comunicación en sistemas hombre-máquina. - Soporte lingüístico de sistemas de información. M., 1987
Olker H.R. Cuentos de hadas, tragedias y formas de presentar la historia mundial.. - En el libro: Lenguaje y modelización de la interacción social. M., 1987
Gorodetsky B.Yu. Lingüística informática: modelado de la comunicación del lenguaje
McQueen K. Estrategias discursivas para sintetizar texto en lenguaje natural.. - Novedad en lingüística extranjera. Vol. XXIV, Lingüística computacional. M., 1989
Popov E.V., Preobrazhensky A.B. . Características de la implementación de sistemas EY
Preobrazhensky A.B. El estado de desarrollo de los sistemas nucleares modernos.. - Inteligencia artificial. Príncipe 1, Sistemas de comunicación y sistemas expertos. M., 1990
Subbotin M.M. Hipertexto Una nueva forma de comunicación escrita.. - VINITY, Ser. Informática, 1994, v. 18
Baranov A.N. Introducción a la lingüística aplicada. M., 2000