Lingüística computacional: métodos, recursos, aplicaciones. ¿Qué hace un lingüista computacional?

23.09.2019

Introducción

¿Qué es la lingüística computacional?

LINGÜÍSTICA INFORMÁTICA , una dirección de lingüística aplicada, centrada en el uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para modelar el funcionamiento del lenguaje en determinadas condiciones, situaciones, áreas problemáticas, etc., así como todo el ámbito de Aplicación de modelos informáticos del lenguaje en lingüística y disciplinas afines. En realidad, sólo en este último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático del lenguaje también puede considerarse como un campo de aplicación de la informática y la teoría de la programación para la resolución de problemas en la ciencia del lenguaje. En la práctica, sin embargo, la lingüística computacional incluye casi todo lo relacionado con el uso de computadoras en lingüística.

La lingüística computacional se constituyó como un campo científico especial en los años 1960. El término ruso "lingüística informática" es una traducción del inglés computacional lingüística. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia rusa adquiere un significado más limitado, acercándose al concepto de "lingüística cuantitativa". El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista Computer Linguistics se publica trimestralmente en Estados Unidos. Gran parte del trabajo organizativo y científico lo lleva a cabo la Asociación de Lingüística Computacional, que tiene estructuras regionales (en particular, una sucursal europea). Cada dos años se celebran congresos internacionales sobre lingüística computacional (COLING). Los temas correspondientes suelen estar ampliamente representados en diversas conferencias sobre inteligencia artificial.

Tareas

Ligüística computacional aborda los problemas lingüísticos reales del modelado informático de la actividad lingüística. Sus objetivos son construir modelos lingüísticos más precisos y completos y algoritmos de análisis y síntesis más avanzados.

Se pueden identificar las direcciones principales:

1) Interacción entre hombre y computadora: control - lenguajes de programación, transferencia de información - interfaz.

2) Trabajar con textos: indexación, análisis y clasificación, edición automática (corrección de errores), identificación de conocimientos, traducción automática.

Historia

La generación sencilla de un subconjunto del idioma inglés para acceder a bases de datos fue proporcionada por uno de los primeros sistemas estadounidenses LIFER (Language Interface Facility con Elipsis y Recursión), creado en los años 70. Después de esto, aparecieron en el mercado de las computadoras otros sistemas más flexibles que proporcionaban una interfaz de lenguaje natural limitada con una computadora.

En los años 80 se formaron en Estados Unidos varias empresas dedicadas al desarrollo y venta de interfaces de lenguaje natural con bases de datos y sistemas expertos. En 1985 Semantek Corporation presentó un paquete de software de preguntas y respuestas, y la empresa Carnegie Group ofreció un paquete similar LanguageCraft.

Se está trabajando activamente para crear sistemas de traducción automática. Se ha generalizado el sistema de traducción automática SYSTRAN, desarrollado bajo la dirección de D. Tom para la Fuerza Aérea de EE. UU. Durante 1974 - 1975 El sistema fue utilizado por la asociación aeroespacial de la NASA para traducir documentos para el proyecto Apollo-Soyuz. Actualmente traduce unas 100.000 páginas al año de varios idiomas.

En Europa, el trabajo sobre la creación de sistemas de traducción informática se vio estimulado por la formación de la Red Europea de Información (EURONET DIANA). En 1982, la Comunidad Económica Europea anunció la creación del programa europeo EUROTRA, cuyo objetivo es desarrollar un sistema de traducción asistida por ordenador para todas las lenguas europeas. El proyecto se estimó inicialmente en 12 millones de dólares; en 1987, los expertos determinaron el coste total del proyecto en más de 160 millones de dólares.

En Japón, la investigación en lingüística computacional se centra en el programa informático nacional de quinta generación anunciado en 1981.

Hay una serie de proyectos militares para crear interfaces hombre-máquina en lenguaje natural. En Estados Unidos, se llevan a cabo principalmente en el marco de la Iniciativa Informática Estratégica, un programa de diez años adoptado por el Departamento de Defensa en 1983. Su objetivo es crear una nueva generación de armas y sistemas militares "inteligentes" en para asegurar la superioridad tecnológica de Estados Unidos a largo plazo.

Naturalmente, los especialistas en inteligencia artificial, que conocen bien las computadoras y los lenguajes de programación, comenzaron con energía a resolver el problema de la comprensión del lenguaje utilizando sus propios métodos. Se buscó algoritmos de lenguaje natural. Se han creado programas complejos de comprensión del lenguaje para áreas especializadas muy limitadas, se han implementado programas parciales de traducción automática y muchos otros. Pero no hubo avances decisivos en la solución del problema de la comprensión del lenguaje. El lenguaje y las personas están tan conectados que los científicos tuvieron que abordar el problema de la comprensión humana del mundo. Y este ya es el ámbito de la filosofía.

Conceptos básicos de lingüística.

Lingüística computacional: métodos, recursos, aplicaciones.

Introducción

Término Ligüística computacional(CL) se ha vuelto cada vez más común en los últimos años en relación con el desarrollo de diversos sistemas de software de aplicaciones, incluidos productos de software comerciales. Esto se debe al rápido crecimiento de la información textual en la sociedad, incluso en Internet, y a la necesidad de procesamiento automático de textos en lenguaje natural (NL). Esta circunstancia estimula el desarrollo de la lingüística informática como campo de la ciencia y el desarrollo de nuevas tecnologías lingüísticas y de la información.

En el marco de la lingüística computacional, que existe desde hace más de 50 años (y también se conoce como lingüística de máquinas, procesamiento automático de textos en NL) Se han propuesto muchos métodos e ideas prometedores, pero no todos han encontrado todavía su expresión en productos de software utilizados en la práctica. Nuestro objetivo es caracterizar las particularidades de este campo de investigación, formular sus principales tareas, indicar sus conexiones con otras ciencias, dar una breve descripción de los principales enfoques y recursos utilizados, y también caracterizar brevemente las aplicaciones existentes de CL. Para una introducción más detallada a estos temas, podemos recomendar libros.

1. Problemas de la lingüística computacional

La lingüística informática surgió en la intersección de ciencias como la lingüística, las matemáticas, la informática (Informática) y la inteligencia artificial. Los orígenes de CL se remontan a las investigaciones del famoso científico estadounidense N. Chomsky en el campo de la formalización de la estructura del lenguaje natural; su desarrollo se basa en resultados en el campo de la lingüística general (lingüística). La lingüística estudia las leyes generales del lenguaje natural: su estructura y funcionamiento, e incluye las siguientes áreas:

Ø Fonología– estudia los sonidos del habla y las reglas de su conexión durante la formación del habla;

Ø Morfología– se ocupa de la estructura interna y la forma externa de las palabras del discurso, incluidas las partes del discurso y sus categorías;

Ø Sintaxis– estudia la estructura de las oraciones, las reglas de compatibilidad y el orden de las palabras en una oración, así como sus propiedades generales como unidad del lenguaje.

Ø Semánticay pragmática– áreas estrechamente relacionadas: la semántica se ocupa del significado de palabras, oraciones y otras unidades del habla, y la pragmática se ocupa de las peculiaridades de expresar este significado en relación con objetivos específicos de la comunicación;

Ø Lexicografía describe el léxico de un NL en particular: sus palabras individuales y sus propiedades gramaticales, así como métodos para crear diccionarios.

Los resultados de N. Chomsky, obtenidos en la intersección de la lingüística y las matemáticas, sentaron las bases para la teoría de los lenguajes formales y las gramáticas (a menudo llamadas generativo, o generando gramáticos). Esta teoría ahora se aplica a lingüística matemática y se utiliza para procesar no tanto NL, sino lenguajes artificiales, principalmente lenguajes de programación. Por su naturaleza, se trata de una disciplina completamente matemática.

La lingüística matemática también incluye lingüística cuantitativa, que estudia las características de frecuencia del lenguaje: palabras, sus combinaciones, estructuras sintácticas, etc., y utiliza métodos matemáticos de estadística, por lo que esta rama de la ciencia puede denominarse lingüística estadística.

CL también está estrechamente relacionado con un campo científico tan interdisciplinario como la inteligencia artificial (IA), dentro del cual se desarrollan modelos informáticos de funciones intelectuales individuales. Uno de los primeros programas en funcionamiento en el campo de la IA y la CL es el famoso programa de T. Winograd, que comprendía las órdenes humanas más simples para cambiar el mundo de los cubos, formuladas en un subconjunto limitado de NL. Tenga en cuenta que a pesar de la obvia intersección de la investigación en el campo de CL e IA (ya que el dominio del lenguaje se relaciona con funciones intelectuales), la IA no absorbe toda la CL, ya que tiene su propia base teórica y metodología. Lo que estas ciencias tienen en común es el modelado informático como método principal y objetivo final de la investigación.

Por tanto, la tarea CL puede formularse como el desarrollo de programas informáticos para el procesamiento automático de textos en NL. Y aunque el procesamiento se entiende de manera bastante amplia, no todos los tipos de procesamiento pueden denominarse lingüísticos y los procesadores correspondientes, lingüísticos. Procesador lingüístico debe utilizar uno u otro modelo formal de lenguaje (incluso uno muy simple), lo que significa que debe depender del lenguaje de una manera u otra (es decir, depender de un NL específico). Entonces, por ejemplo, el editor de texto de Mycrosoft Word puede llamarse lingüístico (aunque solo sea porque usa diccionarios), pero el editor de Bloc de notas no.

La complejidad de las tareas de CL se debe al hecho de que NL es un complejo sistema de signos multinivel que surgió para el intercambio de información entre personas, desarrollado en el proceso de la actividad práctica humana y que cambia constantemente en relación con esta actividad. Otra dificultad en el desarrollo de métodos CL (y la dificultad de estudiar NL en el marco de la lingüística) está asociada con la diversidad de lenguas naturales, diferencias significativas en su vocabulario, morfología, sintaxis, idiomas diferentes proporcionar diferentes caminos expresiones del mismo significado.

2. Características del sistema NL: niveles y conexiones.

El objeto de los procesadores lingüísticos son los textos NL. Se entiende por textos cualquier muestra de habla, oral y escrita, de cualquier género, pero principalmente CL considera textos escritos. El texto tiene una estructura lineal unidimensional y también tiene un cierto significado, mientras que el lenguaje actúa como un medio para transformar el significado transmitido en textos (síntesis del habla) y viceversa (análisis del habla). El texto se compone de unidades más pequeñas y existen varias formas posibles de dividir (dividir) el texto en unidades que pertenecen a diferentes niveles.

Generalmente se acepta la existencia de los siguientes niveles:

· nivel de propuestas (declaraciones) – nivel sintáctico;

· Léxico-morfológico La homonimia (el tipo más común) ocurre cuando las formas de las palabras de dos lexemas diferentes coinciden, por ejemplo, poema– un verbo en singular, masculino, y un sustantivo en singular, caso nominativo),

· Homonimia sintáctica Significa la ambigüedad de la estructura sintáctica, lo que da lugar a varias interpretaciones: Los estudiantes de Lvov fueron a Kiev,Volador aviones poder ser peligroso(célebre ejemplo de Chomsky), etc.

3. Modelado en lingüística computacional

El desarrollo de un procesador lingüístico (LP) implica una descripción de las propiedades lingüísticas del texto NL procesado, y esta descripción se organiza como modelo idioma. Al igual que con el modelado en matemáticas y programación, un modelo se entiende como un determinado sistema que muestra una serie de propiedades esenciales del fenómeno que se está modelando (es decir, SE) y, por lo tanto, tiene similitud estructural o funcional.

Los modelos lingüísticos utilizados en CL suelen construirse sobre la base de teorías creadas por los lingüistas mediante el estudio de varios textos y sobre la base de su intuición lingüística (introspección). ¿Cuáles son las características específicas de los modelos CL? Se pueden distinguir las siguientes características:

· Formalidad y, en última instancia, algoritmización;

· Funcionalidad (el propósito del modelado es reproducir las funciones del lenguaje como una “caja negra”, sin construir un modelo preciso de síntesis y análisis del habla humana);

· La generalidad del modelo, es decir, que tiene en cuenta un conjunto bastante amplio de textos;

· Validez experimental, que implica probar el modelo en diferentes textos;

· Dependencia de los diccionarios como componente obligatorio del modelo.

La complejidad de la NL, su descripción y procesamiento lleva a la división de este proceso en etapas separadas correspondientes a los niveles de la lengua. La mayoría de los LP modernos son del tipo modular, en el que cada nivel de análisis o síntesis lingüística corresponde a un separado módulo procesador. En particular, en el caso del análisis de texto, los módulos LP individuales realizan:

Ø Análisis grafemático, es decir, resaltar formas de palabras en el texto (transición de símbolos a palabras);

Ø Análisis morfológico – transición de las formas de las palabras a sus lemas(formas del diccionario de lexemas) o lo esencial(partes nucleares de la palabra, menos morfemas flexivos);

Ø Analizar, es decir, identificar estructura gramatical oraciones de texto;

Ø Análisis semántico y pragmático, que determina el significado de las frases y la correspondiente reacción del sistema dentro del cual opera el LP.

Son posibles diferentes esquemas para la interacción de estos módulos (operación secuencial o análisis entrelazado paralelo), sin embargo, los niveles individuales (morfología, sintaxis y semántica) todavía se procesan mediante diferentes mecanismos.

Así, el LP puede considerarse como un conversor de múltiples etapas que, en el caso del análisis de texto, traduce cada una de sus oraciones en una representación interna de su significado y viceversa en el caso de la síntesis. El modelo de lenguaje correspondiente se puede llamar estructural.

Aunque los modelos CL completos requieren tener en cuenta todos los niveles principales del idioma y la presencia de los módulos correspondientes, al resolver algunos problemas aplicados es posible prescindir de representar niveles individuales en LP. Por ejemplo, en los primeros programas experimentales de CL, los textos procesados pertenecían a áreas problemáticas muy limitadas (con un conjunto limitado de palabras y su orden estricto), de modo que sus letras iniciales podían usarse para reconocer palabras, omitiendo las etapas de desarrollo morfológico y sintáctico. análisis.

Otro ejemplo de modelo reducido, que ahora se utiliza con bastante frecuencia, es el modelo lingüístico de la frecuencia de los símbolos y sus combinaciones (digramas, trigramas, etc.) en los textos de un NL en particular. Semejante modelo estadístico muestra información lingüística a nivel de caracteres (letras) del texto, y es suficiente, por ejemplo, para identificar errores tipográficos en el texto o reconocer su identidad lingüística. Un modelo similar basado en las estadísticas de palabras individuales y su coexistencia en los textos (bigramas, trigramas de palabras) se utiliza, por ejemplo, para resolver ambigüedades léxicas o determinar la parte del discurso de una palabra (en idiomas como el inglés ).

Tenga en cuenta que es posible modelos estadístico-estructurales, en el que, al representar niveles individuales de la NL, se tienen en cuenta una u otra estadística: palabras, estructuras sintácticas, etc.

En LP tipo modular En cada etapa del análisis o síntesis de texto, se utiliza un modelo correspondiente (morfología, sintaxis, etc.).

Los modelos morfológicos para analizar las formas de las palabras existentes en CL se diferencian principalmente en los siguientes parámetros:

· el resultado del trabajo: un lema o raíz con un conjunto de características morfológicas (género, número, caso, aspecto, persona, etc.) de una forma verbal determinada;

· método de análisis - basado en un diccionario de formas de palabras de un idioma o un diccionario de conceptos básicos, o un método sin diccionario;

· la capacidad de procesar la forma de la palabra de un lexema no incluido en el diccionario.

En la síntesis morfológica, los datos iniciales son el lexema y las características morfológicas específicas de la forma verbal solicitada de este lexema; también es posible solicitar la síntesis de todas las formas de un lexema determinado. El resultado tanto del análisis morfológico como de la síntesis es generalmente ambiguo.

Para modelar la sintaxis en el marco de CL, se han propuesto una gran cantidad de ideas y métodos diferentes, que se diferencian en la forma de describir la sintaxis del lenguaje, la forma de utilizar esta información en el análisis o síntesis de una oración NL, como así como la forma de representar la estructura sintáctica de la oración. De manera bastante convencional, podemos distinguir tres enfoques principales para la creación de modelos: un enfoque generativo, que se remonta a las ideas de Chomsky, un enfoque que se remonta a las ideas de I. Melchuk y representado por el modelo "Significado-Texto", así como un enfoque dentro del cual se hacen ciertos intentos de superar las limitaciones de los dos primeros enfoques, en particular, la teoría de los grupos sintácticos.

Dentro del enfoque generativo, el análisis sintáctico generalmente se realiza sobre la base de una gramática formal libre de contexto que describe la estructura frasal de una oración, o sobre la base de alguna extensión de la gramática libre de contexto. Estas gramáticas se basan en la división lineal consistente de una oración en frases (construcciones sintácticas, por ejemplo, frases nominales) y, por lo tanto, reflejan simultáneamente sus estructuras sintácticas y lineales. Se describe la estructura sintáctica jerárquica de la oración NL obtenida como resultado del análisis. árbol de componentes, cuyas hojas contienen las palabras de la oración, los subárboles corresponden a las construcciones sintácticas (frases) incluidas en la oración y los arcos expresan las relaciones de anidamiento de las construcciones.

El enfoque considerado puede incluir gramáticas de red, que son a la vez un aparato para describir un sistema lingüístico y para especificar un procedimiento para analizar oraciones basado en el concepto de una máquina de estados finitos, por ejemplo, la red de transición extendida ATN.

Dentro del segundo enfoque, se utiliza un método más visual y común para representar la estructura sintáctica de una oración: árboles de dependencia. Los nodos del árbol contienen las palabras de la oración (la raíz suele ser un predicado verbal), y cada arco del árbol que conecta un par de nodos se interpreta como sintáctico. subordinando conexión entre ellos, y la dirección de la conexión corresponde a la dirección del arco dado. Dado que en este caso las conexiones sintácticas de las palabras y el orden de las palabras en una oración están separados, entonces, sobre la base de árboles de subordinación, rotos y no proyectivo construcciones que aparecen con bastante frecuencia en idiomas con orden de palabras libre.

Los árboles de componentes son más adecuados para describir idiomas en un orden rígido de palabras; representar con su ayuda construcciones rotas y no proyectivas requiere ampliar el formalismo gramatical utilizado. Pero en el marco de este enfoque, las construcciones con relaciones no subordinadas se describen de forma más natural. Al mismo tiempo, una dificultad común a ambos enfoques es la representación de miembros homogéneos de una oración.

Los modelos sintácticos en todos los enfoques intentan tener en cuenta las restricciones impuestas a la conexión de unidades lingüísticas en el habla, mientras que el concepto de valencia se utiliza de una forma u otra. Valencia- esta es la capacidad de una palabra u otra unidad del lenguaje para conectar otras unidades de una determinada forma sintáctica; actante Es una palabra o construcción sintáctica que llena esta valencia. Por ejemplo, el verbo ruso Entregar tiene tres valencias principales, que pueden expresarse mediante las siguientes palabras interrogativas: ¿OMS? ¿A quien? ¿Qué? En el marco del enfoque generativo, las valencias de las palabras (principalmente verbos) se describen principalmente en forma de marcos especiales ( subcategorización marcos), y en el marco del enfoque basado en árboles de dependencia - ¿cómo modelos de gestión.

Los modelos de semántica del lenguaje son los menos desarrollados en el marco de CL. Para el análisis semántico de oraciones, las llamadas gramáticas de casos y casos semánticos(valencia), a partir del cual se describe la semántica de una oración tanto a través de las conexiones de la palabra principal (verbo) con sus actantes semánticos, es decir, a través de casos semánticos. Por ejemplo, verbo Entregar descrito por casos semánticos donación(agente), destinatario Y objeto de transferencia.

Para representar la semántica de un texto completo, se utilizan comúnmente dos formalismos lógicamente equivalentes (ambos descritos en detalle dentro del marco de IA):

· Fórmulas para el cálculo de predicados que expresan propiedades, estados, procesos, acciones y relaciones;

· Las redes semánticas son gráficos etiquetados en los que los vértices corresponden a conceptos y los vértices corresponden a relaciones entre ellos.

En cuanto a los modelos de pragmática y discurso, que permiten procesar no sólo oraciones individuales, sino también el texto en su conjunto, las ideas de Van Dyck se utilizan principalmente para construirlos. Uno de los modelos raros y exitosos es el modelo de síntesis discursiva de textos coherentes. Dichos modelos deben tener en cuenta referencias anafóricas y otros fenómenos a nivel del discurso.

Concluyendo la caracterización de los modelos lingüísticos en el marco de CL, nos detendremos un poco más en la teoría de los modelos lingüísticos “Significado-Texto”, y en cuyo marco aparecieron muchas ideas fructíferas que se adelantaron a su tiempo y son sigue siendo relevante hoy.

De acuerdo con esta teoría, la NL se considera un tipo especial de transformador que procesa significados dados en textos correspondientes y textos dados en significados correspondientes. El significado se entiende como la invariante de todas las transformaciones sinónimas del texto. El contenido de un fragmento de discurso coherente sin división en frases y formas de palabras se muestra en forma de una representación semántica especial, que consta de dos componentes: gráfico semántico e información sobre organización comunicativa del significado.

Conviene indicar las características distintivas de la teoría:

o orientación hacia la síntesis de textos (la capacidad de generar textos correctos se considera el principal criterio de competencia lingüística);

o naturaleza modular y multinivel del modelo, con los principales niveles del lenguaje divididos en niveles superficiales y profundos: se diferencian, por ejemplo, profundo(semantizado) y superficie sintaxis (“pura”), así como niveles morfológicos superficiales y morfológicos profundos;

o la naturaleza integral del modelo lingüístico; almacenamiento de la información presentada en cada nivel por el módulo correspondiente, realizando la transición de este nivel al siguiente;

o medios especiales para describir la sintáctica (reglas para conectar unidades) en cada nivel; Se propuso un conjunto para describir la compatibilidad léxica. funciones léxicas, con la ayuda del cual se formulan las reglas de paráfrasis sintáctica;

o énfasis en el vocabulario más que en la gramática; el diccionario almacena información relacionada con diferentes niveles del idioma; en particular, para el análisis sintáctico se utilizan modelos de control de palabras que describen sus valencias sintácticas y semánticas.

Esta teoría y modelo de lenguaje están plasmados en el sistema de traducción automática ETAP.

4. Recursos lingüísticos

El desarrollo de procesadores lingüísticos requiere una representación adecuada de la información lingüística sobre la lengua procesada. Esta información se muestra en una variedad de gramáticas y diccionarios informáticos.

Diccionarios son la forma más tradicional de representar información léxica; se diferencian en sus unidades (generalmente palabras o frases), estructura y cobertura de vocabulario (diccionarios de términos en un área problemática específica, diccionarios de vocabulario general, etc.). La unidad de vocabulario se llama entrada de diccionario, proporciona información sobre el token. Los homónimos léxicos suelen estar representados en diferentes entradas del diccionario.

Los más comunes en CL son los diccionarios morfológicos utilizados para el análisis morfológico; su entrada de diccionario presenta información morfológica sobre la palabra correspondiente: parte de la oración, clase flexional (para idiomas flexivos), una lista de significados de palabras, etc. Dependiendo de la organización del procesador lingüístico en el diccionario también se puede agregar información gramatical, por ejemplo, modelos de control de palabras.

Existen diccionarios que proporcionan información más amplia sobre las palabras. Por ejemplo, el modelo lingüístico “Significado-Texto” se basa significativamente en diccionario combinatorio explicativo, en cuya entrada del diccionario, además de información morfológica, sintáctica y semántica (valencias sintácticas y semánticas), se presenta información sobre la compatibilidad léxica de esta palabra.

Varios procesadores lingüísticos utilizan diccionarios de sinónimos. Relativamente el nuevo tipo diccionarios – diccionarios parónimos, es decir, palabras aparentemente similares que difieren en significado, por ejemplo, extraño Y extraterrestre, edición Y referencia .

Otro tipo de recursos léxicos es bases de datos de frases, en el que se seleccionan las frases más típicas de un idioma concreto. Esta base de datos de frases en ruso (alrededor de un millón de unidades) constituye el núcleo del sistema CrossLexica.

Los tipos más complejos de recursos léxicos son tesauros y ontologías. Un tesauro es un diccionario semántico, es decir, un diccionario en el que se presentan las conexiones semánticas de las palabras: sinónimos, relaciones de tipo género (a veces llamadas relación arriba-abajo), asociaciones parte-todo. La difusión de tesauros está asociada a la resolución de problemas de recuperación de información.

Estrechamente relacionado con el concepto de tesauro está el concepto de ontología. La ontología es un conjunto de conceptos y entidades de un determinado campo del conocimiento, orientados a la reutilización para diversas tareas. Las ontologías se pueden crear a partir del vocabulario existente en un idioma; en este caso se denominan lingüístico Y.

Se considera que una ontología lingüística similar es el sistema WordNet, un gran recurso léxico que recopila palabras en inglés: sustantivos, adjetivos, verbos y adverbios, y sus conexiones semánticas de varios tipos. Para cada una de las partes del discurso especificadas, las palabras se agrupan en grupos de sinónimos ( sintetizadores), entre los cuales se establecen las relaciones de antonimia, hiponimia (relación género-especie), meronimia (relación parte-todo). El recurso contiene aproximadamente 25 mil palabras, el número de niveles de jerarquía para la relación género-especie es en promedio de 6 a 7, llegando a veces a 15. El nivel superior de la jerarquía forma una ontología general, un sistema de conceptos básicos sobre el mundo.

Sobre la base del esquema inglés WordNet, se construyeron recursos léxicos similares para otros idiomas europeos, unidos bajo el nombre general EuroWordNet.

Un tipo completamente diferente de recursos lingüísticos es gramática NL, cuyo tipo depende del modelo de sintaxis utilizado en el procesador. En una primera aproximación, la gramática es un conjunto de reglas que expresan las propiedades sintácticas generales de palabras y grupos de palabras. Numero total Las reglas gramaticales también dependen del modelo de sintaxis y varían desde varias decenas hasta varios cientos. Básicamente, aquí surge un problema con la relación entre gramática y vocabulario en un modelo de lenguaje: cuanta más información se presenta en el diccionario, más corta puede ser la gramática y viceversa.

Tenga en cuenta que la construcción de diccionarios, tesauros y gramáticas informáticas es un trabajo voluminoso y que requiere mucha mano de obra, a veces incluso más que el desarrollo de un modelo lingüístico y el procesador correspondiente. Por tanto, una de las tareas subordinadas de CL es la automatización de la construcción de recursos lingüísticos.

Los diccionarios informáticos suelen formarse mediante la conversión de diccionarios de texto ordinarios, pero a menudo su construcción requiere un proceso mucho más complejo y trabajo minucioso. Esto suele suceder cuando se construyen diccionarios y tesauros para campos científicos en rápido desarrollo: biología molecular, informática, etc. El material fuente para extraer la información lingüística necesaria puede ser colecciones y corpus de texto.

Un corpus de textos es una colección de textos recopilados según un determinado principio de representatividad (por género, autoría, etc.), en la que todos los textos están marcados, es decir, dotados de algunas marcas lingüísticas (anotaciones): morfológicas, acentuales, sintáctico, etc. .p..Actualmente, hay al menos cien corpus diferentes, para diferentes NL y con diferentes marcas, en Rusia el más famoso es el Corpus Nacional de la Lengua Rusa.

Los corpus etiquetados son creados por lingüistas y se utilizan tanto para la investigación lingüística como para ajustar (entrenar) modelos y procesadores utilizados en CL utilizando métodos matemáticos bien conocidos de aprendizaje automático. Por tanto, el aprendizaje automático se utiliza para configurar métodos para resolver ambigüedades léxicas, reconocer partes del discurso y resolver referencias anafóricas.

Dado que los corpus y las colecciones de textos siempre son limitados en cuanto a los fenómenos lingüísticos representados en ellos (y los corpus, entre otras cosas, tardan bastante en crearse), últimamente los textos de Internet se consideran cada vez más como un recurso lingüístico más completo. Por supuesto, Internet es la fuente más representativa de muestras de voz modernas, pero su uso como corpus requiere el desarrollo de tecnologías especiales.

5. Aplicaciones de la lingüística computacional

El campo de aplicaciones de la lingüística computacional está en constante expansión, por lo que caracterizaremos aquí los problemas aplicados más conocidos resueltos por sus herramientas.

traducir automáticamente– la primera aplicación de CL, junto con la cual surgió y se desarrolló este campo. Los primeros programas de traducción se crearon hace más de 50 años y se basaban en una estrategia sencilla de traducción palabra por palabra. Sin embargo, rápidamente se comprendió que la traducción automática requiere un modelo lingüístico completo que tenga en cuenta todos los niveles del lenguaje, hasta la semántica y la pragmática, lo que ha obstaculizado repetidamente el desarrollo de este campo. En el sistema nacional ETAP se utiliza un modelo bastante completo, que traduce textos científicos del francés al ruso.

Sin embargo, tenga en cuenta que en el caso de la traducción a un idioma relacionado, por ejemplo, al traducir del español al portugués o del ruso al ucraniano (que tienen mucho en común en sintaxis y morfología), el procesador se puede implementar basándose en una versión simplificada. modelo, por ejemplo, basado en el uso de la misma estrategia de traducción palabra por palabra.

Actualmente existe toda una gama de sistemas de traducción informática (de diversa calidad), desde grandes empresas internacionales proyectos de investigación a traductores automáticos comerciales. De gran interés son los proyectos de traducción multilingüe que utilizan un idioma intermedio en el que se codifica el significado de las frases traducidas. Otro dirección moderna– traducción estadística, basada en estadísticas de traducción de palabras y frases (estas ideas, por ejemplo, se implementan en el traductor del motor de búsqueda de Google).

Pero a pesar de muchas décadas de desarrollo en todo este ámbito, en general el problema de la traducción automática está todavía muy lejos de estar completamente resuelto.

Otra aplicación bastante antigua de la lingüística computacional es recuperación de información y tareas afines de indexación, resúmenes, clasificación y rubricación de documentos.

La búsqueda de texto completo de documentos en grandes bases de datos (principalmente científicas, técnicas y comerciales) se suele realizar en función de su buscar imágenes, con lo que nos referimos a un conjunto palabras clave– palabras que reflejen el tema principal del documento. Al principio, solo se consideraron como palabras clave palabras individuales de la NL y la búsqueda se realizó sin tener en cuenta su flexión, lo que no es crítico en idiomas con flexión débil como el inglés. Para lenguas flexionadas, por ejemplo el ruso, era necesario utilizar un modelo morfológico que tuviera en cuenta la inflexión.

La consulta de búsqueda también se presentó como un conjunto de palabras; los documentos adecuados (relevantes) se determinaron en función de la similitud de la consulta y la imagen de búsqueda del documento. Crear una imagen de búsqueda de un documento implica indexación su texto, es decir, resaltando las palabras clave en él. Dado que muy a menudo el tema y el contenido de un documento se reflejan con mucha más precisión no en palabras individuales, sino en frases, las frases comenzaron a considerarse palabras clave. Esto complicó significativamente el procedimiento de indexación de documentos, ya que era necesario utilizar varias combinaciones de criterios estadísticos y lingüísticos para seleccionar frases significativas en el texto.

De hecho, la recuperación de información utiliza principalmente modelo de texto vectorial(aveces llamado bolsa de palabras– bolsa de palabras), en la que un documento se representa como un vector (conjunto) de sus palabras clave. Los modernos motores de búsqueda de Internet también utilizan este modelo, indexando los textos según las palabras utilizadas en ellos (al mismo tiempo, utilizan procedimientos de clasificación muy sofisticados para devolver documentos relevantes).

El modelo de texto especificado (con algunas complicaciones) también se utiliza en los problemas de recuperación de información relacionados que se analizan a continuación.

Texto resumido– reducir su volumen y obtener un resumen del mismo – un resumen (contenido condensado), lo que agiliza la búsqueda en colecciones de documentos. También se puede compilar un resumen general de varios documentos relacionados con el tema.

El método principal de resumen automático sigue siendo la selección de las oraciones más significativas del texto que se está resumiendo, para lo cual generalmente primero se calculan las palabras clave del texto y se calcula el coeficiente de significancia de las oraciones del texto. La selección de oraciones significativas se complica por conexiones anafóricas de oraciones, cuya ruptura no es deseable; para resolver este problema, se están desarrollando ciertas estrategias para seleccionar oraciones.

Una tarea cercana a la abstracción es anotación texto del documento, es decir, redactar su anotación. EN la forma mas simple Un resumen es una lista de los temas principales del texto, para identificar qué procedimientos de indexación se pueden utilizar.

Al crear grandes colecciones de documentos, las siguientes tareas son relevantes: clasificaciones Y agrupamiento textos para crear clases de documentos relacionados con el tema. Clasificación significa asignar cada documento a una clase específica con parámetros preconocidos, y agrupar significa dividir un conjunto de documentos en grupos, es decir, subconjuntos de documentos temáticamente similares. Para resolver estos problemas se utilizan métodos de aprendizaje automático, por lo que estos problemas aplicados se denominan Text Mining y pertenecen a la dirección científica conocida como Data Mining, o minería de datos.

El problema está muy cerca de la clasificación. rubricación texto: su asignación a uno de los títulos temáticos previamente conocidos (normalmente los títulos forman un árbol jerárquico de temas).

El problema de la clasificación está cada vez más extendido; se soluciona, por ejemplo, con el reconocimiento de spam y una aplicación relativamente nueva es la clasificación de mensajes SMS en dispositivos móviles. Una nueva y relevante dirección de investigación para el problema general de la recuperación de información es la búsqueda de documentos multilingües.

Otra tarea relativamente nueva relacionada con la recuperación de información es generando respuestas a preguntas(Respuesta de preguntas). Este problema se resuelve determinando el tipo de pregunta, buscando textos que potencialmente contengan la respuesta a esta pregunta y extrayendo la respuesta de estos textos.

Un área de aplicación completamente diferente que se está desarrollando, aunque de forma lenta pero constante, es automatización de preparación y edición textos en EA. Una de las primeras aplicaciones en esta dirección fueron los programas para determinar automáticamente los guiones de las palabras y los programas de ortografía de textos (ortográficos o autocorrectores). A pesar de la aparente simplicidad del problema de la transferencia, su correcta solución para muchos idiomas (por ejemplo, el inglés) requiere el conocimiento de la estructura morfémica de las palabras en el idioma correspondiente y, por tanto, del diccionario correspondiente.

La revisión ortográfica se ha implementado desde hace mucho tiempo en sistemas comerciales y se basa en un vocabulario y un modelo de morfología apropiados. También se utiliza un modelo de sintaxis incompleta, a partir del cual se identifican todos los errores sintácticos que son bastante frecuentes (por ejemplo, errores de concordancia de palabras). Al mismo tiempo, los autocorrectores aún no han implementado la detección de errores más complejos, por ejemplo, el uso incorrecto de preposiciones. Muchos errores léxicos tampoco se detectan, en particular los errores resultantes de errores tipográficos o del uso incorrecto de palabras similares (por ejemplo, peso en lugar de pesado). EN investigación moderna KL ofrece métodos para la detección y corrección automática de dichos errores, así como otros tipos de errores de estilo. Estos métodos utilizan estadísticas sobre la aparición de palabras y frases.

Una tarea aplicada cercana al apoyo a la preparación de textos es enseñanza del lenguaje natural, en el marco de esta dirección, a menudo se desarrollan sistemas informáticos para la enseñanza de idiomas: inglés, ruso, etc. (se pueden encontrar sistemas similares en Internet). Normalmente, estos sistemas apoyan el estudio de aspectos individuales del lenguaje (morfología, vocabulario, sintaxis) y se basan en modelos apropiados, por ejemplo, el modelo morfológico.

En cuanto al aprendizaje de vocabulario, también se utilizan análogos electrónicos de diccionarios de texto (que esencialmente no tienen modelos lingüísticos). Sin embargo, también se están desarrollando diccionarios informáticos multifuncionales que no tienen análogos de texto y están dirigidos a una amplia gama de usuarios, por ejemplo, el diccionario Crosslexics de frases en ruso. Este sistema cubre una amplia gama de vocabulario: palabras y sus combinaciones aceptables de palabras, y también brinda ayuda sobre modelos de manejo de palabras, sinónimos, antónimos y otros correlatos semánticos de palabras, lo cual es claramente útil no solo para quienes estudian el idioma ruso, sino también para hablantes nativos.

La siguiente área de aplicación que vale la pena mencionar es generación automática textos en EA. En principio, esta tarea puede considerarse una subtarea de la tarea de traducción automática ya comentada anteriormente, sin embargo, en el marco de la dirección hay una serie de tareas específicas. Una tarea de este tipo es la generación multilingüe, es decir, la construcción automática de documentos especiales en varios idiomas: fórmulas de patentes, instrucciones de funcionamiento de productos técnicos o sistemas de software, basándose en sus especificaciones en un lenguaje formal. Para resolver este problema, se utilizan modelos de lenguaje bastante detallados.

Un problema aplicado cada vez más relevante, a menudo denominado minería de textos, es extracción de información de textos, o Extracción de Información, que se requiere a la hora de resolver problemas de análisis económico y de producción. Para ello, en la prueba NL se identifican determinados objetos: entidades nombradas (nombres, personalidades, nombres geográficos), sus relaciones y eventos relacionados. Como regla general, esto se implementa sobre la base de un análisis parcial del texto, lo que permite procesar flujos de noticias de agencias de noticias. Dado que la tarea es bastante compleja no sólo teóricamente sino también tecnológicamente, la creación sistemas significativos extraer información de textos es factible dentro de las empresas comerciales.

El campo de la minería de textos también incluye otras dos tareas relacionadas: la minería de opiniones (Opinion Mining) y el análisis de sentimientos (Sentiment Analysis), que están atrayendo la atención de un número cada vez mayor de investigadores. La primera tarea consiste en buscar (en blogs, foros, tiendas online, etc.) opiniones de los usuarios sobre productos y otros objetos, y también analizar estas opiniones. La segunda tarea se acerca a la clásica tarea de análisis de contenido de textos de comunicación de masas: evalúa el tono general de las declaraciones.

Otra aplicación que vale la pena mencionar es apoyo al diálogo con el usuario en EA en el marco de cualquier sistema de software de información. En la mayoría de los casos, este problema se resolvió para bases de datos especializadas; en este caso, el lenguaje de consulta es bastante limitado (léxica y gramaticalmente), lo que permite el uso de modelos de lenguaje simplificados. Las consultas a la base de datos formuladas en NL se traducen al lenguaje formal, después de lo cual se busca la información requerida y se construye la frase de respuesta correspondiente.

Como último en nuestra lista de aplicaciones CL (pero no menos importante), indicamos reconocimiento y síntesis discurso sonoro . Se corrigen los errores de reconocimiento que inevitablemente surgen en estas tareas. metodos automaticos basado en diccionarios y conocimientos lingüísticos de morfología. En este ámbito también se utilizará el aprendizaje automático.

Conclusión

La lingüística computacional demuestra resultados bastante tangibles en diversas aplicaciones para el procesamiento automático de textos en NL. Su desarrollo futuro depende tanto de la aparición de nuevas aplicaciones como del desarrollo independiente de varios modelos de lenguaje, en los que muchos problemas aún no se han resuelto. Los modelos más desarrollados son el análisis morfológico y la síntesis. Los modelos de sintaxis aún no han alcanzado el nivel de módulos de trabajo estables y eficientes, a pesar de la gran cantidad de formalismos y métodos propuestos. Los modelos a nivel de semántica y pragmática están aún menos estudiados y formalizados, aunque en varias aplicaciones ya se requiere el procesamiento automático del discurso. Tenga en cuenta que las herramientas ya existentes de la propia lingüística computacional, el uso del aprendizaje automático y los corpus de texto, pueden avanzar significativamente en la solución de estos problemas.

Literatura

1. Baeza-Yates, R. y Ribeiro-Neto, B. Recuperación de información moderna, Adison Wesley, 1999.

2. Bateman, J., Zock M. Generación del lenguaje natural. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Oxford University Press, 2003, página 304.

3. Biber, D., Conrad S. y Reppen D. Corpus Linguistics. Investigación de la estructura y el uso del lenguaje. Prensa de la Universidad de Cambridge, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh Lingüística putacional. Modelos, Recursos, Aplicaciones. México, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Las matemáticas de la traducción automática estadística. // Lingüística computacional, vol. 19(2): 263-3

6. Carroll J R. Análisis. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 233-248.

7. Chomsky, N. Estructuras sintácticas. La Haya: Mouton, 1957.

8. Grishman R. Extracción de información. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 545-559.

9. Harabagiu, S., Moldovan D. Respuesta a preguntas. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 560-582.

10. Hearst, M. A. Descubrimiento automatizado de relaciones WordNet. En: Fellbaum, C. (ed.) WordNet: una base de datos léxica electrónica. MIT Press, Cambridge, 1998, páginas 131-151.

11. Hirst, G. Ontología y léxico. En.: Manual de Ontologías en Sistemas de Información. Berlín, Springer, 2003.

12. Jacquemin C., Bourigault D. Extracción de términos e indexación automática // Mitkov R. (ed.): Manual de lingüística computacional. Prensa de la Universidad de Oxford, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introducción al número especial sobre la Web como lingüística putacional, V. 29, núm. 3, 2003, pág. 333-347.

14. Manning, cap. D., H. Schütze. Fundamentos del procesamiento estadístico del lenguaje natural. Prensa del MIT, 1999.

15. Matsumoto Y. Adquisición de conocimientos léxicos. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 395-413.

16. Manual de Oxford sobre lingüística computacional. R. Mitkov (Ed.). Prensa de la Universidad de Oxford, 2005.

17. Oakes, M., Paice C. D. Extracción de términos para resúmenes automáticos. Avances recientes en terminología computacional. D. Bourigault, C. Jacquemin y M. L'Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. Pedersen, T. Un árbol de decisión de bigramas es un predictor preciso de los sentidos de las palabras. Proc. Segunda reunión anual de NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Métodos estadísticos. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 358-375.

20. Salton, G. Procesamiento automático de textos: transformación, análisis y recuperación de información por computadora. Lectura, MA: Addison-Wesley, 1988.

21. Somers, H. Traducción automática: últimos desarrollos. En: Manual de Lingüística Computacional de Oxford. Mitkov R. (ed.). Prensa de la Universidad de Oxford, 2003, pág. 512-528.

22. Strzalkowski, T. (ed.) Recuperación de información en lenguaje natural. Kluwer, 19p.

23. Woods W. A. Transition Network Grammers for Natural Language Analysis/ Communications of the ACM, V. 13, 1970, N 10, p. 591-606.

24. Word Net: una base de datos léxica electrónica. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Sugerencia de colocación automática en redacción académica // Actas de los artículos breves de la conferencia ACL 2010, 2010.

26. y otros Soporte lingüístico del sistema ETAP-2. M.: Nauka, 1989.

27. etc. Tecnologías de análisis de datos: Minería de datos, Minería visual, Minería de textos, OLAP – 2ª ed. – San Petersburgo: BHV-Petersburgo, 2008.

28. Bolshakov, Lexica: un gran diccionario electrónico de combinaciones y conexiones semánticas de palabras rusas. //Comp. Lingüística e inteligencia. tecnología: Actas de int. Conf. "Diálogo 2009". Edición: Universidad Estatal Rusa de Humanidades, 2009, págs. 45-50.

29. Bolshakova E.I., Detección de Bolshakov y corrección automatizada de malapropismos rusos // NTI. Ser. 2, núm. 5, 2007, págs. 27-40.

30. Wang, Kinch V. Estrategia para comprender un texto conectado. // Novedades en lingüística extranjera. vol. XXIII– M., Progreso, 1988, p. 153-211.

31. Vasiliev V. G., Krivenko M. P. Métodos de procesamiento de texto automatizado. – M.: IPI RAS, 2008.

32. Vinograd T. Un programa que comprende el lenguaje natural - M., Mir, 1976.

33. Estructuras fluidas del lenguaje natural en sistemas de comunicación automatizados. – M., Nauka, 1985.

34. Gusev, V. D., Diccionario de parónimos de Salomatina: versión 2. // NTI, Ser. 2, núm. 7, 2001, pág. 26-33.

35. Zakharov: el espacio como corpus lingüístico // Lingüística informática y tecnologías intelectuales: Actas de la Internacional. Conferencia Diálogo ‘2005 / Ed. , – M.: Nauka, 2005, pág. 166-171.

36. Kasevich de lingüística general. - M., Nauka, 1977.

37. Leontief comprensión de textos: Sistemas, modelos, recursos: Tutorial– M.: Academia, 2006.

38. Diccionario enciclopédico lingüístico / Ed. V. N. Yartseva, M.: enciclopedia soviética, 1990, 685 págs.

39. , Salium para indexación y categorización automática: desarrollo, estructura, mantenimiento. // NTI, ser. 2, núm. 1, 1996.

40. Luger J. Inteligencia artificial: estrategias y métodos para resolver problemas complejos. M., 2005.

41. McQueen K. Estrategias discursivas para la síntesis de textos en lenguaje natural // Novedades en lingüística extranjera. vol. XXIV. M.: Progreso, 1989, págs. 311-356.

42. Teoría Melchuk de los modelos lingüísticos “SIGNIFICADO “TEXTO”. - M., Nauka, 1974.

43. Corpus Nacional de la Lengua Rusa. http://******

44. Khoroshevsky V. F. OntosMiner: una familia de sistemas para extraer información de colecciones de documentos multilingües // Novena Conferencia Nacional sobre Inteligencia Artificial con participación internacional KII-2004. T. 2. – M.: Fizmatlit, 2004, p.573-581.

Ligüística computacional(También: matemático o Ligüística computacional, Inglés Ligüística computacional) - una dirección científica en el campo del modelado matemático e informático de procesos intelectuales en humanos y animales al crear sistemas de inteligencia artificial, cuyo objetivo es utilizar modelos matemáticos para describir lenguajes naturales.

La lingüística computacional se superpone con el procesamiento del lenguaje natural. Sin embargo, en este último el énfasis no está en los modelos abstractos, sino en los métodos aplicados de descripción y procesamiento del lenguaje para sistemas informáticos.

El campo de actividad de los lingüistas informáticos es el desarrollo de algoritmos y programas de aplicación para el procesamiento de información lingüística.

Orígenes

La lingüística matemática es una rama de la ciencia de la inteligencia artificial. Su historia comenzó en los Estados Unidos de América en la década de 1950. Con la invención del transistor y la llegada de una nueva generación de ordenadores, así como de los primeros lenguajes de programación, comenzaron los experimentos con la traducción automática, especialmente de las revistas científicas rusas. En la década de 1960, se llevaron a cabo estudios similares en la URSS (por ejemplo, un artículo sobre la traducción del ruso al armenio en la colección "Problemas de la cibernética" de 1964). Sin embargo, la calidad de la traducción automática sigue siendo muy inferior a la calidad de la traducción humana.

Del 15 al 21 de mayo de 1958 se celebró en el I Instituto Pedagógico Estatal de Lenguas Extranjeras de Moscú la primera Conferencia de toda la Unión sobre traducción automática. El comité organizador estaba encabezado por V. Yu. Rosenzweig y el secretario ejecutivo del comité organizador, G. V. Chernov. El programa completo de la conferencia se publica en la colección “Machine Translation and Applied Linguistics”, vol. 1, 1959 (también conocido como “Boletín nº 8 de la Asociación de Traducción Automática”). Como recuerda V. Yu. Rosenzweig, la colección publicada de resúmenes de conferencias llegó a Estados Unidos y causó una gran impresión allí.

En abril de 1959, tuvo lugar en Leningrado la Primera Reunión de toda la Unión sobre Lingüística Matemática, convocada por la Universidad de Leningrado y el Comité. la lingüística aplicada. El principal organizador de la reunión fue N.D. Andreev. En la reunión participaron varios matemáticos destacados, en particular, S. L. Sobolev, L. V. Kantorovich (más tarde - Premio Nobel) y A. A. Markov (los dos últimos intervinieron en el debate). V. Yu. Rosenzweig pronunció el discurso de apertura el día de la inauguración del Encuentro, “Teoría lingüística general de la traducción y lingüística matemática”.

Áreas de la Lingüística Computacional

Procesamiento natural del lenguaje procesamiento natural del lenguaje; análisis de texto sintáctico, morfológico y semántico). Esto también incluye:

Lingüística de corpus, la creación y uso de corpus electrónicos de textos.
Creación de diccionarios electrónicos, tesauros, ontologías. Por ejemplo, Lingvo. Los diccionarios se utilizan, por ejemplo, para la traducción automática y la revisión ortográfica.
Traducción automática de textos. Promt es popular entre los traductores de ruso. Entre los gratuitos se encuentra Google Translate.
Extracción automática de hechos del texto (extracción de información) extracción de hechos, minería de textos)
Autorreferenciación resumen automático de texto). Esta característica está incluida, por ejemplo, en Microsoft Word.
Construir sistemas de gestión del conocimiento. Ver Sistemas Expertos
Creación de sistemas de preguntas y respuestas. sistemas de respuesta a preguntas).

Reconocimiento óptico de caracteres LOC). Por ejemplo, el programa FineReader
Reconocimiento automático de voz ASR). Hay software de pago y gratuito.
Síntesis automática de voz

Principales asociaciones y congresos

Programas de estudio en Rusia

ver también

Escribe una reseña sobre el artículo "Lingüística Computacional"

Notas

Enlaces

(abstracto)
- base de conocimientos de recursos lingüísticos para el idioma ruso
- códigos fuente abiertos de algunas utilidades de lingüística computacional
- acceso en línea a programas de lingüística computacional

Un extracto que caracteriza la lingüística computacional.

“Toma, toma a la niña”, dijo Pierre, entregándole a la niña y dirigiéndose a la mujer de manera imperiosa y apresurada. - ¡Dáselo, dáselo! - le gritó casi a la mujer, tirando a la niña que gritaba al suelo, y volvió a mirar a las familias francesa y armenia. El anciano ya estaba sentado descalzo. El pequeño francés se quitó la última bota y las golpeó una contra otra. El anciano, sollozando, dijo algo, pero Pierre sólo lo vislumbró; toda su atención se centró en el francés de la capucha, quien en ese momento, balanceándose lentamente, se acercó a la joven y, sacando las manos de los bolsillos, la agarró del cuello.
La bella mujer armenia seguía sentada en la misma posición inmóvil, con sus largas pestañas bajadas, y como si no viera ni sintiera lo que el soldado le estaba haciendo.
Mientras Pierre recorría los pocos pasos que lo separaban de los franceses, un largo merodeador encapuchado ya arrancaba el collar que llevaba del cuello de la mujer armenia, y la joven, agarrándose el cuello con las manos, gritaba con voz estridente. .
– ¡Laissez cette femme! [¡Deja a esta mujer!] - Pierre gruñó con voz frenética, agarrando al soldado largo y encorvado por los hombros y arrojándolo. El soldado cayó, se levantó y salió corriendo. Pero su compañero, arrojando sus botas, sacó un cuchillo y avanzó amenazadoramente hacia Pierre.
- Voyons, pas de betises! [¡Oh bien! ¡No seas estúpido!] – gritó.
Pierre estaba en ese arrebato de rabia en el que no recordaba nada y en el que sus fuerzas se multiplicaban por diez. Se abalanzó sobre el francés descalzo y, antes de que pudiera sacar su hacha, ya lo había derribado y lo golpeaba con los puños. Se escuchó un grito de aprobación de la multitud circundante y, al mismo tiempo, una patrulla montada de lanceros franceses apareció por la esquina. Los lanceros corrieron hacia Pierre y el francés y los rodearon. Pierre no recordaba nada de lo que pasó después. Recordó que había golpeado a alguien, que lo habían golpeado, y que al final sintió que tenía las manos atadas, que una multitud de soldados franceses lo rodeaban y le registraban el vestido.
“Il a un poignard, teniente, [Teniente, tiene un puñal”,] fueron las primeras palabras que Pierre entendió.
- ¡Ah, un brazo! [¡Ah, armas!] - dijo el oficial y se volvió hacia el soldado descalzo que estaba con Pierre.
“C"est bon, vous direz tout cela au conseil de guerre, [Está bien, está bien, lo contarás todo en el juicio", dijo el oficial. Y después se volvió hacia Pierre: “¿Parlez vous francais vous?” [ ¿Habla usted francés? ]
Pierre miró a su alrededor con los ojos inyectados en sangre y no respondió. Su cara probablemente parecía muy aterradora, porque el oficial dijo algo en un susurro, y cuatro lanceros más se separaron del equipo y se pararon a ambos lados de Pierre.
– ¿Parlez vous francais? – el oficial le repitió la pregunta, manteniéndose alejado de él. - Faites venir l "interprete. [Llame a un intérprete.] - De detrás de las filas salió un hombre pequeño vestido de civil ruso. Pierre, por su vestimenta y su discurso, lo reconoció inmediatamente como un francés de una de las tiendas de Moscú.
“Il n"a pas l"air d"un homme du peuple, [No parece un plebeyo", dijo el traductor, mirando a Pierre.
– ¡Ay, ay! ca m"a bien l"air d"un des incendiaires", desdibujó el oficial. "Demandez lui ce qu"il est? [¡Oh, oh! se parece mucho a un pirómano. Pregúntenle ¿quién es?], agregó.
- ¿Quién eres? – preguntó el traductor. "Las autoridades deben responder", dijo.
– Je ne vous dirai pas qui je suis. Je suis votre prisioneronier. Emmenez moi, [No te diré quién soy. Soy tu prisionero. Llévame lejos”, dijo Pierre de repente en francés.
- ¡Ah ah! – dijo el oficial, frunciendo el ceño. - ¡Marchones!
Una multitud se reunió alrededor de los lanceros. Más cerca de Pierre estaba una mujer picada de viruela con una niña; Cuando el desvío comenzó a moverse, ella avanzó.
-¿A dónde te llevan, cariño? - ella dijo. - ¡Esta chica, qué voy a hacer con esta chica, si no es de ellos! - dijo la mujer.
– Qu"est ce qu"elle veut cette femme? [¿Qué quiere?] - preguntó el oficial.
Pierre parecía estar borracho. Su estado de éxtasis se intensificó aún más al ver a la chica que había salvado.
“Ce qu'elle dit?”, dijo. “Elle m”apporte ma fille que je viens de sauver des flammes”, dijo. - ¡Adiós! [¿Qué quiere ella? Lleva en brazos a mi hija, a quien salvé del incendio. ¡Adiós!] - y él, sin saber cómo se le escapó esta mentira sin sentido, caminó con paso decidido y solemne entre los franceses.
La patrulla francesa fue una de las que fueron enviadas por orden de Duronel a varias calles de Moscú para reprimir los saqueos y especialmente para capturar a los pirómanos, que, según la opinión generalizada que surgió ese día entre los franceses de más alto rango, eran los causa de los incendios. Después de recorrer varias calles, la patrulla detuvo a cinco rusos sospechosos más, un comerciante, dos seminaristas, un campesino, un sirviente y varios saqueadores. Pero de todas las personas sospechosas, Pierre parecía el más sospechoso de todos. Cuando todos fueron llevados a pasar la noche en casa Grande En Zubovsky Val, en el que se instaló una caseta de vigilancia, Pierre fue puesto por separado bajo estricta vigilancia.

En San Petersburgo en ese momento, en los círculos más altos, con mayor fervor que nunca, se desarrollaba una lucha compleja entre los partidos de Rumyantsev, los franceses, María Feodorovna, el zarevich y otros, ahogada, como siempre, por los trompetas. de los drones de la corte. Pero tranquila, lujosa, preocupada sólo por los fantasmas, los reflejos de la vida, la vida de San Petersburgo seguía como antes; y por el curso de esta vida fue necesario hacer grandes esfuerzos para reconocer el peligro y la difícil situación en que se encontraba el pueblo ruso. Había las mismas salidas, los mismos bailes, el mismo teatro francés, los mismos intereses de la corte, los mismos intereses de servicio y de intriga. Sólo en los círculos más elevados se hicieron esfuerzos por recordar la dificultad de la situación actual. Se contaba en susurros cómo las dos emperatrices actuaron una frente a la otra en circunstancias tan difíciles. La emperatriz María Feodorovna, preocupada por el bienestar de las instituciones caritativas y educativas bajo su jurisdicción, ordenó enviar todas las instituciones a Kazán, y las cosas de estas instituciones ya estaban empaquetadas. La emperatriz Isabel Alekseevna, cuando se le preguntó qué órdenes quería dar, con su característico patriotismo ruso, se dignó responder que instituciones gubernamentales no puede dar órdenes, ya que se trata del soberano; Sobre lo mismo que personalmente depende de ella, se dignó decir que será la última en salir de San Petersburgo.

en el departamento de filologia Escuela secundaria se está lanzando una nueva economía Programa maestro, dedicado a la lingüística computacional: aquí son bienvenidos los solicitantes con una educación básica en humanidades y matemáticas y cualquier persona interesada en resolver problemas en una de las ramas más prometedoras de la ciencia. Su directora, Anastasia Bonch-Osmolovskaya, explicó a Theories and Practitioners qué es la lingüística computacional, por qué los robots no reemplazarán a los humanos y qué se enseñará en el programa de maestría en lingüística computacional de HSE.

Este programa es casi el único de su tipo en Rusia. ¿Donde estudiaste?

Estudié en la Universidad Estatal de Moscú en el Departamento de Lingüística Teórica y Aplicada de la Facultad de Filología. No llegué allí de inmediato, primero entré en el departamento de ruso, pero luego me interesé seriamente por la lingüística y me atrajo el ambiente que permanece en el departamento hasta el día de hoy. Lo más importante que hay buen contacto entre profesores y estudiantes y su interés mutuo.

Cuando tuve hijos y necesité ganarme la vida, me dediqué al campo de la lingüística comercial. En 2005 no estaba muy claro cuál era este ámbito de actividad como tal. Trabajé en diferentes empresas lingüísticas: comencé con una pequeña empresa en el sitio Public.ru, que es una especie de biblioteca multimedia, donde comencé a trabajar en tecnologías lingüísticas. Luego trabajé durante un año en Rosnanotech, donde surgió la idea de crear un portal analítico para que los datos que contenía se estructuraran automáticamente. Luego dirigí el departamento lingüístico de la empresa Avicomp; esto ya es una producción seria en el campo de la lingüística informática y las tecnologías semánticas. Al mismo tiempo, impartí un curso sobre lingüística computacional en la Universidad Estatal de Moscú y traté de modernizarlo.

Dos recursos para un lingüista: - un sitio creado por lingüistas para investigaciones científicas y aplicadas relacionadas con la lengua rusa. Se trata de un modelo de la lengua rusa, presentado utilizando una enorme variedad de textos de diferentes géneros y épocas. Los textos están equipados con marcas lingüísticas, con las que se puede obtener información sobre la frecuencia de determinados fenómenos lingüísticos. Wordnet es una enorme base de datos léxica del idioma inglés; la idea principal de Wordnet es conectar no palabras, sino sus significados en una gran red. Wordnet se puede descargar y utilizar para sus propios proyectos.

¿Qué hace la lingüística computacional?

Este es el campo más interdisciplinario. Lo más importante aquí es entender qué está pasando en el mundo electrónico y quién te ayudará a hacer cosas específicas.

Estamos rodeados de una gran cantidad de información digital, hay muchos proyectos empresariales cuyo éxito depende del procesamiento de la información, estos proyectos pueden relacionarse con el campo del marketing, la política, la economía y cualquier otro. Y es muy importante poder manejar esta información de manera efectiva; lo principal no es solo la velocidad de procesamiento de la información, sino también la facilidad con la que, después de filtrar el ruido, puede obtener los datos que necesita y crear un completo. imagen de ella.

Anteriormente, algunas ideas globales estaban asociadas con la lingüística informática, por ejemplo: la gente pensaba que la traducción automática reemplazaría a la traducción humana, que los robots trabajarían en lugar de las personas. Pero ahora parece una utopía, y los motores de búsqueda utilizan la traducción automática para buscar rápidamente en un idioma desconocido. Es decir, ahora la lingüística rara vez se ocupa de problemas abstractos, principalmente de algunas cosas pequeñas que pueden insertarse en un producto grande y ganar dinero con ello.

Una de las grandes tareas de la lingüística moderna es la web semántica, cuando la búsqueda no se realiza simplemente relacionando palabras, sino también por significado, y todos los sitios están de una forma u otra marcados por la semántica. Esto puede resultar útil, por ejemplo, para los informes policiales o médicos que se redactan todos los días. El análisis de las conexiones internas proporciona mucha información necesaria, pero leerla y calcularla manualmente requiere mucho tiempo.

En pocas palabras, tenemos mil textos, necesitamos ordenarlos en grupos, presentar cada texto en forma de estructura y obtener una tabla con la que ya podemos trabajar. A esto se le llama procesamiento de información no estructurada. Por otra parte, la lingüística computacional se ocupa, por ejemplo, de la creación de textos artificiales. Hay una empresa que ha ideado un mecanismo para generar textos sobre temas sobre los que a una persona le resulta aburrido escribir: cambios en los precios inmobiliarios, previsiones meteorológicas, informes sobre partidos de fútbol. Es mucho más caro encargar estos textos a una persona y los textos informáticos sobre estos temas están escritos en un lenguaje humano coherente.

Yandex participa activamente en el desarrollo de la búsqueda de información no estructurada en Rusia, Kaspersky Lab contrata grupos de investigación que estudian el aprendizaje automático. ¿Alguien en el mercado está intentando encontrar algo nuevo en el campo de la lingüística computacional?

**Libros sobre lingüística computacional:**

Daniel Jurafsky, Procesamiento del habla y el lenguaje

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Introducción a la recuperación de información"

Yakov Testelets, "Introducción a la sintaxis general"

La mayoría de los desarrollos lingüísticos son propietarios. grandes compañías, casi nada se puede encontrar en el dominio público. Esto frena el desarrollo de la industria; no tenemos un mercado lingüístico libre ni soluciones empaquetadas.

Además, faltan recursos de información completos. Existe un proyecto llamado Corpus Nacional de la Lengua Rusa. Este es uno de los mejores edificios nacionales del mundo, que se está desarrollando rápidamente y abre increíbles oportunidades para la investigación científica y aplicada. La diferencia es aproximadamente la misma que en biología: antes y después de la investigación del ADN.

Pero muchos recursos no existen en ruso. Por lo tanto, no existe un análogo a un recurso en inglés tan maravilloso como Framenet: se trata de una red conceptual donde se presentan formalmente todas las conexiones posibles de una palabra en particular con otras palabras. Por ejemplo, existe la palabra "volar": quién puede volar, dónde, con qué preposición se usa esta palabra, con qué palabras se combina, etc. Este recurso ayuda a conectar el lenguaje con la vida real, es decir, a rastrear cómo se comporta una palabra concreta a nivel de morfología y sintaxis. Es muy útil.

La empresa Avicomp está desarrollando actualmente un complemento para buscar artículos con contenido similar. Es decir, si está interesado en un artículo, puede consultar rápidamente la historia de la trama: cuándo surgió el tema, qué se escribió y cuándo fue el pico de interés por este problema. Por ejemplo, con la ayuda de este complemento será posible, a partir de un artículo dedicado a los acontecimientos en Siria, ver muy rápidamente cómo se han desarrollado los acontecimientos allí durante el año pasado.

¿Cómo se estructurará el proceso de aprendizaje en la maestría?

La educación en HSE está organizada en módulos separados, al igual que en las universidades occidentales. Los estudiantes se dividirán en pequeños equipos, mini-startups, es decir, al final deberíamos recibir varios proyectos terminados. Queremos obtener productos reales, que luego abriremos a la gente y dejaremos en el dominio público.

Además de los jefes de proyecto inmediatos de los estudiantes, queremos encontrarles curadores entre sus posibles empleadores, del mismo Yandex, por ejemplo, que también jugarán este juego y darán algunos consejos a los estudiantes.

Espero que al programa de maestría vengan personas de diversos campos: programadores, lingüistas, sociólogos, especialistas en marketing. Tendremos varios cursos de adaptación en lingüística, matemáticas y programación. Luego tendremos dos cursos serios de lingüística, y estarán relacionados con las teorías lingüísticas más actuales, queremos que nuestros graduados sean capaces de leer y comprender artículos lingüísticos modernos. Lo mismo ocurre con las matemáticas. Tendremos un curso llamado “Fundamentos matemáticos de la lingüística computacional”, que describirá aquellas ramas de las matemáticas en las que se basa la lingüística computacional moderna.

Para inscribirse en un programa de maestría, debe aprobar examen de ingreso en lengua y aprobar un concurso de portafolios.

Además de los cursos principales, habrá una serie de materias optativas: hemos planificado varios ciclos, dos de ellos se centran en un estudio más profundo de temas individuales, que incluyen, por ejemplo, la traducción automática y la lingüística de corpus. y uno, por el contrario, está relacionado con áreas afines: como , medios de comunicación social, aprendizaje automático o Humanidades Digitales, un curso que esperamos se imparta en idioma en Inglés.

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”

INTRODUCCIÓN

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA

Introducción

Las tecnologías de la información automatizadas juegan un papel importante en la vida de la sociedad moderna. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo tecnologías de la información ocurre de manera muy desigual: si el nivel actual tecnologia computacional Y los medios de comunicación son sorprendentes, pero en el campo del procesamiento semántico de la información los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta para pensar. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática se ocupa de los problemas del uso del lenguaje natural en sistemas automáticos de procesamiento de información. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: sistemas de traducción automática de textos de una lengua natural a otra, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos de información oral. discurso, y se han creado muchos otros. este trabajo se dedica a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.

1. El lugar y el papel de la lingüística computacional en la investigación lingüística

EN mundo moderno La lingüística computacional se utiliza cada vez más en diversos estudios lingüísticos.

La lingüística computacional es un campo del conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada del significado a textos en formato natural). idioma). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección y corrección automática de errores al ingresar textos en una computadora, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lengua y habla, textos y diversos tipos de tablas gramaticales, la parte procesal incluye medios para manipular unidades de lengua y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procesal de la lingüística computacional.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido para resolver estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc. ).

Sin embargo, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Así, en varios países (Rusia, Estados Unidos, Japón, etc.) los experimentos y sistemas industriales traducción automática de textos de un idioma a otro, se han construido varios sistemas experimentales para comunicarse con computadoras en lenguaje natural, se está trabajando en la creación de bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, EE. UU., Alemania, Francia , etc.), se están construyendo sistemas análisis automático y síntesis del habla oral (Rusia, Estados Unidos, Japón, etc.), se están realizando investigaciones en el campo de la construcción de modelos de lenguaje natural.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procesales de los sistemas automáticos de procesamiento de información textual. ¿Qué debería preferirse: procedimientos computacionales potentes basados en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un componente declarativo potente con interfaces informáticas relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Conducirá al logro de objetivos prácticos más rápidamente, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, para el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de información textual está confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar de los innegables éxitos de esta ciencia, la pasión por los procedimientos algorítmicos no ha dado el éxito esperado. Incluso hubo cierta decepción respecto de la capacidad de los medios procesales.

A la luz de lo anterior, parece prometedor desarrollar un camino de desarrollo de la lingüística informática, en el que los principales esfuerzos estarán dirigidos a crear poderosos diccionarios de lenguas y unidades de habla, estudiar su estructura semántico-sintáctica y crear procedimientos básicos para la comprensión morfológica, Análisis y síntesis semántico-sintáctico y conceptual de textos. Esto nos permitirá resolver una amplia gama de problemas aplicados en el futuro.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico a los procesos de recopilación, acumulación, procesamiento y recuperación de información. Los más importantes de ellos son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación entre usuarios inteligentes y automatizados sistemas de información(en particular, con sistemas expertos) en lenguaje natural, o en un lenguaje cercano al natural;

8. Extraer información objetiva de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información, existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto son sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está completamente resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar un sistema complejo de reglas para verificar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe clasificarse como una clase de tareas de inteligencia artificial. Sólo puede resolverse por completo modelando los procesos del pensamiento humano. En este caso, aparentemente será necesario crear poderosas bases de conocimiento enciclopédico y herramientas de software para la manipulación del conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es completamente solucionable. Debe plantearse y solucionarse como un problema de control semántico-sintáctico de los textos.

El problema de automatizar la indexación de documentos y consultas es tradicional para los sistemas automatizados de recuperación de información textual. En un principio, la indexación se entendía como el proceso de asignar índices de clasificación a documentos y consultas que reflejaran su contenido temático. Posteriormente, este concepto se transformó y el término "indexación" comenzó a referirse al proceso de traducir descripciones de documentos y consultas del lenguaje natural al lenguaje formalizado, en particular, al lenguaje de las "imágenes de búsqueda". Las imágenes de búsqueda de documentos comenzaron, por regla general, a formarse en forma de listas de palabras clave y frases que reflejaban su contenido temático, y las imágenes de búsqueda de consultas, en forma de estructuras lógicas en las que las palabras clave y frases estaban conectadas entre sí. por operadores lógicos y sintácticos.

Es conveniente indexar automáticamente los documentos basándose en los textos de sus resúmenes (si los hay), ya que los resúmenes reflejan el contenido principal de los documentos de forma concentrada. La indexación se puede realizar con o sin control de tesauro. En el primer caso, en el texto del título del documento y su resumen se buscan palabras y frases clave del diccionario automático de referencia y solo se incluyen en el AML aquellas que se encuentran en el diccionario. En el segundo caso, las palabras y frases clave se aíslan del texto y se incluyen en el POD, independientemente de su pertenencia a algún diccionario de referencia. También se implementó una tercera opción, donde, junto con los términos del tesauro de máquina, el AML también incluía términos extraídos del título y la primera oración del resumen del documento. Los experimentos han demostrado que los POD compilados automáticamente utilizando títulos y resúmenes de documentos proporcionan una búsqueda más completa que los POD compilados manualmente. Esto se explica por el hecho de que el sistema de indexación automática refleja más completamente varios aspectos del contenido de los documentos que el sistema de indexación manual.

La indexación automática de consultas plantea aproximadamente los mismos problemas que la indexación automática de documentos. Aquí también hay que extraer palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Las conexiones lógicas entre palabras y frases clave y los operadores contextuales se pueden ingresar manualmente o mediante un procedimiento automatizado. Un elemento importante del proceso de indexación automática de una consulta es la adición de las palabras clave y frases que la constituyen con sus sinónimos e hipónimos (a veces también hiperónimos y otros términos asociados con los términos de la consulta original). Esto se puede hacer de forma automática o interactiva utilizando un diccionario de sinónimos automático.

Ya hemos considerado parcialmente el problema de la automatización de la búsqueda de información documental en relación con la tarea de indexación automática. Lo más prometedor aquí es buscar documentos utilizando sus textos completos, ya que el uso de todo tipo de sustitutos para este fin (descripciones bibliográficas, imágenes de búsqueda de documentos y los textos de sus resúmenes) conlleva la pérdida de información durante la búsqueda. Las mayores pérdidas se producen cuando se utilizan descripciones bibliográficas como sustitutos de los documentos primarios, y las pérdidas más pequeñas se producen cuando se utilizan resúmenes.

Las características importantes de la calidad de la recuperación de información son su integridad y precisión. La integridad de la búsqueda se puede garantizar teniendo en cuenta al máximo las conexiones paradigmáticas entre las unidades del lenguaje y el habla (palabras y frases), y la precisión, teniendo en cuenta sus conexiones sintagmáticas. Existe la opinión de que la integridad y la precisión de una búsqueda están inversamente relacionadas: las medidas para mejorar una de estas características conducen a un deterioro de la otra. Pero esto sólo es cierto para la lógica de búsqueda fija. Si se mejora esta lógica, entonces se podrán mejorar ambas características simultáneamente.

Es recomendable construir el proceso de búsqueda de información en bases de datos de texto completo como un proceso de comunicación interactiva entre el usuario y el sistema de recuperación de información (IRS), en el que visualiza secuencialmente fragmentos de texto (párrafos) que satisfacen las condiciones lógicas de la solicitud, y selecciona aquellas que sean relevantes para él y sean de su interés. Los resultados finales de la búsqueda pueden aparecer como textos completos documentos y cualquier fragmento de los mismos.

Como se desprende de las discusiones anteriores, a la hora de buscar información automáticamente es necesario superar la barrera del idioma que surge entre el usuario y el sistema de información debido a la variedad de formas de representación de un mismo significado que se presenta en los textos. Esta barrera se vuelve aún más importante si la búsqueda debe realizarse en bases de datos multilingües. Una solución radical al problema podría ser la traducción automática de textos de documentos de un idioma a otro. Esto se puede hacer con antelación, antes de cargar documentos en un motor de búsqueda, o durante el proceso de búsqueda de información. En el último caso, la solicitud del usuario debe traducirse al idioma del conjunto de documentos en el que se realiza la búsqueda, y los resultados de la búsqueda deben traducirse al idioma de la solicitud. Este tipo de motores de búsqueda ya funcionan en Internet. VINITI RAS también creó un sistema de navegador cirílico, que permite buscar información en textos en ruso mediante consultas en inglés con resultados de búsqueda también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística informática es la construcción de procesadores lingüísticos que garanticen la comunicación del usuario con sistemas de información automatizados inteligentes (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural. Dado que en los sistemas inteligentes modernos la información se almacena en forma formalizada, los procesadores lingüísticos, actuando como intermediarios entre una persona y una computadora, deben resolver las siguientes tareas principales: 1) la tarea de pasar de los textos de las solicitudes de información de entrada a los mensajes en formato natural lenguaje para representar su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) la tarea de pasar de una representación formalizada del significado de los mensajes de salida a su representación en lenguaje natural (al transmitir información a una persona). La primera tarea debe resolverse mediante un análisis morfológico, sintáctico y conceptual de las consultas y mensajes de entrada, la segunda, mediante una síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

El análisis conceptual de solicitudes y mensajes de información consiste en identificar su estructura conceptual (los límites de los nombres de los conceptos y las relaciones entre conceptos en el texto) y traducir esta estructura a un lenguaje formalizado. Se realiza tras un análisis morfológico y sintáctico de solicitudes y mensajes. La síntesis conceptual de mensajes consiste en la transición de la representación de los elementos de su estructura en un lenguaje formalizado a una representación verbal (verbal). Posteriormente, a los mensajes se les da el formato sintáctico y morfológico necesario.

Para la traducción automática de textos de un lenguaje natural a otro, es necesario disponer de diccionarios de correspondencia de traducción entre los nombres de los conceptos. El conocimiento sobre dichas correspondencias de traducción fue acumulado por muchas generaciones de personas y se recopiló en forma de publicaciones especiales: diccionarios bilingües o multilingües. Para los especialistas con algún conocimiento de lenguas extranjeras, estos diccionarios sirvieron de valiosa ayuda para la traducción de textos.

En los diccionarios tradicionales bilingües y multilingües de uso general, los equivalentes de traducción se indicaban principalmente para palabras individuales y, con mucha menos frecuencia, para frases. La indicación de equivalentes de traducción de frases era más típica de los diccionarios terminológicos especiales. Por lo tanto, al traducir secciones de textos que contienen palabras polisemánticas, los estudiantes a menudo encontraban dificultades.

A continuación se muestran correspondencias de traducción entre varios pares de frases en inglés y ruso sobre temas “escolares”.

1) El murciélago parece un ratón con alas – El murciélago parece un ratón con alas.

2) A los niños les gusta jugar en la arena de la playa - A los niños les encanta jugar en la arena de la orilla del mar.

3) Una gota de lluvia cayó sobre mi mano - Una gota de lluvia cayó sobre mi mano.

4) La madera seca arde fácilmente; la madera seca arde bien.

5) Fingió no oírme - Fingió no oírme.

Aquí frases en ingles no son expresiones idiomáticas. Sin embargo, su traducción al ruso sólo puede considerarse, con cierta extensión, como una simple traducción palabra por palabra, ya que casi todas las palabras incluidas en ellas son ambiguas. Por lo tanto, aquí sólo los logros de la lingüística informática pueden ayudar a los estudiantes.