Lingüística computacional: métodos, recursos, aplicaciones. ¿Qué hace un lingüista informático?

Introducción

¿Qué es la lingüística computacional?

LINGÜÍSTICA INFORMÁTICA , una dirección en lingüística aplicada centrada en el uso de herramientas informáticas - programas, tecnologías informáticas para organizar y procesar datos - para modelar el funcionamiento de una lengua en determinadas condiciones, situaciones, áreas problemáticas, etc., así como en todo el ámbito de aplicación de modelos de lenguaje informático en lingüística y disciplinas afines. En realidad, sólo en el último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático de un lenguaje también puede considerarse como un ámbito de aplicación de la informática y la teoría de la programación a la resolución de problemas de la ciencia del lenguaje. . En la práctica, sin embargo, casi todo lo relacionado con el uso de ordenadores en lingüística se denomina lingüística computacional.

Que especial dirección científica La lingüística computacional tomó forma en la década de 1960. El término ruso "lingüística computacional" es una copia de la lingüística computacional inglesa. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia rusa adquiere un significado más estrecho, acercándose al concepto de "lingüística cuantitativa". El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista "Computational Linguistics" se publica trimestralmente en los EE. UU. La Asociación de Lingüística Computacional lleva a cabo una gran labor organizativa y científica, que tiene estructuras regionales (en particular, la rama europea). Los congresos internacionales de lingüística computacional - COLING se celebran cada dos años. Los temas relevantes también suelen presentarse ampliamente en diversas conferencias sobre inteligencia artificial.

Tareas

Ligüística computacional aborda los problemas lingüísticos reales del modelado informático de la actividad lingüística. Sus tareas son construir modelos lingüísticos más precisos y completos y algoritmos más avanzados para análisis y síntesis.

Las direcciones principales son:

1) Interacción hombre-ordenador: control - lenguajes de programación, transferencia de información - interfaz.

2) Trabajo con textos: indexación, análisis y clasificación, edición automática (corrección de errores), descubrimiento de conocimientos, traducción automática.

Historia

La generación simple de un subconjunto del idioma inglés para acceder a bases de datos fue proporcionada por uno de los primeros sistemas estadounidenses LIFER (Language Interface Facility wich Elipsis and Recursion), creado en los años 70. A continuación, aparecieron en el mercado de las computadoras otros sistemas más flexibles, que proporcionaban una interfaz de lenguaje natural limitada con una computadora.

En la década de 1980, se formaron varias empresas en los Estados Unidos que desarrollan y venden interfaces de lenguaje natural con bases de datos y sistemas expertos. En 1985. Semantec Corporation presentó un paquete de preguntas y respuestas, y Carnegie Group ofreció un paquete LanguageCraft similar.

Se está trabajando activamente para crear sistemas de traducción automática. El sistema de traducción automática SYSTRAN, desarrollado bajo la dirección de D. Thom y encargado por la Fuerza Aérea de los Estados Unidos, se generalizó. Durante 1974 - 1975. el sistema fue utilizado por la NASA para traducir documentos para el proyecto Apollo-Soyuz. Actualmente traduce de varios idiomas unas 100.000 páginas al año.

En Europa, el trabajo en la creación de sistemas de traducción por computadora fue estimulado por la formación de la Red Europea de Información (EURONET DIANA). En 1982, la Comunidad Económica Europea anunció la creación del programa europeo EUROTRA, cuyo objetivo es desarrollar un sistema de traducción por computadora para todos los idiomas europeos. Inicialmente, el proyecto se estimó en $ 12 millones; en 1987, los expertos estimaron el costo total de este proyecto en más de $ 160 millones.

En Japón, la investigación en lingüística computacional se centra en el programa informático de quinta generación a nivel nacional anunciado en 1981.

Hay varios proyectos militares para la creación de interfaces hombre-máquina en lenguaje natural. En los Estados Unidos, se llevan a cabo principalmente como parte de la Iniciativa informática estratégica, un programa de diez años adoptado por el Departamento de Defensa en 1983. Su objetivo es crear una nueva generación de armas y sistemas militares "inteligentes" con el fin de para asegurar la superioridad tecnológica a largo plazo de los Estados Unidos.

Naturalmente, los expertos en inteligencia artificial, bien versados ​​en informática y lenguajes de programación, se dedican con energía a resolver el problema de la comprensión del lenguaje con sus propios métodos. Hubo una búsqueda de algoritmos de lenguaje natural. Se crearon programas complejos para comprender el idioma para áreas especiales muy limitadas, se implementaron programas para traducción automática parcial y varios otros. Pero no hubo un avance decisivo en la solución del problema de la comprensión del idioma. El lenguaje y el hombre están tan conectados que los científicos tuvieron que abordar el problema de comprender el mundo por el hombre. Y este ya es un campo de la filosofía.

Conceptos básicos de lingüística

Lingüística computacional: métodos, recursos, aplicaciones

Introducción

Término Ligüística computacional(CL) en los últimos años es cada vez más común en relación con el desarrollo de varios sistemas de software aplicado, incluidos los productos de software comerciales. Esto se debe al rápido crecimiento de la información textual en la sociedad, incluso en Internet, y a la necesidad de un procesamiento automático de textos en lenguaje natural (NL). Esta circunstancia estimula el desarrollo de la lingüística computacional como campo de la ciencia y el desarrollo de nuevas tecnologías de la información y lingüística.

En el marco de la lingüística computacional, que existe desde hace más de 50 años (y también se la conoce con los nombres lingüística de la máquina, procesamiento automático de textos en NL), se han propuesto muchos métodos e ideas prometedores, pero no todos han encontrado aún su expresión en productos de software utilizados en la práctica. Nuestro objetivo es caracterizar las particularidades de esta área de investigación, formular sus principales tareas, indicar sus vínculos con otras ciencias, dar una breve descripción de los principales enfoques y recursos utilizados, y también caracterizar brevemente las aplicaciones existentes. de CL. Para obtener una introducción más detallada a estos problemas, puede recomendar libros.

1. Las tareas de la lingüística computacional

La lingüística computacional surgió en la intersección de ciencias como la lingüística, las matemáticas, la informática y la inteligencia artificial. Los orígenes de CL se remontan a los estudios del célebre científico norteamericano N. Chomsky en el campo de la formalización de la estructura de un lenguaje natural; su desarrollo se basa en resultados en el campo de la lingüística general (lingüística). La lingüística estudia las leyes generales del lenguaje natural, su estructura y funcionamiento, e incluye las siguientes áreas:

Ø Fonología- estudia los sonidos del habla y las reglas para su conexión al formar el habla;

Ø Morfología- se ocupa de la estructura interna y la forma externa de las palabras del discurso, incluidas las partes del discurso y sus categorías;

Ø Sintaxis- estudia la estructura de las oraciones, las reglas de combinación y el orden de las palabras en una oración, así como sus propiedades generales como unidad del lenguaje.

Ø Semánticay pragmática- áreas estrechamente relacionadas: la semántica se ocupa del significado de palabras, oraciones y otras unidades del habla, y la pragmática, las características de expresar este significado en relación con los objetivos específicos de la comunicación;

Ø Lexicografía describe el léxico de una NL en particular: sus palabras individuales y sus propiedades gramaticales, así como los métodos para crear diccionarios.

Los resultados de N. Chomsky, obtenidos en la unión de la lingüística y las matemáticas, sentaron las bases para la teoría de los lenguajes formales y las gramáticas (a menudo llamadas generativo, o generando gramáticas). Esta teoría ahora se aplica a lingüística matemática y se utiliza para procesar no tanto NL, sino lenguajes artificiales, principalmente lenguajes de programación. Por su propia naturaleza, es una disciplina completamente matemática.

La lingüística matemática también incluye lingüística cuantitativa, que estudia las características de frecuencia del lenguaje - palabras, sus combinaciones, construcciones sintácticas, etc. En este caso, se utilizan métodos matemáticos de estadística, por lo que esta sección de la ciencia puede denominarse lingüística estadística.

CL está estrechamente relacionado con un campo científico interdisciplinario como la inteligencia artificial (IA), dentro del cual se desarrollan modelos informáticos de funciones intelectuales individuales. Uno de los primeros programas de trabajo en el campo de la IA y el CL es el conocido programa de T. Vinograd, que comprendió los órdenes humanos más simples para cambiar el mundo de los cubos, formulado sobre un subconjunto limitado de NL. Tenga en cuenta que a pesar de la obvia intersección de la investigación en el campo de CL e IA (dado que el dominio del idioma se refiere a funciones intelectuales), la IA no absorbe todo el CL, ya que tiene su propia base teórica y metodología. Común a estas ciencias es el modelado por computadora como el método principal y el objetivo final de la investigación.

Así, el problema de CL puede formularse como el desarrollo de programas informáticos para el procesamiento automático de textos en NL. Y aunque el procesamiento se entiende de manera bastante amplia, no todos los tipos de procesamiento pueden llamarse lingüísticos, y los procesadores correspondientes, lingüísticos. Procesador lingüístico debe utilizar uno u otro modelo formal del lenguaje (aunque sea muy simple), lo que significa que debe ser dependiente del lenguaje de una forma u otra (es decir, depender de una NL específica). Entonces, por ejemplo, el editor de texto de Mycrosoft Word se puede llamar lingüístico (aunque solo sea porque usa diccionarios), pero el editor de Bloc de notas no lo es.

La complejidad de las tareas del CL se debe al hecho de que NL es un complejo sistema de signos multinivel que surgió para el intercambio de información entre personas, se desarrolló en el proceso de la actividad práctica de una persona y está en constante cambio de conexión. con esta actividad. Otra dificultad en el desarrollo de los métodos de CL (y la complejidad de estudiar NL en el marco de la lingüística) está asociada con la variedad de lenguajes naturales, diferencias significativas en su vocabulario, morfología, sintaxis, los diferentes lenguajes proporcionan diferentes formas de expresar la mismo significado.

2. Características del sistema NL: niveles y conexiones

Los objetos de los procesadores lingüísticos son textos NL. Los textos se entienden como cualquier muestra de habla, oral y escrita, de cualquier género, pero básicamente KL considera textos escritos. El texto tiene una estructura lineal unidimensional y también tiene un cierto significado, mientras que el lenguaje actúa como un medio para transformar el significado transmitido en textos (síntesis del habla) y viceversa (análisis del habla). El texto se compone de unidades más pequeñas y hay varias formas de dividir (dividir) el texto en unidades pertenecientes a diferentes niveles.

Generalmente se reconoce la existencia de los siguientes niveles:

El nivel de oraciones (declaraciones) - nivel sintáctico;

· Lexico-morfológico homonimia (la forma más común) ocurre cuando las formas de las palabras de dos lexemas diferentes coinciden, por ejemplo, poema- un verbo en singular masculino y un sustantivo en singular, nominativo),

· Homonimia sintáctica significa ambigüedad en la estructura sintáctica, lo que lleva a múltiples interpretaciones: Los estudiantes de Lviv fueron a Kiev,Volador aviones pueden ser peligroso(el famoso ejemplo de Chomsky) y otros.

3. Modelado en lingüística computacional

El desarrollo de un procesador lingüístico (LP) implica una descripción de las propiedades lingüísticas del texto NL procesado, y esta descripción se organiza como modelo idioma... Al igual que en el modelado en matemáticas y programación, un modelo se entiende como un determinado sistema que refleja una serie de propiedades esenciales de un fenómeno modelado (es decir, NL) y, por lo tanto, tiene una similitud estructural o funcional.

Los modelos de lenguaje utilizados en CL se basan generalmente en teorías creadas por lingüistas mediante el estudio de varios textos y sobre la base de su intuición lingüística (introspección). ¿Cuál es la especificidad de los modelos KL? Se pueden distinguir las siguientes características:

· Formalidad y, en última instancia, algorítmicabilidad;

· Funcionalidad (el propósito del modelado es reproducir las funciones del lenguaje como una "caja negra", sin construir un modelo preciso de síntesis y análisis del habla por parte de una persona);

· La generalidad del modelo, es decir, tiene en cuenta un conjunto bastante grande de textos;

· Validez experimental, que implica probar el modelo en diferentes textos;

· Dependencia de los diccionarios como componente obligatorio del modelo.

La complejidad de NL, su descripción y procesamiento lleva a la división de este proceso en etapas separadas correspondientes a los niveles de la lengua.La mayoría de los LP modernos pertenecen al tipo modular, en el que un módulo de procesador separado corresponde a cada nivel de análisis lingüístico o síntesis. En particular, en el caso del análisis de texto, los módulos LP individuales realizan:

Ø Análisis gráfico, es decir, selección de formas de palabras en el texto (transición de símbolos a palabras);

Ø Análisis morfológico: la transición de las formas de las palabras a sus lemam(formas de diccionario de tokens) o lo esencial(a las partes nucleares de la palabra, menos los morfemas flexivos);

Ø Analizar, es decir, identificar estructura gramatical sugerencias de texto;

Ø Análisis semántico y pragmático, en el que se determina el significado de frases y la correspondiente reacción del sistema dentro del cual actúa el fármaco.

Son posibles diferentes esquemas de interacción de estos módulos (trabajo secuencial o análisis intercalado en paralelo), sin embargo, los niveles separados - morfología, sintaxis y semántica todavía son procesados ​​por diferentes mecanismos.

Así, LP puede considerarse como un transformador de múltiples etapas que traduce, en el caso del análisis de texto, cada una de sus oraciones en la representación interna de su significado y viceversa en el caso de la síntesis. El modelo de lenguaje correspondiente se puede llamar estructural.

Si bien los modelos CL completos requieren tener en cuenta todos los niveles principales del idioma y la disponibilidad de módulos adecuados, en la resolución de algunos problemas aplicados es posible prescindir de la presentación de niveles individuales en LP. Por ejemplo, en los primeros programas experimentales de CL, los textos procesados ​​pertenecían a áreas problemáticas muy estrechas (con un conjunto limitado de palabras y su orden estricto), de modo que para el reconocimiento de palabras era posible utilizar sus letras iniciales, omitiendo las etapas de análisis morfológico y sintáctico.

Otro ejemplo de modelo reducido, que ahora se utiliza con bastante frecuencia, es el modelo de lenguaje de la frecuencia de los símbolos y sus combinaciones (bigramas, trigramas, etc.) en los textos de una determinada NL. Tal modelo estadístico muestra información lingüística a nivel de caracteres (letras) del texto, y es suficiente, por ejemplo, para identificar errores tipográficos en el texto o para reconocer su afiliación lingüística. Se utiliza un modelo similar basado en estadísticas de palabras individuales y su ocurrencia conjunta en textos (bigramas, trigramas de palabras), por ejemplo, para resolver la ambigüedad léxica o determinar la parte del habla de una palabra (en idiomas como el inglés). .

Tenga en cuenta que hay posibles modelos estadísticos estructurales, en el que, al presentar niveles individuales de NL, se tiene en cuenta una u otra estadística: palabras, estructuras sintácticas, etc.

En LP tipo modular en cada etapa del análisis o síntesis del texto, se utiliza un modelo apropiado (morfología, sintasis, etc.).

Los modelos morfológicos para el análisis de formas de palabras existentes en CL se diferencian principalmente en los siguientes parámetros:

· El resultado del trabajo - un lema o base con un conjunto de características morfológicas (género, número, caso, especie, persona, etc.) de una forma de palabra determinada;

· El método de análisis - basado en el diccionario de formas de palabras del idioma o en el diccionario de conceptos básicos, o el método sin palabras;

· La posibilidad de procesar la forma verbal de un lexema no incluido en el diccionario.

En el caso de síntesis morfológica, los datos iniciales son el lexema y las características morfológicas específicas de la forma verbal solicitada del lexema dado; también es posible solicitar la síntesis de todas las formas del lexema dado. El resultado tanto del análisis morfológico como de la síntesis es generalmente ambiguo.

Para el modelado de sintaxis en el marco de CL, se han propuesto un gran número de ideas y métodos diferentes que difieren en la forma de describir la sintaxis del lenguaje, la forma de utilizar esta información en el análisis o síntesis de la oración NL, y también la forma de representar la estructura sintáctica de la oración. De manera bastante condicional, se pueden distinguir tres enfoques principales para la creación de modelos: un enfoque generativo que se remonta a las ideas de Chomsky, un enfoque que se remonta a las ideas de I. Melchuk y está representado por el modelo "MeaningText", como así como un enfoque dentro del cual se hacen ciertos intentos para superar las limitaciones de los dos primeros enfoques, en particular, la teoría de grupos sintácticos.

En el marco del enfoque generativo, el análisis sintáctico se realiza, por regla general, sobre la base de una gramática formal libre de contexto que describe la estructura de frase de una oración, o sobre la base de alguna extensión de la gramática libre de contexto. Estas gramáticas proceden de la división lineal secuencial de una oración en frases (construcciones sintácticas, por ejemplo, frases nominales) y, por lo tanto, reflejan simultáneamente sus estructuras sintácticas y lineales. La estructura sintáctica jerárquica de la oración NL obtenida como resultado del análisis se describe mediante árbol de componentes, en cuyas hojas se ubican las palabras de la oración, los subárboles corresponden a las construcciones sintácticas (frases) incluidas en la oración, y los arcos expresan las relaciones de anidamiento de las construcciones.

El enfoque en consideración puede incluir gramáticas de red, que son tanto un aparato para describir un sistema de lenguaje como para especificar un procedimiento de análisis de oraciones basado en el concepto de una máquina de estados finitos, por ejemplo, una red de transición ATN extendida.

En el segundo enfoque, se utiliza una forma más visual y común para representar la estructura sintáctica de una oración: árboles de dependencia... Los nodos del árbol contienen las palabras de la oración (generalmente el verbo-predicado en la raíz), y cada arco del árbol que conecta un par de nodos se interpreta como sintáctico. subordinar conexión entre ellos, y la dirección de la conexión corresponde a la dirección de este arco. Dado que en este caso las conexiones sintácticas de las palabras y el orden de las palabras en la oración están separadas, entonces, sobre la base de árboles de subordinación, se rompen y no proyectivo construcciones que aparecen con bastante frecuencia en idiomas con orden de palabras libre.

Los árboles de componentes son más adecuados para describir lenguajes en un orden de palabras rígido; su representación de construcciones desgarradas y no proyectivas requiere una extensión del formalismo gramatical utilizado. Pero en el marco de este enfoque, las construcciones con relaciones de desobediencia se describen de manera más natural. Al mismo tiempo, una dificultad común para ambos enfoques es la representación de miembros homogéneos de la oración.

Los modelos sintácticos en todos los enfoques intentan tener en cuenta las restricciones impuestas a la conexión de unidades lingüísticas en el habla, mientras que de una forma u otra se utiliza el concepto de valencia. Valencia Es la capacidad de una palabra u otra unidad de un idioma para adjuntar otras unidades de una determinada manera sintáctica; actante Es una palabra o construcción sintáctica que llena esta valencia. Por ejemplo, el verbo ruso entregar tiene tres valencias principales, que pueden expresarse mediante las siguientes palabras interrogativas: ¿Quién? ¿a quien? ¿Qué? En el marco del enfoque generativo, las valencias de las palabras (en primer lugar, los verbos) se describen principalmente en forma de marcos especiales ( subcategorización marcos), y en el marco del enfoque de árboles de dependencia, como modelos de gestión.

Los modelos de semántica del lenguaje son los menos desarrollados en el marco de CL. Para el análisis semántico de oraciones, las llamadas gramáticas de casos y casos semánticos(valencias), sobre cuya base se describe la semántica de una oración como a través de la conexión de la palabra principal (verbo) con sus actantes semánticos, es decir, a través de casos semánticos. Por ejemplo, el verbo entregar descrito por casos semánticos donación(agente), destinatario y objeto de transmisión.

Para representar la semántica de todo el texto, se suelen utilizar dos formalismos lógicamente equivalentes (ambos se describen en detalle en el marco de la IA):

· Fórmulas de cálculo de predicados que expresan propiedades, estados, procesos, acciones y relaciones;

· Redes semánticas: gráficos etiquetados en los que los vértices corresponden a conceptos y los vértices corresponden a las relaciones entre ellos.

En cuanto a los modelos de pragmática y discurso, que permiten procesar no solo oraciones individuales, sino también el texto en su conjunto, se utilizan principalmente las ideas de Van Dyck para construirlas. Uno de los modelos raros y exitosos es el modelo de síntesis discursiva de textos coherentes. Tales modelos deben tener en cuenta las referencias anafóricas y otros fenómenos del nivel del discurso.

Completando la caracterización de modelos lingüísticos en el marco de CL, detengámonos un poco más en la teoría de modelos lingüísticos "Significado-Texto", y dentro de la cual han aparecido muchas ideas fructíferas que se adelantaron a su tiempo y son aun relevante.

De acuerdo con esta teoría, NL se considera un tipo especial de transformador que procesa los significados dados en los textos correspondientes y los textos dados en los significados correspondientes. El significado se entiende como invariante de todas las transformaciones sinónimos del texto. El contenido de un fragmento coherente de discurso sin división en frases y formas de palabras se muestra en forma de una representación semántica especial, que consta de dos componentes: gráfico semántico e información sobre organización comunicativa del significado.

Como rasgos distintivos de la teoría conviene señalar:

o orientación hacia la síntesis de textos (la capacidad de generar textos correctos se considera como el principal criterio de competencia lingüística);

o La naturaleza modular y multinivel del modelo, y los niveles principales del lenguaje se dividen en niveles superficiales y profundos: se diferencian, por ejemplo, profundo(semántica) y superficie La sintaxis ("pura"), así como los niveles morfológicos superficiales y morfológicos profundos;

o la naturaleza integral del modelo de lenguaje; guardar la información presentada en cada nivel por el módulo correspondiente realizando la transición de este nivel al siguiente;

o medios especiales para describir la sintáctica (reglas para combinar unidades) en cada uno de los niveles; para describir la compatibilidad léxica, se propuso un conjunto funciones léxicas, con la ayuda de la cual se formulan las reglas de la paráfrasis sintáctica;

o énfasis en el vocabulario más que en la gramática; el diccionario contiene información relacionada con diferentes niveles del idioma; en particular, los modelos de control de palabras se utilizan para el análisis sintáctico, que describen sus valencias sintácticas y semánticas.

Esta teoría y modelo del lenguaje se plasmaron en el sistema de traducción automática ETAP.

4. Recursos lingüísticos

El desarrollo de procesadores lingüísticos requiere una presentación adecuada de la información lingüística sobre el NL procesado. Esta información se muestra en una variedad de diccionarios y gramáticas de computadora.

Diccionarios son la forma más tradicional de presentación de información léxica; se diferencian en sus unidades (generalmente palabras o frases), estructura, cobertura de vocabulario (diccionarios de términos de un área de problemas específica, diccionarios de vocabulario general, etc.). La unidad de vocabulario se llama entrada de diccionario, proporciona información sobre el token. Los homónimos léxicos generalmente se presentan en diferentes entradas del diccionario.

Los más comunes en CL son los diccionarios morfológicos utilizados para el análisis morfológico, su entrada de diccionario contiene información morfológica sobre la palabra correspondiente: parte del habla, clase de flexión (para idiomas de flexión), una lista de significados de palabras, etc. Procesador lingüístico en el diccionario también se puede agregar información gramatical, como modelos de control de palabras.

Hay diccionarios que brindan información más amplia sobre palabras. Por ejemplo, el modelo lingüístico "SenseÛText" se basa en gran medida en diccionario combinatorio explicativo, en la entrada del diccionario del cual, además de información morfológica, sintáctica y semántica (valencias sintácticas y semánticas), se presenta información sobre la compatibilidad léxica de esta palabra.

Varios procesadores lingüísticos utilizan diccionarios de sinónimos... Un tipo de diccionarios relativamente nuevo: diccionarios de parónimos, es decir, palabras aparentemente similares que difieren en significado, por ejemplo, extraño y extraterrestre, editar y referencia .

Otro tipo de recursos léxicos: bases de frases, en el que se seleccionan las frases más típicas de un idioma en particular. Esta base de frases del idioma ruso (alrededor de un millón de unidades) constituye el núcleo del sistema CrossLexica.

Tipos más complejos de recursos léxicos son tesauros y ontologías... Un tesauro es un diccionario semántico, es decir, un diccionario en el que se presentan conexiones semánticas de palabras: sinónimos, relaciones género-especie (a veces llamadas relación superior-inferior), asociación parte-todo. La difusión de tesauros está asociada a la solución de problemas de recuperación de información.

El concepto de ontología está estrechamente relacionado con el concepto de tesauro. La ontología es un conjunto de conceptos, entidades de un área determinada del conocimiento, enfocados a la reutilización para diversas tareas. Las ontologías se pueden crear sobre la base del vocabulario existente en el idioma; en este caso, se denominan lingüístico y.

Una ontología lingüística similar es el sistema WordNet, un gran recurso léxico que contiene palabras en inglés: sustantivos, adjetivos, verbos y adverbios, y presenta sus conexiones semánticas de varios tipos. Para cada una de las partes del discurso especificadas, las palabras se agrupan en grupos de sinónimos ( synsets), entre los que se establecen relaciones de antonimia, hiponimia (relación género-especie), meronimia (relación parte-todo). El recurso contiene alrededor de 25 mil palabras, el número de niveles jerárquicos para la relación género-especie es en promedio 6-7, a veces llegando a 15. El nivel superior de la jerarquía forma una ontología común - un sistema de conceptos básicos sobre el mundo.

Se crearon recursos léxicos similares para otros idiomas europeos de acuerdo con el esquema WordNet en inglés, unidos bajo el nombre general EuroWordNet.

Un tipo de recursos lingüísticos completamente diferente es gramática NL, cuyo tipo depende del modelo de sintaxis utilizado en el procesador. Como primera aproximación, una gramática es un conjunto de reglas que expresan las propiedades sintácticas generales de palabras y grupos de palabras. Numero total Las reglas gramaticales también dependen del modelo de sintaxis, que van desde unas pocas docenas hasta unos pocos cientos. En esencia, tal problema se manifiesta aquí como la proporción de gramática y vocabulario en el modelo de lenguaje: cuanta más información se presenta en el diccionario, más corta puede ser la gramática, y viceversa.

Nótese que la construcción de diccionarios de computadora, tesauros y gramáticas es un trabajo voluminoso y laborioso, a veces incluso más laborioso que el desarrollo de un modelo lingüístico y el correspondiente procesador. Por tanto, una de las tareas subordinadas de CL es la automatización de la construcción de recursos lingüísticos.

Los diccionarios de computadora a menudo se forman mediante la conversión de diccionarios de texto ordinario, pero a menudo se requiere un trabajo mucho más complejo y minucioso para construirlos. Esto suele ocurrir cuando se crean diccionarios y tesauros para campos científicos en rápido desarrollo: biología molecular, informática, etc. El material fuente para extraer la información lingüística necesaria puede ser colecciones y corpus de textos.

Un corpus de textos es una colección de textos, recopilados de acuerdo con un cierto principio de representatividad (por género, autoría, etc.), en el que todos los textos están marcados, es decir, provistos de algún marcado lingüístico (anotaciones): morfológico, acento, sintáctico , etc. Actualmente, hay al menos un centenar de corpus diferentes: para diferentes NL y con diferentes marcas, en Rusia el más famoso es el Corpus Nacional de la lengua rusa.

Los lingüistas crean corpus marcados y se utilizan tanto para la investigación lingüística como para ajustar (entrenar) los modelos y procesadores utilizados en CL utilizando métodos de aprendizaje automático matemáticos conocidos. Por lo tanto, el aprendizaje automático se utiliza para configurar métodos para resolver la ambigüedad léxica, reconocer parte del habla y resolver enlaces anafóricos.

Dado que los corpus y las colecciones de textos siempre están limitados en términos de los fenómenos lingüísticos presentados en ellos (y los corpus, entre otras cosas, se han creado durante bastante tiempo), recientemente, cada vez con más frecuencia, los textos en Internet se consideran como un recurso lingüístico más completo. Sin duda, Internet es la fuente más representativa de muestras de habla modernas, pero su uso como corpus requiere el desarrollo de tecnologías especiales.

5. Aplicaciones de la lingüística computacional

El campo de aplicaciones de la lingüística computacional está en constante expansión, por lo que aquí caracterizamos los problemas aplicados más famosos resueltos por sus herramientas.

Traducción automática- la primera aplicación de CL, junto con la cual surgió y se desarrolló esta área. Los primeros programas de traducción se crearon hace más de 50 años y se basaron en la estrategia de traducción palabra por palabra más simple. Sin embargo, rápidamente se advirtió que la traducción automática requiere un modelo lingüístico completo que tenga en cuenta todos los niveles del lenguaje, hasta la semántica y la pragmática, lo que ha obstaculizado repetidamente el desarrollo de esta dirección. En el sistema ETAP nacional se utiliza un modelo bastante completo, que traduce textos científicos del francés al ruso.

Sin embargo, tenga en cuenta que en el caso de la traducción a un idioma relacionado, por ejemplo, al traducir del español al portugués o del ruso al ucraniano (que tienen mucho en común en sintaxis y morfología), el procesador se puede implementar sobre la base de un modelo simplificado, por ejemplo, basado en la misma estrategia de traducción palabra por palabra.

Actualmente, existe una amplia gama de sistemas de traducción por computadora (de diversa calidad), desde grandes proyectos de investigación a traductores automáticos comerciales. Los proyectos de traducción multilingüe, utilizando un lenguaje intermedio, en los que se codifica el significado de las frases traducidas, son de gran interés. Otro dirección moderna- traducción estadística basada en las estadísticas de traducción de palabras y frases (estas ideas, por ejemplo, se implementan en el traductor del motor de búsqueda de Google).

Pero a pesar de muchas décadas de desarrollo de toda esta dirección, en general, el problema de la traducción automática aún está muy lejos de estar completamente resuelto.

Otra aplicación de lingüística computacional bastante antigua es búsqueda de información y tareas relacionadas de indexar, resumir, clasificar y rubricar documentos.

La búsqueda de texto completo de documentos en grandes bases de datos de documentos (en primer lugar, científicos, técnicos, comerciales), generalmente se lleva a cabo sobre la base de su buscar imagenes, con lo que nos referimos al conjunto palabras clave- palabras que reflejan el tema principal del documento. En un primer momento, solo se consideraron como palabras clave palabras individuales de EY, y la búsqueda se realizó sin tener en cuenta su inflexión, que no es crítica para idiomas débilmente reflexivos como el inglés. Para los idiomas de inflexión, por ejemplo, para el ruso, se requirió utilizar un modelo morfológico que tenga en cuenta la inflexión.

La consulta de búsqueda también se presentó en forma de un conjunto de palabras; los documentos adecuados (relevantes) se determinaron en función de la similitud de la consulta y la imagen de búsqueda del documento. La creación de una imagen de búsqueda de un documento implica indexación su texto, es decir, resaltando las palabras clave en él. Dado que muy a menudo el tema y el contenido del documento se reflejan con mucha más precisión no por palabras individuales, sino por frases, las frases comenzaron a considerarse como palabras clave. Esto complicó significativamente el procedimiento de indexación de documentos, ya que fue necesario utilizar varias combinaciones de criterios estadísticos y lingüísticos para seleccionar combinaciones de palabras significativas del texto.

De hecho, la recuperación de información utiliza principalmente modelo de texto vectorial(aveces llamado bolso de palabras- una bolsa de palabras), en la que el documento está representado por un vector (conjunto) de sus palabras clave. Los motores de búsqueda modernos de Internet también utilizan este modelo, indexando los textos por las palabras utilizadas en ellos (al mismo tiempo, utilizan procedimientos de clasificación muy sofisticados para proporcionar documentos relevantes).

El modelo de texto indicado (con algunas complicaciones) también se utiliza en los problemas relacionados de recuperación de información que se consideran a continuación.

Referencia de texto- reducción de su volumen y obtención de su resumen - resumen (contenido colapsado), lo que agiliza la búsqueda en colecciones de documentos. También se puede preparar un resumen general para varios documentos relacionados.

El método principal de resumen automático sigue siendo la selección de las oraciones más significativas del texto resumido, para lo cual las palabras clave del texto generalmente se calculan primero y se calcula el coeficiente de significación de las oraciones en el texto. La elección de propuestas significativas se complica por conexiones anafóricas de propuestas, cuya ruptura es indeseable: para resolver este problema, se desarrollan ciertas estrategias para seleccionar propuestas.

Una tarea cercana a la abstracción es anotación el texto del documento, es decir, la elaboración de su anotación. V la forma mas simple la anotación es una lista de los temas principales del texto, para resaltar qué procedimientos de indexación se pueden utilizar.

Al crear grandes colecciones de documentos, las tareas son relevantes clasificación y agrupamiento textos para crear clases de documentos relacionados. La clasificación significa asignar cada documento a una determinada clase con parámetros previamente conocidos, y agrupar significa dividir un conjunto de documentos en grupos, es decir, subconjuntos de documentos relacionados temáticamente. Para solucionar estos problemas se utilizan métodos de aprendizaje automático, en relación con los cuales estos problemas aplicados se denominan Text Mining y pertenecen a la dirección científica conocida como Data Mining o minería de datos.

El problema está muy cerca de la clasificación. categorización texto: su asignación a uno de los encabezados temáticos previamente conocidos (por lo general, los encabezados forman un árbol jerárquico de temas).

El problema de la clasificación se está generalizando, se soluciona, por ejemplo, a la hora de reconocer el spam, y una aplicación relativamente nueva es la clasificación de mensajes SMS en dispositivos móviles. Una nueva y relevante dirección de investigación para la tarea general de recuperación de información es la búsqueda de documentos multilingües.

Otra tarea relativamente nueva relacionada con la recuperación de información es formación de respuestas a preguntas(Respuesta a preguntas). Esta tarea se resuelve determinando el tipo de pregunta, buscando textos que potencialmente contengan la respuesta a esta pregunta y extrayendo la respuesta de estos textos.

Una dirección aplicada completamente diferente, que se está desarrollando, aunque lentamente, pero de manera constante, es automatización de preparación y edición textos en EYa. Una de las primeras aplicaciones en esta dirección fueron los programas de detección automática de separación de palabras y los programas de revisión ortográfica de textos (ortográficos o autocorrectores). A pesar de la aparente simplicidad del problema de separación por sílabas, su correcta solución para muchos NL (por ejemplo, inglés) requiere el conocimiento de la estructura morfemia de las palabras del idioma correspondiente y, por lo tanto, el diccionario correspondiente.

La revisión ortográfica se ha implementado durante mucho tiempo en sistemas comerciales y se basa en el vocabulario y el modelo de morfología adecuados. También se utiliza un modelo de sintaxis incompleto, sobre la base del cual se detectan todos los errores de sintaxis de frecuencia suficiente (por ejemplo, errores de coincidencia de palabras). Al mismo tiempo, la detección de errores más complejos, por ejemplo, el mal uso de preposiciones, aún no se ha implementado en autocorrectores. Muchos errores léxicos tampoco se detectan, en particular, errores resultantes de errores tipográficos o mal uso de palabras similares (por ejemplo, peso en lugar de pesado). V investigación moderna KL ofrece métodos para la detección y corrección automatizadas de tales errores, así como algunos otros tipos de errores estilísticos. Estos métodos utilizan las estadísticas de la aparición de palabras y frases.

Una tarea aplicada cercana a apoyar la preparación de textos es enseñanza de lenguaje natural En el marco de esta dirección, a menudo se desarrollan sistemas informáticos para la enseñanza del idioma: inglés, ruso, etc. (se pueden encontrar sistemas similares en Internet). Por lo general, estos sistemas apoyan el estudio de aspectos individuales del lenguaje (morfología, vocabulario, sintaxis) y se basan en modelos apropiados, por ejemplo, el modelo morfológico.

En cuanto al estudio del vocabulario, también se utilizan para ello análogos electrónicos de diccionarios de texto (en los que, de hecho, no existen modelos lingüísticos). Sin embargo, también se están desarrollando diccionarios de computadora multifuncionales que no tienen análogos de texto y están dirigidos a una amplia gama de usuarios, por ejemplo, el diccionario de frases rusas Krossleksika. Este sistema cubre una amplia gama de vocabulario: palabras y sus frases permitidas, y también proporciona información sobre modelos de gestión de palabras, sinónimos, antónimos y otros correlatos semánticos de palabras, lo que es claramente útil no solo para aquellos que estudian ruso, sino también para los nativos. Altavoces.

La siguiente área aplicada que vale la pena mencionar es generación automática textos en EYa. En principio, esta tarea puede considerarse una subtarea de la tarea de traducción automática ya discutida anteriormente, sin embargo, hay una serie de tareas específicas dentro de la dirección. Tal tarea es la generación multilingüe, es decir, la construcción automática en varios idiomas de documentos especiales: fórmulas de patentes, instrucciones para el funcionamiento de productos técnicos o sistemas de software, basados ​​en su especificación en un lenguaje formal. Para resolver este problema, se utilizan modelos de lenguaje bastante detallados.

Un problema aplicado cada vez más relevante, a menudo atribuido al campo de la minería de textos, es extracción de información a partir de textos, o Extracción de Información, que se requiere a la hora de resolver problemas de analítica económica e industrial. Para ello, en la prueba de NL se seleccionan determinados objetos: entidades con nombre (nombres, personalidades, nombres geográficos), sus relaciones y eventos relacionados. Como regla general, esto se implementa sobre la base de un análisis parcial del texto, lo que permite procesar los flujos de noticias de las agencias de noticias. Dado que la tarea es bastante difícil no solo teóricamente, sino también tecnológicamente, la creación de sistemas significativos para extraer información de textos es factible en el marco de las empresas comerciales.

El área de Text Mining también incluye otras dos tareas relacionadas: Opinion Mining y Sentiment Analysis, que están atrayendo la atención de un número cada vez mayor de investigadores. En la primera tarea, se buscan las opiniones de los usuarios sobre productos y otros objetos (en blogs, foros, tiendas online, etc.) y se analizan estas opiniones. La segunda tarea se acerca a la tarea clásica del análisis de contenido de los textos de comunicación masiva, evalúa el tono general de las declaraciones.

Otra aplicación que vale la pena mencionar es apoyo al dialogo con el usuario en NL en el marco de cualquier sistema de software de información. La mayoría de las veces, este problema se resolvió para bases de datos especializadas; en este caso, el lenguaje de consulta es bastante limitado (léxica y gramaticalmente), lo que permite usar modelos de lenguaje simplificados. Las solicitudes a la base de datos, formuladas en NL, se traducen a un lenguaje formal, luego de lo cual se busca la información necesaria y se construye la frase de respuesta correspondiente.

Como último en nuestra lista de aplicaciones CL (pero no en importancia), indicamos reconocimiento y síntesis de voz... Los errores de reconocimiento que se producen inevitablemente en estas tareas se corrigen mediante métodos automáticos basados ​​en diccionarios y conocimientos lingüísticos de la morfología. El aprendizaje automático también se aplicará en esta área.

Conclusión

La lingüística computacional demuestra resultados bastante tangibles en diversas aplicaciones para el procesamiento automático de textos en NL. Su desarrollo posterior depende tanto de la aparición de nuevas aplicaciones como del desarrollo independiente de varios modelos de lenguaje, en los que aún no se han resuelto muchos problemas. Los más elaborados son los modelos de análisis y síntesis morfológicos. Los modelos de sintaxis aún no se han llevado al nivel de módulos de trabajo estables y eficientes, a pesar de la gran cantidad de formalismos y métodos propuestos. Aún menos estudiados y formalizados son los modelos del nivel de semántica y pragmática, aunque ya se requiere el procesamiento automático del discurso en varias aplicaciones. Tenga en cuenta que las herramientas ya existentes de la lingüística computacional en sí, el uso de aprendizaje automático y corpus de texto, pueden avanzar significativamente en la solución de estos problemas.

Literatura

1. Baeza-Yates, R. y Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Generación del lenguaje natural. En: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, pág.304.

3. Biber, D., Conrad S. y Reppen D. Corpus Linguistics. Investigación de la estructura y el uso del lenguaje. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Lingüística putacional Gelbukh. Modelos, recursos, aplicaciones. México, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Las matemáticas de la traducción automática estadística. // Lingüística computacional, vol. 19 (2): 263-3

6. Carroll J R. Análisis. En: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, pág. 233-248.

7. Chomsky, N. Estructuras sintácticas. La Haya: Mouton, 1957.

8. Grishman R. Extracción de información. En: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, pág. 545-559.

9. Harabagiu, S., Moldavo D. Respuesta a preguntas. En: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, pág. 560-582.

10. Hearst, M. A. Descubrimiento automatizado de relaciones WordNet. En: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, págs. 131-151.

11. Hirst, G. Ontology and the Lexicon. En.: Manual de Ontologías en Sistemas de Niformación. Berlín, Springer, 2003.

12. Jacquemin C., Bourigault D. Extracción de términos e indexación automática // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. pág. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introducción al número especial en la web como lingüística putacional, V.29, núm. 3, 2003, pág. 333-347.

14. Manning, cap. D., H. Schütze. Fundamentos del procesamiento estadístico del lenguaje natural. Prensa del MIT, 1999.

15. Matsumoto Y. Adquisición de conocimientos léxicos. En: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, pág. 395-413.

16. El Manual de Oxford sobre Lingüística Computacional. R. Mitkov (Ed.). Prensa de la Universidad de Oxford, 2005.

17. Oakes, M., Paice C. D. Extracción de términos para abstracción automática. Avances recientes en terminología computacional. D. Bourigault, C. Jacquemin y M. L "Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p. 353-370.

18. Pedersen, T. Un árbol de decisiones de bigramas es un predictor preciso de los sentidos de las palabras. Proc. 2da Reunión Anual de NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Métodos estadísticos. En: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, pág. 358-375.

20. Salton, G. Procesamiento automático de texto: transformación, análisis y recuperación de información por computadora. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Traducción automática: últimos avances. En: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, pág. 512-528.

22. Strzalkowski, T. (ed.) Recuperación de información en lenguaje natural. Kluwer, 19p.

23. Woods W. A. ​​Grammers de la red de transición para el análisis del lenguaje natural / comunicaciones de la ACM, V. 13, 1970, No. 10, p. 591-606.

24. Word Net: una base de datos léxica electrónica. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Sugerencia de colocación automática en escritura académica // Actas de los artículos breves de la conferencia ACL 2010, 2010.

26. y otros Apoyo lingüístico del sistema ETAP-2. Moscú: Nauka, 1989.

27. et al.Tecnologías de análisis de datos: Data Mining, Visual Mining, Text Mining, OLAP - 2nd ed. - SPb.: BHV-Petersburg, 2008.

28. Bolshakov, Vocabulary - un gran diccionario electrónico de combinaciones y conexiones semánticas de palabras rusas. // Comp. lingüística e inteligencia. tecnologías: Actas de Int. Conf. Diálogo 2009. Edición M .: RGGU, 2009, p. 45-50.

29. Bolshakova EI, Detección de Bolshakov y corrección automática de malapropismos rusos // NTI. Ser. 2, núm. 5, 2007, págs. 27-40.

30. Van, Kinch V. Estrategia para la comprensión de un texto coherente // Novedades en lingüística extranjera. Asunto XXIII– M., Progreso, 1988, pág. 153-211.

31. Vasiliev V. G., Krivenko M. P. Métodos de procesamiento automatizado de texto. - M.: IPI RAN, 2008.

32. Vinograd T. Un programa que comprende el lenguaje natural - M., mir, 1976.

33. Estructura fluida del lenguaje natural en los sistemas de comunicación automatizados. - M., Ciencia, 1985.

34. Gusev, VD, Salomatina dictionary of paronyms: versión 2. // NTI, Ser. 2, núm. 7, 2001, pág. 26-33.

35. Zakharov - el espacio como corpus de lenguaje // Lingüística computacional y tecnologías intelectuales: Proceedings of the Int. conferencia Diálogo '2005 / Ed. , - M.: Nauka, 2005, pág. 166-171.

36. Kasevich de lingüística general. - M., Ciencia, 1977.

37. Comprensión de textos de Leontiev: Sistemas, modelos, recursos: Libro de texto - Moscú: Academia, 2006.

38. Diccionario enciclopédico lingüístico / Ed. V.N. Yartseva, M.: Enciclopedia soviética, 1990, 685 pág.

39., Saliy para indexación y categorización automáticas: desarrollo, estructura, mantenimiento. // NTI, Ser. 2, núm. 1, 1996.

40. Luger J. Inteligencia artificial: estrategias y métodos para la resolución de problemas complejos. M., 2005.

41. McKewin K. Estrategias discursivas para sintetizar texto en lenguaje natural // Novedades en lingüística extranjera. Asunto XXIV. M.: Progreso, 1989, p. 311-356.

42. Melchuk de la teoría de modelos lingüísticos "SIGNIFICADO" TEXTO ". - M., Ciencia, 1974.

43. Corpus Nacional de la Lengua Rusa. http: // *****

44. Khoroshevsky V. F. OntosMiner: una familia de sistemas para la extracción de información de colecciones de documentos multilingües // Novena Conferencia Nacional sobre Inteligencia Artificial con Participación Internacional KII-2004. T. 2. - M .: Fizmatlit, 2004, p. 573-581.

Lingüística informática(además: matemático o Ligüística computacional, ing. Ligüística computacional) es una dirección científica en el campo del modelado matemático e informático de procesos intelectuales en humanos y animales en la creación de sistemas de inteligencia artificial, que tiene como objetivo utilizar modelos matemáticos para describir lenguajes naturales.

La lingüística computacional se superpone parcialmente con el procesamiento del lenguaje natural. Sin embargo, en este último, el énfasis no está en los modelos abstractos, sino en los métodos aplicados de describir y procesar el lenguaje para los sistemas informáticos.

El campo de actividad de los informáticos es el desarrollo de algoritmos y programas aplicados para procesar información lingüística.

Orígenes

La lingüística matemática es una rama de la ciencia de la inteligencia artificial. Su historia comenzó en los Estados Unidos de América en la década de 1950. Con la invención del transistor y la aparición de una nueva generación de computadoras, así como los primeros lenguajes de programación, comenzaron los experimentos con la traducción automática, especialmente las revistas científicas rusas. En la década de 1960, se llevaron a cabo estudios similares en la URSS (por ejemplo, un artículo sobre la traducción del ruso al armenio en la colección "Problemas de la cibernética" de 1964). Sin embargo, la calidad de la traducción automática sigue siendo muy inferior a la calidad de la traducción humana.

Del 15 al 21 de mayo de 1958, se celebró la primera conferencia de toda la Unión sobre traducción automática en el 1er Instituto Pedagógico Estatal de Moscú. El comité organizador estuvo encabezado por V. Yu Rosenzweig y el secretario ejecutivo del comité organizador G. V. Chernov. El programa completo de la conferencia se publica en la colección "Traducción automática y lingüística aplicada", vol. 1, 1959 (también conocido como "Boletín No. 8 de la Asociación de Traducción Automática"). Como recuerda V. Yu. Rosenzweig, la colección publicada de resúmenes de conferencias terminó en los Estados Unidos y causó una gran impresión allí.

En abril de 1959, se celebró en Leningrado la Primera Conferencia de toda la Unión sobre Lingüística Matemática, convocada por la Universidad de Leningrado y el Comité de Lingüística Aplicada. El principal organizador del Encuentro fue ND Andreev. En la reunión participaron varios matemáticos destacados, en particular, S. L. Sobolev, L. V. Kantorovich (más tarde, premio Nobel) y A. A. Markov (los dos últimos participaron en el debate). V. Yu. Rosenzweig pronunció el discurso de apertura "Teoría lingüística general de la traducción y lingüística matemática" el día de apertura del Encuentro.

Direcciones de la lingüística computacional

  • Procesamiento natural del lenguaje procesamiento natural del lenguaje; análisis sintáctico, morfológico, semántico del texto). Esto también incluye:
  1. Lingüística de corpus, creación y uso de corpus de textos electrónicos
  2. Creación de diccionarios electrónicos, tesauros, ontologías. Por ejemplo, Lingvo. Los diccionarios se utilizan, por ejemplo, para traducción automática, revisión ortográfica.
  3. Traducción automática de textos. Promt es popular entre los traductores de ruso. El traductor de Google Translate es muy conocido entre los gratuitos.
  4. Extracción automática de hechos del texto (extracción de información) (ing. extracción de hechos, minería de texto)
  5. Autoreferencia (ing. resumen de texto automático). Esta función está incluida, por ejemplo, en Microsoft Word.
  6. Construyendo sistemas de gestión del conocimiento. Ver sistemas expertos
  7. Creación de sistemas de preguntas y respuestas (ing. sistemas de respuesta a preguntas).
  • Reconocimiento óptico de caracteres (ing. LOC). Por ejemplo, FineReader
  • Reconocimiento automático de voz (ing. ASR). Hay software de pago y gratuito.
  • Síntesis de voz automática

Grandes asociaciones y congresos

Programas de estudio en Rusia

ver también

Escriba una reseña sobre el artículo "Lingüística computacional"

Notas (editar)

Enlaces

  • (ensayo)
  • - base de conocimientos sobre recursos lingüísticos para el idioma ruso
  • - código abierto de algunas utilidades de lingüística computacional
  • - acceso en línea a programas de lingüística computacional

Un extracto que caracteriza a la Lingüística Computacional

—Llévate, llévate a la niña —dijo Pierre, entregándole a la niña y dirigiéndose a la mujer de manera imperiosa y apresurada. - ¡Devuélveles, devuélvemelo! - gritó casi a la mujer, poniendo a la niña que gritaba en el suelo, y volvió a mirar a la familia francesa y armenia. El anciano ya estaba sentado descalzo. El pequeño francés se quitó la última bota y se golpeó entre sí. El anciano, sollozando, dijo algo, pero Pierre sólo lo vislumbró; toda su atención se centró en el francés del capó, que en ese momento, balanceándose lentamente, se acercó a la joven y, sacando las manos de los bolsillos, la agarró por el cuello.
La bella armenia seguía sentada en la misma posición inmóvil, con sus largas pestañas bajadas, y como si no viera ni sintiera lo que el soldado le estaba haciendo.
Mientras Pierre corría los pocos pasos que lo separaban del francés, el largo merodeador del gorro ya arrancaba el collar que llevaba del cuello de la armenia, y la joven, agarrándose el cuello con las manos, gritaba con voz penetrante. .
- ¡Laissez cette femme! [¡Deja a esta mujer!] - gruñó Pierre con voz furiosa, agarrando al soldado largo y encorvado por los hombros y tirándolo. El soldado cayó, se levantó y se escapó. Pero su camarada, arrojando sus botas, sacó un cuchillo y avanzó amenazadoramente hacia Pierre.
- ¡Voyons, pas de betises! [¡Oh bien! ¡No seas tonto!] Gritó.
Pierre estaba en ese arrebato de rabia en el que no recordaba nada y en el que su fuerza se multiplicó por diez. Se arrojó sobre el francés descalzo, y antes de que pudiera sacar su cuchillo, ya lo había derribado y golpeado con los puños. Se escuchó un grito de aprobación de la multitud circundante, al mismo tiempo que una patrulla de lanceros franceses tirada por caballos apareció a la vuelta de la esquina. Los lanceros se acercaron trotando a Pierre y al francés y los rodearon. Pierre no recordaba nada de lo que sucedió a continuación. Recordó que estaba golpeando a alguien, lo golpearon y que al final sintió que tenía las manos atadas, que una multitud de soldados franceses lo rodeaban y registraban su vestido.
- Il a un poignard, teniente, [El teniente, tiene una daga,] - fueron las primeras palabras que entendió Pierre.
- ¡Ah, une arme! [¡Ah, armas!] - dijo el oficial y se volvió hacia el soldado descalzo que se había llevado con Pierre.
- C "est bon, vous direz tout cela au conseil de guerre, [Está bien, está bien, lo contarás todo en el juicio]", dijo el oficial. Y luego se volvió hacia Pierre: - ¿Parlez vous francais vous? hablar francés?]
Pierre miró a su alrededor con los ojos inyectados en sangre y no respondió. Probablemente, su rostro parecía muy aterrador, porque el oficial dijo algo en un susurro, y cuatro lanceros más se separaron del equipo y se pararon a ambos lados de Pierre.
- ¿Parlez vous francais? El oficial le repitió la pregunta, manteniéndose alejado de él. - Faites venir l "interprete. [Llamar a un intérprete.] - Un hombrecillo vestido de civil ruso salió de detrás de las filas. Por su vestimenta y su discurso, Pierre inmediatamente lo reconoció como francés en una de las tiendas de Moscú.
- Il n "a pas l" air d "un homme du peuple, [No parece un plebeyo] - dijo el traductor, mirando alrededor de Pierre.
- ¡Oh, oh! ca m "a bien l" air d "un des incendiaires, - el oficial aceitado. - Demandez lui ce qu" il est? [¡Oh, oh! se parece mucho a un pirómano. Pregúntale quién es.] Añadió.
- ¿Quién eres tú? Preguntó el traductor. “Los patrones deben ser responsables”, dijo.
- Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [no te diré quién soy. Soy tu prisionera. Llévame,] - dijo de repente Pierre en francés.
- ¡Ah ah! - dijo el oficial, frunciendo el ceño. - ¡Marchons!
Una multitud se reunió alrededor de los lanceros. Lo más cercano a Pierre era una mujer picada de viruela con una niña; cuando comenzó el desvío, avanzó.
- ¿A dónde te lleva esto, querido muchacho? - ella dijo. - Niña entonces, niña entonces ¿dónde la pondré, si no es de ellos? - dijo la mujer.
- ¿Qu "est ce qu" elle veut cette femme? [¿Qué quiere ella?] Preguntó el oficial.
Pierre estaba borracho. Su entusiasmo se intensificó aún más al ver a la chica que había salvado.
"Ce qu" elle dit? ", Dijo." Elle m "apporte ma fille que je viens de sauver des flammes", dijo. - ¡Adiós! [¿Qué quiere ella? Lleva a mi hija, a la que salvé del fuego. ¡Adiós!] - y él, sin saber cómo se le había escapado esta mentira sin rumbo, caminó con paso decisivo y solemne entre los franceses.
La salida de los franceses fue una de las que fueron enviadas por orden de Duronel por varias calles de Moscú para reprimir los saqueos y, en particular, para atrapar a los pirómanos, que, según la opinión general, aparecieron ese día entre los altos franceses. -funcionarios de rango, fueron la causa de los incendios. Habiendo recorrido varias calles, la patrulla detuvo a cinco rusos sospechosos más, un comerciante, dos seminaristas, un campesino y un patio, y varios saqueadores. Pero de todas las personas sospechosas, Pierre parecía la más sospechosa de todas. Cuando todos fueron llevados a dormir en casa Grande en Zubovsky Val, en el que se estableció la caseta de vigilancia, luego se colocó a Pierre por separado bajo estricta vigilancia.

En San Petersburgo en ese momento, en los círculos más altos, con mayor fervor que nunca, hubo una lucha compleja entre los partidos de Rumyantsev, los franceses, Maria Feodorovna, el Tsarevich y otros, ahogada, como siempre, por el trompeta de zumbidos de la corte. Pero tranquila, lujosa, preocupada solo por fantasmas, reflejos de la vida, la vida de Petersburgo continuó como antes; y debido al curso de esta vida, hubo que hacer grandes esfuerzos para darse cuenta del peligro y la difícil situación en la que se encontraba el pueblo ruso. Había las mismas salidas, los mismos bailes, el mismo teatro francés, los mismos intereses de los patios, los mismos intereses de servicio e intriga. Sólo en los círculos más altos se han hecho esfuerzos para parecerse a la dificultad de la situación actual. Se contó en un susurro cómo ambas emperatrices actuaron frente a frente, en circunstancias tan difíciles. La emperatriz Maria Feodorovna, preocupada por el bienestar de las instituciones caritativas y educativas bajo su jurisdicción, ordenó enviar todas las instituciones a Kazán, y las cosas de estas instituciones ya estaban empacadas. La emperatriz Elizaveta Alekseevna, cuando se le preguntó qué órdenes le agradaba dar, con su característico patriotismo ruso, se dignó responder eso sobre agencias gubernamentales no puede dar órdenes, ya que esto concierne al soberano; Sobre lo mismo que personalmente depende de ella, se dignó decir que sería la última en salir de Petersburgo.

Se lanza un nuevo programa de maestría dedicado a la lingüística computacional en el Departamento de Filología de la Escuela Superior de Economía: aquí esperan solicitantes con una educación básica humanitaria y matemática y todos los que estén interesados ​​en resolver problemas en una de las ramas de la ciencia más prometedoras. . Su directora, Anastasia Bonch-Osmolovskaya, le dijo a Theories and Practices qué es la lingüística computacional, por qué los robots no reemplazarán a los humanos y qué enseñarán en el programa de maestría en lingüística computacional de HSE.

Este programa es casi el único de su tipo en Rusia. ¿Dónde estudiaste a ti mismo?

Estudié en la Universidad Estatal de Moscú en el Departamento de Lingüística Teórica y Aplicada de la Facultad de Filología. No llegué allí de inmediato, al principio ingresé al departamento de ruso, pero luego me interesé seriamente por la lingüística y me atrajo el ambiente que permanece en el departamento hasta el día de hoy. Lo mas importante que hay buen contacto entre profesores y alumnos y su interés mutuo.

Cuando nacieron mis hijos y tuve que ganarme la vida, entré en el campo de la lingüística comercial. En 2005, no estaba muy claro cuál era esta área de actividad como tal. Trabajé en varias firmas lingüísticas: comencé como una pequeña firma en el sitio web Public.ru; esta es una biblioteca de medios, donde comencé a trabajar con tecnologías lingüísticas. Luego trabajó durante un año en Rosnanotech, donde surgió la idea de hacer un portal analítico para que los datos en él se estructuraran automáticamente. Luego dirigí el departamento de lingüística de Avicomp; esta ya es una producción seria en el campo de la lingüística computacional y las tecnologías semánticas. Paralelamente, impartí un curso de lingüística computacional en la Universidad Estatal de Moscú y traté de hacerlo más moderno.

Dos recursos para un lingüista: - un sitio creado por lingüistas para la investigación científica y aplicada relacionada con el idioma ruso. Este es un modelo del idioma ruso, presentado utilizando una gran variedad de textos de diferentes géneros y períodos. Los textos cuentan con marcado lingüístico, con la ayuda del cual es posible obtener información sobre la frecuencia de determinados fenómenos lingüísticos. Vordnet es una enorme base léxica del idioma inglés, la idea principal de Vordnet es enlazar en una gran red, no palabras, sino sus significados. WordNet se puede descargar y utilizar para sus propios proyectos.

¿Qué hace la lingüística computacional?

Esta es el área más interdisciplinar. Lo más importante aquí es comprender lo que está sucediendo en el mundo electrónico y quién lo ayudará a hacer cosas específicas.

Estamos rodeados de una cantidad muy grande de información digital, hay muchos proyectos empresariales, el éxito de los cuales depende del procesamiento de la información, estos proyectos pueden relacionarse con el campo del marketing, la política, la economía y lo que sea. Y es muy importante poder manejar esta información de manera eficiente: lo principal no es solo la velocidad del procesamiento de la información, sino también la facilidad con la que puede, al filtrar el ruido, obtener los datos que necesita y crear un conjunto imagen de ella.

Anteriormente, algunas ideas globales estaban asociadas con la lingüística computacional, por ejemplo: la gente pensaba que la traducción automática reemplazaría a la traducción humana, los robots funcionarían en lugar de las personas. Pero ahora parece una utopía, y los motores de búsqueda utilizan la traducción automática para buscar rápidamente en un idioma desconocido. Es decir, ahora la lingüística rara vez se ocupa de tareas abstractas, sobre todo con algunas cosas pequeñas que se pueden insertar en un producto grande y ganar dinero con él.

Una de las grandes tareas de la lingüística moderna es la web semántica, cuando la búsqueda se realiza no solo por coincidencia de palabras, sino por significado, y todos los sitios están marcados de alguna manera por la semántica. Esto puede ser útil, por ejemplo, para informes policiales o médicos que se redactan todos los días. El análisis de las conexiones internas proporciona mucha información necesaria, y leerla y contarla manualmente es increíblemente larga.

En pocas palabras, tenemos mil textos, necesitamos ordenarlos en montones, presentar cada texto en forma de estructura y obtener una tabla con la que ya se puede trabajar. A esto se le llama procesar información no estructurada. Por otro lado, la lingüística computacional se ocupa, por ejemplo, de la creación de textos artificiales. Hay una empresa que ha ideado un mecanismo para generar textos sobre temas sobre los que una persona se aburre de escribir: cambios en el precio de las propiedades, previsiones meteorológicas, informes de partidos de fútbol. Es mucho más costoso pedir estos textos para una persona, además, los textos de computadora sobre tales temas están escritos en un lenguaje humano coherente.

Yandex participa activamente en desarrollos en el campo de la búsqueda de información no estructurada en Rusia, Kaspersky Lab está contratando grupos de investigación que estudian el aprendizaje automático. ¿Alguien en el mercado está tratando de encontrar algo nuevo en el campo de la lingüística computacional?

** Libros sobre lingüística computacional: **

Daniel Jurafsky, procesamiento del habla y el lenguaje

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, "Introducción a la recuperación de información"

Yakov Testelets, "Introducción a la sintaxis general"

La mayoría de los desarrollos lingüísticos son propietarios grandes compañias, casi nada se puede encontrar en el dominio público. Esto dificulta el desarrollo de la industria, no tenemos un mercado lingüístico libre, soluciones empaquetadas.

Además, hay una falta de recursos de información completos. Existe un proyecto como el Corpus Nacional de la Lengua Rusa. Este es uno de los mejores cuerpos nacionales del mundo, que se está desarrollando rápidamente y ofrece increíbles oportunidades para la investigación científica y aplicada. La diferencia es aproximadamente la misma que en biología: antes y después de la investigación del ADN.

Pero muchos recursos no existen en ruso. Por lo tanto, no existe un análogo de un recurso en inglés tan maravilloso como Framenet: es una red conceptual en la que se presentan formalmente todas las conexiones posibles de una palabra en particular con otras palabras. Por ejemplo, está la palabra "volar": quién puede volar, dónde, con qué preposición se usa esta palabra, con qué palabras se combina, etc. Este recurso ayuda a conectar el lenguaje con la vida real, es decir, a rastrear cómo se comporta una palabra específica a nivel de morfología y sintaxis. Es muy útil.

Avicomp está desarrollando actualmente un complemento para buscar artículos relacionados. Es decir, si está interesado en un artículo, puede ver rápidamente la historia de la trama: cuándo surgió el tema, qué se escribió y cuándo hubo un pico de interés en este problema. Por ejemplo, utilizando este complemento, será posible, a partir de un artículo sobre eventos en Siria, ver rápidamente cómo se han desarrollado los eventos allí durante el año pasado.

¿Cómo se estructurará el proceso de aprendizaje en el programa de maestría?

La educación en HSE se organiza en módulos separados, como en las universidades occidentales. Los estudiantes se dividirán en pequeños equipos, mini-startups, es decir, al final deberíamos recibir varios proyectos listos para usar. Queremos obtener productos reales, que luego abriremos a la gente y los dejaremos en el dominio público.

Además de los administradores directos de los proyectos de los estudiantes, queremos encontrarlos curadores entre sus posibles empleadores, del mismo "Yandex", por ejemplo, que también jugarán este juego y darán algunos consejos a los estudiantes.

Espero que personas de diversos campos vengan al programa de maestría: programadores, lingüistas, sociólogos, especialistas en marketing. Tendremos varios cursos de adaptación en lingüística, matemáticas y programación. Luego tendremos dos cursos serios en lingüística, y estarán relacionados con las teorías lingüísticas más relevantes, queremos que nuestros egresados ​​sean capaces de leer y comprender artículos lingüísticos modernos. Lo mismo ocurre con las matemáticas. Tendremos un curso llamado "Fundamentos matemáticos de la lingüística computacional", que describirá las secciones de las matemáticas en las que se basa la lingüística computacional moderna.

Para ingresar a la magistratura, debe aprobar examen de ingreso por idioma y aprobar el concurso de portafolios.

Además de los cursos principales, habrá asignaturas optativas, tenemos planificados varios ciclos, dos de ellos enfocados a un estudio más profundo de temas específicos, que incluyen, por ejemplo, traducción automática y lingüística de corpus y, por el contrario, , uno está relacionado con áreas relacionadas: tales como, redes sociales, Aprendizaje automático o humanidades digitales, un curso que esperamos se imparta en idioma en Inglés.

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: "Lingüística computacional"


INTRODUCCIÓN

2. Interfaces modernas de lingüística computacional

CONCLUSIÓN

LITERATURA


Introducción

Las tecnologías de la información automatizadas juegan un papel importante en la vida de la sociedad moderna. Con el paso del tiempo, su importancia aumenta constantemente. Pero desarrollo tecnologías de la información sucede de manera muy desigual: si el nivel moderno tecnología informática y los medios de comunicación golpean la imaginación, luego en el campo del procesamiento de información semántica, los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y de la capacidad de simular estos procesos en una computadora.

Cuando se trata de la creación de tecnologías de la información prometedoras, los problemas del procesamiento automático de la información textual presentada en lenguajes naturales pasan a primer plano. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta para pensar. También es un medio universal de comunicación entre personas, un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística computacional se ocupa de los problemas del uso del lenguaje natural en los sistemas de procesamiento automático de información. Esta ciencia surgió relativamente recientemente, a principios de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística computacional: sistemas para la traducción automática de textos de un lenguaje natural a otros, sistemas para la recuperación automatizada de información en textos, sistemas para el análisis automático y síntesis de textos orales. discurso, y muchos otros se han creado. este trabajo se dedica a la construcción de una interfaz informática óptima mediante la lingüística computacional al realizar una investigación lingüística.


1. Lugar y papel de la lingüística computacional en la investigación lingüística

V mundo moderno La lingüística computacional se utiliza cada vez más en diversos estudios lingüísticos.

La lingüística computacional es un campo de conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en un lenguaje natural. Los problemas científicos centrales de la lingüística computacional son el problema de modelar el proceso de comprensión del significado de los textos (la transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (la transición de una representación formalizada del significado a textos en lenguaje natural). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección automática y corrección de errores al ingresar textos en una computadora, análisis automático y síntesis del habla oral, traducción automática de textos de un idioma a otro, comunicación con computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir condicionalmente en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lenguaje y habla, textos y varias tablas gramaticales, la parte de procedimiento incluye herramientas para manipular unidades de lenguaje y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procedimental de la lingüística computacional.

El éxito en la resolución de problemas aplicados de lingüística computacional depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido de resolución de estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, EE.UU., Inglaterra, Francia, Alemania, Japón, etc. ).

No obstante, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Entonces, en varios países (Rusia, EE. UU., Japón, etc.), experimentos y sistemas industriales traducción automática de textos de un idioma a otro, se han construido varios sistemas experimentales para la comunicación con computadoras en un lenguaje natural, se está trabajando para crear bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, EE. UU., Alemania, Francia, etc.), se están construyendo sistemas automáticos de análisis y síntesis del habla oral (Rusia, EE. UU., Japón, etc.), se está investigando en el campo de la construcción de modelos de lenguajes naturales.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procedimentales de los sistemas para el procesamiento automático de información textual. ¿A cuál dar preferencia: poderosos procedimientos computacionales basados ​​en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un poderoso componente declarativo con interfaces de computadora relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Rápidamente conducirá al logro de objetivos prácticos, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a una escala más amplia para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, en el desarrollo del componente declarativo de los sistemas para el procesamiento automático de información textual, se ve confirmada por medio siglo de experiencia en el desarrollo de la lingüística computacional. De hecho, aquí, a pesar de los indiscutibles éxitos de esta ciencia, el entusiasmo por los procedimientos algorítmicos no trajo el éxito esperado. Incluso hubo cierta decepción en las posibilidades de los medios de procedimiento.

A la luz de lo anterior, tal forma de desarrollo de la lingüística computacional parece prometedora, cuando los principales esfuerzos se dirigirán a la creación de poderosos diccionarios de unidades de lenguaje y habla, el estudio de su estructura semántico-sintáctica y la creación de procedimientos de análisis y síntesis morfológico, semántico-sintáctico y conceptual de textos. Esto permitirá en el futuro resolver una amplia gama de problemas aplicados.

La lingüística computacional se enfrenta, en primer lugar, a las tareas de soporte lingüístico de los procesos de recolección, acumulación, procesamiento y recuperación de información. Los más importantes son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Apoyo lingüístico de los procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación de los usuarios con sistemas de información inteligentes automatizados (en particular, con sistemas expertos) en un lenguaje natural, o en un lenguaje cercano al natural;

8. Extracción de información fáctica de textos no formalizados.

Detengámonos en detalle sobre los problemas más relacionados con el tema de investigación.

En las actividades prácticas de los centros de información, existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de ortografía, control sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico utilizando un diccionario de máquina de referencia suficientemente potente de raíces de palabras. En el proceso de control ortográfico, las palabras del texto se someten a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no están identificados, entonces, acompañados de un microcontexto, se emiten para que los vea una persona. Una persona detecta y corrige palabras distorsionadas, y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de su control ortográfico. En primer lugar, porque incluye en su composición y la tarea del control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos no formalizados aún no está totalmente resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios de máquina suficientemente representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar un sistema complejo de reglas para verificar la consistencia gramatical de los elementos del texto. La primera forma nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical para palabras).

La tarea de control semántico de textos con el fin de detectar errores semánticos en ellos debe atribuirse a la clase de tareas de inteligencia artificial. En su totalidad, solo se puede resolver sobre la base de modelar los procesos del pensamiento humano. En este caso, aparentemente, será necesario crear poderosas bases de conocimiento enciclopédicas y herramientas de software para manipular el conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es bastante solucionable. Debe plantearse y resolverse como una tarea de control semántico y sintáctico de los textos.

El problema de automatizar la indexación de documentos y consultas es tradicional para los sistemas de búsqueda automatizada de información de texto. En un principio, la indexación se entendió como el proceso de asignar índices de clasificación a documentos y consultas que reflejen su contenido temático. Posteriormente este concepto se transformó y el término "indexación" comenzó a denominarse al proceso de traducción de descripciones de documentos y consultas de un lenguaje natural a uno formalizado, en particular, al lenguaje de "imágenes de búsqueda". Las imágenes de búsqueda de documentos comenzaban, por regla general, en forma de listas de palabras clave y frases que reflejaban su contenido temático, y las imágenes de búsqueda de consultas, en forma de estructuras lógicas en las que las palabras clave y frases estaban conectadas entre sí de forma lógica y sintáctica. operadores.

Es conveniente realizar la indexación automática de documentos de acuerdo con los textos de sus resúmenes (si los hubiera), ya que el contenido principal de los documentos se refleja en los resúmenes de forma concentrada. La indexación se puede realizar con o sin control de tesauro. En el primer caso, en el texto del título del documento y su resumen, se buscan palabras clave y frases del diccionario de máquina de referencia, y solo se incluyen en el POD aquellas que se encuentran en el diccionario. En el segundo caso, las palabras clave y frases se separan del texto y se incluyen en el POD independientemente de su pertenencia a cualquier diccionario de referencia. También se implementó una tercera versión, donde, junto con los términos del tesauro de la máquina, el POD también incluyó los términos extraídos del título y la primera oración del resumen del documento. Los experimentos han demostrado que los POD compilados en modo automático basados ​​en títulos y resúmenes de documentos proporcionan una búsqueda más completa que los POD compilados a mano. Esto se explica por el hecho de que el sistema de indexación automática refleja de forma más completa varios aspectos del contenido de los documentos que el sistema de indexación manual.

Los problemas encontrados con la indexación automática de consultas son similares a los de la indexación automática de documentos. Aquí también debe extraer palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Los vínculos lógicos entre palabras clave y frases y operadores contextuales se pueden ingresar manualmente o mediante un procedimiento automatizado. Un elemento importante del proceso de indexación automática de una consulta es la adición de sus palabras clave y frases constitutivas con sus sinónimos e hipónimos (a veces también hiperónimos y otros términos asociados con los términos de la consulta original). Esto se puede hacer de forma automática o interactiva utilizando un diccionario de sinónimos de la máquina.

Ya hemos considerado parcialmente el problema de la automatización de la búsqueda de información documental en relación con el problema de la indexación automática. Lo más prometedor aquí es la búsqueda de documentos por su texto completo, ya que el uso para este fin de todo tipo de sustitutos (descripciones bibliográficas, imágenes de búsqueda de documentos y textos de sus resúmenes) conlleva la pérdida de información durante la búsqueda. Las mayores pérdidas ocurren cuando sus descripciones bibliográficas se utilizan como sustitutos de documentos primarios, las menores cuando se utilizan resúmenes.

Las características importantes de la calidad de la recuperación de información son su integridad y precisión. La integridad de la búsqueda puede garantizarse teniendo en cuenta al máximo las conexiones paradigmáticas entre las unidades del lenguaje y el habla (palabras y frases), y la precisión, teniendo en cuenta sus relaciones sintagmáticas. Existe la opinión de que la exhaustividad y la precisión de la búsqueda están inversamente relacionadas: las medidas para mejorar una de estas características conducen al deterioro de la otra. Pero esto solo es cierto para la lógica de búsqueda fija. Si se mejora esta lógica, ambas características se pueden mejorar al mismo tiempo.

Es aconsejable construir el proceso de búsqueda de información en bases de datos de texto completo como un proceso de diálogo entre el usuario y el sistema de recuperación de información (ISS), en el que revisa secuencialmente los fragmentos de textos (párrafos, párrafos) que satisfacen las condiciones lógicas de la consulta, y selecciona aquellas que para él son de su interés. Como resultado final de la búsqueda, se pueden devolver tanto los textos completos de los documentos como cualquiera de sus fragmentos.

Como se desprende del razonamiento anterior, en la búsqueda automática de información hay que superar la barrera del idioma que surge entre el usuario y el Servicio de Impuestos Internos en relación con la variedad de formas de presentación del mismo significado en los textos. Esta barrera se vuelve aún más significativa si las búsquedas deben realizarse en bases de datos multilingües. Una solución fundamental al problema aquí puede ser la traducción automática de textos de documentos de un idioma a otro. Esto se puede hacer por adelantado, antes de cargar documentos en un motor de búsqueda, o en el proceso de búsqueda de información. En este último caso, la consulta del usuario debe traducirse al idioma del conjunto de documentos en los que se realiza la búsqueda, y los resultados de la búsqueda deben traducirse al idioma de la consulta. Los motores de búsqueda de este tipo ya operan en Internet. El sistema Cyrillic Browser también se construyó en VINITI RAS, que le permite buscar información en textos en ruso mediante consultas en inglés con la emisión de resultados de búsqueda también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística computacional es la construcción de procesadores lingüísticos que faciliten la comunicación entre los usuarios y los sistemas de información automatizados inteligentes (en particular, con sistemas expertos) en un lenguaje natural o en un lenguaje cercano al natural. Dado que la información se almacena de forma formalizada en los sistemas inteligentes modernos, los procesadores lingüísticos, actuando como intermediarios entre una persona y una computadora, deben resolver las siguientes tareas principales: 1) el problema de la transición de los textos de las solicitudes de información de entrada y los mensajes en formato natural. lenguaje a la representación de su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) la tarea de transición de una representación formalizada del significado de los mensajes de salida a su representación en lenguaje natural (al dar información a una persona). La primera tarea debe resolverse mediante el análisis morfológico, sintáctico y conceptual de las solicitudes de entrada y los mensajes, la segunda, mediante la síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

El análisis conceptual de las solicitudes de información y los mensajes consiste en identificar su estructura conceptual (límites de nombres de conceptos y relaciones entre conceptos en el texto) y traducir esta estructura a un lenguaje formalizado. Se lleva a cabo tras el análisis morfológico y sintáctico de solicitudes y mensajes. La síntesis conceptual de los mensajes consiste en la transición de la representación de los elementos de su estructura en un lenguaje formalizado a una representación verbal (verbal). Posteriormente, a los mensajes se les da el diseño sintáctico y morfológico necesario.

Para la traducción automática de textos de un lenguaje natural a otro, es necesario contar con diccionarios de correspondencias de traducción entre los nombres de los conceptos. El conocimiento sobre tales correspondencias traduccionales fue acumulado por muchas generaciones de personas y se formalizó en forma de ediciones especiales: diccionarios bilingües o multilingües. Para los especialistas que hablan idiomas extranjeros en un grado u otro, estos diccionarios sirvieron como herramientas valiosas para traducir textos.

En los diccionarios tradicionales bilingües y multilingües de uso general, los equivalentes de traducción se indicaban principalmente para palabras individuales, para combinaciones de palabras, con mucha menos frecuencia. La indicación de equivalentes de traducción para combinaciones de palabras era más típica para diccionarios terminológicos especiales. Por lo tanto, al traducir segmentos de textos que contienen palabras polisemánticas, los estudiantes a menudo tienen dificultades.

A continuación se encuentran las correspondencias traducidas entre varios pares de frases en inglés y ruso sobre el tema "escuela".

1) El murciélago parece un ratón con alas: el murciélago parece un ratón con alas.

2) A los niños les gusta jugar en la arena de la playa - A los niños les encanta jugar en la arena de la playa.

3) Una gota de lluvia cayó sobre mi mano - Una gota de lluvia cayó sobre mi mano.

4) La madera seca se quema fácilmente; la madera seca se quema bien.

5) Fingió no escucharme - Fingió no escucharme.

Aquí frases en ingles no son expresiones idiomáticas. Sin embargo, su traducción al ruso solo puede verse con cierta extensión como una simple traducción palabra por palabra, ya que casi todas las palabras incluidas en ellas son polisemánticas. Por lo tanto, aquí los estudiantes solo pueden ser ayudados por los logros de la lingüística computacional.