La lingüística computacional como disciplina lingüística aplicada. Ligüística computacional

El término "lingüística computacional" generalmente se refiere a una amplia área de uso de herramientas informáticas (programas, tecnologías informáticas para organizar y procesar datos) para modelar el funcionamiento del lenguaje en determinadas condiciones, situaciones, áreas problemáticas, así como el alcance de Aplicación de modelos informáticos del lenguaje no sólo en lingüística, sino también en disciplinas afines. En realidad, sólo en este último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático del lenguaje también puede considerarse como un campo de aplicación de la teoría informática en el campo de la lingüística. Sin embargo, la práctica general es que el campo de la lingüística computacional cubre casi todo lo relacionado con el uso de computadoras en lingüística: “El término “lingüística computacional” establece una orientación general hacia el uso de computadoras para resolver una variedad de problemas científicos y prácticos relacionados al lenguaje, sin limitar las formas de resolver estos problemas."

Aspecto institucional de la lingüística computacional.. La lingüística computacional se constituyó como un campo científico especial en los años 60. El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista " Ligüística computacional"Una gran cantidad de trabajo organizativo y científico lo lleva a cabo la Asociación de Lingüística Computacional, que tiene estructuras regionales en todo el mundo (en particular, una sucursal europea). Cada dos años se celebran conferencias internacionales sobre lingüística computacional - COLING. Relevante Estos temas también están ampliamente representados en conferencias internacionales sobre inteligencia artificial de diferentes niveles.

Herramientas cognitivas para la lingüística computacional.

La lingüística computacional como disciplina aplicada especial se distingue principalmente por su instrumento, es decir, por su uso. herramientas informáticas Procesamiento de datos lingüísticos. Porque el programas de computador, que modelan ciertos aspectos del funcionamiento de un lenguaje pueden utilizar una variedad de herramientas de programación, parece que no es necesario hablar de un metalenguaje general. Sin embargo, no lo es. Existen principios generales del modelado informático del pensamiento, que de alguna manera se implementan en cualquier modelo informático. Este lenguaje se basa en la teoría del conocimiento desarrollada en inteligencia artificial y formando una rama importante de la ciencia cognitiva.

La tesis principal de la teoría del conocimiento afirma que pensar es el proceso de procesar y generar conocimiento. “Conocimiento” o “conocimiento” se considera una categoría indefinible. El sistema cognitivo humano actúa como un "procesador" que procesa el conocimiento. En epistemología y ciencia cognitiva, se distinguen dos tipos principales de conocimiento: declarativo ("saber qué") y procedimental ("saber cómo"2)). El conocimiento declarativo suele presentarse en forma de un conjunto de proposiciones, afirmaciones sobre algo. Un ejemplo típico de conocimiento declarativo puede considerarse la interpretación de palabras en diccionarios explicativos ordinarios. Por ejemplo, una taza] - “un pequeño recipiente para beber de forma redonda, generalmente con asa, hecho de porcelana, loza, etc.” El conocimiento declarativo es susceptible de procedimiento de verificación en términos de “verdadero-falso”. El conocimiento procesal se presenta como una secuencia (lista) de operaciones, acciones que deben realizarse. Estas son algunas instrucciones generales sobre acciones en alguna situación. Un ejemplo típico de conocimiento de procedimientos son las instrucciones para el uso de electrodomésticos.

A diferencia del conocimiento declarativo, el conocimiento procedimental no puede verificarse como verdadero o falso. Sólo pueden evaluarse por el éxito o el fracaso del algoritmo.

La mayoría de los conceptos de las herramientas cognitivas de la lingüística computacional son homónimos: designan simultáneamente algunas entidades reales del sistema cognitivo humano y formas de representar estas entidades en ciertos metalenguajes. En otras palabras, los elementos del metalenguaje tienen un aspecto ontológico e instrumental. Ontológicamente, la división del conocimiento declarativo y procedimental corresponde varios tipos conocimiento del sistema cognitivo humano. Por lo tanto, el conocimiento sobre objetos específicos, los objetos de la realidad, es predominantemente declarativo, y las habilidades funcionales de una persona para caminar, correr y conducir un automóvil se realizan en el sistema cognitivo como conocimiento procedimental. Instrumentalmente, el conocimiento (tanto ontológicamente procedimental como declarativo) puede representarse como un conjunto de descripciones, descripciones y como un algoritmo o instrucción. En otras palabras, el conocimiento ontológicamente declarativo sobre el objeto de la realidad “mesa” puede representarse procedimentalmente como un conjunto de instrucciones, algoritmos para su creación, ensamblaje (= aspecto creativo del conocimiento procedimental) o como un algoritmo para su uso típico (= funcional). aspecto del conocimiento procesal). En el primer caso, podría ser una guía para un carpintero novato, y en el segundo, una descripción de las capacidades de un escritorio de oficina. Lo contrario también es cierto: el conocimiento ontológico procedimental puede representarse declarativamente.

Se requiere una discusión separada sobre si algún conocimiento ontológicamente declarativo puede representarse como procedimental y si cualquier conocimiento ontológicamente procedimental puede representarse como declarativo. Los investigadores coinciden en que cualquier conocimiento declarativo puede, en principio, representarse procedimentalmente, aunque esto puede resultar un gran desperdicio para el sistema cognitivo. Es poco probable que ocurra lo contrario. El hecho es que el conocimiento declarativo es mucho más explícito, es más fácil de entender para una persona que el conocimiento procedimental. A diferencia del conocimiento declarativo, el conocimiento procedimental es predominantemente implícito. Por tanto, la capacidad lingüística, al ser conocimiento procedimental, está oculta a la persona y no la realiza. Un intento de explicar los mecanismos del funcionamiento del lenguaje conduce a una disfunción. Los especialistas en el campo de la semántica léxica saben, por ejemplo, que la introspección semántica a largo plazo, necesaria para estudiar el contenido de una palabra, lleva al investigador a perder parcialmente la capacidad de distinguir entre los usos correctos e incorrectos de la palabra analizada. Se pueden dar otros ejemplos. Se sabe que desde el punto de vista de la mecánica, el cuerpo humano es un sistema complejo de dos péndulos que interactúan.

En la teoría del conocimiento, se utilizan diversas estructuras de conocimiento para estudiar y representar el conocimiento: marcos, escenarios, planes. Según M. Minsky, “un marco es una estructura de datos diseñada para representar una situación estereotipada” [Minsky 1978, p.254]. Con más detalle, podemos decir que un marco es una estructura conceptual para la representación declarativa del conocimiento sobre una situación temáticamente unificada tipificada que contiene espacios interconectados por ciertas relaciones semánticas. Para mayor claridad, un marco a menudo se representa como una mesa, cuyas filas forman ranuras. Cada espacio tiene su propio nombre y contenido (ver Tabla 1).

tabla 1

Fragmento del marco "tabla" en una vista de tabla

Dependiendo de la tarea específica, la estructuración del marco puede ser mucho más compleja; un marco puede contener subtramas anidadas y referencias a otros marcos.

En lugar de una tabla, a menudo se utiliza una forma de representación predicada. En este caso, el marco tiene la forma de un predicado o una función con argumentos. Hay otras formas de representar un marco. Por ejemplo, se puede representar como una tupla de la siguiente forma: ((nombre del marco) (nombre de la ranura)) (valor de la ranura,),..., (nombre de la ranura n) (valor de la ranura l)).

Normalmente, los marcos en los lenguajes de representación del conocimiento tienen este tipo.

Como otras categorías cognitivas de la lingüística computacional, el concepto de marco es homónimo. Ontológicamente, es parte del sistema cognitivo humano y, en este sentido, el marco puede compararse con conceptos como gestalt, prototipo, estereotipo, esquema. En psicología cognitiva, estas categorías se consideran desde un punto de vista ontológico. Así, D. Norman distingue dos formas principales de existencia y organización del conocimiento en el sistema cognitivo humano: redes semánticas y esquemas. "Los esquemas", escribe, "son paquetes organizados de conocimiento reunidos para representar unidades de conocimiento individuales e independientes. Mi esquema para Sam podría contener información que describa sus características físicas, sus actividades y rasgos de personalidad. Este esquema se relaciona con otros esquemas que describen sus otros lados" [Norman 1998, p. 359]. Si tomamos el lado instrumental de la categoría marco, entonces se trata de una estructura para la representación declarativa del conocimiento. En los sistemas de IA existentes, los marcos pueden formar estructuras de conocimiento complejas; Los sistemas de marcos permiten la jerarquía: un marco puede ser parte de otro marco.

En contenido, el concepto de marco está muy cerca de la categoría de interpretación. De hecho, una ranura es un análogo de la valencia, llenar una ranura es un análogo de un actante. La principal diferencia entre ellos es que la interpretación contiene solo información lingüísticamente relevante sobre el contenido de la palabra y el marco, en primer lugar, no está necesariamente ligado a la palabra y, en segundo lugar, incluye toda la información relevante para una situación problemática determinada, incluida incluido el extralingüístico (conocimiento sobre el mundo) 3).

Un guión es una estructura conceptual para la representación procedimental del conocimiento sobre una situación estereotipada o un comportamiento estereotipado. Los elementos de un script son los pasos de un algoritmo o instrucciones. Se suele hablar de “escenario de visita a restaurante”, “escenario de compra”, etc.

Inicialmente, el marco también se utilizaba para la representación procesal (cf. el término "marco procesal"), pero ahora el término "guión" se utiliza con mayor frecuencia en este sentido. Un escenario se puede representar no solo como un algoritmo, sino también como una red, cuyos vértices corresponden a determinadas situaciones y los arcos corresponden a conexiones entre situaciones. Junto con el concepto de guión, algunos investigadores utilizan la categoría de guión para el modelado informático de la inteligencia. Según R. Schenk, un guión es una secuencia de relaciones causales conocida y generalmente aceptada. Por ejemplo, entender el diálogo.

Afuera llueve a cántaros.

Todavía tendrás que ir a la tienda: no hay nada para comer en la casa, ayer los invitados se lo llevaron todo.

se basa en conexiones semánticas no explícitas como “si llueve, no es conveniente salir porque te puedes enfermar”. Estas conexiones forman un guión que los hablantes nativos utilizan para comprender el comportamiento de habla y no habla de cada uno.

Como resultado de aplicar el escenario a una situación problemática específica, plan). Un plan se utiliza para representar procedimentalmente el conocimiento sobre posibles acciones que conducen al logro de un objetivo específico. Un plan relaciona una meta con una secuencia de acciones.

En general, un plan incluye una secuencia de procedimientos que transforman el estado inicial del sistema en el estado final y conducen al logro de una determinada submeta y meta. En los sistemas de IA, un plan surge como resultado de la actividad de planificación o planificación del módulo correspondiente: el módulo de planificación. El proceso de planificación puede basarse en la adaptación de datos de uno o más escenarios, activados mediante procedimientos de prueba, para resolver una situación problemática. El plan es ejecutado por el módulo ejecutivo, que controla los procedimientos cognitivos y las acciones físicas del sistema. En el caso elemental, un plan en un sistema inteligente es una secuencia simple de operaciones; en versiones más complejas, el plan está asociado a un tema específico, sus recursos, capacidades, objetivos, información detallada sobre una situación problemática, etc. El surgimiento de un plan se produce en el proceso de comunicación entre el modelo mundial, parte del cual está formado por escenarios, el módulo de planificación y el módulo ejecutivo.

A diferencia de un guión, un plan está asociado con una situación específica, un intérprete específico y tiene como objetivo lograr un objetivo específico. La elección del plan se rige por los recursos del contratista. La viabilidad de un plan es un requisito previo para su generación en un sistema cognitivo, y la característica de viabilidad no es aplicable a un escenario.

Otro concepto importante es el modelo del mundo. Un modelo del mundo suele entenderse como un conjunto en cierta forma conocimiento organizado sobre el mundo inherente a un sistema cognitivo o su modelo informático. Un poco más vista general Se habla de un modelo del mundo como parte de un sistema cognitivo que almacena conocimientos sobre la estructura del mundo, sus patrones, etc. En otra comprensión, un modelo del mundo se asocia con los resultados de la comprensión de un texto o, más ampliamente, del discurso. En el proceso de comprensión del discurso se construye su modelo mental, que es el resultado de la interacción del plan de contenidos del texto y el conocimiento sobre el mundo característico de un tema determinado (Johnson-Laird 1988, p. 237 y siguientes). Los conceptos primero y segundo a menudo se combinan. Esto es típico de los investigadores lingüísticos que trabajan en lingüística cognitiva y ciencia cognitiva.

Estrechamente relacionado con la categoría de fotograma está el concepto de escena. La categoría de escena se utiliza predominantemente en la literatura como designación de una estructura conceptual para la representación declarativa de lo actualizado y resaltado. lenguaje significa(lexemas, construcciones sintácticas, categorías gramaticales, etc.) situaciones y sus partes5). Al estar asociada con formas lingüísticas, una escena a menudo se actualiza con una determinada palabra o expresión. En las gramáticas de la trama (ver más abajo), una escena aparece como parte de un episodio o narrativa. Ejemplos típicos de escenas son un conjunto de cubos con los que trabaja el sistema de IA, la ubicación de la acción en la historia y los participantes en la acción, etc. En inteligencia artificial, las escenas se utilizan en sistemas de reconocimiento de imágenes, así como en programas enfocados al estudio (análisis, descripción) de situaciones problemáticas. El concepto de escena se ha generalizado en la lingüística teórica, así como en la lógica, en particular en la semántica situacional, en la que el significado de una unidad léxica está directamente asociado con la escena.

Desde 2012, el Instituto de Lingüística de la Universidad Estatal de Humanidades de Rusia forma maestros en el programa de maestría. Ligüística computacional(dirección Lingüística fundamental y aplicada). Este programa está diseñado para preparar profesionales. lingüistas que dominan los conceptos básicos de la lingüística y métodos modernos Trabajo de investigación, análisis experto, ingeniería y capaz de participar eficazmente en el desarrollo de tecnologías informáticas lingüísticas innovadoras.

En el proceso educativo participan los desarrolladores de importantes proyectos de investigación y desarrollo. sistemas comerciales en el campo del procesamiento automático de textos, lo que garantiza la conexión de la formación de maestría con la corriente principal de la lingüística informática moderna. Atención especial Se paga por la participación de los maestros en conferencias rusas e internacionales.

Entre los profesores se encuentran autores de libros de texto básicos sobre especialidades lingüísticas, especialistas de talla mundial, directores de proyectos de grandes sistemas automáticos de procesamiento del lenguaje: Ya.G. Testelets, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov, así como empleados de empresas líderes mundiales en el campo de la lingüística computacional: IBM (sistema Watson), Yandex, ABBYY (sistemas Lingvo, FineReader, Compreno).

La base para la formación de maestros en este programa es el enfoque de proyectos. La participación de los estudiantes de maestría en trabajos de investigación en el campo de la lingüística computacional se realiza sobre la base de la Universidad Estatal Rusa de Humanidades y sobre la base de empresas que desarrollan programas en el campo de AOT (ABBYY, IBM, etc.), que Por supuesto, es una gran ventaja tanto para los propios maestros como para sus posibles empleadores. En particular, en el programa de maestría se admiten maestros específicos, cuya formación es proporcionada por futuros empleadores.

Pruebas de ingreso: "Modelos y métodos formales de la lingüística moderna". Se puede obtener información precisa sobre el momento del examen en el sitio web del Departamento de Maestría de la Universidad Estatal de Humanidades de Rusia.

Jefes de magistratura - jefe. Centro Educativo y Científico de Lingüística Computacional, Director de Investigación Lingüística de ABBYY Vladimir Pavlovich Selegey y Doctor en Filología, Profesor Vera Isaakovna Podleskaya .

Programa del examen de ingreso y entrevista para la disciplina “Modelos y métodos formales de la lingüística moderna”.

Comentarios sobre el programa.

  • Cualquier pregunta del programa puede ir acompañada de tareas relacionadas con descripciones de fenómenos lingüísticos específicos relacionados con la sección de la pregunta: construcción de estructuras, descripción de restricciones, posibles algoritmos de construcción y/o identificación.
  • Las preguntas marcadas con asteriscos son opcionales (aparecen bajo el número 3 de los billetes). El conocimiento del material relevante es una ventaja importante para los candidatos, pero no es obligatorio.
  • Además de las preguntas teóricas, los boletos de examen ofrecerán un pequeño fragmento de un texto especial (lingüístico) en inglés para traducción y discusión. Los solicitantes deben demostrar un nivel satisfactorio de competencia en terminología científica en inglés y habilidades de análisis de textos científicos. Como ejemplo de un texto que no debería causar serias dificultades al solicitante, a continuación se muestra un fragmento del artículo https://en.wikipedia.org/wiki/Anaphora_(linguistics):

En lingüística, anáfora (/əˈnæfərə/) es el uso de una expresión cuya interpretación depende de otra expresión en contexto (su antecedente o poscedente). En un sentido más estricto, anáfora es el uso de una expresión que depende específicamente de una expresión antecedente y, por tanto, se contrasta con la catáfora, que es el uso de una expresión que depende de una expresión poscedente. El término anafórico (de referencia) se llama anáfora. Por ejemplo, en la oración Sally llegó, pero nadie la vio, el pronombre ella es una anáfora y se refiere al antecedente Sally. En la oración Antes de su llegada, nadie vio a Sally, el pronombre ella se refiere a la Sally poscedente, por lo que ella ahora es una catáfora (y una anáfora en el sentido más amplio, pero no en el más estricto). Por lo general, una expresión anafórica es una proforma o algún otro tipo de expresión deíctica (dependiente del contexto). Tanto la anáfora como la catáfora son especies de endófora y se refieren a algo mencionado en otra parte de un diálogo o texto.

La anáfora es un concepto importante por diferentes razones y en diferentes niveles: primero, la anáfora indica cómo se construye y mantiene el discurso; en segundo lugar, la anáfora une diferentes elementos sintácticos al nivel de la oración; tercero, la anáfora presenta un desafío para el procesamiento del lenguaje natural en lingüística computacional, ya que la identificación de la referencia puede resultar difícil; y cuarto, la anáfora dice algunas cosas sobre cómo se entiende y procesa el lenguaje, lo cual es relevante para los campos de la lingüística interesados ​​en la psicología cognitiva.

CUESTIONES TEÓRICAS

CUESTIONES GENERALES DE LINGÜÍSTICA

  • Objeto de la lingüística. Lenguaje y habla. Sincronía y diacronía.
  • Niveles de lenguaje. Modelos formales de niveles lingüísticos.
  • Sintagmática y paradigmática. El concepto de distribución.
  • Fundamentos de las comparaciones interlingüísticas: lingüística tipológica, genealógica y areal.
  • *Lingüística matemática: objeto y métodos de investigación.

FONÉTICA

  • Materia de fonética. Fonética articulatoria y acústica.
  • Fonética segmentaria y suprasegmental. Prosodia y entonación.
  • Conceptos básicos de fonología. Tipología de sistemas fonológicos y sus implementaciones fonéticas.
  • *Herramientas informáticas y métodos de investigación fonética.
  • *Análisis y síntesis del discurso.

MORFOLOGÍA

  • Tema de morfología. Morfos, morfemas, alomorfos.
  • Inflexión y formación de palabras.
  • Significados gramaticales y formas de implementarlos. Categorías gramaticales y gramamas. Significados gramaticales morfológicos y sintácticos.
  • Los conceptos de forma de palabra, raíz, lema y paradigma.
  • Partes de la oración; Enfoques básicos para identificar partes del discurso.
  • *Modelos formales para describir la inflexión y formación de palabras.
  • *Morfología en tareas de procesamiento automático del lenguaje: revisión ortográfica, lematización, POS-tagging

SINTAXIS

  • Tema de sintaxis. Modos de expresar relaciones sintácticas.
  • Formas de representar la estructura sintáctica de una oración. Ventajas y desventajas de los árboles y componentes de dependencia.
  • Formas de describir el orden lineal. Falta de proyectividad y rotura de componentes. El concepto de transformación; transformaciones asociadas con el orden lineal.
  • La relación entre sintaxis y semántica: valencias, modelos de control, actantes y circonstantes.
  • Diátesis y colaterales. Derivación del actante.
  • Organización comunicativa del enunciado. Tema y rema, dado y nuevo, contraste.
  • *Principales teorías sintácticas: MST, generativismo, gramática funcional, HPSG
  • *Modelos matemáticos de sintaxis: clasificación de lenguajes formales según Chomsky, algoritmos de reconocimiento y su complejidad.

SEMÁNTICA

  • Tema de semántica. Imágenes lingüísticas ingenuas y científicas del mundo. Hipótesis de Sapir-Whorf.
  • El significado en el lenguaje y el habla: significado y referente. Tipo de referencia (estado denotativo).
  • Semántica léxica. Formas de describir la semántica de una palabra.
  • Semántica gramatical. Categorías principales utilizando el ejemplo del idioma ruso.
  • Semántica de la oración. Componente proposicional. Deixis y anáfora. Cuantificadores y conectivos. Modalidad.
  • Jerarquía y sistematicidad de significados léxicos. Polisemia y homonimia. Estructura semántica de una palabra polisemántica. Los conceptos de invariante y prototipo.
  • Relaciones paradigmáticas y sintagmáticas en el vocabulario. Funciones léxicas.
  • Interpretación. Lengua de interpretación. Escuela Semántica de Moscú
  • Semántica y lógica. El valor de verdad del enunciado.
  • Teoría de los actos de habla. El enunciado y su fuerza ilocutiva. Performativos. Clasificación de actos de habla.
  • Fraseología: inventario y métodos de descripción de unidades fraseológicas.
  • *Modelos y métodos de semántica formal.
  • *Modelos de semántica en la lingüística computacional moderna.
  • *Semántica distributiva y operativa.
  • *Ideas básicas de gramática de la construcción.

TIPOLOGÍA

  • Clasificaciones tipológicas tradicionales de las lenguas.
  • Tipología de categorías gramaticales de sustantivo y verbo.
  • Tipología oración simple. Los principales tipos de construcciones: acusativo, ergativo, activo.
  • Tipología del orden de las palabras y correlaciones de Greenberg. Lenguajes de ramificación izquierda y derecha.

LEXICOGRAFÍA

  • El vocabulario como inventario de la cultura; variación social del vocabulario, uso léxico, norma, codificación.
  • Tipología de diccionarios (sobre material ruso). Reflexión de vocabulario en diccionarios de diversos tipos.
  • Lexicografía bilingüe utilizando la lengua rusa.
  • Lexicografía descriptiva y prescriptiva. Diccionarios lingüísticos profesionales.
  • Detalles de los principales rusos. diccionarios explicativos. Estructura de una entrada de diccionario. Interpretación e información enciclopédica.
  • Vocabulario y gramática. La idea de un modelo integral de lenguaje en la Escuela Semántica de Moscú.
  • *Metodología de un lexicógrafo.
  • *Métodos de corpus en lexicografía.

LINGÜÍSTICA DEL TEXTO Y DEL DISCURSO

  • El concepto de texto y discurso.
  • Mecanismos de comunicación entre frases. Los principales tipos de medios de su implementación lingüística.
  • La oración como unidad del lenguaje y como elemento del texto.
  • Unidades superfrasales, principios de su formación y aislamiento, propiedades básicas.
  • Principales categorías de clasificación de textos (género, estilo, registro, área temática, etc.)
  • *Métodos de clasificación automática de géneros.

SOCIOLINGÜÍSTICA

  • El problema de la asignatura y los límites de la sociolingüística, su carácter interdisciplinar. Conceptos básicos de sociología y demografía. Niveles de estructura lingüística y sociolingüística. Conceptos básicos y direcciones de la sociolingüística.
  • Contactos lingüísticos. Bilingüismo y diglosia. Procesos divergentes y convergentes en la historia del lenguaje.
  • Diferenciación social del lenguaje. Formas de existencia del lenguaje. Lenguaje literario: uso-norma-codificación. Áreas funcionales del lenguaje.
  • Socialización del lenguaje. La naturaleza jerárquica de la identidad social y lingüística. El comportamiento lingüístico de un individuo y su repertorio comunicativo.
  • Métodos de investigación sociolingüística.

LINGÜÍSTICA INFORMÁTICA

  • Tareas y métodos de la lingüística computacional.
  • Lenguaje del cuerpo. Principales características del caso.
  • Representación del conocimiento. Ideas básicas de la teoría de marcos de M. Minsky. Sistema Framenet.
  • Tesauros y ontologías. WordNet.
  • Fundamentos del análisis estadístico de textos. Diccionarios de frecuencias. Análisis de colocación.
  • *El concepto de aprendizaje automático.

LITERATURA

Educativo (nivel básico)

Baranov A.N. Introducción a la Lingüística Aplicada. M.: Editorial URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Conceptos básicos de fraseología ( curso corto) Tutorial. 2da edición. Moscú: Flintá, 2014.

Belikov V.A., Krysin L.P. Sociolingüística. M., Universidad Estatal Rusa de Humanidades, 2001.

Burlak S.A., Starostin S.A. Lingüística histórica comparada. M.: Academia. 2005

Vakhtin N.B., Golovko E.V.. Sociolingüística y sociología del lenguaje. San Petersburgo, 2004.

Knyazev S.V., Pozharitskaya S.K. Lengua literaria rusa moderna: fonética, gráfica, ortografía, ortografía. 2da ed. M., 2010

Kobozeva I.M. Semántica lingüística. M.: Editorial URSS. 2004.

Kodzasov S.V., Krivnova O.F. Fonética general. M.: RSUH, 2001.

Krongauz M.A. Semántica. M.: RSUH. 2001.

Krongauz M.A. Semántica: Tareas, encargos, textos. M.: Academia. 2006..

Maslov yu.s. Introducción a la lingüística. Ed. 6to, borrado. M.: Academia, phil. falso. Universidad Estatal de San Petersburgo,

Plungyan V.A. Morfología general: Introducción a la materia. Ed. 2do. M.: Editorial URSS, 2003.

Testelets Ya.G. Introducción a la sintaxis general. M., 2001.

Shaikevich A.Ya. Introducción a la lingüística. M.: Academia. 2005.

Científico y de referencia

Apresyan Yu.D. Obras seleccionadas, volumen I. Semántica léxica: 2ª ed., español. y adicional M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D. Obras seleccionadas, Volumen II. Descripción integral de la lengua y lexicografía del sistema. M.: Escuela "Lenguas de la cultura rusa", 1995.

Apresyan Yu.D.(ed.) Nuevo diccionario explicativo de sinónimos de la lengua rusa. Moscú - Viena: "Lenguas de la cultura rusa", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(ed.) Imagen lingüística del mundo y lexicografía sistémica (ed. Yu. D. Apresyan). M.: "Lenguas de las culturas eslavas", 2006, Prefacio y capítulo. 1, págs.26-74.

Bulygina T.V., Shmelev A.D. Conceptualización lingüística del mundo (basada en la gramática rusa). M.: Escuela "Lenguas de la cultura rusa", 1997.

Weinreich W. Contactos lingüísticos. Kyiv, 1983.

Vezhbitskaya A. Universales semánticos y descripción de lenguas. M.: Escuela "Lenguas de la cultura rusa". 1999.

Galperín I.R. El texto como objeto de investigación lingüística. 6ª edición. M.: LKI, 2008 ("Patrimonio lingüístico del siglo XX")

Zaliznyak A.A.“Inflexión nominal rusa” con la aplicación de obras seleccionadas sobre la lengua rusa moderna y la lingüística general. M.: Idiomas cultura eslava, 2002.

Zaliznyak A.A., Paducheva E.V. Hacia una tipología de cláusulas de relativo. / Semiótica e informática, vol. 35. M., 1997, pág. 59-107.

Ivanov Vyach. Sol.. Lingüística del tercer milenio. Preguntas para el futuro. M., 2004. P. 89-100 (11. Situación lingüística en el mundo y previsión para el futuro próximo).

Kibrik A.E. Ensayos sobre cuestiones generales y aplicadas de la lingüística. M.: Editorial de la Universidad Estatal de Moscú, 1992.

Kibrik A.E. Constantes y variables del lenguaje. San Petersburgo: Aletheya, 2003.

Labov U. Sobre el mecanismo de los cambios lingüísticos // Novedades en lingüística. Número 7. M., 1975. P.320-335.

Lyons J. Semántica lingüística: Introducción. M.: Lenguas de cultura eslava. 2003.

Lyon Juan. Lengua y lingüística. Curso de introducción. M: URSS, 2004

Lakoff J. Mujeres, fuego y cosas peligrosas: lo que nos dicen las categorías del lenguaje sobre el pensamiento. M.: Lenguas de cultura eslava. 2004.

Lakoff J, Johnson M. Metáforas por las que vivimos. Por. De inglés Edición 2. M.: URSS. 2008.

Diccionario Enciclopédico Lingüístico / Ed. Y EN. Yartseva. M.: Editorial científica "Gran Enciclopedia Rusa", 2002.

Melchuk I.A. Curso de morfología general. Tt. I-IV. Moscú-Viena: "Lenguas de la cultura eslava", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Melchuk I.A. Experiencia en la teoría de modelos lingüísticos “SIGNIFICADO ↔ TEXTO”. M.: Escuela "Lenguas de la cultura rusa", 1999.

Fedorova L.L. Semiótica. M., 2004.

Filippov K.A. Lingüística del texto: Curso de conferencias - 2ª ed., español. y adicional Ed. San Petersburgo Universidad, 2007.

Haspelmath, M., et al.. (eds.). Atlas mundial de estructuras del lenguaje. Oxford, 2005.

Secadora, MS y Haspelmath, M.(eds.) Atlas mundial de estructuras lingüísticas en línea. Leipzig: Instituto Max Planck de Antropología Evolutiva, 2013. (http://wals.info)

Croft W. Tipología y Universales. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.). Tipología de lenguas y descripción sintáctica. 2da edición. Cambridge, 2007.

V. I. Belikov. Acerca de los diccionarios "que contienen las normas de la lengua literaria rusa moderna cuando se utilizan como idioma estatal Federación Rusa" 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Lingüística informática y tecnologías intelectuales: basado en los materiales de la Conferencia Internacional anual “Diálogo”. vol. 1-11. - M.: Editorial Nauka, de la Universidad Estatal Rusa de Humanidades, 2002-2012. (Artículos sobre lingüística computacional, http://www.dialog-21.ru).

Corpus Nacional de la Lengua Rusa: 2006-2008. Nuevos resultados y perspectivas. / Rep. ed. V. A. Plungyan. - San Petersburgo: Nestor-Historia, 2009.

Novedad en lingüística extranjera. vol. XXIV, Lingüística computacional / Comp. B. Yu.Gorodetsky. M.: Progreso, 1989.

Shimchuk E. G. Lexicografía rusa: libro de texto. M.: Academia, 2009.

Corpus Nacional de la Lengua Rusa: 2003-2005. Compendio de artículos. M.: Indrik, 2005.

Para contactos:

Centro Educativo y Científico de Lingüística Computacional del Instituto de Lingüística de la Universidad Estatal Rusa de Humanidades

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”


INTRODUCCIÓN

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA


Introducción

En la vida sociedad moderna Las tecnologías de la información automatizadas desempeñan un papel importante. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo de la tecnología de la información es muy desigual: si el nivel actual tecnologia computacional Y los medios de comunicación son sorprendentes, pero en el campo del procesamiento semántico de la información los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta para pensar. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática se ocupa de los problemas del uso del lenguaje natural en sistemas automáticos de procesamiento de información. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: se han obtenido sistemas de traducción automática de textos de un lenguaje natural a otro, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos. sido creado discurso oral y muchos otros. este trabajo se dedica a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.


1. El lugar y el papel de la lingüística computacional en la investigación lingüística

EN mundo moderno La lingüística computacional se utiliza cada vez más en diversos estudios lingüísticos.

La lingüística computacional es un campo del conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada del significado a textos en formato natural). idioma). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección y corrección automática de errores al ingresar textos en una computadora, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lengua y habla, textos y diversos tipos de tablas gramaticales, la parte procesal incluye medios para manipular unidades de lengua y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procesal de la lingüística computacional.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido para resolver estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc. ).

Sin embargo, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Así, en varios países (Rusia, Estados Unidos, Japón, etc.) los experimentos y sistemas industriales traducción automática de textos de un idioma a otro, se han construido varios sistemas experimentales para comunicarse con computadoras en lenguaje natural, se está trabajando en la creación de bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, EE. UU., Alemania, Francia , etc.), se están construyendo sistemas análisis automático y síntesis del habla oral (Rusia, Estados Unidos, Japón, etc.), se están realizando investigaciones en el campo de la construcción de modelos de lenguaje natural.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procesales de los sistemas automáticos de procesamiento de información textual. ¿Qué debería preferirse: procedimientos computacionales potentes basados ​​en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un componente declarativo potente con interfaces informáticas relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Conducirá al logro de objetivos prácticos más rápidamente, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, para el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de información textual está confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar de los innegables éxitos de esta ciencia, la pasión por los procedimientos algorítmicos no ha dado el éxito esperado. Incluso hubo cierta decepción respecto de la capacidad de los medios procesales.

A la luz de lo anterior, parece prometedor desarrollar un camino de desarrollo de la lingüística informática, en el que los principales esfuerzos estarán dirigidos a crear poderosos diccionarios de lenguas y unidades de habla, estudiar su estructura semántico-sintáctica y crear procedimientos básicos para la comprensión morfológica, Análisis y síntesis semántico-sintáctico y conceptual de textos. Esto nos permitirá resolver una amplia gama de problemas aplicados en el futuro.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico a los procesos de recopilación, acumulación, procesamiento y recuperación de información. Los más importantes de ellos son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación del usuario con sistemas de información inteligentes automatizados (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural;

8. Extraer información objetiva de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información, existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto son sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye en su composición la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está del todo resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar un sistema complejo de reglas para verificar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de las palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe clasificarse como una clase de tareas de inteligencia artificial. Sólo puede resolverse por completo modelando los procesos del pensamiento humano. En este caso, aparentemente será necesario crear poderosas bases de conocimiento enciclopédico y herramientas de software para la manipulación del conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es completamente solucionable. Debe plantearse y solucionarse como un problema de control semántico-sintáctico de los textos.

El problema de automatizar la indexación de documentos y consultas es tradicional para los sistemas automatizados de recuperación de información textual. En un principio, la indexación se entendía como el proceso de asignar índices de clasificación a documentos y consultas que reflejaran su contenido temático. Posteriormente, este concepto se transformó y el término "indexación" comenzó a referirse al proceso de traducir descripciones de documentos y consultas del lenguaje natural al lenguaje formalizado, en particular, al lenguaje de las "imágenes de búsqueda". Las imágenes de búsqueda de documentos comenzaron, por regla general, a formarse en forma de listas de palabras clave y frases que reflejaban su contenido temático, y las imágenes de búsqueda de consultas, en forma de estructuras lógicas en las que las palabras clave y frases estaban conectadas entre sí. por operadores lógicos y sintácticos.

Es conveniente indexar automáticamente los documentos basándose en los textos de sus resúmenes (si los hay), ya que los resúmenes reflejan el contenido principal de los documentos de forma concentrada. La indexación se puede realizar con o sin control de tesauro. En el primer caso, en el texto del título del documento y su resumen se buscan palabras y frases clave del diccionario automático de referencia y solo se incluyen en el AML aquellas que se encuentran en el diccionario. En el segundo caso, las palabras y frases clave se aíslan del texto y se incluyen en el POD, independientemente de su pertenencia a algún diccionario de referencia. También se implementó una tercera opción, donde, junto con los términos del tesauro de la máquina, el AML también incluía términos extraídos del título y la primera oración del resumen del documento. Los experimentos han demostrado que los POD compilados automáticamente utilizando títulos y resúmenes de documentos proporcionan una búsqueda más completa que los POD compilados manualmente. Esto se explica por el hecho de que el sistema de indexación automática refleja más completamente varios aspectos del contenido de los documentos que el sistema de indexación manual.

La indexación automática de consultas plantea aproximadamente los mismos problemas que la indexación automática de documentos. Aquí también hay que extraer palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Las conexiones lógicas entre palabras y frases clave y los operadores contextuales se pueden ingresar manualmente o mediante un procedimiento automatizado. Un elemento importante del proceso de indexación automática de una consulta es la adición de las palabras clave y frases que la constituyen con sus sinónimos e hipónimos (a veces también hiperónimos y otros términos asociados con los términos de la consulta original). Esto se puede hacer de forma automática o interactiva utilizando un diccionario de sinónimos automático.

Ya hemos considerado parcialmente el problema de la automatización de la búsqueda de información documental en relación con la tarea de indexación automática. Lo más prometedor aquí es buscar documentos utilizando sus textos completos, ya que el uso de todo tipo de sustitutos para este fin (descripciones bibliográficas, imágenes de búsqueda de documentos y los textos de sus resúmenes) conlleva la pérdida de información durante la búsqueda. Las mayores pérdidas se producen cuando se utilizan descripciones bibliográficas como sustitutos de los documentos primarios, y las pérdidas más pequeñas se producen cuando se utilizan resúmenes.

Las características importantes de la calidad de la recuperación de información son su integridad y precisión. La integridad de la búsqueda se puede garantizar teniendo en cuenta al máximo las conexiones paradigmáticas entre las unidades del lenguaje y el habla (palabras y frases), y la precisión, teniendo en cuenta sus conexiones sintagmáticas. Existe la opinión de que la integridad y la precisión de una búsqueda están inversamente relacionadas: las medidas para mejorar una de estas características conducen a un deterioro de la otra. Pero esto sólo es cierto para la lógica de búsqueda fija. Si se mejora esta lógica, entonces se podrán mejorar ambas características simultáneamente.

Es recomendable construir el proceso de búsqueda de información en bases de datos de texto completo como un proceso de comunicación interactiva entre el usuario y el sistema de recuperación de información (IRS), en el que visualiza secuencialmente fragmentos de texto (párrafos) que satisfacen las condiciones lógicas de la solicitud, y selecciona aquellas que sean relevantes para él y sean de su interés. Los resultados finales de la búsqueda pueden aparecer como textos completos documentos y cualquier fragmento de los mismos.

Como se desprende de las discusiones anteriores, a la hora de buscar información automáticamente es necesario superar la barrera del idioma que surge entre el usuario y el sistema de información debido a la variedad de formas de representación de un mismo significado que se presenta en los textos. Esta barrera se vuelve aún más importante si la búsqueda debe realizarse en bases de datos multilingües. Una solución radical al problema podría ser la traducción automática de textos de documentos de un idioma a otro. Esto se puede hacer con antelación, antes de cargar documentos en un motor de búsqueda, o durante el proceso de búsqueda de información. En el último caso, la solicitud del usuario debe traducirse al idioma del conjunto de documentos en el que se realiza la búsqueda, y los resultados de la búsqueda deben traducirse al idioma de la solicitud. Este tipo de motores de búsqueda ya funcionan en Internet. VINITI RAS también creó un sistema de navegador cirílico, que permite buscar información en textos en ruso mediante consultas en inglés con resultados de búsqueda también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística informática es la construcción de procesadores lingüísticos que garanticen la comunicación del usuario con sistemas de información automatizados inteligentes (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural. Dado que en los sistemas inteligentes modernos la información se almacena en forma formalizada, los procesadores lingüísticos, actuando como intermediarios entre una persona y una computadora, deben resolver las siguientes tareas principales: 1) la tarea de pasar de los textos de las solicitudes de información de entrada a los mensajes en formato natural lenguaje para representar su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) la tarea de pasar de una representación formalizada del significado de los mensajes de salida a su representación en lenguaje natural (al transmitir información a una persona). La primera tarea debe resolverse mediante un análisis morfológico, sintáctico y conceptual de las consultas y mensajes de entrada, la segunda, mediante una síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

El análisis conceptual de solicitudes y mensajes de información consiste en identificar su estructura conceptual (los límites de los nombres de los conceptos y las relaciones entre conceptos en el texto) y traducir esta estructura a un lenguaje formalizado. Se realiza tras un análisis morfológico y sintáctico de solicitudes y mensajes. La síntesis conceptual de mensajes consiste en la transición de la representación de los elementos de su estructura en un lenguaje formalizado a una representación verbal (verbal). Posteriormente, a los mensajes se les da el formato sintáctico y morfológico necesario.

Para la traducción automática de textos de un lenguaje natural a otro, es necesario disponer de diccionarios de correspondencia de traducción entre los nombres de los conceptos. El conocimiento sobre dichas correspondencias de traducción fue acumulado por muchas generaciones de personas y se recopiló en forma de publicaciones especiales: diccionarios bilingües o multilingües. Para especialistas que tengan algún conocimiento de idiomas extranjeros, estos diccionarios sirvieron como valiosas ayudas para la traducción de textos.

En los diccionarios tradicionales bilingües y multilingües de uso general, los equivalentes de traducción se indicaban principalmente para palabras individuales y, con mucha menos frecuencia, para frases. La indicación de equivalentes de traducción de frases era más típica de los diccionarios terminológicos especiales. Por lo tanto, al traducir secciones de textos que contienen palabras polisemánticas, los estudiantes a menudo encontraban dificultades.

A continuación se muestran correspondencias de traducción entre varios pares de frases en inglés y ruso sobre temas “escolares”.

1) El murciélago parece un ratón con alas – Murciélago Parece un ratón con alas.

2) A los niños les gusta jugar en la arena de la playa - A los niños les encanta jugar en la arena de la orilla del mar.

3) Una gota de lluvia cayó sobre mi mano - Una gota de lluvia cayó sobre mi mano.

4) La madera seca arde fácilmente; la madera seca arde bien.

5) Fingió no oírme - Fingió no oírme.

Aquí frases en ingles no son expresiones idiomáticas. Sin embargo, su traducción al ruso sólo puede considerarse, con cierta extensión, como una simple traducción palabra por palabra, ya que casi todas las palabras incluidas en ellas son ambiguas. Por lo tanto, aquí sólo los logros de la lingüística informática pueden ayudar a los estudiantes.

Novoselova Irina

¿Por qué no todas las traducciones automáticas son perfectas? ¿Qué determina la calidad de la traducción? ¿Tiene el autor conocimientos suficientes para utilizar y ampliar los diccionarios informáticos existentes? La autora buscó dar respuestas a estas preguntas en su trabajo. El informe sobre el tema está en el archivo adjunto, el producto de la actividad del proyecto está en el portal de la escuela

Descargar:

Avance:

Abierto

Internacional

investigación

conferencia

estudiantes de secundaria y estudiantes

"Educación. La ciencia. Profesión"

Sección "Lingística extranjera"

"Ligüística computacional"

Interpretada por Novoselova Irina.

Gimnasio de la institución educativa municipal No. 39 “Clásico”

10 clase "B"

Supervisores científicos:

Chigriniova Tatyana Dmitrievna,

maestro en Inglés categoría más alta

Osipova Svetlana Leonidovna,

profesor de informática de la más alta categoría

Otradny

2011

  1. Palabras en inglés en TIC

Mira en el sitio web

  1. mi experimento

Una de las tareas es realizar un experimento que consiste en comparar las capacidades de varios diccionarios lingüísticos informáticos para obtener una traducción más precisa y aproximada del inglés al ruso.

Se probaron los siguientes sitios:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Para la pureza del experimento, elegí oraciones con distintos grados de complejidad de traducción estilística. Las frases de entrada son las siguientes:

1. Un nuevo informe dice que los adolescentes de hoy son más egoístas que hace 20 años.

(Un nuevo informe dice adolescentes modernos más egoístas que hace 20 años)

2. Ella cree que los videojuegos e Internet son las principales razones de este aumento del egoísmo.

(Ella cree que los videojuegos e Internet son las razones más importantes de este creciente egoísmo)

3. Quieren ser mejores que los demás.

(Quieren ser mejores que el resto)

4. Descubrió que el gran aumento comenzó a partir del año 2000, que fue cuando los videojuegos violentos se hicieron realmente populares.

(Encontró un gran aumento a partir del año 2000, cuando los videojuegos violentos se hicieron muy populares).

Después de traducir estas oraciones en sitios de traducción en línea, obtuve los siguientes resultados:

  1. http://translate.eu/

TRABAJO DEL CURSO

en la disciplina "Informática"

sobre el tema: “Lingüística computacional”


INTRODUCCIÓN

1. El lugar y el papel de la lingüística computacional en la investigación lingüística

2. Interfaces modernas para la lingüística computacional

CONCLUSIÓN

LITERATURA


Introducción

Las tecnologías de la información automatizadas juegan un papel importante en la vida de la sociedad moderna. Con el tiempo, su importancia aumenta continuamente. Pero el desarrollo de la tecnología de la información es muy desigual: si el nivel moderno de la tecnología informática y las comunicaciones es sorprendente, en el campo del procesamiento semántico de la información los éxitos son mucho más modestos. Estos éxitos dependen, en primer lugar, de los logros en el estudio de los procesos del pensamiento humano, los procesos de comunicación verbal entre personas y la capacidad de modelar estos procesos en una computadora.

Cuando se trata de crear tecnologías de la información prometedoras, pasan a primer plano los problemas del procesamiento automático de información textual presentada en lenguajes naturales. Esto está determinado por el hecho de que el pensamiento de una persona está estrechamente relacionado con su lenguaje. Además, el lenguaje natural es una herramienta para pensar. También es un medio universal de comunicación entre personas: un medio de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática se ocupa de los problemas del uso del lenguaje natural en sistemas automáticos de procesamiento de información. Esta ciencia surgió hace relativamente poco tiempo, a finales de los años cincuenta y sesenta del siglo pasado. Durante el último medio siglo, se han obtenido importantes resultados científicos y prácticos en el campo de la lingüística informática: sistemas de traducción automática de textos de una lengua natural a otra, sistemas de recuperación automatizada de información en textos, sistemas de análisis y síntesis automáticos de información oral. discurso, y se han creado muchos otros. Este trabajo está dedicado a la construcción de una interfaz informática óptima utilizando la lingüística informática al realizar investigaciones lingüísticas.


En el mundo moderno, la lingüística computacional se utiliza cada vez más para realizar diversos estudios lingüísticos.

La lingüística computacional es un campo del conocimiento asociado a la resolución de problemas de procesamiento automático de información presentada en lenguaje natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de comprensión del significado de los textos (transición de un texto a una representación formalizada de su significado) y el problema de la síntesis del habla (transición de una representación formalizada del significado a textos en formato natural). idioma). Estos problemas surgen al resolver una serie de problemas aplicados y, en particular, problemas de detección y corrección automática de errores al ingresar textos en una computadora, análisis y síntesis automáticos del habla oral, traducción automática de textos de un idioma a otro, comunicación con una computadora en lenguaje natural, clasificación e indexación automática de documentos de texto, su resumen automático, búsqueda de documentos en bases de datos de texto completo.

Las herramientas lingüísticas creadas y utilizadas en lingüística computacional se pueden dividir en dos partes: declarativas y procedimentales. La parte declarativa incluye diccionarios de unidades de lengua y habla, textos y diversos tipos de tablas gramaticales, la parte procesal incluye medios para manipular unidades de lengua y habla, textos y tablas gramaticales. La interfaz de computadora se refiere a la parte procesal de la lingüística computacional.

El éxito en la resolución de problemas aplicados de la lingüística informática depende, en primer lugar, de la integridad y precisión de la representación de los medios declarativos en la memoria de la computadora y de la calidad de los medios procedimentales. Hasta la fecha, aún no se ha alcanzado el nivel requerido para resolver estos problemas, aunque se está trabajando en el campo de la lingüística computacional en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc. ).

Sin embargo, se pueden observar importantes logros científicos y prácticos en el campo de la lingüística computacional. Así, en varios países (Rusia, EE. UU., Japón, etc.) se han construido sistemas experimentales e industriales para la traducción automática de textos de un idioma a otro, se han construido una serie de sistemas experimentales para comunicarse con computadoras en lenguaje natural. , se está trabajando en la creación de bancos de datos terminológicos, tesauros, diccionarios automáticos bilingües y multilingües (Rusia, Estados Unidos, Alemania, Francia, etc.), se están construyendo sistemas de análisis y síntesis automática del habla oral (Rusia, Estados Unidos, Japón, etc. .), se están realizando investigaciones en el campo de la construcción de modelos de lenguaje natural.

Un problema metodológico importante de la lingüística computacional aplicada es la evaluación correcta de la relación necesaria entre los componentes declarativos y procesales de los sistemas automáticos de procesamiento de información textual. ¿Qué debería preferirse: procedimientos computacionales potentes basados ​​en sistemas de vocabulario relativamente pequeños con rica información gramatical y semántica, o un componente declarativo potente con interfaces informáticas relativamente simples? La mayoría de los científicos creen que es preferible la segunda forma. Conducirá al logro de objetivos prácticos más rápidamente, ya que habrá menos callejones sin salida y obstáculos difíciles de superar, y aquí será posible utilizar computadoras a mayor escala para automatizar la investigación y el desarrollo.

La necesidad de movilizar esfuerzos, en primer lugar, para el desarrollo del componente declarativo de los sistemas automáticos de procesamiento de información textual está confirmada por medio siglo de experiencia en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar de los innegables éxitos de esta ciencia, la pasión por los procedimientos algorítmicos no ha dado el éxito esperado. Incluso hubo cierta decepción respecto de la capacidad de los medios procesales.

A la luz de lo anterior, parece prometedor desarrollar un camino de desarrollo de la lingüística informática, en el que los principales esfuerzos estarán dirigidos a crear poderosos diccionarios de lenguas y unidades de habla, estudiar su estructura semántico-sintáctica y crear procedimientos básicos para la comprensión morfológica, Análisis y síntesis semántico-sintáctico y conceptual de textos. Esto nos permitirá resolver una amplia gama de problemas aplicados en el futuro.

La lingüística informática se enfrenta, en primer lugar, a las tareas de apoyo lingüístico a los procesos de recopilación, acumulación, procesamiento y recuperación de información. Los más importantes de ellos son:

1. Automatización de la compilación y procesamiento lingüístico de diccionarios automáticos;

2. Automatización de los procesos de detección y corrección de errores al ingresar textos en una computadora;

3. Indexación automática de documentos y solicitudes de información;

4. Clasificación y resumen automático de documentos;

5. Soporte lingüístico para procesos de recuperación de información en bases de datos monolingües y multilingües;

6. Traducción automática de textos de un lenguaje natural a otro;

7. Construcción de procesadores lingüísticos que aseguren la comunicación del usuario con sistemas de información inteligentes automatizados (en particular, sistemas expertos) en lenguaje natural o en un lenguaje cercano al natural;

8. Extraer información objetiva de textos informales.

Detengámonos en detalle en los problemas más relevantes para el tema de investigación.

En las actividades prácticas de los centros de información, existe la necesidad de resolver el problema de la detección y corrección automatizada de errores en los textos cuando se ingresan en una computadora. Esta compleja tarea se puede dividir condicionalmente en tres tareas: tareas de control ortográfico, sintáctico y semántico de los textos. El primero de ellos puede resolverse mediante un procedimiento de análisis morfológico que utiliza un diccionario automático de referencia de raíces de palabras bastante potente. En el proceso de control ortográfico, las palabras del texto son sujetas a análisis morfológico, y si sus bases se identifican con las bases del diccionario de referencia, entonces se consideran correctas; si no se identifican, acompañados de un microcontexto, se presentan a una persona para que los vea. Una persona detecta y corrige palabras distorsionadas y el sistema de software correspondiente realiza estas correcciones en el texto corregido.

La tarea de control sintáctico de los textos para detectar errores en ellos es mucho más difícil que la tarea de control ortográfico. En primer lugar, porque incluye en su composición la tarea de control ortográfico como componente obligatorio y, en segundo lugar, porque el problema del análisis sintáctico de los textos informales aún no está del todo resuelto. Sin embargo, el control sintáctico parcial de los textos es bastante posible. Aquí puede hacerlo de dos maneras: compilar diccionarios automáticos bastante representativos de estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; o desarrollar un sistema complejo de reglas para verificar la coherencia gramatical de los elementos del texto. La primera vía nos parece más prometedora, aunque, por supuesto, no excluye la posibilidad de utilizar elementos de la segunda vía. La estructura sintáctica de los textos debe describirse en términos de clases gramaticales de palabras (más precisamente, en forma de secuencias de conjuntos de información gramatical de las palabras).

La tarea de control semántico de textos para detectar errores semánticos en ellos debe clasificarse como una clase de tareas de inteligencia artificial. Sólo puede resolverse por completo modelando los procesos del pensamiento humano. En este caso, aparentemente será necesario crear poderosas bases de conocimiento enciclopédico y herramientas de software para la manipulación del conocimiento. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es completamente solucionable. Debe plantearse y solucionarse como un problema de control semántico-sintáctico de los textos.