Lingüística informática como una disciplina lingüística aplicada. Lingüística informática

Bajo el término "lingüística informática" (lingüística computacional), una amplia gama de herramientas informáticas: programas, organizaciones de tecnología informática y procesamiento de datos, para modelar el funcionamiento del idioma en ciertas condiciones, situaciones, áreas problemáticas, así como el alcance de Modelos informáticos de lenguaje no solo en lingüística, sino también en disciplinas adyacentes. En realidad, en este último caso, estamos hablando de lingüística aplicada en un sentido estricto, ya que el modelado por computadora también se puede considerar como una aplicación de teoría de la programación (informática) en el área de lingüística. Sin embargo, la práctica general es tal que la esfera de la lingüística informática cubre casi todo lo relacionado con el uso de computadoras en lingüística: "El término" lingüística informática "establece una orientación general para el uso de computadoras para resolver diversas tareas científicas y prácticas relacionadas con El idioma, sin limitar las formas de resolver estas tareas ".

Aspecto institucional de la lingüística informática.. Como una dirección científica especial, la lingüística de la computadora tomó forma en los años 60. El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista "Lingüística informática" viene en los Estados Unidos trimestralmente. Una gran obra organizativa y científica es realizada por la asociación de lingüística informática, que tiene estructuras regionales en todo el mundo (en particular, la sucursal europea). Cada dos años se someten a conferencias internacionales en lingüística informática - Coling. El problema relevante también está ampliamente representado en conferencias internacionales sobre inteligencia artificial de diferentes niveles.

Herramientas de lingüística informática cognitiva

La lingüística informática como una disciplina de aplicación especial se asigna principalmente por la herramienta, es decir, para usar herramientas informáticas para procesar datos de idioma. Dado que los programas informáticos que simulan ciertos aspectos del funcionamiento del idioma pueden usar una variedad de herramientas de programación, entonces el idioma general de metano no debería tener que decir. Sin embargo, no lo es. Hay principios generales de modelado informático de pensamiento, que de alguna manera se implementan en cualquier modelo de computadora. La base de este lenguaje es la teoría del conocimiento desarrollada en la inteligencia artificial y formando una sección importante de la ciencia cognitiva.

La tesis principal de la teoría del conocimiento establece que el pensamiento es el proceso de procesamiento y generar conocimiento. "Conocimiento" o "conocimiento" se considera una categoría indefinida. Como "procesador", el conocimiento del procesamiento, el sistema cognitivo del hombre actúa. En la epistemología y la ciencia cognitiva, existen dos tipos principales de conocimientos: declarativos ("conocimiento de qué") y procedimiento ("conocimiento como" 2)). El conocimiento declarativo generalmente se representa en forma de un conjunto de proposiciones, declaraciones sobre cualquier cosa. Un ejemplo típico de conocimiento declarativo puede considerarse la interpretación de las palabras en diccionarios sensatos ordinarios. Por ejemplo, una taza] - "Un pequeño recipiente para beber una forma redondeada, generalmente con un asa, de porcelana, faience, etc.". El conocimiento declarativo es susceptible del procedimiento de verificación en términos de términos de "verdad-falso". El conocimiento procesal se presenta como una secuencia (lista) de operaciones, acciones que deben realizarse. Esta es algunas instrucciones generales sobre las acciones en alguna situación. Un ejemplo característico de conocimiento procesal es instrucciones para usar electrodomésticos.

A diferencia del conocimiento declarativo, el conocimiento procesal no se puede verificar como verdadero o falso. Pueden ser evaluados solo por el éxito de la falla del algoritmo.

La mayoría de los conceptos de herramientas cognitivas de lingüística informática son iónicamente: designa simultáneamente algunas de las esencias reales del sistema cognitivo humano y formas de presentar a estas entidades en algunos metalas. En otras palabras, los elementos metabásicos tienen un aspecto ontológico e instrumental. Ontológicamente, la separación del conocimiento declarativo y de procedimiento corresponde a varios tipos de conocimiento del sistema cognitivo humano. Entonces, el conocimiento de sujetos específicos, los objetos de la realidad son predominantemente declarativos, y la funcionalidad humana para caminar, correr, la máquina de conducción se implementa en el sistema cognitivo como conocimiento procesal. El conocimiento instrumental (ambos ontológicamente de procedimiento y declarativo) se puede representar como una totalidad de descriptaciones, descripciones y como algoritmo, instrucción. En otras palabras, ontológicamente, el conocimiento declarativo del objeto de la realidad "Tabla" puede ser procedí como un conjunto de instrucciones, algoritmos para su creación, ensamblaje (\u003d aspecto creativo de conocimiento procesal) o como algoritmo para su uso típico (\u003d Aspecto funcional del conocimiento procesal). En el primer caso, puede ser una guía para un carpintero novato, y en la segunda, una descripción de las posibilidades de la mesa de la oficina. También es cierto: el conocimiento de procedimiento ontológicamente se puede presentar declarativamente.

Requiere una discusión separada, ya sea que todo el conocimiento ontológicamente declarativo sea el conocimiento ideológico como procedimiento, y cualquier procedimiento ontológicamente es como declarativo. Los investigadores están de acuerdo en que cualquier conocimiento declarativo puede presentarse de manera procesal en principio, aunque esto puede ser muy no económico para el sistema cognitivo. Lo contrario es casi justo. El hecho es que el conocimiento declarativo es significativamente más explícitamente, es más fácil realizar una persona que el procedimiento. En contraste con el conocimiento declarativo, el conocimiento procesal es predominantemente implícitamente. Por lo tanto, la capacidad del idioma, siendo conocimiento de procedimientos, está oculto de una persona, no es consciente de ellos. El intento de explicarse los mecanismos para el funcionamiento del idioma conduce a la disfunción. Los especialistas en el campo de la semántica lexica se conocen, por ejemplo, que la introspección semántica a largo plazo necesaria para estudiar el plan de contenido de la palabra conduce al hecho de que el investigador pierde parcialmente la capacidad de distinguir entre el uso correcto e incorrecto de la palabra analizada. . Otros ejemplos pueden ser citados. Se sabe que desde el punto de vista de la mecánica, el cuerpo humano es el sistema más complejo de dos péndulos interactivos.

En teoría del conocimiento para el aprendizaje y la presentación del conocimiento, se utilizan varias estructuras de conocimiento: marcos, escenarios, planes. Según M. Minsk, "Frame es una estructura de datos destinada a presentar una situación estereotípica" [Minsk 1978, p.254]. Se puede decir más detallado que se dice que el marco es una estructura conceptual para una presentación declarativa de conocimiento sobre una situación tipificada de codificación que contiene espacios relacionados con ciertas relaciones semánticas. Para fines de claridad, el marco a menudo se representa en forma de una tabla, las cadenas de las cuales forma las ranuras. Cada ranura tiene su nombre y contenido (consulte la Tabla 1).

tabla 1

Fragmento de la "mesa" del marco en una presentación tabular.

Dependiendo del problema específico, la estructuración del marco puede ser significativamente más compleja; El marco puede incluir subtramas y referencias a otros marcos.

En lugar de una mesa, se usa a menudo una forma de representación de predicado. En este caso, el marco tiene una forma de predicado o función con argumentos. Hay otras formas de representar el marco. Por ejemplo, puede presentarse en forma de un dibujo del siguiente tipo: ((nombre del marco) (nombre de tragamonedas)) (valor de la ranura,), ..., (nombre de ranura N) (valor de ranura L)).

Típicamente, esta especie tiene marcos en los idiomas del conocimiento del conocimiento.

Al igual que otras categorías cognitivas de lingüística informática, el concepto del marco es omonioso. Ontológicamente, esto es parte del sistema cognitivo humano, y en este sentido, el marco se puede comparar con los conceptos como una gestalt, prototipo, estereotipo, esquema. En la psicología cognitiva, estas categorías se consideran desde un punto de vista ontológico. Por lo tanto, D. Norman distingue a las dos formas principales de exportar y organizar el conocimiento en el sistema cognitivo de una persona: redes y esquemas semánticos. "Esquemas", escribe, se organizan paquetes de conocimiento recolectados para la representación de unidades de conocimiento independientes individuales. Mi esquema para SAMA puede contener información que describe sus características físicas, su actividad y rasgos individuales. Este esquema está relacionado con otros esquemas que describen Otras partes "[Norman 1998, p.359]. Si toma el lado instrumental de la categoría del marco, entonces esta es una estructura para una idea declarativa de conocimiento. En los sistemas existentes, los marcos pueden formar estructuras de conocimiento complejas; Los sistemas de marco admiten una jerarquía: un marco puede ser parte de otro marco.

Por contenido, el concepto del marco está muy cerca de la categoría de interpretación. De hecho, la ranura es un análogo de valencia, llenando la ranura, un análogo de un acto. La principal diferencia entre ellos es que la interpretación contiene solo información lingüísticamente relevante sobre los términos del contenido de las palabras, y el marco, en primer lugar, no está necesariamente vinculado a la palabra, y, en segundo lugar, incluye toda la información relevante para esta situación problemática, incluyendo número y extralingüístico (conocimiento del mundo) 3).

El guión es una estructura conceptual para una presentación procesal de conocimiento sobre una situación estereotípica o un comportamiento estereotipado. Los elementos del guión son los pasos del algoritmo o las instrucciones. Por lo general, dicen sobre el "escenario de visitar un restaurante", "Compra escenarios", etc.

Inicialmente, el marco también se usó para la representación de procedimientos (CP. El término "marco de procedimiento"), pero ahora el término "script" se usa más a menudo en este sentido. El script se puede representar no solo en forma de algoritmo, sino también en forma de una red cuyos vértices corresponden a algunas situaciones, y arcos, enlaces entre situaciones. Junto con el concepto del escenario, algunos investigadores se sienten atraídos por la simulación por computadora de la inteligencia una categoría de script. Según R. Schenka, el guión es algo generalmente aceptado, una secuencia conocida de las conexiones que causan. Por ejemplo, la comprensión del diálogo.

En la calle se vierte a partir del cubo.

De todos modos, tiene que ir a la tienda: no hay nada en la casa, todos los huéspedes de ayer disminuyeron.

se basa en enlaces semánticos no explicados como "Si llueve, es indeseable esperar una calle porque es posible enfermarse". Estos bonos forman un script que es utilizado por los oradores nativos para comprender el habla y el comportamiento que no son iguales entre sí.

Como resultado de la aplicación del escenario, se forma una situación específica del problema plan). El plan se utiliza para presentar el conocimiento de posibles acciones que conducen a un objetivo determinado. El plan relaciona un objetivo con una secuencia de acciones.

En general, el plan incluye una secuencia de procedimientos que transfieren el estado inicial del sistema a la final y conduce al logro de un cierto sangrado y meta. En II sistemas, surge el plan como resultado de la planificación o planificación de las actividades del módulo de planificación del módulo correspondiente. El proceso de planificación se puede basar en la adaptación de estos o más escenarios activados por los procedimientos de prueba para resolver la situación del problema. La implementación del plan se realiza mediante un extenso módulo que controla los procedimientos cognitivos y las acciones físicas del sistema. En el caso elemental, el plan en el sistema inteligente es una secuencia simple de operaciones; En versiones más complejas, el plan se une a un tema específico, sus recursos, oportunidades, objetivos, con información detallada sobre la situación problemática, etc. La aparición del plan tiene lugar en el proceso de comunicación entre el modelo modelo, parte de la cual forman los scripts que planifican el módulo y un extenso módulo.

A diferencia del escenario, el plan se asocia con una situación específica, un intérprete específico y persigue el logro de un propósito específico. La elección del plan se rige por los recursos del contratista. La viabilidad del plan es un requisito previo para su generación en el sistema cognitivo, y al escenario, la característica de viabilidad no es aplicable.

Otro concepto importante es el modelo del mundo. El modelo del mundo generalmente se entiende como una combinación de conocimiento sin duda organizado sobre el mundo, característica del sistema cognitivo o su modelo de computadora. En una forma ligeramente más general sobre el modelo del mundo, están hablando de un sistema cognitivo que mantiene el conocimiento sobre el dispositivo del mundo, sus patrones, etc. En otra comprensión, el modelo del mundo está asociado con Los resultados de entender el texto o, más ampliamente, el discurso. En el proceso de entender el discurso, su modelo mental está construido, que es el resultado de la interacción del contenido de texto y el conocimiento del mundo, peculiar de este tema [Johnson-Lard 1988, C.237 y próximo]. La primera y la segunda comprensión se combina a menudo. Esto es típicamente para investigadores lingüísticos que trabajan en el marco de la lingüística cognitiva y la ciencia cognitiva.

Estrechamente relacionado con la categoría del concepto de marco de la escena. La categoría de la escena se utiliza principalmente en la literatura como la designación de la estructura conceptual para la presentación declarativa actualizada en el discurso y dedicado. instalaciones de idiomas (Lexemes, estructuras sintácticas, categorías gramaticales, etc.) situaciones y sus partes5). El ser está asociado con las formas de idioma, la escena a menudo se actualiza por una determinada palabra o expresión. En escenas de gramática (ver más abajo) la escena aparece como parte de un episodio o narración. Los ejemplos característicos de escenas son un conjunto de cubos con los que funciona el sistema AI, un lugar de acción en la historia y participantes de la acción, etc. En la inteligencia artificial, las escenas se utilizan en los sistemas de reconocimiento de imágenes, así como en programas orientados a la investigación (análisis, descripción) de situaciones problemáticas. El concepto de escena se generalizó en lingüística teórica, así como en la lógica, en particular en la semántica situacional, en la que el valor de la unidad léxica se comunica directamente con la escena.

En el Instituto de Lingüística del Ruh desde 2012, se preparan Masters bajo el Programa Master. Lingüística informática (dirección Lingüística fundamental y aplicada.). Este programa está diseñado para preparar profesional. lingüistasPoseer tanto los conceptos básicos de la lingüística y los métodos modernos de investigación, expertos y analíticos, trabajos de ingeniería y capaces de participar de manera efectiva en el desarrollo de tecnologías informáticas de lenguaje innovadoras.

El proceso educativo implica desarrolladores de grandes investigaciones y sistemas comerciales En el campo del procesamiento automático de texto, que garantiza la comunicación de maestros con la corriente principal de la lingüística de la computadora moderna. Se presta especial atención a la participación de maestros en conferencias rusas e internacionales.

Entre los maestros, los autores de los libros de texto básicos sobre especialidades lingüísticas, especialistas en clase mundial, gerentes de proyectos de grandes sistemas de procesamiento de idiomas automáticos: Ya.G. TESTEL, I.M. BOGUSLAVSKY, V.I. BELIKOV, V.I. Podbolskaya, v.p. Selegei, l.l. Iomdin, a.s. Starostin, S.A. Las bolas, así como los empleados de las empresas que son líderes mundiales en la lingüística informática: IBM (sistema Watson), Yandex, Abbyy (Lingvo, FineReader, Compreno).

La base de la capacitación de maestros para este programa es un enfoque de proyecto. Atraer a los estudiantes universitarios al trabajo de investigación en el campo de la lingüística informática ocurre sobre la base de RGU y sobre la base de empresas involucradas en el desarrollo de programas en el campo de AOT (ABBYY, IBM, etc.), que, por supuesto, es un Grande más para ambos maestros y por sus posibles empleadores. En particular, la recepción en la magistratura de los Masters de Target, cuya capacitación está garantizada por futuros empleadores.

Pruebas de entrada: "Modelos formales y métodos de lingüística moderna". La información exacta sobre la hora del examen está disponible en el sitio web del Departamento de Maestría de RGGU.

Líderes de la Maestra - Cabeza. Centro Educativo y Científico para Lingüística Informática, Director de Estudios Lingüísticos por Abbyy Vladimir Pavlovich Selegei y Ph.D., profesor Vera Isaakovna Podlessenskaya .

El programa del examen de ingreso y entrevistas sobre la disciplina "Modelos formales y métodos de lingüística moderna".

Comentarios sobre el programa

  • Cualquier pregunta del programa puede ir acompañada de tareas relacionadas con descripciones de fenómenos de lenguaje específicos relacionados con la sección de emisión: estructuras de construcción, descripciones de restricciones, posibles algoritmos de construcción y / o identificación.
  • Las preguntas observadas por los asteriscos son opcionales (en boletos de pie bajo el número 3). La propiedad del material apropiado es un bono grave para los candidatos, pero no necesariamente.
  • Además de los problemas teóricos en los boletos en el examen, se propondrá un pequeño fragmento de un texto especial (lingüístico) en inglés, para la traducción y la discusión. Se requiere que el ingreso demuestre un nivel satisfactorio de propiedad de la terminología científica de habla inglesa y las habilidades del análisis del texto científico. Como ejemplo de un texto que no debe causar que las dificultades graves entrantes se muestren a continuación, un fragmento del artículo https://en.wikipedia.org/wiki/anaphora_(linguistics) se da a continuación.

En lingüística, Anafora (/ ənæfərə /) es el uso de una expresión cuya interpretación depende de la Epresión de Anteceher en contexto (su antecedente o posterior). En un sentido más estrecho, Anafora es el uso de una expresión que depende específicamente de una expresión antecedente y, por lo tanto, se contrasta con Cataphora, que es el uso de una expresión que depende de una expresión postcediente. El término anáfórico (referente) se llama anáfor. Por ejemplo, en la oración, Sally llegó, pero nadie la vio, el pronombre es una anáfora, refiriéndose de regreso al antecedente Sally. En la sentencia antes de su llegada, nadie vio a Sally, la niña de Posttendent, por lo que ella es ahora una cataphor (y una anáfora en el sentido más amplio, pero más estrecho). Por lo general, una expresión anáfórica es un proform o algún otro tipo de expresión de defaces (dependientes contextualmente). Tanto la Anáfora como la Cataphora son especies de endophora, refiriéndose a algo mencionado en otros lugares en un diálogo o texto.

Anáfora es un concepto importante por diferentes razones y en diferentes niveles: primero, Anáfora indica cómo se construye y mantiene el discurso; En segundo lugar, la anáfora une a diferentes elementos sintácticos juntos a nivel de la oración; Tercero, Anáfora presenta un desafío para el procesamiento de lenguaje natural en la lingüística computacional, ya que la identificación de la referencia puede ser difícil; Y CUARTO, ANAPHORA cuenta algunas cosas sobre cómo se entiende y procesa cómo se entiende el lenguaje, lo que es relevante para los campos de lingüística interesados \u200b\u200ben la psicología cognitiva.

Preguntas teóricas

Temas generales de lingüística.

  • Objeto de lingüística. Idioma y discurso. Sincronía y diacronía.
  • Niveles de lenguaje. Modelos formales de niveles de lenguaje.
  • Sintammática y paradigmática. El concepto de distribución.
  • Bases de comparaciones interlayales: lingüística tipológica, genealógica y aficionada.
  • * Lingüística matemática: métodos de objeto e investigación.

FONÉTICA

  • El tema de la fonética. Fonética articuladora y acústica.
  • Fonética de segmento y supracemento. Preguntando e entonación.
  • Los conceptos básicos de la fonología. Tipología de los sistemas fonológicos y sus implementaciones fonéticas.
  • * Herramientas informáticas y métodos de estudios fonéticos.
  • * Análisis y síntesis del habla.

MORFOLOGÍA

  • Morfología. Morfos, morfemas, allevorfos.
  • Weedeace y formación de palabras.
  • Significados gramaticales y formas de implementarlas. Categorías y gramos de gramática. Valores gramaticales morfológicos y sintácticos.
  • Los conceptos de formulario de palabras, lo básico, el lemma y el paradigma.
  • Partes de la oración; Los principales enfoques para la asignación de partes de voz.
  • * Modelos formales para describir la formación y formación de palabras.
  • * Morfología en tareas automáticas de procesamiento de idiomas: Corrector ortográfico, Lemmitización, Etiquetado POS

SINTAXIS

  • Objeto de sintaxis. Métodos para expresar relaciones sintácticas.
  • Formas de representar la estructura sintáctica de la oración. Las ventajas y desventajas de los árboles de dependencias y componentes.
  • Métodos para describir el orden lineal. Diseagreabilidad y componentes de ruptura. Concepto de transformación; Transformación relacionada con orden lineal.
  • Comunicación entre sintaxis y semántica: valencia, modelos de control, activos y syarones.
  • Diatse y comprometerse. Derivación activa.
  • Organización comunicativa de las declaraciones. Tema y remode, dado y nuevo, contrastividad.
  • * Teorías sintácticas principales: MST, genesmismo, gramática funcional, HPSG
  • * Modelos matemáticos de sintaxis: clasificación de lenguas formales en los algoritmos de reconocimiento, de reconocimiento y su complejidad.

SEMÁNTICA

  • Semántica. Lengua ingenua y científica pinturas del mundo. Hipótesis de Sepira - Wharf.
  • Valor en lenguaje y discurso: Significado y referente. Tipo de referencia (estado denotativo).
  • Semántica lexica. Métodos para describir palabras de semántica.
  • Semántica de la gramática. Categorías principales en el ejemplo de la lengua rusa.
  • Oferta de semántica. Componente de registro. Daxis y Anafora. Cantidades y paquetes. Modalidad.
  • Jerarquía y valores léxicos sistémicos. Polycemia y Omonio. Estructura semántica de las palabras multivaludes. Los conceptos de invariante y prototipo.
  • Relaciones paradigmáticas y sintagmáticas en vocabulario. Funciones léxicas.
  • Interpretación. Lenguaje de interpretación. Escuela semántica de moscú
  • Semántica y lógica. El valor de la verdad de la declaración.
  • Teoría de los actos del habla. La declaración y su fuerza ilustrativa. Actuadores. Clasificación de actos de habla.
  • Frameología: Inventario y Métodos para describir unidades de fraseología.
  • * Modelos y métodos de semántica formal.
  • * Modelos de semántica en la lingüística de la computadora moderna.
  • * Distribución y semántica operativa.
  • * Las ideas principales de los diseños de gramática.

TIPOLOGÍA

  • Clasificaciones tipológicas tradicionales de idiomas.
  • Tipología de categorías gramaticales del nombre y verbo.
  • Tipología de una oración simple. Los principales tipos de diseños: real, ergativo, activo.
  • Tipología del orden de las palabras y las correlaciones de Greenberg. Lenguas de leves y levoye.

LEXICOGRAFÍA

  • Vocabulario como inventario de cultura; Variación social del vocabulario, uzus léxico, norma, codificación.
  • Tipología de los diccionarios (en material ruso). Reflexión del vocabulario en los diccionarios de varios tipos.
  • Lexicografía bilingüe con la participación del idioma ruso.
  • Lexicografía descriptiva y supresiva. Diccionarios lingüísticos profesionales.
  • La especificidad de los principales diccionarios rusos sensatos. La estructura del artículo de vocabulario. Interpretación y información enciclopédica.
  • Vocabulario y gramática. La idea del modelo de lenguaje integral en la escuela semántica de Moscú.
  • * Métodos de trabajo de lexicógrafo.
  • * Métodos de gabinete en lexicografía.

Texto de lingüística y discurso.

  • El concepto de texto y discurso.
  • Mecanismos de comunicación interfacial. Las principales variedades de su implementación del idioma.
  • Oferta como unidad de lenguaje y como elemento de texto.
  • Superflace Unity, principios de su formación y asignación, propiedades básicas.
  • Categorías principales de clasificaciones de texto (género, estilo, registro, área temática, etc.)
  • * Métodos de género automático.

SOCIOLINGÜÍSTICA

  • El problema del sujeto y los límites de la sociolingüística, su carácter interdisciplinario. Los principales conceptos de la sociología y la demografía. Niveles de estructura lingüística y sociolingüística. Los principales conceptos y direcciones de la sociolingüística.
  • Contactos de idioma. Bilingüismo y diglamento. Procesos divergentes y convergentes en la historia de la historia.
  • Diferenciación social del lenguaje. Formas de existencia del lenguaje. Idioma literario: Uzus-Norm-Codificación. Esferas funcionales.
  • Socialización del lenguaje. La naturaleza jerárquica de la identidad social y del lenguaje. Comportamiento lingüístico de un individuo y su repertorio comunicativo.
  • Métodos de estudios sociolingüísticos.

Lingüística informática

  • Tareas y métodos de lingüística informática.
  • Lingüística del gabinete. Las principales características de la vivienda.
  • Presentación del conocimiento. Las ideas principales de la teoría de los marcos M. Minsk. Sistema Framenet.
  • Tesauro y ontología. Wordnet.
  • Conceptos básicos del análisis estadístico de los textos. Diccionarios de frecuencia. Análisis de la colocación.
  • * Concepto de aprendizaje de la máquina.

LITERATURA

Educativo (nivel básico)

Baranov A.n.Introducción a la lingüística aplicada. M.: Editorial URRS, 2001.

Baranov A.n., Dobrovolsky D.O.Marcos de fraseología ( curso corto) Tutorial. 2ª edición. Moscú: Flint, 2014.

BELIKOV V.A., KRYSIN L.P.Sociolingüística. M., RGGU, 2001.

Burlak S.A., Starostin S.A. Lingüística histórica comparativa. M.: Academia. 2005.

Vakhtin n.b., golovko e.v .. Sociolingüística y sociología del lenguaje. San Petersburgo., 2004.

Knyazev S. V., Fijaritskaya S. K.Lengua literaria rusa moderna: fonética, gráficos, ortografía, orfoepio. 2 ed. M., 2010.

Kobzev i.m. Semántica lingüística. M.: Editorial URSS. 2004.

Kodzasov S.V., Krivna O.F. Phonetics General. M.: Rgu, 2001.

Krongauz ma Semántica. M.: RGGU. 2001.

Krongauz ma SEMANICS: Tareas, tareas, textos. M.: Academia. 2006 ..

Maslov Yu.S.Mantener la lingüística. Ed. 6º, borrado. M.: Academia, Phil. Hecho SPBSU,

Plunjan v.A. Morfología total: Introducción al problema. Ed. 2do. M.: Editorial URSS, 2003.

Testel ya.g. Introducción a la sintaxis general. M., 2001.

Shaikevich a.ya. Introducción a la lingüística. M.: Academia. 2005.

Científico y referencia

Apresan yu.d. Obras seleccionadas, Volumen I. Semántica Lexic: 2nd ED., SP. y añadir. M.: Escuela "Idiomas de la cultura rusa", 1995.

Apresan yu.d.Trabajos seleccionados, Volumen II. Descripción integral del lenguaje y lexicografía sistémica. M.: Escuela "Idiomas de la cultura rusa", 1995.

Apresan yu.d.(Ed.) Un nuevo diccionario explicativo de los sinónimos de la lengua rusa. Moscú - Viena: "Idiomas de la cultura rusa", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresan yu.d.(ed.) Pintura de idiomas del mundo y lexicografía sistémica (AVD. Ed. Yu. D. esfertyan). M.: "Idiomas de los cultivos eslavos", 2006, Prefacio y CH. 1, p.26 - 74.

Bulyga T.V., Shmelev A.D.Conceptualización del lenguaje del mundo (en el material de la gramática rusa). M.: Escuela "Idiomas de la cultura rusa", 1997.

Weinrajich W.Contactos de idioma. Kiev, 1983.

Wurnzbitsa A.Universales semánticos y descripciones de las lenguas. M.: Escuela "Idiomas de la cultura rusa". 1999.

Galperin I.R.Texto como objeto de un estudio lingüístico. 6ª ed. M.: LKI, 2008 ("Patrimonio lingüístico del siglo XX")

Zaliznyak a.a. "Implementan las palabras nivales rusas" con el nombramiento de trabajos seleccionados en la lengua rusa moderna y la lingüística general. M.: Idiomas de la cultura eslava, 2002.

Zaliznyak a.a., Paducheva E.V.A la tipología de la propuesta relativa. / Semiótica e informática, vol. 35. M., 1997, pág. 59-107.

Ivanov Vyach. Sol .. Lingüística del tercer milenio. Preguntas al futuro. M., 2004. P. 89-100 (11. Situación lingüística del mundo y pronóstico para el futuro próximo).

Cybrik a.e.Ensayos sobre temas generales y aplicados de lingüística. M.: Publicación de la Universidad Estatal de Moscú, 1992.

Cybrik a.e.Constantes y variables. San Petersburgo: Aletia, 2003.

Labs W. Sobre el mecanismo de cambios lingüísticos // nuevo en lingüística. V.7. M., 1975. P.320-335.

Lyonz J. Semántica lingüística: Introducción. M.: Idiomas de la cultura eslava. 2003.

Lyons John. Idioma y lingüística. Curso de introducción. M: URSS, 2004

Lakoff j. Mujeres, incendios y cosas peligrosas: que las categorías de idiomas nos cuentan sobre el pensamiento. M.: Idiomas de la cultura eslava. 2004.

Lakoff J., Johnson M. Metáforas que vivimos. Por. De inglés Ed.2. M.: URSS. 2008.

Diccionario enciclopédico lingüístico / ed. Y EN. Yartseva. M.: Casa de edición científica "Gran enciclopedia rusa", 2002.

Melchuk I.A.A. Curso de morfología general. Tt. I-IV. Moscú-Viena: "Idiomas de la cultura eslava", Wiener Slavistischer Almanach, Sonderband 38 / 1-38 / 4, 1997-2001.

Melchuk I. A. La experiencia de la teoría de los modelos lingüísticos "significa ↔ texto". M.: Escuela "Idiomas de la cultura rusa", 1999.

Fedorova l.l. Semiótica. M., 2004.

FILIPPOV K. A. A. Texto de lingüística: conferencias - 2ª ed., y añadir. Ed. S.-PETERSBURGO. Universidad, 2007.

Haspelmath, M., et al. (Eds.). Atlas mundiales de estructuras lingüísticas. Oxford, 2005.

SECADOR, M.S. Y haspelmath, M. (Eds.) El Atlas Mundial de Estructuras Lenguas en línea. Leipzig: Max Planck Institute para Antropología Evolutiva, 2013. (http://wals.info)

Croft W.Tipología y universales. Cambridge: Cambridge University Press, 2003. Shopen, t. (ed.). Tipología de idiomas y descripción sintáctica. 2ª edición. Cambridge, 2007.

V. I. BELIKOV. En los diccionarios, "que contiene las normas del lenguaje literario ruso moderno cuando se usa como lengua estatal de la Federación de Rusia". 2010 // gramota.ru portal (http://gramota.ru/biblio/research/Slovari-norm)

Lingüística informática y tecnologías intelectuales: según los materiales de la Conferencia Internacional Anual "Diálogo". Vol. 1-11. - M.: Publicación de la Cámara de la Ciencia, desde RSU, 2002-2012. (Artículos sobre lingüística informática, http://www.dialog-21.ru).

Cuerpo Nacional de Lengua Rusa: 2006-2008. Nuevos resultados y perspectivas. / Respuesta ed. V. A. A. PLUNYAN. - San Petersburgo: Historia de Nestor, 2009.

Nuevo en lingüística en el extranjero. Vol. XXIV, Lingüística de la computadora / Sost. B. Yu. Gorodetsky. M.: Progreso, 1989.

Shimchuk E. G. Lexicografía rusa: tutorial. M.: Academy, 2009.

Cuerpo nacional de la lengua rusa: 2003-2005. Digerir de artículos. M.: Indrik, 2005.

Para contactos:

Centro educativo y científico para la lingüística informática Instituto de Lingüística de RSUGU

Trabajo de curso

en la disciplina "Informática".

sobre el tema: "Lingüística informática"


Introducción

2. Interfaces modernas de lingüística de computación.

Conclusión

LITERATURA


Introducción

En la vida de la sociedad moderna, las tecnologías de la información automatizadas desempeñan un papel importante. Con el tiempo, su valor está aumentando continuamente. Pero el desarrollo de las tecnologías de la información se produce muy desigual: si el nivel moderno de equipos y comunicaciones computacionales es sorprendente la imaginación, entonces en el campo del procesamiento semántico de la información, el éxito es mucho más modesto. Estos éxitos dependen, ante todo, desde los logros en el estudio de los procesos de pensamiento humano, los procesos de comunicación del habla entre las personas y de la capacidad de simular estos procesos en la computadora.

Cuando se trata de crear tecnologías de información prometedoras, los problemas de procesamiento automático de la información textual presentada en idiomas naturales se desempeñan en primer plano. Esto está determinado por el hecho de que el pensamiento humano está estrechamente relacionado con su idioma. Además, el lenguaje natural es una herramienta de pensamiento. También es un medio universal de comunicación entre las personas: los medios de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática está involucrada en los problemas de utilizar el lenguaje natural en los sistemas de procesamiento automático de información. Esta ciencia se originó relativamente recientemente, a principios de los años cincuenta y los años sesenta del siglo pasado. Durante el pasado medio siglo, se obtuvieron resultados científicos y prácticos significativos en el campo de la lingüística informática: sistemas de traducción automática de textos con algunos idiomas naturales a otros sistemas de búsqueda automatizados en textos, sistemas de análisis automáticos y síntesis oral del habla y Muchos otros fueron creados. este trabajo Se dedica a la construcción de una interfaz de computadora óptima con medios de lingüística informática al realizar estudios lingüísticos.


1. Lugar y función de lingüística informática en estudios lingüísticos.

En el mundo moderno, al realizar varios estudios lingüísticos, se utilizan cada vez más la lingüística informática.

La lingüística informática es un área de conocimiento asociada a la solución de las tareas de procesamiento automático de la información presentada en el idioma natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de entender el significado de los textos (transición del texto a una presentación formalizada de su significado) y el problema de la síntesis del habla (transición de una presentación formalizada de significado a los textos en natural. idioma). Estos problemas se producen al resolver una serie de tareas aplicadas y, en particular, las tareas de la detección automática y la corrección de errores al ingresar textos en computadora, análisis automático y síntesis de voz oral, traducción automática de textos de algunos idiomas a otra, comunicación con Computadora en lenguaje natural, clasificación automática e indexación de documentos de texto, su referencia automática, buscando documentos en bases de datos de texto completo.

Los fondos lingüísticos creados y utilizados en la lingüística de la computadora se pueden dividir en dos partes: declarativo y procesal. La parte declarativa incluye diccionarios de unidades del lenguaje y habla, textos y varios tipos de tablas gramaticales, a la parte procesal, medios de manipulación de unidades de lenguaje y habla, textos y tablas gramaticales. La interfaz informática se refiere a la parte procesal de la lingüística de la computadora.

El éxito en la resolución de tareas aplicadas de lingüística informática depende, en primer lugar, de la integridad y precisión de la presentación en la memoria de una computadora de herramientas declarativas y de la calidad de los fondos procesales. Hasta la fecha, aún no se ha alcanzado el nivel necesario de resolver estas tareas, aunque se realiza trabajos de lingüística informática en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc.).

Sin embargo, se puede observar serios logros científicos y prácticos en el campo de la lingüística informática. Entonces, en varios países (Rusia, EE. UU., Japón, etc.), sistemas experimentales e industriales de traducción automática de textos con algunos idiomas a otros, se construyeron varios sistemas de comunicación experimental con una computadora en un idioma natural. Construido, trabajar en la creación de bancos terminológicos, tesauro, diccionarios de máquinas bilingües y multilingües (Rusia, EE. UU., Alemania, Francia, etc.) se construyen mediante análisis automático y síntesis de habla oral (Rusia, EE. UU., Japón, etc.), investigación. Está en marcha para construir modelos de idiomas naturales.

Un problema metodológico importante de la lingüística de computación aplicada es la evaluación correcta de la relación requerida entre los componentes declarativos y de procedimiento de los sistemas de procesamiento de información automática de texto. ¿Qué dar preferencia: poderosos procedimientos de computación basados \u200b\u200ben sistemas de vocabulario relativamente pequeños con información gramatical y semántica rica, o un componente declarativo poderoso con interfaces de computadora relativamente simples? La mayoría de los científicos consideran que el segundo camino es preferible. Llevará rápidamente al logro de propósitos prácticos, porque al mismo tiempo habrá menos impasos y difíciles de surcar obstáculos y aquí será posible utilizar una computadora para automatizar la investigación y el desarrollo a una escala más amplia.

La necesidad de movilizar los esfuerzos, en primer lugar, en el desarrollo del componente declarativo de los sistemas de procesamiento de información automática de texto se confirma mediante una experiencia de medio siglo en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar del éxito indiscutible de esta ciencia, la pasión por los procedimientos algorítmicos no trajo el éxito esperado. Incluso hubo cierta decepción en las posibilidades de los fondos procesales.

A la luz de lo anterior, parece prometedor tal ruta del desarrollo de la lingüística informática, cuando los principales esfuerzos estarán dirigidos a crear hachísticos poderosos de las unidades del idioma y el habla, el estudio de su estructura semántica-sintáctica y en La creación de procedimientos básicos de análisis morfológico, semántico-sintáctico y conceptual y síntesis de textos. Esto continuará resolviendo una amplia gama de tareas aplicadas.

Antes de la lingüística informática, en primer lugar, se enfrentan las tareas de apoyo lingüístico para recopilar, acumular, procesar y buscar información. El más importante de ellos son:

1. Automatización de la compilación y el procesamiento lingüístico de los diccionarios de máquinas;

2. Automatización de procesos de detección y corrección de errores al ingresar textos en la computadora;

3. indexación automática de documentos y solicitudes de información;

4. Clasificación automática y referencia de documentos;

5. Provisión lingüística de procesos de búsqueda de información en bases de datos de habla única y multilingüe;

6. Traducción automática de textos con algunos idiomas naturales para otros;

7. Crear procesadores lingüísticos que brindan comunicación con sistemas de información inteligentes automatizados (en particular, con sistemas expertos) en un idioma natural, o en un idioma cercano a natural;

8. Extracción de información objetiva de textos informalizados.

Partemos en los problemas más relacionados con el tema de la investigación.

En la actividad práctica de los centros de información, existe la necesidad de resolver la tarea de detección automatizada y corregir errores en los textos al ingresarlos en una computadora. Esta tarea compleja se puede diseccionar condicionalmente en tres tareas: tareas de ortografía, control de texto sintáctico y semántico. El primero de estos se puede resolver utilizando el procedimiento de análisis morfológico utilizando un diccionario de referencia de referencia bastante potente de las palabras. En el proceso de control de ortografía, las palabras del texto están sujetas al análisis morfológico, y si sus fundamentos se identifican con los conceptos básicos del diccionario de referencia, se consideran correctos; Si no se identifican, están acompañados por un microcontexto para ver a una persona. Una persona descubre y corrige las palabras distorsionadas, y el sistema de software correspondiente hace estas correcciones en el texto corregido.

La tarea de los textos de control de sintaxis para detectar errores en ellos es significativamente más complicado por las tareas de su control de ortografía. Primero, porque incluye en su composición y la tarea de control de ortografía como su componente obligatorio, y, en segundo lugar, debido a que el problema del análisis sintáctico de los textos informalizados aún no se resuelve. Sin embargo, el control parcial sintáctico de los textos es bastante posible. Aquí puede ir de dos maneras: para formar un diccionario de máquinas de referencia suficientemente representativas de las estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; O desarrollar un complejo sistema de reglas para verificar la consistencia gramatical de los elementos de texto. El primer camino nos parece más prometedor, aunque, por supuesto, no excluye la posibilidad de usar los elementos del segundo camino. La estructura de sintaxis de los textos debe describirse en términos de clases gramaticales de palabras (con mayor precisión, en forma de secuencias de conjuntos de información gramatical a las palabras).

La tarea del control de texto semántico para detectar errores semánticos debe atribuirse a la clase de problemas de inteligencia artificial. En su totalidad, se puede resolver solo sobre la base de modelar los procesos de pensamiento humano. Al mismo tiempo, aparentemente, deberá crear poderosas bases de conocimiento enciclopédico y software de manipulación de software. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es bastante solucionable. Debe ponerse y resolverse como una tarea de control de texto semántico-sintáctico.

El problema de la automatización de documentos y solicitudes de indexación es tradicional para sistemas de búsqueda de información de texto automatizado. Al principio, bajo la indexación, el proceso de asignación de documentos y solicitudes de índices de clasificación, lo que refleja su contenido temático. En el futuro, este concepto se transformó y el término "indexación" comenzó a llamar al proceso de transferencia de descripciones de documentos y solicitudes de un lenguaje natural para formalizar, en particular, al lenguaje de las imágenes de búsqueda. Se emiten imágenes de documentos de acero, por regla general, se emiten en forma de listas de palabras clave y frases que reflejan su contenido temático, y busque imágenes de las solicitudes, en forma de estructuras lógicas en las que las palabras clave y frases se han conectado entre sí. y operadores sintácticos.

La indexación automática de los documentos se lleva a cabo convenientemente por los textos de sus resúmenes (si son), ya que en los resúmenes, el contenido principal de los documentos se refleja en la forma concentrada. La indexación se puede realizar con control sobre el tesauro o sin control. En el primer caso, el texto del encabezado del documento y su resumen se busca palabras clave y frases del diccionario de la máquina de referencia y solo aquellos de ellos que se encuentran en el diccionario. En el segundo caso, las palabras clave y frases se asignan del texto y se incluyen en él, independientemente de su pertenencia a cualquier diccionario de referencia. También se implementó la tercera opción, donde, junto con los términos del tesauro de la máquina, también se incluyen los términos asignados del encabezado y la primera propuesta del documento. Los experimentos han demostrado que las subcategorías elaboradas en modo automático por los titulares y los resúmenes de documentos proporcionan una mayor integridad de la búsqueda que las subcategorías elaboradas manualmente. Esto se explica por el hecho de que el sistema de indexación automática refleja más plenamente los diversos aspectos del contenido de los documentos que el sistema de indexación manual.

Con la indexación automática de las solicitudes, aproximadamente los mismos problemas surgen al indexar automáticamente los documentos. También tiene que asignar palabras clave y frases del texto y normalizar las palabras incluidas en el texto de la consulta. Los paquetes lógicos entre palabras clave y frases y operadores contextuales se pueden colocar manualmente o utilizar un procedimiento automatizado. Un elemento importante del proceso de indexación automática de la consulta es la adición de palabras clave y frases de sus sinónimos e hipónimos incluidos en su composición (a veces también los hiperónimos y otros términos asociados con los términos de origen de la consulta). Esto se puede hacer en modo automático o en modo interactivo utilizando el tesauro de la máquina.

Ya hemos considerado parcialmente el problema de automatizar la información documental en relación con la tarea de indexación automática. El más prometedor aquí es buscar documentos en sus textos completos, ya que el uso de todo tipo de sustitutos para este propósito (descripciones bibliográficas, búsqueda de imágenes de documentos y textos de sus resúmenes) conduce a pérdidas de información al buscar. Las mayores pérdidas ocurren cuando sus descripciones bibliográficas se utilizan como sustitutos de los documentos primarios, los más pequeños cuando se utilizan resúmenes.

Las características importantes de la búsqueda de información de información son su integridad y precisión. La plenitud de la búsqueda se puede proporcionar maximizando las vínculos paradigmáticos entre las unidades de lenguaje y habla (palabras y frases), y precisión, al contabilizar sus lazos sintagmáticos. Se cree que la plenitud y la precisión de la búsqueda se encuentran en la dependencia inversa: las medidas para mejorar una de estas características conducen al deterioro del otro. Pero esto es cierto solo para la lógica de búsqueda fija. Si esta lógica mejora, ambas características pueden mejorar simultáneamente.

El proceso de búsqueda de información en las bases de datos de texto completo es recomendable construir como un proceso de comunicación de diálogo de usuario con un sistema de búsqueda de información (IPS), en el que escanea secuencialmente los fragmentos de textos (párrafos, párrafos) que satisfacen las solicitudes lógicas de La solicitud y selecciona aquellos que por su cuenta son de interés. Como resultados de búsqueda finales, se pueden emitir tanto los textos completos de los documentos como cualquiera de sus fragmentos.

Como se puede ver en los argumentos anteriores, la búsqueda automática de información debe superar la barrera del idioma que surge entre el usuario y el IPS en relación con la variedad de formas de la presentación del mismo significado en los textos. Esta barrera se vuelve aún más significativa si la búsqueda debe mantenerse en bases de datos multilingües. Una solución cardinal del problema aquí puede ser una traducción automática de textos de documentos de algunos idiomas a otros. Esto se puede hacer con anticipación, antes de descargar documentos en el motor de búsqueda o durante la búsqueda de información. En este último caso, la solicitud del usuario debe transferirse al idioma de la matriz de documentos en la que se realiza la búsqueda, y los resultados de búsqueda están en el idioma de la consulta. Este tipo de motores de búsqueda ya operan en el sistema de Internet. Las heridas viníticas también construyeron un sistema de navegador cirílico, que le permite buscar información en los textos de idioma ruso en las consultas de inglés con los resultados de búsqueda de emisión también en el idioma del usuario.

Una tarea importante y prometedora de la lingüística informática es crear procesadores lingüísticos que garanticen a los usuarios de la comunicación con sistemas de información automatizados intelectuales (en particular con sistemas expertos) en un idioma natural o en un idioma cercano a natural. Dado que en los sistemas inteligentes modernos, la información se almacena en forma formalizada, luego los procesadores lingüísticos, que realizan el papel de los intermediarios entre el hombre y la computadora, las siguientes tareas principales deben resolverse: 1) la tarea de transición de los textos de las solicitudes de información de entrada y informes en el idioma natural a la presentación de su significado en un lenguaje formalizado (al ingresar información en una computadora); 2) la tarea de transición de una representación formalizada del significado de los mensajes de salida a su presentación en un idioma natural (al emitir información a la persona). La primera tarea debe resolverse por el análisis morfológico, sintáctico y conceptual de las consultas y mensajes de entrada, la segunda a través de la síntesis conceptual, sintáctica y morfológica de los mensajes de salida.

El análisis conceptual de las solicitudes de información e informes es identificar su estructura conceptual (los límites de los nombres de los conceptos y las relaciones entre los conceptos en el texto) y la traducción de esta estructura a un lenguaje formalizado. Se lleva a cabo después del análisis morfológico y sintáctico de las solicitudes y mensajes. La síntesis conceptual de mensajes consiste en la transición de representar los elementos de su estructura en un lenguaje formalizado a la representación verbal (verbal). Después de eso, se da el diseño sintáctico y morfológico requerido.

Para la traducción automática de textos con algunos lenguajes naturales para otros, es necesario tener diccionarios de cumplimiento traducido entre los nombres de los conceptos. Los conocimientos de tales traducciones fueron acumuladas por muchas generaciones de personas y se elaboraron en forma de publicaciones especiales: diccionarios bilingües o multilingües. Para especialistas que poseen de una manera u otra. idiomas extranjerosEstos diccionarios se desempeñaron como valiosos beneficios al transferir textos.

En los diccionarios tradicionales de propósito general bilingüe y multilingüe, los equivalentes de traducción se indicaron principalmente para palabras individuales, para frases, mucho menos a menudo. Una indicación de los equivalentes traducidos para frases fue más característica de los diccionarios terminológicos especiales. Por lo tanto, al traducir segmentos de textos que contienen palabras multivaluadas, los entrenados a menudo tenían dificultades.

A continuación se muestran las companceles de traducción entre varios pares de frases inglesas y rusas en el sujeto "Escuela".

1) El murciélago se ve como un ratón con alas - Murciélago Parece un ratón con alas.

2) A los niños les gusta jugar en la arena en la playa: los niños les encanta jugar en la arena en la orilla del mar.

3) Una gota de lluvia cayó sobre mi mano, una gota de lluvia cayó en mi mano.

4) Las quemaduras de madera seca se queman fácilmente: los alimentos secos están bien quemados.

5) Fingió no escucharme, él hizo la opinión de que no podía oírme.

Aquí, las frases en inglés no son expresiones idiomáticas. Sin embargo, su traducción al ruso solo con un poco de tramo se puede ver como una simple traducción interpretada, ya que casi todas las palabras en ellas son multivaluadas. Por lo tanto, aquí son capaces de ayudar solo a los logros de la lingüística informática.

Novoselova Irina

¿Por qué no todas las traducciones de máquinas son perfectas? ¿De qué depende la calidad de la traducción? ¿Es el autor del conocimiento suficiente para usar y complementar los diccionarios de computadoras existentes? Respuestas a estas preguntas El autor buscó presentar en su trabajo. Informe sobre el tema: en el archivo adjunto, el producto de la actividad del proyecto - en el portal de la escuela

Descargar:

Avance:

Abierto

Internacional

investigar

la Conferencia

estudiantes y estudiantes de secundaria

"Educación. La ciencia. Profesión"

Sección "Entrada de lingüística"

"Lingüística de la computadora"

Más novoselova irina

Mou Gymnasium № 39 "Clásico"

Clase 10 "B"

Líderes científicos:

Chiglinyova Tatyana Dmitrievna,

profesor de idioma ingles Categoría superior

Osipova Svetlana Leonidovna,

profesor de informática profesor de categoría superior

g. OTRADINARIO

2011

  1. Palabras de habla inglesa en las TIC

Ver en el sitio

  1. Mi experimento

Una de las tareas es realizar un experimento, que se concluye al comparar las capacidades de varios diccionarios lingüísticos informáticos, en una traducción más precisa y aproximada del inglés al ruso.

Los siguientes sitios fueron probados:

  1. http://translate.eu/
  2. http://translate.google.com/#ru
  3. http://www.lannginfo.ru/index.php?div\u003d6.
  4. http://www2.worldlingo.com/ru/products_services/WorldLingO_Translator.html

Para la pureza del experimento, elegí ofertas con diversos grados de la complejidad de la traducción estilística. Las frases para la entrada son las siguientes:

1. Un nuevo informe dice que los adolescentes de hoy son más egoístas que hace 20 años.

(El nuevo informe dice que los adolescentes modernos son más egoístas de lo que eran hace 20 años)

2. Ella cree videojuegos e Internet son las razones más importantes para este mayor egoísmo.

(Ella cree que los videojuegos e Internet son las razones más significativas de este egoísmo creciente)

3. Quieren ser mejores que otros.

(Quieren ser mejores que otros)

4. Encontró que el gran aumento comenzó desde el año 2000, que es cuando los videojuegos violentos se hicieron realmente populares.

(Encontró una gran altura, que comenzó desde 2000, cuando los videojuegos brutales se han vuelto realmente populares)

Transferencia de estas ofertas en los sitios de traductores en línea, recibí los siguientes resultados:

  1. http://translate.eu/

Trabajo de curso

en la disciplina "Informática".

sobre el tema: "Lingüística informática"


Introducción

1. Lugar y función de lingüística informática en estudios lingüísticos.

2. Interfaces modernas de lingüística de computación.

Conclusión

LITERATURA


Introducción

En la vida de la sociedad moderna, las tecnologías de la información automatizadas desempeñan un papel importante. Con el tiempo, su valor está aumentando continuamente. Pero el desarrollo de las tecnologías de la información se produce muy desigual: si el nivel moderno de equipos y comunicaciones computacionales es sorprendente la imaginación, entonces en el campo del procesamiento semántico de la información, el éxito es mucho más modesto. Estos éxitos dependen, ante todo, desde los logros en el estudio de los procesos de pensamiento humano, los procesos de comunicación del habla entre las personas y de la capacidad de simular estos procesos en la computadora.

Cuando se trata de crear tecnologías de información prometedoras, los problemas de procesamiento automático de la información textual presentada en idiomas naturales se desempeñan en primer plano. Esto está determinado por el hecho de que el pensamiento humano está estrechamente relacionado con su idioma. Además, el lenguaje natural es una herramienta de pensamiento. También es un medio universal de comunicación entre las personas: los medios de percepción, acumulación, almacenamiento, procesamiento y transmisión de información. La ciencia de la lingüística informática está involucrada en los problemas de utilizar el lenguaje natural en los sistemas de procesamiento automático de información. Esta ciencia se originó relativamente recientemente, a principios de los años cincuenta y los años sesenta del siglo pasado. Durante el pasado medio siglo, se obtuvieron resultados científicos y prácticos significativos en el campo de la lingüística informática: sistemas de traducción automática de textos con algunos idiomas naturales a otros sistemas de búsqueda automatizados en textos, sistemas de análisis automáticos y síntesis oral del habla y Muchos otros fueron creados. Este trabajo se dedica a la construcción de una interfaz de computadora óptima con medios de lingüística informática al realizar estudios lingüísticos.


En el mundo moderno, al realizar varios estudios lingüísticos, se utilizan cada vez más la lingüística informática.

La lingüística informática es un área de conocimiento asociada a la solución de las tareas de procesamiento automático de la información presentada en el idioma natural. Los problemas científicos centrales de la lingüística informática son el problema de modelar el proceso de entender el significado de los textos (transición del texto a una presentación formalizada de su significado) y el problema de la síntesis del habla (transición de una presentación formalizada de significado a los textos en natural. idioma). Estos problemas se producen al resolver una serie de tareas aplicadas y, en particular, las tareas de la detección automática y la corrección de errores al ingresar textos en computadora, análisis automático y síntesis de voz oral, traducción automática de textos de algunos idiomas a otra, comunicación con Computadora en lenguaje natural, clasificación automática e indexación de documentos de texto, su referencia automática, buscando documentos en bases de datos de texto completo.

Los fondos lingüísticos creados y utilizados en la lingüística de la computadora se pueden dividir en dos partes: declarativo y procesal. La parte declarativa incluye diccionarios de unidades del lenguaje y habla, textos y varios tipos de tablas gramaticales, a la parte procesal, medios de manipulación de unidades de lenguaje y habla, textos y tablas gramaticales. La interfaz informática se refiere a la parte procesal de la lingüística de la computadora.

El éxito en la resolución de tareas aplicadas de lingüística informática depende, en primer lugar, de la integridad y precisión de la presentación en la memoria de una computadora de herramientas declarativas y de la calidad de los fondos procesales. Hasta la fecha, aún no se ha alcanzado el nivel necesario de resolver estas tareas, aunque se realiza trabajos de lingüística informática en todos los países desarrollados del mundo (Rusia, Estados Unidos, Inglaterra, Francia, Alemania, Japón, etc.).

Sin embargo, se puede observar serios logros científicos y prácticos en el campo de la lingüística informática. Entonces, en varios países (Rusia, EE. UU., Japón, etc.), sistemas experimentales e industriales de traducción automática de textos con algunos idiomas a otros, se construyeron varios sistemas de comunicación experimental con una computadora en un idioma natural. Construido, trabajar en la creación de bancos terminológicos, tesauro, diccionarios de máquinas bilingües y multilingües (Rusia, EE. UU., Alemania, Francia, etc.) se construyen mediante análisis automático y síntesis de habla oral (Rusia, EE. UU., Japón, etc.), investigación. Está en marcha para construir modelos de idiomas naturales.

Un problema metodológico importante de la lingüística de computación aplicada es la evaluación correcta de la relación requerida entre los componentes declarativos y de procedimiento de los sistemas de procesamiento de información automática de texto. ¿Qué dar preferencia: poderosos procedimientos de computación basados \u200b\u200ben sistemas de vocabulario relativamente pequeños con información gramatical y semántica rica, o un componente declarativo poderoso con interfaces de computadora relativamente simples? La mayoría de los científicos consideran que el segundo camino es preferible. Llevará rápidamente al logro de propósitos prácticos, porque al mismo tiempo habrá menos impasos y difíciles de surcar obstáculos y aquí será posible utilizar una computadora para automatizar la investigación y el desarrollo a una escala más amplia.

La necesidad de movilizar los esfuerzos, en primer lugar, en el desarrollo del componente declarativo de los sistemas de procesamiento de información automática de texto se confirma mediante una experiencia de medio siglo en el desarrollo de la lingüística informática. Después de todo, aquí, a pesar del éxito indiscutible de esta ciencia, la pasión por los procedimientos algorítmicos no trajo el éxito esperado. Incluso hubo cierta decepción en las posibilidades de los fondos procesales.

A la luz de lo anterior, parece prometedor tal ruta del desarrollo de la lingüística informática, cuando los principales esfuerzos estarán dirigidos a crear hachísticos poderosos de las unidades del idioma y el habla, el estudio de su estructura semántica-sintáctica y en La creación de procedimientos básicos de análisis morfológico, semántico-sintáctico y conceptual y síntesis de textos. Esto continuará resolviendo una amplia gama de tareas aplicadas.

Antes de la lingüística informática, en primer lugar, se enfrentan las tareas de apoyo lingüístico para recopilar, acumular, procesar y buscar información. El más importante de ellos son:

1. Automatización de la compilación y el procesamiento lingüístico de los diccionarios de máquinas;

2. Automatización de procesos de detección y corrección de errores al ingresar textos en la computadora;

3. indexación automática de documentos y solicitudes de información;

4. Clasificación automática y referencia de documentos;

5. Provisión lingüística de procesos de búsqueda de información en bases de datos de habla única y multilingüe;

6. Traducción automática de textos con algunos idiomas naturales para otros;

7. Crear procesadores lingüísticos que brindan comunicación con sistemas de información inteligentes automatizados (en particular, con sistemas expertos) en un idioma natural, o en un idioma cercano a natural;

8. Extracción de información objetiva de textos informalizados.

Partemos en los problemas más relacionados con el tema de la investigación.

En la actividad práctica de los centros de información, existe la necesidad de resolver la tarea de detección automatizada y corregir errores en los textos al ingresarlos en una computadora. Esta tarea compleja se puede diseccionar condicionalmente en tres tareas: tareas de ortografía, control de texto sintáctico y semántico. El primero de estos se puede resolver utilizando el procedimiento de análisis morfológico utilizando un diccionario de referencia de referencia bastante potente de las palabras. En el proceso de control de ortografía, las palabras del texto están sujetas al análisis morfológico, y si sus fundamentos se identifican con los conceptos básicos del diccionario de referencia, se consideran correctos; Si no se identifican, están acompañados por un microcontexto para ver a una persona. Una persona descubre y corrige las palabras distorsionadas, y el sistema de software correspondiente hace estas correcciones en el texto corregido.

La tarea de los textos de control de sintaxis para detectar errores en ellos es significativamente más complicado por las tareas de su control de ortografía. Primero, porque incluye en su composición y la tarea de control de ortografía como su componente obligatorio, y, en segundo lugar, debido a que el problema del análisis sintáctico de los textos informalizados aún no se resuelve. Sin embargo, el control parcial sintáctico de los textos es bastante posible. Aquí puede ir de dos maneras: para formar un diccionario de máquinas de referencia suficientemente representativas de las estructuras sintácticas de referencia y comparar las estructuras sintácticas del texto analizado con ellos; O desarrollar un complejo sistema de reglas para verificar la consistencia gramatical de los elementos de texto. El primer camino nos parece más prometedor, aunque, por supuesto, no excluye la posibilidad de usar los elementos del segundo camino. La estructura de sintaxis de los textos debe describirse en términos de clases gramaticales de palabras (con mayor precisión, en forma de secuencias de conjuntos de información gramatical a las palabras).

La tarea del control de texto semántico para detectar errores semánticos debe atribuirse a la clase de problemas de inteligencia artificial. En su totalidad, se puede resolver solo sobre la base de modelar los procesos de pensamiento humano. Al mismo tiempo, aparentemente, deberá crear poderosas bases de conocimiento enciclopédico y software de manipulación de software. Sin embargo, para áreas temáticas limitadas y para información formalizada, esta tarea es bastante solucionable. Debe ponerse y resolverse como una tarea de control de texto semántico-sintáctico.