Skip to content

proyecto

¿Qué es TeresIA?

TeresIA es un proyecto de investigación sobre terminologías e inteligencia artificial en las lenguas oficiales de España, que generará un metabuscador de términos así como tecnologías para la extracción y el tratamiento de neologismos.
El metabuscador será una puerta de entrada única a las terminologías ya existentes en ámbitos especializados. Pretende responder a la dispersión de recursos terminológicos y a la necesidad de disponer de terminologías validadas de calidad en las lenguas oficiales de España

PRESENTACIÓN

próximamente video de presentación del proyecto

" Un portal de tecnologías de Inteligencia Artificial para el trabajo terminológico a disposición de organismos e instituciones"

A GOLPE DE BIT

Acceso al podcast del programa "a golpe de bit" RNE 09/01/24

Un proyecto interinstitucional e interdisciplinar

TeresIA es un proyecto interinstitucional, diseñado y concebido por un consorcio del que forman parte el Consejo Superior de Investigaciones (CSIC), institución coordinadora del proyecto; el Instituto Cervantes (IC); la Asociación Española de Terminología (AETER); la Universidad Politécnica de Madrid (UPM); el Centro Nacional de Supercomputación (BSC); y la Real Academia de Ingeniería (RAI). Cuenta además con el apoyo decidido de la Dirección General de Traducción de la Comisión Europea (DGT).

Además, TeresIA es un proyecto interdisciplinar: su desarrollo implica el trabajo en colaboración entre lingüistas computacionales, terminólogos, documentalistas, traductores y especialistas en ciencia de datos, inteligencia artificial y procesamiento del lenguaje natural.

La idea primigenia de TeresIA surgió hace más de quince años. El nombre del proyecto quiere reconocer el destacado trabajo de la catedrática de Lingüística y Terminología de la Universitat Pompeu Fabra Teresa Cabré en la definición y planteamiento de esta iniciativa.

Cobertura lingüística de TeresIA

En TeresIA trabajamos con terminología en las lenguas oficiales de España. En el caso del español, lo hacemos con perspectiva panhispánica, es decir, tratando de atender a las variantes geográficas de esta lengua.

El grado de cobertura de las distintas lenguas es diferente en los distintos ejes del proyecto TeresIA. Esta diferencia viene marcada fundamentalmente por los tiempos y recursos del proyecto.

  • Censo de recursos terminológicos: elaborado por el equipo de TeresIA incluye recursos terminológicos en las distintas lenguas oficiales de España y recursos multilingües que contienen alguna de esas lenguas y otras europeas, fundamentalmente.
  • Metabuscador: se recuperarán términos de las lenguas oficiales de España, las variantes del español y otras lenguas contenidas en los recursos terminológicos que se hayan incorporado al metabuscador gracias al acuerdo alcanzado con los productores de las distintas terminologías.
  • Extracción de terminología: aunque inicialmente se trabajará con corpus de textos científicos y técnicos en español –de distintos países iberoamericanos-, los algoritmos de extracción estarán disponibles en abierto para que puedan aplicarse a las distintas lenguas.

Terminología y ciencia abierta

El desarrollo de TeresIA implica producir cuatro elementos clave:

Corpus

Creará un corpus de textos científicos en español producidos en España y América Latina. Se trabajará inicialmente en los campos de la Medicina y el Derecho.

Metodología

Diseñará una metodología de extracción de terminología mediante técnicas de IA aplicadas al corpus de textos científicos en español constituido. Los términos extraídos serán mostrados en su contexto, serán validados por expertos, sancionados lingüísticamente, y transformados a formato de la web de datos para hacerlos visibles y recuperables en distintos entornos, entre ellos el metabuscador.

Datos

Generará un enorme conjunto de datos terminológicos en las lenguas de España, siguiendo principios FAIR. Se publicarán en los distintos espacios de datos internacionales, permitiendo así su utilización en múltiples herramientas multilingües basadas en datos.

Interacción

Identificar términos de una especialidad implica determinar la forma de una palabra para un significado concreto en un campo científico. Sin términos asentados o validados no existe un vocabulario fiable, armonizado o normalizado para la disciplina científica. 

¿Por qué es importante TeresIA?

Trabajar con las palabras específicas de una disciplina y disponer así de términos validados, sancionados lingüísticamente y tratados siguiendo los principios FAIR es necesario no solamente para asentar las lenguas de especialidad, dotándolas de fuerza y previniendo el uso de anglicismos, sino también para conectarlos con términos en otros idiomas, impulsando así un entorno digital multilingüe. Contar con terminologías de calidad permite:

Organizar

Organizar grandes volúmenes de texto existentes en las bases de datos y sistemas de información.

Indizar

Indizar automáticamente documentos pues las técnicas que lo permiten necesitan de terminologías validadas.

Visibilizar

Visibilizar con ello la producción científica generada en lenguas oficiales de España, al poderse describir adecuadamente los ingentes volúmenes de información científica y volcarlos a la red en formato de web de datos.

Buscar

Realizar búsquedas semánticas en conjuntos grandes de documentos, con la posibilidad de introducir términos en un idioma y recuperar textos en distintos idiomas, gracias a la interconexión de las terminologías multilingües.

Traducir

Servir de base a la traducción automática y a la humana, aportando eficiencia y garantizando precisión en las equivalencias que se hacen entre los términos y conceptos de un idioma a otro.

Incorporar

Incorporar correctamente el lenguaje de cada disciplina científica a los modelos de lenguaje, que aprenderán a hablar mejor de ciencia en las lenguas oficiales de España.

Enseñar

Favorecer una enseñanza rigurosa de las lenguas de especialidad en programas internacionales de formación como los que lleva a cabo el Instituto Cervantes con el español.

Usar

Favorecer el uso adecuado del lenguaje científico en la comunicación y divulgación de la ciencia.