Proyectos de Investigación

Corpus ROBOT-TALK

El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto:  ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?

Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Gemini, Claude, GPT-3.5-Turbo, GPT-4, Mixtral) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística. Estos fueron recopilados entre diciembre 2022 y febrero 2025.

 

  Muestra del corpus 

 

Características del corpus

  • Texto escrito en español
  • Comparables por autor
    • humano
    • Gemini
    • Claude
    • GPT-3.5-Turbo
    • GPT-4
    • Mixtral
 
GÉNEROS Artículos científicos Noticias Reseñas de cine
FUENTES

Revistas científicas de lingüística

RSEL, Revista de investiación Lingüística, Revista electrónica de lingüística aplicada, Sintagma, Círculo de Lingüística Aplicada a la Comunicación, Asterisco, …

Noticieros en línea:

RTVE, EFE

Web de reseñas de cine:

Filmaffinity

 

Composición del corpus

Corpus comparable Autor Humano  Gemini  Claude GPT-3.5-Turbo GPT-4 Mixtral N.º de textos por género
Género de los textos Artículos científicos 144 90 0 90 95 90 509
Noticias 171 171 60 111 171 111 795
Reseñas de cine 160 160 65 95 160 95 735
N.º total de textos 475 421 125 296 426 296 2039