Proyectos de Investigación

Corpus ROBOT-TALK

El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto:  ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?

Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Bard, Claude, GPT-3.5-Turbo, GPT-4, Mixtral) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística. 

 

  Muestra del corpus 

 

Características del corpus

  • Texto escrito en español
  • Comparables por autor
    • humano
    • Bard
    • Claude
    • GPT-3.5-Turbo
    • GPT-4
    • Mixtral
  • Fuentes:
    • Revistas científicas de lingüística
    • Noticieros en línea
    • Web de reseñas de cine
  • Géneros
    • Artículos científicos
    • Noticias
    • Reseñas de cine

 

Fuentes del cropus

  • Artículo científico de lingüística
    • RSEL, Revista de investiación Lingüística, Revista electrónica de lingüística aplicada, Sintagma, Círculo de Lingüística Aplicada a la Comunicación, Asterisco, …
  • Noticia
    • RTVE, EFE
  • Reseña de cine
    • Filmaffinity

 

Descripción del corpus

Corpus comparable Autor Humano Bard Claude GPT-3.5-Turbo GPT-4 Mixtral N.º de textos por género
Género de los textos Artículos científicos 144 90 0 90 95 90 509
Noticias 171 171 60 111 171 111 795
Reseñas de cine 160 160 65 95 160 95 735
N.º total de textos 475 421 125 296 426 296 2039