Corpus ROBOT-TALK
El corpus ROBOT TALK se creó con el objetivo de servir de muestra del lenguaje para hacer los análisis lingüísticos contrastivos tanto cuantitativos como cualitativos necesarios para responder a la pregunta principal del proyecto: ¿es posible distinguir si un texto en español ha sido generado por un LLM o por una persona utilizando rasgos lingüísticos del texto?
Se trata de un corpus comparable monitor en español. Está compuesto por textos comparables por autor (humano, Bard, Claude, GPT-3.5-Turbo, GPT-4, Mixtral) de tres géneros principales, noticias, reseñas de cine y artículos científicos especializados en lingüística.
Muestra del corpus
Características del corpus
- Texto escrito en español
- Comparables por autor
- humano
- Bard
- Claude
- GPT-3.5-Turbo
- GPT-4
- Mixtral
- Fuentes:
- Revistas científicas de lingüística
- Noticieros en línea
- Web de reseñas de cine
- Géneros
- Artículos científicos
- Noticias
- Reseñas de cine
Fuentes del cropus
- Artículo científico de lingüística
- RSEL, Revista de investiación Lingüística, Revista electrónica de lingüística aplicada, Sintagma, Círculo de Lingüística Aplicada a la Comunicación, Asterisco, …
- Noticia
- RTVE, EFE
- Reseña de cine
- Filmaffinity
Descripción del corpus
Corpus comparable | Autor | Humano | Bard | Claude | GPT-3.5-Turbo | GPT-4 | Mixtral | N.º de textos por género |
---|---|---|---|---|---|---|---|---|
Género de los textos | Artículos científicos | 144 | 90 | 0 | 90 | 95 | 90 | 509 |
Noticias | 171 | 171 | 60 | 111 | 171 | 111 | 795 | |
Reseñas de cine | 160 | 160 | 65 | 95 | 160 | 95 | 735 | |
N.º total de textos | 475 | 421 | 125 | 296 | 426 | 296 | 2039 |