Información y Documentación Plan 2019

Undergraduate Programme. Academic Year 2024/2025.

Supervising Department: Facultad de Ciencias de la Documentación.
Course Coordination: Esther Burgos Bordonau.
Entrance and Admission
Details about the study programme
Course website
External link
Díptico de la titulación

EXTRACCIÓN Y PROCESAMIENTO AVANZADO DE LA INFORMACIÓN - 805412

Curso Académico 2024-25

Datos Generales

Plan de estudios: 080J - GRADO EN INFORMACIÓN Y DOCUMENTACIÓN (2019) (2019-20)
Carácter: Optativa
ECTS: 6.0

SINOPSIS

COMPETENCIAS

Generales

- Conocimientos en el tratamiento automatizado de la información

Transversales

- Capacidad para aplicar técnicas de minería de textos y datos
- Conocimientos técnicos para la recolección automatizada de información

Específicas

- Desarrollar estrategias de clasificación de la información
- Aplicar técnicas de big-data para el análisis automático de la información

ACTIVIDADES DOCENTES

Clases teóricas

El profesor expondrá y desarrollará los contenidos teóricos básicos sobre la extracción y procesamiento de información.

Clases prácticas

Desarrollo de actividades formativas prácticas con herramientas informáticas en las que el estudiante aplicará y pondrá en práctica los contenidos teóricos expuestos por el profesor.

Otras actividades

Resolución de dudas que puedan surgir al estudiante y seguimiento de los trabajos prácticos individuales y grupales.

Presenciales

Semestre

Objetivos

Aprender los métodos de extracción de la información en Internet, para su reutilización, desarrollo de servicios de información y enriquecimiento documental automático.
Aprender a procesar archivos XML de forma automática, para su posterior procesamiento en base de datos.
Aprender los principios que sustentan la minería de datos y el big-data.
Adquirir la habilidad para realizar migraciones de datos complejas, creando mapas de migración, planificando procedimientos de transformación, hasta su importación definitiva en la base de datos de destino.

Contenido

Teoría básica de la extracción y procesamiento de datos en la Web.
Tecnologías para la extracción de datos XML-XPath, funciones cURL, Objetos DOM, funciones file_get_contents, RESTful HTTP Get.
Técnicas de parsing XML + Práctica.
Técnicas de scraping orientadas a recursos Web + Práctica.
Introducción a la minería de datos y el big-data.

Evaluación

- El estudiante deberá demostrar que ha alcanzado los resultados de aprendizaje previstos mediante la realización de ejercicios prácticos y un examen teórico. Los ejercicios prácticos supondrán el 50% de la nota y el examen el otro 50% restante.
- Para aprobar la asignatura es necesario aprobar tanto la teoría como la práctica.

Bibliografía

Cunningham, H. (2005). Information extraction, automatic. Encyclopedia of language and linguistics,, 665-677.

Fernández Villamor, J.I.; Blasco Garcia, J.; Iglesias Fernandez, C.A.; Garijo Ayestaran, M. (2011). A semantic scraping model for web resources-Applying linked data to web page screen scraping.

Han, H.; Tokuda, T. (2008). A method for integration of Web applications based on information extraction. In Web Engineering, 2008. ICWE'08. Eighth International Conference on (pp. 189-195). IEEE.

Han, J.; Pei, J.; Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.

Johnson, F.; Gupta, S.K. (2012). Web content mining techniques: A survey. International Journal of Computer Applications, 47(11).

Kokkoras, F.; Ntonas, K.; Bassiliades, N. (2013). DEiXTo: a web data extraction suite. In Proceedings of the 6th Balkan Conference in Informatics (pp. 9-12). ACM.

Malik, S.K.; Rizvi, S.A.M. (2011). Information extraction using web usage mining, web scrapping and semantic annotation. En Computational Intelligence and Communication Networks (CICN)

Mayfield, J.; Finin, T. (2003). Information retrieval on the Semantic Web: Integrating inference and retrieval. In Proceedings of the SIGIR Workshop on the Semantic Web.

Mitchell, R. (2015). Web Scraping with Python: Collecting Data from the Modern Web. O'Reilly Media.

Myllymaki, J. (2002). Effective web data extraction with standard XML technologies. Computer Networks, 39(5), 635-644.

Nicola, M.; John, J. (2003). XML parsing: a threat to database performance. En Proceedings of the twelfth international conference on Information and knowledge management (pp. 175-178). ACM.

Richardson, L.; Ruby, S. (2008). RESTful web services. O'Reilly Media.

Russom, P. (2006). Best practices in data migration. Renton/USA.

Vargiu, E.; Urru, M. (2012). Exploiting web scraping in a collaborative filtering-based approach to web advertising. Artificial Intelligence Research, 2(1), 44.

Estructura

Módulos	Materias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases Teóricas y Prácticas
Grupo	Periodos	Horarios	Aula	Profesor
Grupo B	27/01/2025 - 16/05/2025	LUNES 15:00 - 17:00	B-22	MANUEL BLAZQUEZ OCHANDO
Grupo B	27/01/2025 - 16/05/2025	MARTES 15:00 - 17:00	B-22	MANUEL BLAZQUEZ OCHANDO