Defensa Tesis Maestría Esteban Donado
Titulo: Evaluating classification algorithms applied to data streams. Director: Dr. Fazel Famili ( Universidad Ottawa). Co- Director: Dra. Ana S. Haedo
| Qué |
|
|---|---|
| Cuándo |
21/12/2009 de 03:00 pm a 04:00 pm |
| Dónde | Laboratorio 5 en Video Conferencia con Ottawa |
| Agregar evento al calendario |
|
- Titulo: Evaluating classification algorithms applied to data streams
- Author: Ing. Esteban D. Donato
- Director: Dr. Fazel Famili ( Universidad Ottawa)
- Co- Director: Dra. Ana S. Haedo
- Jurados
- Dr Marcelo Errecalde ( Universidad de San Luis)
- Dr Richard Weber (Universidad de Chile)
- Mg Maria Teresa Blaconá ( Universidad Nacional de Rosario)
1.Abstract
Nowadays, the majority of the companies and organizations collect and maintain gigantic databases that grow to millions of registers per day. A few months' worth of data can easily add up to billions of records, and the entire history of transactions or observations can be in the hundreds of billions. Current algorithms for mining complex models from data (e.g., decision trees, sets of rules) cannot mine even a fraction of these data in useful time. To resolve this situation, we must switch from the traditional “one-shot" data mining approach to systems that are able to mine continuous, high-volume, open-ended data streams as they arrive. These algorithms continuously revise and refine a model by incorporating new data as they arrive. One important issue related to modeling data streams is known as concept drift. This occurs when the underlying data distribution changes over time. Concept drift may depend on some hidden context, not given explicitly in the form of predictive features.
The objective of this thesis consists of performing a benchmarking analysis between a number of known algorithms applied to data streams. The algorithms chosen for this study are: UFFT, CVFDT and VFDTc. The analysis will be focused on some aspects that all the algorithms applied to data streams have to deal with.
Keywords: incremental learning, data streams, concept drift, online learning, data mining, benchmarking analysis
Resumen
Actualmente la mayoría de las compañías y organizaciones recolectan y mantienen gigantescas bases de datos que crecen en el orden de millones de registros por día. En pocos meses se pueden recolectar más de mil millones de registros y el histórico de registros puede llegar a los cientos de miles de millones. Los algoritmos actuales (arboles de decisión, conjunto de reglas) no pueden explotar ni siquiera una fracción de estos datos en el tiempo necesario. Para resolver estos problemas, debemos cambiar el enfoque tradicional de data mining por sistemas que permitan explotar streams de datos continuos, frecuentes y sin fin a medida que estos llegan. Estos algoritmos actualizan un modelo continuamente, incorporando nuevos datos a medida que estos llegan. Un problema importante que se relaciona con el aprendizaje de streams de datos es conocido con el nombre de concept drift. Esto sucede cuando la distribución de datos subyacente cambia en el tiempo. Un Concept drift puede depender de cierto contexto oculto que no fue dado explícitamente como atributo de predicción.
El objetivo de esta tesis se basa en el desarrollo de un análisis comparativo entre varios algoritmos conocidos utilizados para streams de datos. Los algoritmos que elegimos son: UFFT, CVFDT y VFDTc. El análisis estará focalizado en algunos aspectos que todos los algoritmos aplicados a streams de datos deben cumplir.
Palabras claves: aprendizaje incremental, streams de datos, concept drift, aprendizaje en línea, explotación de datos, análisis comparativo


