Project Details

Description

La ciencia de datos comprende el manejo, procesamiento y análisis de grandes cantidades de información. La ciencia de datos involucra áreas como el Big Data y la analítica de datos, y su popularidad ha venido en crecimiento debido a que ofrece aplicaciones, herramientas de análisis y soluciones en múltiples áreas. Aunque el primer sector en beneficiarse ha sido el tecnológico, esta área también ha demostrado ser fundamental para sectores como el retail y el mercadeo, y tiene gran potencial en el sector agropecuario y en la administración pública, entre muchos otros.
La ciencia de datos es precisamente una de las áreas de profundización e investigación del nuevo programa MACC (Matemáticas Aplicadas y Ciencias de la Computación) de la Universidad del Rosario. En este momento el Departamento MACC se encuentra en las etapas iniciales de desarrollo de esta línea de trabajo para estudiantes y profesores.

Este proyecto tiene dos propósitos: establecer una infraestructura de software (en equipos locales y remotos) que permita la experimentación a estudiantes y profesores con varias tecnologías de Big Data; y emplear esta infraestructura para lanzar un proyecto de investigación en la Universidad del Rosario enfocado en el desarrollo de clústers de Big Data inteligentes que sean capaces de adaptarse a cambios en patrones de tráfico de manera automática.
En cuanto a la infraestructura de software, una de las actividades clave del proyecto es el establecimiento y puesta en funcionamiento de clústers de Big Data sobre varias tecnologías: Hadoop, Spark, SparkStream, Flink, Memcached. Estos clústers permitirán la realización de varias actividades: apoyarán al naciente Semillero de Big Data (inició actividades en el segundo semestre de 2018) con infraestructura de prueba; apoyarán el desarrollo de nuevos cursos electivos en Machine Learning, Big Data y Sistemas Distribuidos, que se ofrecerán como parte de las líneas de profundización del programa de pregrado MACC y en el programa de la maestría MACC (se espera que inicie en 2020-1); apoyarán actividades de extensión como el Diplomado en Ciencia de Datos (que se ofrecerá por segunda vez en 2018-2). Además de habilitar la infraestructura, se realizarán talleres de Big Data para que los estudiantes se familiaricen con estas herramientas y puedan experimentar con los clústers de prueba.

Los clústers de Big Data se desarrollarán sobre dos infraestructuras de hardware: equipos físicos ubicados actualmente en el Big Data Lab, a los que tienen acceso estudiantes y profesores; y equipos remotos ubicados en la nube pública (Amazon Web Services). Esto permitirá tener diferentes tipos de usuarios y realizar experimentos a diferentes escalas (pequeñas y controladas en los equipos físicos, y mediadas y grandes en la nube).
Tanto el desarrollo de la infraestructura de software la formación de estudiantes e investigadores serán fundamentales para desarrollar futuros proyectos de investigación y consultoría en el área de Big Data.
Una vez los primeros clústers se encuentren funcionales, se iniciará con la etapa de investigación, en la que se desarrollarán métodos matemáticos (basados en técnicas probabilísticas, estadísticas y de optimización) que le permitan al clúster adaptarse inteligentemente al entorno, específicamente al nivel y tipo de tráfico observados.

Estos métodos toman relevancia ya que las aplicaciones de Big Data han migrado a atender servicios en línea (streaming), enfrentándose a un tráfico variable e incierto. Debido a la complejidad de estas aplicaciones (múltiples capas de software sobre un conjunto de muchos recursos de hardware), no es evidente cómo la aplicación debe ajustarse de manera automática ante cambios en el tráfico, teniendo en cuenta la calidad de servicio y los costos de operación. Ejemplos recientes de estos esfuerzos se encuentran en [1-4].

Los métodos desarrollados se implementarán computacionalmente y se someterán a pruebas que permitan medir su efectividad en un entorno simulado. Se procederá luego a incorporar estos métodos en los clústers para realizar pruebas con niveles y tipos de tráfico realistas sobre infraestructura física y remota. Los resultados de estos experimentos, y los métodos propuestos, se documentarán en dos artículos de investigación que se someterán en conferencias y/o revistas internacionales. Los métodos desarrollados se implementarán en módulos de software
que serán también resultado del proyecto.

Size Matters: Improving the Performance of Small Files in Hadoop by Salman Niazi (KTH, Logical Clocks, RISE SICS); Jim Dowling, Seif Haridi (KTH); Mikael Ronström (Oracle); Jim Dowling (Logical Clocks).

[1] G. Mencagli, P. Dazzi, N. Tonci. SpinStreams: a Static Optimization Tool for Data Stream Processing Applications.
Middleware, 2018.
[2] S. Esteves, H. Galhardas, L. Veiga. Adaptive Execution of Continuous and Data-intensive Workflows with Machine Learning. Middleware, 2018.
[3] J. Ortiz, B. Lee, M. Balazinska, J. Gehrke, J. L. Hellerstein. SLAOrchestrator: Reducing the Cost of Performance SLAs for Cloud Data Analytics. USENIX ATC, 2018.
[4] A. Qiao, A. Aghayev, W. Yu, H. Chen, Q. Ho, G. A. Gibson, E. P. Xing. Litz: Elastic Framework for High-Performance Distributed Machine Learning. USENIX ATC, 2018.

Commitments / Obligations

1. Habrá formado a un grupo de estudiantes en tecnologías de Big Data.
2. Contará con una infraestructura de software para la experimentación con clústers de Big Data.
3. Habrán desarrollado nuevos métodos para la adaptación inteligente de aplicaciones de Big Data.
4. Habrán producido (escrito y enviado a evaluación) dos artículos de investigación sobre los métodos desarrollados.
5. Habrán generado nuevos productos de software que implementan los métodos desarrollados
StatusActive
Effective start/end date10/1/2010/1/21

Main Funding Source

  • Internal