Cada investigación es ahora un negocio de BigData, debido a que los datos son el futuro de su organización y su activo más valioso. La Universidad Central “Marta Abreu” de las Villas junto a la plataforma de Hortonworks, ayudan a investigadores e ingenieros en nuestra universidad, así como en el territorio nacional, a transformar su investigación desbloqueando todo el potencial de BigData.

Hortonworks Data Platforms (HDP) ofrece una solución de arquitectura abierta para gestionar los datos en movimiento y en reposo, lo que permite a la organización una inteligencia accionable a los usuarios finales a través de aplicaciones de datos modernas. Hortonworks DataFlow (HDF ™) gestiona los datos en movimiento, mediante la adquisición y transporte de datos a Hortonworks Data Platform (HDP ™). HDP gestiona datos en reposo para todos los tipos de datos, con gobernanza empresarial, seguridad y operaciones.

Hortonworks es líder en plataformas de datos abiertas y aplicaciones de datos, en la uclv nos enfocamos en impulsar la innovación junto a desarrolladores interesados de todo el país, a través de comunidades de código abierto como Apache Hadoop®, así como proyectos asociados incluyendo Apache NiFi, Apache Hive ™ y Apache Spark ™ entre otros. Hortonworks junto con nuestro desarrollo humano proporcionamos la experiencia, la formación y los servicios que permiten a nuestros usuarios desbloquear transformacional para sus organizaciones a través de cualquier línea de negocio.

BigData UCLV cuenta con una infraestructura basada en servidores IBM y DELL:

ServidorCantidadProcesadorNúcleos RAM (GB)NIC
IBM iDataPlex d360 M2302 x Intel Xeon L5520 (Gainestown or Nehalem-EP)8122 x 1 Gbit Ethernet

Software Instalado

HORTONWORKS DATA PLATFORM (HDP)

HDP es una distribución de código abierto de la industria Apache ™ Hadoop®, basada en una arquitectura centralizada (YARN). HDP satisface las necesidades completas de los datos en reposo, potencia las aplicaciones de clientes en tiempo real y ofrece análisis robustos de datos grandes que aceleran la toma de decisiones y la innovación.

Open SourceCentralImagen2
 Open Source Central Interoperable
 HDP permite a los investigadores desplegar, integrar y trabajar con volúmenes sin precedentes de datos estructurados y no estructurados HDP se basa en una arquitectura centralizada soportada por YARN que asigna recursos entre varias aplicaciones.HDP es interoperable con un amplio ecosistema de centros de datos y proveedores en la nube.

La siguiente figura muestra el entorno en el que trabaja la UCLV, actualmente se encuentran instalado todos los componentes de la seccion “Data Acces”. Esta capa incluye una gama versátil de motores de procesamiento que le permiten interactuar con los mismos datos de múltiples maneras, al mismo tiempo. Esto significa que las aplicaciones para el análisis de datos grandes pueden interactuar con los datos de la mejor manera: desde batch a SQL interactivo o acceso de baja latencia con NoSQL. Los casos de uso emergentes para la ciencia de datos, la búsqueda y el streaming también son compatibles con Apache Spark, Storm y Kafka.

 bigdata

Entre los mas destacados se encuentran:

Apache Ambari

El proyecto Apache Ambari tiene como objetivo hacer más sencilla la gestión de Hadoop en BigData mediante el desarrollo de software para el aprovisionamiento, gestión y supervisión de clústeres Apache Hadoop. Ambari proporciona una interfaz de usuario intuitiva y fácil de usar para la administración de Hadoop, respaldada por sus APIs RESTful.

Apache Hadoop YARN

La idea fundamental de YARN es dividir las funcionalidades de la administración de recursos y la programación / monitoreo de trabajos en daemons separados. La idea es tener un ResourceManager global (RM) y por aplicación un ApplicationMaster (AM). Una aplicación es un trabajo único o un Grupo de Trabajos de trabajos. ResourceManager forma el marco de cálculo de datos y es la última autoridad que arbitra los recursos entre todas las aplicaciones del sistema. El NodeManager es el agente de la estructura por máquina que es responsable de los contenedores, supervisando su uso de recursos (CPU, memoria, disco, red) y reportando lo mismo al ResourceManager / Scheduler.

Cómo obtener una cuenta de acceso en BigData UCLV?

Para obtener una cuenta de acceso en BigData UCLV solo debe de llenar los datos que se piden en el formulario de Solicitud de Cuenta de Acceso. Una vez que su solicitud sean procesada el sistema le enviará a su correo electrónico los datos de acceso.

Tanto los mostrados en la figura anterior, como los descritos anteriormente, presentan en la sección BigData de la Wiki de la Red Académica de Supercómputo – HPC Cuba, forma de uso y algunos ejemplos que puede servir a a investigadores e ingenieros en sus proyectos.