24 Apr

Microsoft R Open: La apuesta de Microsoft en Analytics

Revo_varios

A inicios de 2015 el gigante informático Microsoft adquirió Revolution Analytics, empresa especializada en la aplicación de Analytics y el desarrollo de librerías utilizando el lenguaje R (ver noticia y anuncio oficial). Inicialmente la adquisición tuvo muchos cuestionamientos pues las aplicaciones de Revolution son en su mayoría basadas en software de fuente abierta (open source) y de distribución gratuita (y algunas versiones empresariales con costo claro está), lo que dista del modelo de negocio de Microsoft. Adicionalmente el concepto de Analytics es algo que hasta ahora había estado fuera de la órbita de los productos y aplicaiones Microsoft, no obstante fue soportado como una incursión para soportar ciertas funcionalidades de Windows 10 como Cortana y la integración con servicios de almacenamiento y procesamiento como Azure.

Posteriormente se lanzó Microsoft R Open (MRO, antiguamente Revolutions R Open), el cuál es un set completo del lenguaje R combinado con algunas librerías adicionales para el procesamiento mutitarea y de operaciones matemáticas como MKL (Math Kernel Library) que permite aumentar la velocidad de procesamiento. Adicionalmente cuenta con un repositorio unificado de paquetes lo que asegura que los proyectos no se afecten por cambios de versiones.

Además de MRO (antes RRO), existe la versión profesional Microsoft R Server MRS (antiguamente RRE Revolution R Entreprise), la cuál incluye las mismas funcionalidades básicas mas ciertas librerías exclusivas para aplicaciones distribuidas y de big data.

mro

Uno de estos paquetes es RevoScaleR que incorpora el formato XDF (External Data Frame) para manipulación de grandes volúmenes de datos (Big Data).

RevoScaleR incorpora algoritmos especiales para manipular matrices de gran tamaño rápidamente. En el siguiente gráfico se compara tiempo de procesamiento requerido para aplicar un modelo linear generalizado (GLM) a diferentes volúmenes de datos. Claramente RevoScaleR puede ejecutar el modelo en 5 millones de datos en menos de 10 segundos mientras que R tradicional toma casi 80 segundos por una cantidad mucho menor. Existen en todo caso algunas maneras de mejorar este rendimiento en la versión gratuita (ver Post Big Data).

revoScale

Dado que MRO es en escencia R con ciertas mejoras, muchos usuarios han migrado hacia MRO en el último año y muchas empresas están considerando incursionar en MRS.

En el siguiente link se hace una comparación en tiempo de procesamiento de R, MRO y MRS.

R y Azure

Microsoft Azure (anteriormente Windows Azure y Azure Services Platform) es una plataforma ofrecida como servicio y alojada en los Data Centers de Microsoft (wiki), un concepto similar al que ofrecen Amazon y Google para alojamiento y procesamiento en línea. Actualmente Azure cuenta con más de 100 centros de procesamiento en el mundo.

Azure

Con la incorporación de R a través de MRO y MRS, Microsoft ha incluído módulos dedicados en Azure para importar y ejecutar scripts de R dentro de sus servicios (ver imagen).

RAzure

 

WODA (Write Once, Deploy Anywhere)

Con la premisa WODA (Write Once, Deploy Anywhere) Microsoft planea hacer MRO y MRS extensibles a todo tipo de arquitectura (ejemplos: Hadoop (Hortonworks, Cloudera y MapR), Linux (Red Hat y SUSE) y Teradata ). Esto permitirá a todos los gurú del big data y el análisis de información utilizar un lenguaje universal (R) y ejecutarlo local o en línea sin importar el tipo de infraestructura utilizada, lo que podría catapultar la utilización y popularización de Azure en muy poco tiempo.

Sin duda esta es una ambiciosa pero interesante apuestas de Microsoft dada la popularidad de R en todas las comunidades (académica, científica y profesional) y los complementos para el tratamiento a gran escala de datos. Así mismo el enfoque transversal sin importar la arquitectura aumenta las posiblidades de expandir y popularizar los servicios de Azure. Ya era hora que las empresas comenzaran a entender que la popularidad de un producto comienza por el componente abierto.

La revista Forbes destaca esta jugada como inteligente y bien fundamentada, resaltando que una sola herramienta para unificarlas a todas (haciendo alución al señor de los anillos) ver artículo.

%d bloggers like this: