R – Ingenio en marcha

30 Jun

Presentación: R como herramienta de soporte para Analytics y simulación

Recientemente tuve la oportunidad de dar una charla sobre las ventajas de utilizar R como soporte para profesionales en Analytics y Simulación.

Si bien existen diferentes software especializados para realizar análisis de datos cada uno con sus ventajas y desventajas, en los últimos años los especialistas de diversas disciplinas han coincidido en la necesidad de estandarizar procesos y análisis en un solo lenguaje, la gran mayoría han optado por R (Python es otra buena alternativa). Esta presentación pretende mostrar las ventajas del lenguaje R (y algunas aplicaciones) como herramienta de soporte a profesionales que requieren manipulación y análisis de datos, en mi caso particular como consultor en optimización y simulación.

A continuación el material de soporte de la presentación.

R as supporting tool for analytics and simulation from Alvaro Gil

26 Jun

Muestreo y análisis de resultados usando AnyLogic PLE

marbles1

Intro
Teoría
AnyLogic
Muestreo
Descarga

Una vez construido un modelo de simulación es necesario ejecutar un Análisis Resultados para garantizar la robustez de del modelo y la validez de los hallazgos.

El análisis de resultados consiste en ejecutar múltiples repeticiones de un experimento haciendo o no cambios a una o varias variables de manera que se describa el comportamiento general del modelo y se identifiquen los patrones de los resultados dados diferentes valores de las variables de entrada. Si estas repeticiones se hacen con cambios incrementales en las variables de entrada, se conoce como Análisis de Sensibilidad. Si las variables de entrada tienen una distribución de probabilidad asociada se puede generar una secuencia combinada basada en dicha distribución, lo que se conoce como Monte Carlo. Cuando las variaciones son estratificadas (escalas uniformes) sin importar la distribución asociada se conoce como Variación de Parámetros.

AnyLogic en su versión PLE permite realizar Variación de Parámetros y Optimización. Versiones más avanzadsa como la versión profesional permiten además realizar Comparación de Experimentos, Monte Carlo, Análisis de Sensibilidad, Calibración y Experimentos personalizados (ver imagen).

Siendo la variación de parámetros el único tipo de experimento disponible en la versión PLE para la fase post-simulación a continuación se explica cómo hacer muestreo y análisis de resultados usando este módulo y algunas maneras de implementar rutinas que incrementen su funcionalidad.

Al construir un modelo de simulación se debe establecer todo el espectro y distribución de las variables de entrada (parámetros). Para ello utilizamos muestreo y análisis estadístico. Esta parte pre-simulación será tratada en otro post.

Al finalizar el modelo, se deben ejecurar múltiples repeticiones con diferentes valores aleatorios y parámetros para establecer el rango total de salida. Idealmente se deben simular todos los escenarios posibles, sin embargo, en muchas ocasiones el número total de escenarios es tan alto que simular el espectro completo tarda demasiado. En estos casos es recomendable utilizar muestreo sobre los parámetros para elegir combinaciones estadísticamente representativas.

A continuación se explican los diferentes tipos de muestreo.

Tipos de Muestreo

Muestreo Aleatorio: Consiste en generar muestras eligiendo números al azar sobre la distribución de probabilidad acumulada. Esta técnica requiere un elevado número de muestras para conseguir una representación adecuada de la variable en estudio (cientos o miles de repeticiones).

Muestreo Estratificado: Consiste en segmentar la variable en grupos o estratos y elegir valores aleatorios al interior de cada sub-grupo para la simulación. Los estratos son generados a partir de información típica de la distribución observada. Requiere también de un elevado número de repeticiones aunque menor que el muestreo aleatorio.

Muestreo por Hipercubo Latino: Consiste en asignar distribuciones de probabilidad a cada variable de entrada y distribuir cada una en un número de intervalos equiprobables. Luego se eligen valores al interior de cada grupo y se combinan con las demás dimensiones de las otras variables, para obtener vectores completamente independientes y aleatorios como entradas del modelo. Dado que cada muestra es independiente, se requieren menos repeticiones pues se asume que una serie completa de experimentos con esta entrada es estadísticamente independiente.

Un inconveniente típico en este último método es que la representatividad de los resultados solo se puede evaluar luego de ejecutar todos los experimentos y en caso de no ser satisfactoria, se debe volver a empezar aumentando la cantidad de intervalos equiprobables. Una solución a este inconveniente es la utilización del Hipercubo Latino Escalable.

Segmentación

En otras ocasiones no es necesario conocer todo el espectro sino un segmento de él. Si el segmento es contínuo (ejemplo una variable puede distribuirse entre 100 y 200 visitas por hora pero solo se desea evaluar el impacto de mas de 160 visitas al día) se considera como una variación de parámetros con menos combinaciones. Cuando las variaciones son discontinuas y combinadas, es mejor definir los escenarios previamente y luego ejecutar experimentos basados únicamente en la matriz de entrada. En AnyLogic esto se implementa fácilmente utilizando bases de datos o archivos externos.

Implementación en AnyLogic

Una vez se elige un nuevo experimento de tipo variación de parámetros, AnyLogic crea una nueva sesión en blanco donde se define la memoria total a utilizar, el agente de referencia (usualmente Main) y la forma como los parámetros van a interactuar (ver imagen). Estos parámetros pueden ser fijos o variables en un rango, es decir se fija un valor único o el valor inferior y superior, así como el paso (step) para su variación uniforme.

De esta forma, si se tiene un modelo con 10 parámetros de entrada de las cuales 2 se planean fijas y 8 variables con 10 pasos por cada una, se deben tener al menos 100 millones de experimentos para cubrir una sola repetición de todas las simulaciones.

Ejemplo

Un ejemplo es el siguiente modelo en el cuál un taller cuenta con cuatro estaciones de trabajo en serie, cada una con un buffer de entrada con capacidad limitada. Las estaciones cuentan con un tiempo de procesamiento tn (9, 12, 8 y 14 minutos respectivamente) distribuido triangularmente más o menos 10% (ver imagen del modelo).

Luego de haber ingresado 1000 unidades al sistema el modelo se detiene y verifica los indicadores claves de rendimiento. Estos son:

% de piezas completadas
Piezas en proceso promedio (WIP)
Tiempo de ciclo promedio
Tiempo total de operación del taller
Diferencia promedio de la utilización del mayor y menor buffer

Si suponemos que las capacidades de cada buffer pueden variar entre 1 y 20 unidades lo que representa 20 pasos ya que los variaciones son discretas, se cuenta en total con 160,000 diferentes configuraciones para evaluar todo el espacio (sin réplica).

Para comprobar esto creamos un experimento tipo variación de parámetros y asignamos los siguientes valores (ver imagen).

Hacemos click en Create default UI para crear la interfaz. Luego añadimos 5 estadísticas locales (statComplete, statWIP, statCycleTime, statTotalTime, statDiffQ) en las cuales guardaremos el resultado de cada experimento así como tres histogramas (WIP, tiempo de ciclo y tiempo total).

En la sección indicando qué hacer luego de cada simulación (After simulation run) añadimos el siguiente código:

statComplete.add((double)root.sink.count()/(double)root.totalUnits*100);
statWIP.add(root.statWIP.mean());
statCycleTime.add(root.statCycleTime.mean());
statTotalTime.add(root.totalTime);
statDiffQ.add(root.statDiffQ.mean());
dataWIP.add(root.statWIP.mean());
dataCycleTime.add(root.statCycleTime.mean());
dataTotalTime.add(root.totalTime);

statComplete.add((double)root.sink.count()/(double)root.totalUnits*100);

statWIP.add(root.statWIP.mean());

statCycleTime.add(root.statCycleTime.mean());

statTotalTime.add(root.totalTime);

statDiffQ.add(root.statDiffQ.mean());

dataWIP.add(root.statWIP.mean());

dataCycleTime.add(root.statCycleTime.mean());

dataTotalTime.add(root.totalTime);

Y finalmente ejecutamos el experimento (ver imagen inferior).

Como se puede observar ejecutar 160 mil experimentos tomó cerca de 8 minutos (478.1 segundos), y los estadísticos permiten establecer que:

El % de copletado se encuentra entre 91.6 y 99.2 con media de 95.4%
El WIP entre 0.02 y 70.2 con media de 36.4 unidades
El tiempo de ciclo entre 112.2 y 1,077.4 con media de 613.8 minutos
El tiempo total de operación entre 12,823 y 13,998 con media de 13,395 minutos
La diferencia promedio de utilización de buffers entre 0.4% y 94.9% con media de 37.9%

Según se requiera se pueden crear experimentos específicos de optimización que arrojen la configuración indicada para por ejemplo minimizar el tiempo total de ciclo o minimizar el tiempo total de operación o minimizar el trabajo en proceso (otros post se dedicarán a la creación de experimentos de optimización).

A continuación explicaremos dos formas de realizar el muestreo de manera que el tiempo total de experimentación se reduzca.

Método Alternativo 1: Hipercubo usando R y AnyLogic

Creamos un hipercubo latino utilizando R y transferimos estos valores a AnyLogic para ejecutar específicamente simulaciones de estas configuraciones.

En primer lugar creamos un nuevo experimento de tipo variación de parámetros. Esta vez no asignamos variabilidad a los parámetros de entrada (ver imagen). Creamos la interfaz haciendo click en Create default UI.

Un inconveniente que tiene esta técnica es que la cantidad de experimentos (dimensiones del cubo) son definidas a través de la cantidad de réplicas (o usando la forma libre), en este caso escogemos un total de 2000 experimentos para representar el espacio total de 160,000 (representando un 1.25% del total de la población).

A continuación cargamos la librería RCaller y la importamos al experimento. Así mismo definimos las acciones a realizar antes y después de cada simulación pasar los parámetros y capturar las estadísticas (ver imágen siguiente).

Al igual que en la variación de parámetros, en este experimentos creamos cinco estadísticos y tres histogramas.

Adicionalmente creamos tres variables: totalExperimentos (int), dimensions (int) e hypercube (int[][]). Finalmente creamos una función llamada getHyperCube con el siguiente código:

try { 
    RCaller caller = new RCaller();
    RCode code = new RCode();  
    caller.setRscriptExecutable("C:/Program Files/Microsoft/MRO/R-3.2.4/bin/x64/Rscript.exe");
    code.clear();
    code.R_require("lhs"); 
    code.addRCode("a<-randomLHS(" + dimensions + ", 4)");
    code.addRCode("a<-round(a*15+1,0)");
    caller.setRCode(code);
    caller.runAndReturnResult("a");
    double[][] d =  caller.getParser().getAsDoubleMatrix("a");
    for(int i=0; i<dimensions; i++){
    	for(int j=0; j<4; j++){
    	hypercube[i][j]=(int)d[i][j];
    	}
    }
} catch (Exception e) {
    System.out.println(e.toString());
	}

try {

RCaller caller = new RCaller();

RCode code = new RCode();

caller.setRscriptExecutable("C:/Program Files/Microsoft/MRO/R-3.2.4/bin/x64/Rscript.exe");

code.clear();

code.R_require("lhs");

code.addRCode("a<-randomLHS(" + dimensions + ", 4)");

code.addRCode("a<-round(a*15+1,0)");

caller.setRCode(code);

caller.runAndReturnResult("a");

double[][] d = caller.getParser().getAsDoubleMatrix("a");

for(int i=0; i<dimensions; i++){

for(int j=0; j<4; j++){

hypercube[i][j]=(int)d[i][j];

}

} catch (Exception e) {

System.out.println(e.toString());

}

Esta función se ejecuta al inicio de toda la serie de experimentos para crear el hipercubo en R (utilizando el paquete lhs) e importarlo a AnyLogic para almacenarlo en la variable local hypercube. Este hypercubo en realidad es una matriz donde cada fila representa la configuración de los buffer de cada experimento a correr.

Al ejecutar el experimento encontramos:

El tiempo total de simulación fue de tan solo 21 segundos (23 veces más rápido que el experimento original)
El % de copletado se encuentra entre 93.4 y 99.0 con media de 96.1%
El WIP entre 2 y 54 con media de 29 unidades
El tiempo de ciclo entre 138.6 y 867.59 con media de 511.9 minutos
El tiempo total de operación entre 13,061 y 13,947 con media de 13,508 minutos
La diferencia promedio de utilización de buffers entre 1.5% y 93.2% con media de 28.3%

Si bien las distribuciones no reflejan los mismos límites superiores e inferiores de la variación de parámetros anterior, los valores hallados se aproximan bastante, con un tiempo de simulación 23 veces inferior. Esta técnica es particularmente útil cuando se cuenta con capacidad limitada de computación y experimentos complejos donde el espectro completo puede tomar días enteros en ser simulado por tanto una muestra con resultados similares en menor tiempo es muy necesaria.

Método Alternativo 2: Segmentación

En este caso asumimos que solo deseamos simular las siguientes configuraciones:

Buffer 1: variando de 5 a 15 (step=1)
Buffer 2: solo puede ser 1, 5, 10 o 15
Buffer 3: siempre 5
Buffer 4: valores pares de 2 a 20

En este caso el total de experimentos a realizar es 440 (11*4*1*10).

Creamos entonces un experimento tipo variación de parámetros de forma libre con 440 repeticiones (ver imagen) y añadimos un archivo de Excel donde hemos creado previamente las 440 configuraciones.

En las acciones antes y después creamos el siguiente código que permite leer el archivo de Excel y llenar la variable local hypercube con todas las configuraciones requeridas. Adicionalmente capturamos las estadísticas de rendimiento al finalizar cada experimento.

Ejecutamos el experimento.

Esta vez el experimento tomó solamente 2.3 segundos (sin repetición). El usuario puede repetir varias veces la matriz Excel y aumentar el número de experimentos en AnyLogic para añadir repeticiones.

El modelo soporte, la librería RCaller y el archivo Excel pueden ser descargados en el siguiente link.

Descarga

14 May

Integrando AnyLogic y R: Gráfico de control

Intro
Modelo AnyLogic
Resultados
Qué hacer

Un concepto común en la ingeniería industrial es el control estadístico de procesos, el cuál consiste en la definición de un proceso a partir de rendimientos estándares de manera que el control de calidad de los productos no requiera de una precisa medición de cada unidad, sino de la revisión de los estadísticos del proceso. Si estos tuvieron alguna desviación frente a sus estándares (media y desviación típica), se sospecha que pueden haber fallas de calidad en los productos y solo entonces se procede a la revisión individual de los productos, lo que reduce sustancialmente los tiempos de ciclo en la producción (ver link).

Una herramienta fundamental para esto es el gráfico de control el cuál permite visualizar para una actividad o proceso específico, el histórico de tiempos de proceso en secuencia, de manera que se establezca el tiempo promedio y los límites superiores e inferiores del proceso. Estos límites marcan la frontera del control estadístico, así un ciclo cuyo tiempo esté por encima del límite superior o por debajo del inferior, se presume anómalo desde el punto de vista estadístico. Los administradores de procesos deciden entonces si se trata de un hecho puntual para una unidad atípica o si es una tendencia del proceso y por ende se requieren tomar medidas bien sea frente al lote de producción, al recurso (un operario fatigado o una máquina próxima a mantenimiento) o a la materia prima entre otras.

Los límites de control son usualmente definidos en función de la desviación estandar del proceso, en general tres desviaciones hacia arriba y hacia abajo son la norma, lo que entre otras es la base de la metodología six sigma.

El gráfico siguiente es una muestra de cómo luce un gráfico de control, donde se evidencia que los ciclos de 4:30 y 6:00 estan por encima del límite superior. Adicionalmente se evidencia que el proceso en general está aumentando su tiempo promedio de ciclo lo cuál puede ser debido a una fatiga del recurso y por tanto requiere de una acción preventiva.

En ocasiones los límites son controlados artificialmente para aumentar o reducir la variabilidad. Esto sucede cuando uno o varios componentes no son homogéneos o bien cuando se quieren fijar controles específicos (ejemplo reducir los límites a dos desviaciones estándares para los pedidos de un cliente específico o para los productos de exportación).

En este tutorial mostraremos cómo generar estos gráficos de manera automática en AnyLogic con la ayuda de R y cómo hacer uso de ellos para controlar un proceso.

El modelo a simular será una estación de trabajo con una fuente y una salida. El tiempo de procesamiento será una función que explicaremos mas adelante. Adicionalmente se requiere una imagen sin contenido, un dataset y combobox y dos sliders (ver imagen).

Agregamos a la lista de dependencias del modelo la librería RCaller-2.5.jar

La siguiente es la función para controlar el tiempo de proceso tProc()

double t = 0;
double val = round(getExperiment().getProgress()*100);
if(val<30){
t=triangular(0.5, 8, 2);
}
else if(val<60){
t=triangular(1.5, 11, 3);
}
else{
t=triangular(2.5, 14, 4);
}
return t;

double t = 0;

double val = round(getExperiment().getProgress()*100);

if(val<30){

t=triangular(0.5, 8, 2);

}

else if(val<60){

t=triangular(1.5, 11, 3);

}

else{

t=triangular(2.5, 14, 4);

}

return t;

La cuál integramos en el servicio como tiempo de espera (ver imagen). Adicionalmente agregamos el código que permite actualizar el gráfico de control cada cierta cantidad de piezas procesadas (variable each)

La función updateControlChart() conecta AnyLogic con el ejecutable de R (RScript), transmite datos y realiza operaciones, en este caso crea el gráfico de control, el cuál se guarda en una dirección temporal del ordenador. La dirección es usada para cambiar periódicamente la fuente del objeto imagen lo que actializa el gráfico de control.

try {
	RCaller caller = new RCaller();
    RCode code = new RCode();  
    caller.setRscriptExecutable(rPath);
    code.clear();
    code.R_require("qcc");            
    double[] numbers = new double[DatasetServiceTime.size()];
	for(int i=0; i<DatasetServiceTime.size(); i++) numbers[i]=DatasetServiceTime.getY(i);
	code.addDoubleArray("Service_Time", numbers);
	File file = code.startPlot();
	String ss = "";
	if(iterations>0 && fixLimits){
		ss = "st <- qcc(Service_Time, type='xbar.one', limits = c(";
		ss = ss + lowerLimit + ", " + upperLimit + ") ,title='";
		ss = ss + "Gráfico de control del\ntiempo de servicio')";
	}
	else{
		ss = "st <- qcc(Service_Time, type='xbar.one', title='";
		ss = ss + "Gráfico de control del\ntiempo de servicio')";
	}
	code.addRCode(ss); 
	code.addRCode("s <- list(ll=st$limits[1], ul=st$limits[2], v=st$violations[1]$beyond.limits, w=st$statistics)");
	caller.setRCode(code);
	caller.runAndReturnResult("s");
	double ll = caller.getParser().getAsDoubleArray("ll")[0];
	double ul = caller.getParser().getAsDoubleArray("ul")[0];
	int[] v_id = caller.getParser().getAsIntArray("v");
	double[] v_val = caller.getParser().getAsDoubleArray("w");
	violations=v_id;
	violations_val=v_val;
			if(image1.getImageFileNames().size()>0) image1.remove(0);
  			image1.add(file.getPath());
  			image1.setIndex(0);
  			iterations++;
  			if(iterations>0){
  				if(!fixLimits){
  					if(ll<0)lowerLimit=0;
  					else lowerLimit=ll;
  				}
  				upperLimit=ul;
  			}
        } catch (Exception e) {
        System.out.println(e.toString());
	}

try {

RCaller caller = new RCaller();

RCode code = new RCode();

caller.setRscriptExecutable(rPath);

code.clear();

code.R_require("qcc");

double[] numbers = new double[DatasetServiceTime.size()];

for(int i=0; i<DatasetServiceTime.size(); i++) numbers[i]=DatasetServiceTime.getY(i);

code.addDoubleArray("Service_Time", numbers);

File file = code.startPlot();

String ss = "";

if(iterations>0 && fixLimits){

ss = "st <- qcc(Service_Time, type='xbar.one', limits = c(";

ss = ss + lowerLimit + ", " + upperLimit + ") ,title='";

ss = ss + "Gráfico de control del\ntiempo de servicio')";

}

else{

ss = "st <- qcc(Service_Time, type='xbar.one', title='";

ss = ss + "Gráfico de control del\ntiempo de servicio')";

}

code.addRCode(ss);

code.addRCode("s <- list(ll=st$limits[1], ul=st$limits[2], v=st$violations[1]$beyond.limits, w=st$statistics)");

caller.setRCode(code);

caller.runAndReturnResult("s");

double ll = caller.getParser().getAsDoubleArray("ll")[0];

double ul = caller.getParser().getAsDoubleArray("ul")[0];

int[] v_id = caller.getParser().getAsIntArray("v");

double[] v_val = caller.getParser().getAsDoubleArray("w");

violations=v_id;

violations_val=v_val;

if(image1.getImageFileNames().size()>0) image1.remove(0);

image1.add(file.getPath());

image1.setIndex(0);

iterations++;

if(iterations>0){

if(!fixLimits){

if(ll<0)lowerLimit=0;

else lowerLimit=ll;

}

upperLimit=ul;

}

} catch (Exception e) {

System.out.println(e.toString());

}

Esta función permite además identificar las piezas cuyo tiempo están por encima de los límites de control (variable violations). Si hay al menos una pieza en esta categoría, el ID de la pieza y el tiempo de proceso pueden ser conocidos haciendo click en el botón "Defectos". Los límites de control también pueden ser fijados haciendo click en el combobox "Fijar Límites" y variando los sliders.

El siguiente es un video demostrando el modelo de simulación en funcionamiento.

Los archivos pueden descarcarse en el siguiente link.

Este modelo fue hecho usando AnyLogic 7.3.3 y Microsoft R Open V 3.2.4, sin embargo como se muestra en el video, es posible cambiar el origen de RScript para usar el script original de R.

Este modelo es solo una muestra de las posibles aplicaciones que se pueden hacer integrando AnyLogic y R, sin embargo R cuenta con una serie de paquetes especializados en muchos campos que permiten ampliar la gama de aplicaciones. Un ejemplor puede ser utiizar paquetes de análisis estadístico (ejemplo MASS, statmod) para identificar distribuciones de probabilidad atípicas y generar predicciones sobre tiempos de operación en las estaciones para mejorar la alocación de tareas, o aplicar minería de datos (paquetes car y caret) para clasificar actividades según rendimiento, o incluso utilizar aprendizaje autónomo (machine learning) para predecir comportamientos que mejoren la programación y sequenciación (nnet, neuralnet, RSNNS, deepnet, darch).

También es posible utilizar librerías especializadas para diseñar gráficos más avanzados que los suministrados por AnyLigic (ggplot).

En el próximo post de esta serie se explicará un ejemplo aplicando minería de datos y aprendizaje autónomo en R para optimizar un proceso de mediana complejidad.

24 Apr

Microsoft R Open: La apuesta de Microsoft en Analytics

A inicios de 2015 el gigante informático Microsoft adquirió Revolution Analytics, empresa especializada en la aplicación de Analytics y el desarrollo de librerías utilizando el lenguaje R (ver noticia y anuncio oficial). Inicialmente la adquisición tuvo muchos cuestionamientos pues las aplicaciones de Revolution son en su mayoría basadas en software de fuente abierta (open source) y de distribución gratuita (y algunas versiones empresariales con costo claro está), lo que dista del modelo de negocio de Microsoft. Adicionalmente el concepto de Analytics es algo que hasta ahora había estado fuera de la órbita de los productos y aplicaiones Microsoft, no obstante fue soportado como una incursión para soportar ciertas funcionalidades de Windows 10 como Cortana y la integración con servicios de almacenamiento y procesamiento como Azure.

Posteriormente se lanzó Microsoft R Open (MRO, antiguamente Revolutions R Open), el cuál es un set completo del lenguaje R combinado con algunas librerías adicionales para el procesamiento mutitarea y de operaciones matemáticas como MKL (Math Kernel Library) que permite aumentar la velocidad de procesamiento. Adicionalmente cuenta con un repositorio unificado de paquetes lo que asegura que los proyectos no se afecten por cambios de versiones.

Además de MRO (antes RRO), existe la versión profesional Microsoft R Server MRS (antiguamente RRE Revolution R Entreprise), la cuál incluye las mismas funcionalidades básicas mas ciertas librerías exclusivas para aplicaciones distribuidas y de big data.

Uno de estos paquetes es RevoScaleR que incorpora el formato XDF (External Data Frame) para manipulación de grandes volúmenes de datos (Big Data).

RevoScaleR incorpora algoritmos especiales para manipular matrices de gran tamaño rápidamente. En el siguiente gráfico se compara tiempo de procesamiento requerido para aplicar un modelo linear generalizado (GLM) a diferentes volúmenes de datos. Claramente RevoScaleR puede ejecutar el modelo en 5 millones de datos en menos de 10 segundos mientras que R tradicional toma casi 80 segundos por una cantidad mucho menor. Existen en todo caso algunas maneras de mejorar este rendimiento en la versión gratuita (ver Post Big Data).

Dado que MRO es en escencia R con ciertas mejoras, muchos usuarios han migrado hacia MRO en el último año y muchas empresas están considerando incursionar en MRS.

En el siguiente link se hace una comparación en tiempo de procesamiento de R, MRO y MRS.

R y Azure

Microsoft Azure (anteriormente Windows Azure y Azure Services Platform) es una plataforma ofrecida como servicio y alojada en los Data Centers de Microsoft (wiki), un concepto similar al que ofrecen Amazon y Google para alojamiento y procesamiento en línea. Actualmente Azure cuenta con más de 100 centros de procesamiento en el mundo.

Con la incorporación de R a través de MRO y MRS, Microsoft ha incluído módulos dedicados en Azure para importar y ejecutar scripts de R dentro de sus servicios (ver imagen).

WODA (Write Once, Deploy Anywhere)

Con la premisa WODA (Write Once, Deploy Anywhere) Microsoft planea hacer MRO y MRS extensibles a todo tipo de arquitectura (ejemplos: Hadoop (Hortonworks, Cloudera y MapR), Linux (Red Hat y SUSE) y Teradata ). Esto permitirá a todos los gurú del big data y el análisis de información utilizar un lenguaje universal (R) y ejecutarlo local o en línea sin importar el tipo de infraestructura utilizada, lo que podría catapultar la utilización y popularización de Azure en muy poco tiempo.

Sin duda esta es una ambiciosa pero interesante apuestas de Microsoft dada la popularidad de R en todas las comunidades (académica, científica y profesional) y los complementos para el tratamiento a gran escala de datos. Así mismo el enfoque transversal sin importar la arquitectura aumenta las posiblidades de expandir y popularizar los servicios de Azure. Ya era hora que las empresas comenzaran a entender que la popularidad de un producto comienza por el componente abierto.

La revista Forbes destaca esta jugada como inteligente y bien fundamentada, resaltando que una sola herramienta para unificarlas a todas (haciendo alución al señor de los anillos) ver artículo.

11 Feb

Integrando AnyLogic y R Parte 1

Como se explicó en el post anterior, R es un poderoso lenguaje de programación especializado en el análisis y manipulación de datos, gratuito y de gran popularidad a nivel mundial (ver post). Por su parte AnyLogic es un software de simulación cuyo lenguaje de base es Java lo que permite la integracion de librerias externas (ver wiki).

Al combinar ambos sistemas es posible aprovechar de las funcionalidades de cada uno como gráficos, analisis y minería de datos, pronósticos, etc.

En este post explicaremos cómo llamar R a partir de AnyLogic utilizando dos diferentes librerías: AJAL Data Exporter y RCaller (se utilizan por separado y segun el caso se utiliza una u otra).

09 Feb

Paquetes de R indispensables para Analytics

Intro
Paquetes R
Analytics
Versión corta

Si usted está interesado en Analytics es indispensable no solo tener un buen conocimiento de estadística y manejo de datos, sino también conocer al menos un software especializado.

De acuerdo a la encuesta anual realizada por el sitio especializado en Analytics y Big Data KDNuggets, los programas de análisis y minería de datos más populares en 2015 fueron: R, RapidMiner, SQL, Python y Excel.

De manera similar la empresa de consultoría en Analytics REXER realiza otra encuesta anual cuya última edición (2015) presentó el los siguientes resultados:

Donde R es el claro ganador, seguido de SPSS y SAS (y JMP).

Como lo he expresado en otros posts, tengo gran inclinación hacia R y JMP (una ramificación de SAS un poco menos complejo y por más económico).

Dado que R es el más popular, es gratuito y de gran difusión, dedicaré varias entradas del blog a este tópico, explicando cómo usarlo y cómo integrarlo con otras aplicaciones en particular de simulación.

A continuación se presentan algunos de los paquetes básicos para utilizar R en el análisis, manipulación y representación de datos.

Qué es un paquete de R?

Los paquetes son compilaciones de funciones propias de R (u otros lenguajes compilados en librerías) que al unirse pueden ser procesos específicos bien sea de manipulación de datos, análisis, gráficas, etc. Al igual que R, los paquetes son gratuitos y de acceso público (usualmente).

El lugar donde se almacenan los paquetes en el computador local se llama librería.

La versión estandar de R viene normalmente con una serie de paquetes básicos, sin embargo si se requiere de operaciones y/o análisis más complejos, es necesario instalar nuevos paquetes.

Un paquete se instala usando el siguiente comando (nombre del paquete entre comillas):

install.packages('nombre')

1	install.packages('nombre')

Paquetes recomendados para hacer Analytics

El siguiente infographics realizado por el sitio especializado Analytics Vidhya presenta una lista de paquetes indispensables para realizar Analytics:

Todos ellos muy relevantes y recomendados. Adicionalmente sugiero los siguientes:

qcc: gráficos de control de calidad (quality control charts link)
RCurl: descargar información desde direcciones web (link).
manipulate: creación de gráficos interactivos en R-Studio (link)

El lector puede copiar y pegar el siguiente código en R o RStudio para instalar todos estos paquetes en secuencia.

#Pre Modeling Stage
install.packages('ggplot2')
install.packages('googleVis')
install.packages('plyr')
install.packages('data.table')
install.packages('missForest')
install.packages('missMDA')
install.packages('outliers')
install.packages('evir')
install.packages('features')
install.packages('RRF')
install.packages('FactoMineR')
install.packages('CCP')
#Modeling Stage
install.packages('car')
install.packages('randomForest')
install.packages('rminer')
install.packages('CORELearn')
install.packages('caret')
install.packages('BigRF')
install.packages('cba')
install.packages('Rankcluster')
install.packages('forecast')
install.packages('ltsa')
install.packages('survival')
install.packages('BaSTA')
#Post Modeling Stage
install.packages('lsmeans')
install.packages('comparison')
install.packages('regtest')
install.packages('ACD')
install.packages('binomTools')
install.packages('Daim')
install.packages('clusteval')
install.packages('sigclust')
install.packages('pROC')
install.packages('timeROC')
#Other Libraries
install.packages('Rcpp')
install.packages('parallel')
install.packages('tm')
install.packages('twitterR')
install.packages('XML')
install.packages('jasonlite')
install.packages('httr')
install.packages('sqldf')
install.packages('RODBC')
install.packages('RMongo')
install.packages('shiny')
install.packages('rmarkdown')
install.packages('swirl')
install.packages('reshape2')
install.packages('qcc')

install.packages('RCurl')
install.packages('manipulate')
install.packages('ggmap')

#Pre Modeling Stage

install.packages('ggplot2')

install.packages('googleVis')

install.packages('plyr')

install.packages('data.table')

install.packages('missForest')

install.packages('missMDA')

install.packages('outliers')

install.packages('evir')

install.packages('features')

install.packages('RRF')

install.packages('FactoMineR')

install.packages('CCP')

#Modeling Stage

install.packages('car')

install.packages('randomForest')

install.packages('rminer')

install.packages('CORELearn')

install.packages('caret')

install.packages('BigRF')

install.packages('cba')

install.packages('Rankcluster')

install.packages('forecast')

install.packages('ltsa')

install.packages('survival')

install.packages('BaSTA')

#Post Modeling Stage

install.packages('lsmeans')

install.packages('comparison')

install.packages('regtest')

install.packages('ACD')

install.packages('binomTools')

install.packages('Daim')

install.packages('clusteval')

install.packages('sigclust')

install.packages('pROC')

install.packages('timeROC')

#Other Libraries

install.packages('Rcpp')

install.packages('parallel')

install.packages('tm')

install.packages('twitterR')

install.packages('XML')

install.packages('jasonlite')

install.packages('httr')

install.packages('sqldf')

install.packages('RODBC')

install.packages('RMongo')

install.packages('shiny')

install.packages('rmarkdown')

install.packages('swirl')

install.packages('reshape2')

install.packages('qcc')

install.packages('RCurl')

install.packages('manipulate')

install.packages('ggmap')

Para los interesados en simulación la técnica de montecarlo les recomiendo los siguientes links:

Una lista adicional puede ser encontrada en la el sitio KDnuggets donde se identifican los 20 paquetes más populares en descargas en R durante el 2015 algunos de ellos se encuentran dentro del listado anterior (ver link).

Instale todos estos paquetes con solo copiar y pegar el siguiente código en su línea de comandos de R (o su IDE).

source('http://agiltools.com/R/rp.R')

1	source('http://agiltools.com/R/rp.R')

18 Dec

Rexer Analytics 2013 Data Miners Survey

Recientemente se han publicado los resultados de la última encuesta a profesionales de Analytics a lo largo del mundo. El estudio se realizó simultaneamente en línea y a los asistentes al Predictive Analytics World (Boston, Octubre 2013).

En total, 1259 usuarios de 79 países atendieron el llamado. Los resultados se encuentran compilados en el siguiente documento:

2013 Rexer DM-Survey PAW Deck

Algunos resultados interesantes

Entre varias de las cosas que llamaron mi atención está la popularidad que aún sigue teniendo R. Este software de caracter gratuito sigue siendo el lider en cuanto a usuarios activos asi como en nuevos usuarios por año.

Reporte UCLA

Otro aspecto interesante del estudio es el ranking de satisfacción de software, donde STATISTICA, KNIME y JMP obtuvieron los primeros lugares.

Ingenio en marcha

Simulación y Analytics

Tag Archives: R

Presentación: R como herramienta de soporte para Analytics y simulación

Like this:

Muestreo y análisis de resultados usando AnyLogic PLE

Tipos de Muestreo

Segmentación

Implementación en AnyLogic

Ejemplo

Método Alternativo 1: Hipercubo usando R y AnyLogic

Método Alternativo 2: Segmentación

Like this:

Integrando AnyLogic y R: Gráfico de control

Los archivos pueden descarcarse en el siguiente link.

Like this:

Microsoft R Open: La apuesta de Microsoft en Analytics

R y Azure

WODA (Write Once, Deploy Anywhere)

Like this:

Integrando AnyLogic y R Parte 1

Like this:

Paquetes de R indispensables para Analytics

Qué es un paquete de R?

Paquetes recomendados para hacer Analytics

Like this:

Rexer Analytics 2013 Data Miners Survey

Algunos resultados interesantes

Like this: