[MATEMÁTICAS] Estadística 10 – ANÁLISIS EXPLORATORIO DE DATOS (A.E.D.) 1

Publicado: febrero 24, 2012 en Matemática

ANÁLISIS EXPLORATORIO DE DATOS (A.E.D.)

La finalidad del Análisis Exploratorio de Datos (AED) es examinar los datos previamente a la aplicación de cualquier técnica estadística. De esta forma el analista consigue un entendimiento básico de sus datos y de las relaciones existentes entre las variables analizadas.

El AED proporciona métodos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de casos atípicos y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes.

INTRODUCCIÓN

¿Existe algún tipo de estructura (normalidad, multimodalidad, asimetría, curtosis, linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que voy a analizar?

¿Existe algún sesgo en los datos recogidos?

¿Hay errores en la codificación de los datos?

¿Cómo se sintetiza y presenta la información contenida en un conjunto de datos?

¿Existen datos atípicos (outliers)? ¿Cuáles son? ¿Cómo tratarlos?

¿Hay datos ausentes (missing)? ¿Tienen algún patrón sistemático? ¿Cómo tratarlos?

OBJETIVOS

1)      Definir qué es el Análisis Exploratorio de Datos (A.E.D.) y cuáles son sus objetivos.

2)      Indicar cuáles son las etapas a seguir en la realización de un A.E.D.

3)      Seleccionar los métodos gráfico y numérico apropiados para examinar las características de los datos y/o relaciones de interés.

4)      Comprobar si se verifican algunas hipótesis de interés en los datos (normalidad, linealidad, homocedasticidad).

5)      Identificar casos atípicos univariantes, bivariantes y multivariantes.

6)      Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.

APARTADOS

1)      ¿Qué es el Análisis Exploratorio de Datos (A.E.D.)?

2)      Etapas del A.E.D.

3)      Preparación de los Datos

4)      Análisis Estadístico Unidimensional

5)      Estudio de la Normalidad

6)      Análisis Estadístico Bidimensional

7)      Datos Atípicos (outliers)

8)      Datos Ausentes (missing)

CONTENIDOS

  1. ¿QUÉ ES EL ANÁLISIS EXPLORATORIO DE DATOS?
    Es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas. Para eso proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes (normalidad, linealidad, homocedasticidad).
    El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier análisis estadístico.
  2. ETAPAS DEL A.E.D.
    Para realizar un A.E.D. conviene seguir las siguientes etapas:
    1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística.
    2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos.
    3) Realiza un examen gráfico de las relaciones entre las variables analizadas y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.
    4) Evaluar, si fuera necesario, algunos supuestos básicos subyacentes a muchas técnicas estadísticas como, por ejemplo, la normalidad, linealidad y homocedasticidad.
    5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores.
    6)Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.
  3. PREPARACIÓN DE LOS DATOS
    El primer paso es hacer accesible los datos a cualquier técnica estadística. Ellos conlleva la selección del método de entrada (por teclado o importados de un archivo) y codificación de los datos así como la de un paquete estadístico adecuado para procesarlos.
    Los paquetes estadísticos son conjuntos de programas que implementan diversas técnicas estadísticas en un entorno común. Algunos de los más utilizados son, SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y últimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB.
    La codificación de los datos depende del tipo de variable. Los paquetes estadísticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numéricos, nominales, ordinales, etc)
    La inmensa mayoría de los paquetes estadísticos permite realizar manipulaciones de los datos previas a un análisis de los mismos. Algunas operaciones útiles son las siguientes:-Combinar conjuntos de datos de dos archivos distintos
    -Seleccionar subconjuntos de los datos
    -Dividir el archivo de los datos en varias partes
    -Transformar variables
    -Ordenar casos
    -Agregar nuevos datos y/o variables
    -Eliminar datos y/o variables
    -Guardar datos y/o resultados

    Finalmente, y con el fin de aumentar la inteligibilidad de los datos almacenados, conviene asociar a la base de datos utilizada, un libro de códigos en el que se detallen los nombres de las variables utilizadas, su tipo y su rango, su significado así como las fuentes de donde se han sacado los datos. Todos los paquetes anteriormente citados permiten esta posibilidad.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s