Una vez recibidos los datos y antes de someterlos al análisis, suele ser útil llevar a cabo algunas operaciones preliminares. Esto puede incluir:
En otras palabras, el investigador suele primero decidir qué tipo de patrón es el que está buscando en los datos. Esto determinará los métodos para un análisis matemático. Así, la primera cuestión a la hora de elegir el método de análisis es: ¿Queremos usar las variables medidas para clasificar casos o individuos? ¿O deseamos analizar variables inconexas, o bien las relaciones entre diversas variables?
(Otra cuestión es cuál es la razón para la asociación estadística: ¿Hay una relación causal o algún otro tipo de relación entre las variables? Esto es algo que el análisis estadístico no será capaz de revelar.)
[Otra decisión importante se refiere al propósito final de su proyecto. ¿Usted desea describir cómo es el actual (o anterior) estado de su objeto, o usted desea descubrir cómo el objeto debe ser: qué grado de las cualidades medidas sería óptimo? Este último tipo de análisis se discute bajo del título Estudio normativo de variables.]
A continuación hay una lista de algunos métodos habituales para el análisis estadístico de una sola variable. Los métodos han sido dispuestos de acuerdo con la escala de medición de la variable.
| - | Escala nominal | Escala ordinal | Escala de intervalo | Escala de proporción |
|---|---|---|---|---|
| Métodos de presentación de los datos | - Tabulación ; Presentación gráfica - | |||
| Medias: | - La moda - | |||
| - | - La mediana - | |||
| - | - | - Media aritmética - | ||
| Medidas de dispersión: | - | - Desviación de cuartil - | ||
| - | - El rango - | |||
| - | - | - Desviación estándar - | ||
Un modo simple
de presentar una distribución de valores es mostrar cada valor como
un punto en una escala. Si hay un gran número de valores, puede
ser mejor clasificarlos primero y entonces presentar la frecuencia
de cada clase como un histograma (Fig. de la derecha).
Si nuestros estudios
tienen que ver con personas, ocurrirá con bastante frecuencia que
nuestras mediciones estarán distribuidas de acuerdo con cierta curva,
la llamada curva de Gauss (a la izquierda) que es, por consiguiente,
llamada la distribución normal. Una de sus propiedades es
que el 68% de todas las mediciones diferirá de la media (en la figura:
M)
en no más que la desviación estándar,
y el 95% en no más que el doble de la desviación estándar.
A veces querremos
poner el énfasis no en la distribución absoluta, sino
en la proporcional o de porcentaje. Un diagrama apropiado para esto
es el gráfico de sectores, también llamado "de tarta"
o "de queso" (a la derecha):
Mediana es el valor en el medio de la selección, si todos los valores están dispuestos del menor al mayor.
Media (aritmética) es la suma de todos los valores dividido por su número, o
De entre las medias que se han presentado más arriba, el investigador puede elegir habitualmente aquella que muestra mejor el valor típico de la variable. La media aritmética es el más popular, pero puede ofrecer un cuadro equivocado por ejemplo en datos que incluyen un valor que difieren en gran medida de los otros (véase la imagen de abajo).
Lo mismo ocurre
si la distribución está desviada, como en la imagen
de la derecha. En el ejemplo, se relacionan los minutos que los distintos
sujetos tardan en llevar a cabo una tarea. Los más rápidos
necesitaron 5 minutos, pero el resultado más común (=la moda)
fue de siete minutos. El valor en el medio, es decir, la mediana,
se ha mostrado en "M" rojo en la imagen. La mediana tenía aquí
el valor 11.
¿Qué pasa con la media? Como al sujeto más
lento le llevó el acabar 34 minutos, la media se eleva a 11.98 minutos,
lo que no da un cuadro exacto del resultado medio en este caso. Esto muestra
que los datos están desviados; el tipo de media debe elegirse con
cuidado. Una presentación gráfica muchas veces sería
más ilustrativa que calcular una sola estadística.
La distribución mostrada en esta figura está escorada
positivamente,
porque las mediciones que han dado valores mayores que la mediana
(11) se extieneden en un amplio rango (de 11 a 34), mientras que las mediciones
que han dado valores por debajo de la mediana se concentran pocos valores
(5...11).
Se puede también, si es necesario, acudir a una estadística
para describir la cantidad de desviación.
Al elegir la media más apropiada, debemos tener en cuenta la escala que fue usada en la recolección de los datos. Si la escala era nominal, la única media posible es la moda. Si la escala fue ordinal, podemos usar la mediana o la moda.
Finalmente, si la media fue calculada a partir de una muestra, debemos examinar su representatividad estadística, o qué probable es que la misma media sea cierta en la población de la que la muestra se extrajo. Una comprobación apropiada para esto es la prueba t.
Sin embargo, si la desviación estándar sólo se refiere a una muestra, la formula es,
En ambas fórmulas, n es el número de los valores,
y los valores de cada variable sustituirán a x uno tras otro.
Raramente un investigador se molestará en realizar por sí
mismo el cálculo, porque el algoritmo necesario para esto existe
incluso en calculadoras de bolsillo.
A la raíz cuadrada de la desviación estándar se
llama varianza, y también ésta es usada con frecuencia
para describir y analizar la dispersión.
Si la estadística de dispersión se ha calculado a partir de una muestra, su representatividad estadística debe también calcularse al final. La prueba t es adecuada para esto.
Si dos variables evolucionan modo tal que en alguna medida se siguen entre ellas, podemos decir que existe una asociación o covarianza estadística entre ellas. Por ejemplo, la altura y peso de la gente están estadísticamente asociadas: aunque el peso de nadie esté causado por su altura ni la altura por el peso es, no obstante, habitual que las personas altas pesen más que las personas bajas. Por otro lado los datos habitualmente incluyen también excepciones, lo que significa que una asociación estadística es inherentemente estocástica.
La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simple son los medios de presentación gráfica y tabulación. La asociación entre las variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.
Si, al analizar los datos, se descubre alguna asociación entre las variables, esto no significa que necesariamente alguna de ellas dependa causalmente de la otra. Una fuerte correlación entre, digamos, A y B, puede deberse a cuatro razones alternativas:
A continuación mencionamos algunos métodos usuales de análisis estadístico que pueden usarse al estudiar la interdependencia entre una o más variables. Los métodos han sido dispuestos siguiendo a qué escala de medición corresponden la mayor parte de las variables.
| - | Escala nominal | escala ordinal | escala de intervalo | escala de proporción |
|---|---|---|---|---|
| Métodos de presentación de datos | - Tabulación ; Gráficos - | |||
| Medidas de asociación | - Coeficiente de contingencia; Chi cuadrado - | |||
| - | - correlación ordinal - | |||
| - | - | Correlación r de Pearson ; ANOVA | ||
| - | - | análisis de regresión ; análisis factorial | ||
Si el investigador
desea resaltar algunos rasgos comunes o patrones generales que ha encontrado
en un grupo de objetos, puede combinar varios objetos en un gráfico,
como en la figura de la izquierda. En el diagrama, Sture Balgård
muestra cómo los edificios viejos en Härnösand siguen
proporciones uniformes de anchura y altura (la línea roja) con sólo
algunas excepciones. Al inventar métodos ilustrativos de presentación
de los hallazgos del estudio de productos, la más seria restricción
es la imaginación del investigador.
Con frecuencia,
no obstante, la apariencia del objeto en sí no es importante y sólo
interesan los valores numéricos de sus mediciones. Si se
considera así, lo primero que debiéramos plantearnos al elegir
el tipo de gráficos es cuál es la estructura que queremos
mostrar de los datos. Por supuesto tenemos que no "mentir con ayuda de
la estadística", pero siempre es admisible elegir un estilo de presentación
realce los patrones importantes al eliminar o dejar en segundo plano las
relaciones y estructuras que no nos interesan.
Si nuestros datos consisten en solamente unas pocas mediciones, es posible mostrarlos todos como un diagrama de dispersión. Podemos exhibir los valores de dos variables sobre los ejes de abscisas y ordenadas, y adicionalmente unas cuantas variables más utilizando los colores o formas de los puntos. En el diagrama de la derecha, la variable z tiene dos valores que se indican respectivamente por un cuadrado y un signo +.
Si la variación es demasiado pequeña para que aparezca claramente, podemos darle énfasis eliminando partes de una o ambas escalas, véanse los ejemplos. Simplemente eliminamos la parte que no nos interesa, sea por la parte superior o por la inferior. La parte descartada debe estar vacía de valores medidos empíricamente. Para asegurarnos que el lector se da cuenta de la operación, es mejor mostrarlo no sólo en las escalas, sino también en la cuadrícula de fondo del diagrama.
Por otro lado,
si el rango de variación de nuestros datos es muy amplio, podemos
plantearnos usar una escala logarítmica en uno o ambos ejes
(véase el diagrama de la izquierda). La escala logarítmica
es apropiada solamente en una escala de proporción.
Si tenemos cientos de mediciones, es probable que no queramos mostrarlas
todas en forma de diagrama de dispersión. Una posibilidad en este
caso es clasificar los casos y presentarlos como un histograma.
El histograma puede adaptarse para presentar hasta cuatro o cinco variables.
Podemos hacer esto variando las anchuras de las columnas, sus colores,
sus tramados y por una representación tridimensional (fig. de la
izda.). Todas estas variaciones se crean fácilmente con un programa
de hoja de cálculo como Excel, pero no deben ser usadas sólo
como adorno.
Los patrones que rellenan o marcan las columnas del histograma
pueden ser elegidos de forma que simbolicen una de las variables. Por ejemplo,
las columnas que describen el número de automóviles pueden
estar formadas por una pila de automóviles unos sobre otros. Esto
es correcto, con tal de que no variemos el tamaño de los símbolos
usados en un histograma. De otro modo, la interpretación se le haría
difícil al lector (¿se vincula el número de automóviles
a la longitud, el área o el volumen de los símbolos de los automóviles?)
El investigador suele estar interesado en las relaciones de dos o más variables antes que en las parejas de mediciones tomadas separadamente. La forma normal de presentar dos o más variables interdependientes es la curva. Esto implica una variable continua (es decir, en que el número de posibles valores es infinito). (Ejemplos.)
No debemos producir una curva a partir de mediciones que no son valores de la misma variable. Por ejemplo, los atributos de un objeto son variables diferentes. Ejemplos de ello son las evaluaciones personales que los investigadores suelen reunir con la ayuda de escalas semánticas diferenciales del tipo de la mostrada abajo:
| Estime las características de su dormitorio.
Tache un recuadro en cada línea. |
||||||||
|---|---|---|---|---|---|---|---|---|
| Claro | _ | _ | _ | _ | _ | _ | _ | Oscuro |
| Ruidoso | _ | _ | _ | _ | _ | _ | _ | Tranquilo |
| Limpio | _ | _ | _ | _ | _ | _ | _ | Sucio |
| Grande | _ | _ | _ | _ | _ | _ | _ | Pequeño |
Carecería
ahora de sentido el presentar las distintas evaluaciones del dormitorio
como un solo "perfil" como en el diagrama de la izquierda (aunque encontremos
con frecuencia este tipo de presentaciones ilógicas en informes
de investigación.)
Si queremos a toda costa poner el acento en que las variables han de
ir juntas (por ejemplo porque todas son evaluaciones del mismo objeto),
un método apropiado podría ser, por ejemplo, un grupo de
histogramas (como el de la derecha).
Todos los diagramas mostrados arriba pueden combinarse con mapas
y otras presentaciones topológicas.
Por ejemplo, la variación en las diferentes áreas del país
suele mostrarse como un cartograma que distinga los diferentes distritos
con distintos colores o tramas. Otra forma es el cartopictograma
en que pequeños diagramas de sectores ("de tarta" o "queso") o de
columnas han sido colocados en el mapa. Las conexiones entre distintas
áreas suele ser con frecuencia mostradas con filas cuyo grosor indica
el número de conexiones. (Ejemplo.)
Una obra útil y concisa en español sobre el uso de diagramas
para análisis estadístico es: Antonio Alaminos, Gráficos,
Madrid, Centro de Investigaciones Sociológicas, 1993 (Col. Cuadernos
metodológicos, nº 7)
La covarianza estadística entre dos variables suele ser analizada haciendo una tabla o una presentación gráfica, pero también hay disponibles estadísticas especiales para indicar su intensidad. Los medios disponibles para el análisis de los vínculos entre las variables dependen de con qué tipo de escala se han medido las variables. [Vea la tabla que se presentó anterior.]
La correlación del momento-producto suele abreviarse con la letra r. Si el coeficiente de correlación es bajo, por ejemplo algo entre -0.3 y +0.3, las dos variables no tienen mucho que ver entre sí (más exactamente, no tienen casi ninguna covariación lineal). Si es alto, en otras palabras, si su valor se aproxima ya sea a +1 o a -1, esto significa que la relación entre las dos variables se aproxima a la ecuación y = ax + b. El signo del coeficiente de correlación no es importante; el signo siempre es idéntico al signo del coeficiente a en la ecuación de arriba.
[Debajo, usted puede ver tres diagramas de dispersión que demuestren tres conjuntos diferentes de datos de dos variables. Cada conjunto consiste en ocho pares de valores. Las correlaciones entre las dos variables se han calculado y se demuestran bajo cada diagrama. Se puede ver que no hay correlación entre las variables en el conjunto en la izquierda, y los otros dos conjuntos demuestran las correlaciones de 0,5 y 1,0.
A pesar del hecho que el análisis de correlación es capaz de manejar solamente dos variables, puede utilizarlo] para el análisis inicial de un gran número de variables, cuando no tenemos una idea clara de las relaciones mutuas entre ellas. Es fácil para un ordenador calcular una matriz de correlación entre todos los pares potenciales de variables. Podemos entonces elegir esos pares que presentan las correlaciones más fuertes, y continuar examinandolos con otras herramientas de análisis más refinadas.
Un aspecto débil del análisis de correlación es que no puede detectar otras relaciones lineales entre las variables. Por
ejemplo, una relación que obedece a la ecuación y = ax2 + bx + c pasaría inadvertida. Sin embargo, algunos de los nuevos programas de análisis son capaces de detectar incluso esta y algunas otras asociaciones habituales de variables. [Además, usted puede intentar:
Una vez que usted haya encontrado un par de variables con una correlación o contingencia fuerte usted puede continuar, por ejemplo, con las operaciones siguientes:
Si la correlación se calcula a partir de una muestra,
debemos recordar probar su representatividad
estadística con la prueba t.
El análisis de varianza (en inglés ANOVA, ANalysis Of
VAriance) examina dos o más conjuntos de mediciones, especialmente sus varianzas, e intenta detectar diferencias estadísticamente representativas entre los conjuntos. Estos conjuntos podrían ser, por ejemplo, reacciones
medidas para dos grupos experimentales, y el investigador quiere examinar si hay una diferencia en las reacciones, tal vez causada por los distintos
estímulos a los grupos.
El método de análisis de varianza se basa en el hecho
matemáticamente probado de que hay una diferencia entre los grupos
sólo si la varianza inter-grupos
es mayor que la varianza intra-grupo.
Análisis de varianza
El análisis se inicia calculando la varianza intra-grupo
para cada grupo, y la media de todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces
la varianza de estas medias. Esa es la varianza inter-grupos.
Entonces calculamos la proporción de las dos cifras que acabamos
de obtener, que es llamada F. En otras palabras,
= (varianza de las medias de grupo) / (media de las varianzas de grupo).
Finalmente nos referimos a la tabla (en manuales estadísticos)
que muestra qué valores puede alcanzar el coeficiente F cuando sólo
actúa el azar. Si el F obtenido del ANOVA es mayor que el valor
de la tabla, hay una diferencia entre los grupos que es significativa
según muestra la tabla.
Análisis de regresión
El investigador suele tener razones teóricas o prácticas
para creer que determinada variable es causalmente
dependiente de una o más variables distintas. Si hay bastantes datos
empíricos sobre estas variables, el análisis de regresión
es un método apropiado para desvelar el patrón exacto de
esta asociación.
El algoritmo de análisis de regresión construye una ecuación, que tiene el siguiente patrón. Además, da los parámetros a1, a2 etc. y b valores tales que la ecuación corresponde a los valores empíricos con tanta precisión como es posible.
y = a1x1 + a2x2 + a3x3 + ... + b
En la ecuación,
y = la variable dependiente
x1 , x2 etc. = variables independentes
a1 , a2 etc. = parámetros
b = coeficiente.
Si tenemos amplios datos con muchas variables, al principio del análisis no estaremos tal vez seguros de qué variables están mutuamente conectadas y cuales debieran así ser incluidas en la ecuación. Podríamos primero estudiar esto con el análisis de correlación, o podemos dejar al programa de análisis de regresión elegir las variables "correctas" (x1, x2 etc.) para la ecuación. "Correctas" son aquellas variables que mejoran la exactitud del ajuste entre la ecuación y los valores empíricos.
Como ejemplo, consideremos los datos de un cuestionario (mostrado en
otra parte) donde a un cierto número de sujetos de un test se
les preguntó en qué grado se correspondían sus dormitorios
personales con los adjetivos proporcionados por el investigador (mostrados
en escalas "semánticas diferenciales"). El investigador ahora quiere
descubrir si tras las estimaciones de los sujetos, hay algunas "variables
de fondo" cuya medición directa por a través de medios lingüísticos
no sería posible a causa de la carencia de adjetivos apropiados
en el lenguaje. La hipótesis del investigador es que estas variables
de fondo "aparecen" a través de los adjetivos usados en las escalas
semánticas, habitualmente no con un adjetivo único, sino
mediante un grupo de adjetivos con correlación entre ellos.
Con la ayuda de un análisis factorial, las variables de combinación
o factores ocultos tras los atributos medidos pueden detectarse
y especificarse, y el análisis también dice lo estrechamente
que estos factores están vinculados con las variables originalmente
verificadas.-- A veces se sitúa también una condición
suplementaria sobre los factores, concretamente que no deben tener correlación
alguna entre ellos y estén por lo tanto en "ángulo recto"
uno con respecto a otro (= "rotación ortogonal" de los factores
durante el análisis).
Un inconveniente del método del análisis factorial es que es demasiado fácil de usar para estudios que son formalmente correctos pero en la práctica absurdos, porque siempre presenta los resultados de una forma elegante y matemáticamente exacta, incluso cuando los factores obtenidos son tienen ningún contenido empírico sensato.
No hay gran diferencia entre los métodos de análisis informativos y normativos. En estudio normativo por lo menos una de las variables es evaluativa como "utilidad" o "satisfacción" etc., y la puntería final del estudio es mejorar las cualidades del objeto del estudio. Porque toda evaluación es subjetiva es importante considerar y definir exactamente cuyo vista se utiliza en la evaluación; este aspecto se discute en Subjetividad y objetividad humanas. La elección depende también del grado de autonomía que prevalece en la organización que usará las sugerencias normativas que usted preparan.
Una vez que las personas que valoran han sido escogidas, las evaluaciones se pueden recolectar con una investigación interrogativa . Los principios y métodos generales de estudio normativo se discuten en una página separada.
| Propiedad: Facilidad de uso | Mérito |
|---|---|
| Las operaciones son automáticas. | 5 |
| Varias operaciones son automáticas.
Folleto de instrucciones es detallado y claro. |
4 |
| Instrucciones y funcionamiento mediocres. | 3 |
| El funcionamiento a veces torpe o confuso. | 2 |
| La máquina reacciona de manera
distinta a la descrita en el folleto. |
1 |
Una dificultad común cuando usted trata de mejorar el objeto del estudio es que sus cualidades son interdependientes. Mientras que una de las cualidades del objeto del estudio se está mejorando, otras cualidades como usabilidad, belleza, mensaje, ecología o economía quizás empeoran. En tal caso usted deseará destapar la relación exacta entre estas cualidades, por ejemplo con la ayuda de análisis de regresión.
A veces es posible conjugar los objetivos que están ostensiblemente
en conflicto desvelando sus relaciones mutuas. Un ejemplo de este método
es localizar el aislamiento térmico óptimo para un edificio.
Cuando se elige el grosor de la capa aislante, el coste de los materiales
de construcción (B, en la figura de la derecha) y los costes futuros
de calefacción (A) parecen estar en conflicto. Sin embargo, los
valores de estos dos gastos pueden ser traducidos a costes anuales,
hasta que fácilmente se encuentra el valor óptimo de A+B. Esta variable nueva puede entonces suplantar las dos variables originales de los costes del edificio y de la calefacción.
La ciencia del análisis de operaciones abarca otros métodos de análisis comparables, como por ejemplo el algoritmo de la programación lineal, que puede usarse para encontrar el valor óptimo común de varios atributos cuantificables de un producto.
Sucede que dos o más variables son causalmente dependientes de uno al otro; tal relación se debe hacer explícita porque usted preferirá normalmente manipular la causa, no el efecto.
| Atributo del producto | Peso |
|---|---|
| Velocidad de al menos 160 Km/h. | 40 |
| Fácil de usar, automático | 40 |
| Diseño: deportivo,
a diferencia de la competencia |
10 |
| Materiales
potentialmente reciclables |
10 |
| Peso total | 100 |
La tabla de pesos crece a menudo demasiado grande y difícil de manejar y de entender. Para refrenar su crecimiento, usted puede tratar de presentar una familia de características relacionadas como un árbol lógico, es decir combinar los grupos de características asociadas en un paquete. Al buscar tales paquetes o familias de cualidades, usted puede considerar el uso de análisis factorial.]
El análisis de coste-ventajas, que también lleva el nombre de ingeniería del valor, es un método para la recapitulación de todos los valores de utilidad importantes en una serie de propuesta de productos (o entre cualesquiera otras alternativas) y encontrar su valor óptimo, junto con el coste, precio u otras aportaciones asociadas con cada alternativa.
El análisis de coste-ventajas es claramente una herramienta cuantitativa, y precisa la medición de todos los componentes que han de ser analizados. El análisis se lleva a cabo en pasos definidos y lógicos:
| Atributo,
o propiedad del producto |
Peso
P |
Alternativa 1 | Alternativa 2 | ||
|---|---|---|---|---|---|
| Valor de
utilidad U |
PxU | Valor de
utilidad U |
PxU | ||
| Capacidad | 40 | 2 | 80 | 5 | 200 |
| Facilidad de uso | 40 | 3 | 120 | 4 | 160 |
| Diseño, apariencia | 10 | 5 | 50 | 2 | 20 |
| Materiales, reciclaje | 10 | 3 | 30 | 2 | 20 |
| Total | 100 | -- | 280 | -- | 400 |
Un método alternativo a lo que se acaba de mostrar es incluir en la tabla de análisis de valores una fila suplementaria donde se comparen las aportaciones que precisa la producción. Su peso total suele situarse en algún punto de una franja entre el 40% y 50%. (Véase un ejemplo de una tabla así).
2.ene.2005. Versión en español:
Benito Bermejo
[Aumentos por Pentti Routio entre paréntesis cuadrados]
Ubicación original:
http://usuarios.iponet.es/casinada/arteolog
(España) http://www2.uiah.fi/projects/metodi/
(Finlandia)