domingo, 30 de junio de 2013

probabilidad condicional

Dado dos (2) eventos A y B, la probabilidad condicional se denota como la probabilidad de A dado B, P(A/B), /B significa que ya ocurrio B y es una medida de la probabilidad de ocurrencia de A dado que el evento B ocurrio previamente .

formula P(A/B)=  $\frac{P(A∩B)}{P(B)}$

regla multiplicativa

P(A∩B)= P(A). P(B/A)

P(A∩B∩C)=P(C/A∩B). P(A∩B)

EJEMPLO:

una caja con metras:

5 metras blancas.
3 metras negras.
2 metras rojas. se extrae una a una 3 metras sin reemplazo

¿ hallar la probabilidad de obtener 2 metras roja ? R=rojo

P(1R)= $\frac{2}{ 10}$ 

P(2R/1R)= $\frac{P(1R ∩ 2R)}{ P(1R)}$
P(1R∩2R)= P(1R). P(2R/1R)
                   =  $\frac{2}{ 10}$ x $\frac{1}{ 9}$ = 2/90

¿Probabilidad de que la segunda metras sea roja ? P(2R)=?

P(2R)=[ (1B∩2R)U( 1N∩2R )U(1R∩2R) ]

P(2R)= P(1B∩2R)+ P(1N∩2R)+ P(1R∩2R)

P(2R)= P(1B). P(2R/1B) + P(1N). P(2R/1N)+ P(1R). P(2R/1R)
P(2R)= (5/10 . 2/10) + ( 3/10 . 2/10) + ( 2/10 . 1/9)

P(2R)= 10/90 + 6/90 + 2/90

P(2R)= 18/90 => SE SIMPLIFICA => 9/45




1) se presentan los trabajadores de una industria, clasificacion segun el cargo y el sexo.
___________________________________
                    Hombres     Mujeres     Totales
___________________________________
obreros            80               113               193
Empleados      30                 17                 47
Directores        4                    6                 10
----------------------------------------------------
Totales           114               136               250
----------------------------------------------------

El dueño de la empresa desea otorgra un premio estimulo especial y para ello decide seleccionar al alzar uno de los trabajadores.

Consideremos los Eventos
A: ser Empleado
B: ser mujer
asumiendo equiprobable en la seccion de las personas, las probabilidaes A y B son:

P(A)=$\frac{47}{250}$ = 0.188     P(B)= $\frac{136}{250}$ = 0.544

P(A) es la probabilidad de que sea empleado, P(B) es la probabilidad de que sea mujer, ahora calcular la probabilidad de que la persona sea empleada sabiendo que es mujer, P(A/B)=   $\frac{P(A∩B)}{P(B)}$ entonces P(A∩B)= $\frac{17}{250}$ ahora P(A/B)=$\frac{17/250}{136/250}$ = 0.125

2) Tengo 2 urnas, una con 2 bolas blancas y una negra y la otra con 3 bolas negras y 2 blancas.


i) cual es la probabilidad de que salga una bola blanca si salió la urna 1?
 solucion:
 
E1: urna 1
E2: urna 2
A: salga una bola blanca
B: salga una bola negra
P(A/E1)= $\frac{P(A ∩ E1)}{ P(E1)}$
ahora despejamos, P(A ∩ E1) = P(E1)*P(A/E1)
P(E1)= $\frac{3}{ 8}$
P(A/E1)=$\frac{2}{ 3}$ entonces P(A ∩ E1)= $\frac{3}{ 8}$ * $\frac{2}{ 3}$ =0,25

3) Una urna con 10 bolas de las cuales 6 son negras y 4 blancas, se extraen 2 bolas aleatoriamente?
i) Cual es la probabilidad de que las 2 sean blancas?
ii) cual es la probabilidad de que la primera sea blanca y la segunda sea negro?
iii) cual es la Probabilidad de que los 2 sean negros?

  el espacio muestral seria,  S={(B,B),(B,N),(N,B),(N,N)}
i) P(B2/B1)= $\frac{P(B1 ∩ B2)}{ P(B1)}$ entonces P(B1 ∩ B2) = P(B1)*P(B2/B1)
P(B1)= $\frac{4}{ 10}$         4 casos posibles de que salga blanco entre 10 bolas.
P(B2/B1)= $\frac{3}{ 9}$       como ya salio un blanco quedan 3, entre ahora 9 bolas
 P(B1 ∩ B2)= $\frac{4}{ 10}$ * $\frac{3}{ 9}$ =0,133

ii) P(B∩N)=P(B)*P(N/B)
P(B)= $\frac{4}{ 10}$
 P(N/B)=$\frac{6}{ 9}$
 P(B∩N)=$\frac{4}{ 10}$*$\frac{6}{ 9}$= $\frac{4}{ 15}$=0,266


Importancia de la distribucion normal



La distribución normal es posiblemente la distribución de probabilidad más conocida y más aplicada en el campo de la estadística debido a que una gran cantidad muy grandes de fenómenos reales pueden explicarse mediante este modelo de probabilidad.
La distribución normal debe su origen al matemático francés Abraham De Moire, en 1733, y son figuras importantes en su desarrollo histórico Pierre Laplace, en 1744, y Carl Gauss, en 1809 y 1816. Es a través de este último que la distribución normal alcanzó mayor notoriedad,  ya que él la desarrollo como la “ley normal de los errores de mediciones” particularmente en relación a observaciones astronómicas”. La curva normal es ampliamente conocida como la curva de Gauss o “Campana de Gauss”.
La importancia de la distribución normal se debe, en primer lugar y como ya lo hemos dicho, a que muchas variables siguen, aproximadamente, un modelo de probabilidad normal y esto ha ocasionado que en las diferentes áreas del saber, su aplicación sea generalizada en relación a este hecho hay que estar alerta y evitar incurrir en el error de creer que todos los conjuntos de datos siguen una distribución normal, cuestión a la que se tendían en el pasado. Actualmente se conoce como una compleja variedad de casos donde el modelo normal resulta inadecuado y deben tratarse utilizando otros tipos de distribuciones.
En segundo lugar, existe un resultado muy importante con la distribución de normal conocido como Teorema central de limite, El cual establece que para una muestra suficientemente grande, la media muestral $\overline{X}$ sigue una distribución aproximadamente normal, independientemente del tipo de distribución que tenga la población de la cual se extrae la muestra.

sábado, 29 de junio de 2013

Estadistica Descriptiva

Nos permite describir y analizar un fenómeno o hecho de interés, valiéndose para ello de técnicas de ordenación, organización y presentación de los datos, así como también del cálculo de algunos indicadores numéricos los cuales reflejan los aspectos más importantes plasmados en esos datos.

Estudio descriptivo de una colección de datos

Una vez obtenida la información correspondiente a un hecho o fenómeno se nos presenta bajo la forma  de una colección de datos individuales y viene a constituir la materia prima del investigador.

Usualmente se trabaja con grandes cantidades de datos y resulta difícil sacar conclusiones de ellos en su forma original. piense por un momento en lo que significa tener, por ejemplo, 300 números o símbolos ante sus ojos. es por ello que se hace necesario agrupar o condensar los datos, presentarlos adecuadamente y obtener algunos indicadores numéricos relevantes que faciliten la interpretación y determinación de los aspectos mas importantes.

Un estudio descriptivo de una colección de datos contempla los siguientes aspectos:

i) ordenación y clasificación de los datos originales.
ii) presentación de los datos agrupados en cuadros estadísticos y tráficos.
iii) Cálculo de medidas descriptivas y numéricas que nos indiquen el centro o la localizacion de los datos, el grado de variabilidad o dispersión de los mismo y la forma en que se distribuyen.
iv) El análisis propiamente de los datos, conjugando los resultados obtenidos en i, ii y iii, esto nos permite determinar si existe alguna tendencia o patrón en los datos, la forma como se distribuyen etc

Vamos a considerar por separado los caso de  datos cualitativos y cuantitativos.

Organización de los datos cualitativos:

En este caso la agrupación de los datos es muy sencilla y se hace de acuerdo a las modalidades que presente las variable en estudio. mediante un conteo se determina el número de datos (también llamado frecuencia) correspondiente a las diferentes categorías de la variable. este procedimiento es valido para cualquier cantidad de datos.

Ejemplo de Organizacion de los datos cualitativos.

 1) En un estudio sobre las personas que ejercen cargos directivos en una empresa, se realizaron 15 entrevistas y en relación al Genero se obtuvo la siguiente información:
f,f,m,m,f,m,m,m,f,f,m,f,f,m,f

Agrupando los datos de acuerdo a su categoría se obtiene.
 
Genero Personas
Masculino 7
Femenino 8
total 15
El procedimiento utilizado es intuitivo y una vez resumida la información de esta manera se facilita la interpretación.

Organización de los datos cuantitativos:

para organizar y agrupar datos de tipo cuantitativo discretos o continuos, se utiliza  un procedimiento similar, pero más laborioso, al utilizado con los datos cualitativos.

vamos a utilizar la información correspondiente a la edad de 15 estudiantes.
12,14,10,15,16,12,14,18,20,19,19,18,12,15,17

un primer intento de organizar esos datos puede consistir en ordenarlos de menor a mayor tal como se presenta a continuación
10,12,12,12,14,14,15,15,16,17,18,18, 19,19,20

este ordenamiento de los datos nos permite saber que la edad mínima es 10 y la máxima es 20.

otra cosa que podemos hacer, dado que algunos datos se repiten, es agruparlos formando una columna donde aparezcan los valores diferentes de la edad, ordenados de menor a mayor y al lado de cada edad el numero de niños que tienen esa edad.
Edad   estudiantes
10             1
12             3
14             2
15             2
16             1
17             1
18             2
19             2
20             1
total          15


En una distribución de frecuencia podemos distinguir los siguientes elementos:

i)  Intervalos de clase o clases: que consiste en intervalos de valores ordenados en forma ascendente y que cubren todos los datos disponibles.

ii) Limites de clase: Son los extremos de la clase o intervalo, el extremo inferior o valor menor del intervalo se denomina limite inferior de la clase y el extremo superior se denomina limite superior se denotan por LIi y LSi para la clase i-esima.

iii) Amplitud de clase  (o longitud de clase o tamaño de clase o anchura de clase)
se obtiene haciendo la diferencia entre el limite superior y el limite inferior de la clase. se denota por ci, donde el subíndice i representa la clase considerada.

iv) Frecuencia absoluta de clase: Es el numero de observaciones contenidas o incluidas en la clase. También se le conoce como frecuencia de clase y se denota por $f_i$




     Si denotamos por n el numero total de datos, se cumple que:

                     $\sum_{i=1}^k{f_i}$ =n

Siendo k el número de clases de la distribución de frecuencias.


v) Frecuencia relativa de una clase: se obtiene dividiendo la frecuencia absoluta de la clase $f_i$ entre el número total de observaciones n. se denota por $f_ri$.

 $f_ri$= $\frac{f_i}{n}$  siempre se cumple que  $\sum_{i=1}^k{f_ri}$ =1
la frecuencia relativa de una clase representa la proporción de datos contenidos en esa clase.

vi) Frecuencia acumulada de una clase: se obtiene sumando las frecuencias absolutas d todas las clases anteriores a ella y la frecuencia absoluta de la clase considerada. Se denota por $F_i$
se tiene que:

$F_i$=$f_i$

$F_2$=$f_1$+$f_2$=$F_1$+$f_2$

$F_3$=$f_1$+$f_2$+$f_3$=$F_2$+$f_3$

La frecuencia acumulada de la ultima clase de la distribución de frecuencias coincide con el número total de datos n.


La frecuencia acumulada de una clase cualquiera se interpreta como el número de datos que están por debajo o que son inferiores al valor representado por el limite superior de la clase considerada y que por supuesto son mayores que el valor representado por el limite inferior de la primera clase.

vii) Frecuencia relativa de una clase: se obtiene dividiendo la correspondiente frecuencia acumulada $F_i$ entre el número total de datos. s denota por $F_ri$ ,  $F_ri$= $\frac{F_i}{n}$
la frecuencia relativa acumulada de una clase representa la proporción de datos que son menores que el limite superior de la clase considerada.

viii) marca de clase: para una clase especifica, se define la marca de clase, $m_i$, como el punto de media de esa clase, es decir, s la semi-suma de los limites inferior y superior de la clase.

$m_i$   $ \frac{LI_i+LS_i}{2}$


Reglas y recomendaciones generales para construir una distribución de frecuencia:

1i)      De determina el valor máximo y mínimo de lo datos y se calcula la diferencia entre valores, la cual se denomina rango o recorrido de la variable y se denota por R, en nuestro ejemplo R=20-10=10

2ii)      Se determina el número de clases y la amplitudes de clase, si se conoce de antemano el numero de clases K, dividiendo el rango entre el numero de clase se obtiene la amplitud.
$\frac{R}{K}$ = $c_i$
                     Entonces despejando k=$\frac{R}{c_i}$


En la práctica, en general no se conoce con anterioridad ni el numero de clase ni la amplitud de la misma, sin embargo existen dos recomendaciones muy importantes



1)      El número de clases no sea inferior a 5 ni mayor que 15, un número muy pequeño de clases significaría una agrupación extremada, y en consecuencia sin utilidad, de los datos; y un número excesivo de clases nonos estaría resolviendo el problema de resumir datos.
2)      De ser posible y si conviene al investigador, es deseable que todas las clases tengan la misma amplitud.
La cual viene dada por:
K=1+3,3*Log(n) siendo k el numero  de clases, n el número total de datos y Log el logaritmo ordinario en base 10. Esta fórmula solo proporciona una orientación sobre el cual debe ser el numero de clases.
iii)      Proceder a construir los intervalos de clases, primero se fija el límite inferior, recomendable el valor más bajo de los datos, luego se le suma la amplitud de la clase $c_i$ para obtener el límite superior.
El límite superior de la clase 1 va a coincidir con el límite superior de la clase 2 y así sucesivamente por lo que se recomienda ordenarlo de la siguiente manera.

[$LI_1$ - $LS_1$)
[$LI_2$ - $LS_2$)
[$LI_3$ - $LS_3$)
.
.
[$LI_i$ - $LS_i$)



Datos

i)  El rango es R=18- 11,6=6,4

ii) numero de clase y amplitud
Regla de sturges k=1+3,3*Log40= 6,28 aprox a 7 clases
$\frac{6,4}{7}$=0,91 entonces la amplitud $c_i$=0,91 se aproxima a 1

iii) el limite inferior de la clase 1 es el valor mínimo de los datos el cual es 11,5 a esto se le suma la amplitud que es 1, el limite superior seria 12,5 entonces queda [11,5 -12,5 ) luego la clase 2, comienza en 12,5 mas la amplitud queda en 13,5 [12,5 - 13,5) y así sucesivamente,
quedaría así.
[11,5 -12,5 ) 
[12,5 - 13,5)
[13,5 - 14,5)
[14,5 - 15,5)
[15,5 - 16,5)
[16,5 - 17,5)
[17,5 - 18,5)

iv) ahora determinar el número de observaciones o datos contenidos en cada clase es decir determinar las frecuencias absolutas de clase $f_i$
para la frecuencia relativa de las clases: $f_ri$=$\frac{f_i}{n}$
la $f_ri$=$\frac{2}{40}$=0,05asi con cada uno
frecuencia absoluta de la clase
Frecuencia absoluta de la clase

v) Para determinar la frecuencia acumulada de una clase: $F_1$=$f_1$, $F_1$=2, $F_2$=$f_1$+$f_2$, $F_2$=2+1=3
para la frecuencia relativa acumulada $F_ri$=$\frac{F_i}{n}$
la $F_r2$=$\frac{3}{40}$=0,075 asi con cada uno
$f_ri$=$\frac{f_i}{n}$
la $f_ri$=$\frac{2}{40}$=0,05asi con cada uno

distribucion de frecuencia construida paso a paso
Distribución de frecuencia con todos sus cálculos



la marca de la clase se calcula con la formula
$m_i$ $ \frac{LI_i+LS_i}{2}$

Temas Relacionados
Que es la estadistica
Definicion de estadistica