Conectivismo

COMPETENCIA 9

SUBCOMPETENCIA 3

Técnica de estadística de distribución de probabilidades

Definición de variable aleatoria: Corresponde al valor resultante de un determinado experimento.

Por ejemplo, si contamos el número de empleados ausentes en un determinado turno de trabajo, el resultado podría ser 0, 1, 2, ...., este número de ausencias es la variable aleatoria.

Distinguiremos entre variables aleatorias discretas y continuas. Diremos que una variable aleatoria es discreta cuando sólo puede tomar un número contable de valores. Estos valores no necesariamente han de ser enteros, pero sí han de tener valores claramente definidos.

Serían v.a. discretas, p.e., X1 = “nº de hermanos de cada uno de nuestros amigos”, o X2 = “nota, con una cifra decimal, obtenida en un examen por cada alumno de un aula”.

Por el contrario, una v.a. continua es aquella que puede tomar cualquier valor dentro de un intervalo real. Serían v.a. continuas, p.e., X3 = “altura, en cm., de los jugadores de un equipo de baloncesto” (1.9, 1.92, 1.923,...), o X4 = “distancia entre dos ciudades”.

Definición de distribución de probabilidad: Es aquella que permite calcular todos los resultados probables de ocurrir de un experimento determinado, así como la probabilidad de ocurrencias de estos resultados. Las características más importantes a tener en cuenta en una distribución de probabilidad son: - La probabilidad de un resultado específico está entre cero y uno. La suma de las probabilidades de todos los resultados mutuamente excluyentes es 1.

‰ Definición de función de distribución de probabilidad: La función de probabilidad de una variable aleatoria es la probabilidad acumulada hasta un valor determinado de la variable.

Dada una variable aleatoria X, diremos que F(a) es la función de distribución tal que: F(a) = P(X≤a)

La función de distribución de probabilidad cumple 0 ≤ F(x) ≤ 1. En el caso de las variables discretas la función de probabilidad se asocia con la función de probabilidad, función que da la probabilidad de cada posible valor que toma la variable.

En el caso de las continuas como estas pueden tomar infinitos valores en un intervalo su función de probabilidad viene definida como la probabilidad a intervalos de valores. De hecho, la probabilidad de que la variable tome un determinado valor es nula. Las variables aleatorias continuas se caracterizan por una función denominada función de densidad.

Definición de función de probabilidad para una variable aleatoria discreta: Dada una variable aleatoria discreta X, diremos que f(xi ) es la función de probabilidad que asocia a cada valor xi de la variable su probabilidad, i.e., f(xi) = P(X=xi).

Definición de función de densidad para una variable aleatoria continua: Dada una variable aleatoria continua X la función de densidad f(x) asociada a una variable aleatoria continua X caracteriza la función de distribución de probabilidad de

X donde: ∫ −∞ = ≤ = a F(a) P(X a) f (x) dx ‰

La media, la varianza y la desviación estándar.

Como sabemos, la media nos da información acerca de la tendencia central de los datos y la varianza describe la dispersión de éstos.

A la media de la distribución la denotaremos por µ , y a la desviación estándar por σ. La media es el valor promedio ponderado en el que los valores posibles de la variable aleatoria se ponderan según las probabilidades correspondientes de ocurrencia, también se denomina valor esperado E(X).

Para una variable aleatoria discreta:

µ = E(X ) = ∑[ ] xP(x) donde P(x) es la probabilidad de valores posibles de la variable aleatoria x.

Es decir, se multiplica cada valor de x por la probabilidad de que ocurra, y luego se suman estos productos. Para una variable aleatoria continua:

[ ] ∫ +∞ −∞ µ = E X = x f (x) dx La varianza describirá la dispersión de la distribución.

Para una variable aleatoria discreta: = ∑[( − ) ( )] 2 2 σ x µ P x

Para una variable aleatoria continua: ∫ +∞ −∞ = x f (x) dx 2 2 σ Óbviamente, la desviación estándar σ la calcularemos al extraer la raíz cuadrada de la varianza. ‰

La distribución Binomial. Consideremos una variable aleatoria X que da el número de éxitos que aparecen al repetir n veces de forma independiente un experimento en idénticas condiciones.

En esta situación diremos que X sigue una distribución Binomial. Ejemplos: X= número de huevos defectuosos en un paquete de 12. Y= número de 2 al tirar 10 veces un dado.

Las características principales de este modelo de distribución son: 1. Repetir n pruebas independientes unas de otras.

Para cada una de las pruebas sólo pueden darse dos resultados: éxito o fracaso 3. La probabilidad de éxito en cada prueba es de p.

En tales condiciones, diremos que la v.a. X = “nº de éxitos en las n pruebas” sigue una distribución Binomial de parámetros n y p, y lo escribiremos como X ∼ B(n,p) .

Observamos que la v.a. X sólo puede tomar los valores 0, 1, 2, 3, … , n siendo por tanto una v.a. discreta.

La distribución de Bernoulli es un caso particular de la binomial cuando n=1 .

La distribución de Poisson Consideremos X una variable que da el número de individuos que presentan una cierta característica por unidad de tiempo, volumen, superficie,… Entonces diremos que X sigue una distribución de Poisson.

Ejemplos: X= Número de coches que cruzan un cruce en una hora.

Y= Número de enfermos de Sida por año y por Comunidad Autónoma. La función de probabilidad de la distribución de Poisson es: ! ( ) x e P x x λ λ − = para x=0,1,2,3,…. donde λ es el número medio de ocurrencias durante un intervalo específico de tiempo, superficie, .. e es la constante exponencial y x es el número de ocurrencias (éxitos).

Observamos de la expresión de la función de probabilidad que el parámetro λ caracteriza las variables con distribución de Poisson.

Otra característica de la Poisson es que su media es igual a su varianza y ambas son igual al parámetro λ: µ = λ , σ = λ Observamos además que una variable con distribución Poisson toma infinitos valores, 0,1,…

Ahora bien, las probabilidades van disminuyendo cada vez más rápidamente cuando el valor es alto, haciéndose prácticamente nulas a partir de un valor. Por esto muchas veces la distribución de Poisson también se la llama distribución de los sucesos “raros” o poco probables.

La distribución normal es la distribución de probabilidad continua más importante. Multitud de variables aleatorias continuas siguen una distribución normal o aproximadamente normal. Una de sus características más importantes es que cualquier distribución de probabilidad, tanto discreta como continua, se puede aproximar por una normal bajo ciertas condiciones.

La distribución de probabilidad normal y la curva normal que la representa, tienen las siguientes características:

La curva normal tiene forma de campana y un solo pico en el centro de la distribución. De esta manera, la media aritmética, la mediana y la moda de la distribución son iguales y se localizan en el pico. Así, la mitad del área bajo la curva se encuentra a la derecha de este punto central y la otra mitad está a la izquierda de dicho punto.

La distribución de probabilidad normal es simétrica alrededor de su media.

La curva normal desciende suavemente en ambas direcciones a partir del valor central. Es asintótica, lo que quiere decir que la curva se acerca cada vez más al eje X pero jamás llega a tocarlo. Es decir, las “colas” de la curva se extienden de manera indefinida en ambas direcciones. Para indicar que una variable aleatoria (v.a.) sigue una distribución normal de media µ y desviación estándar σ usaremos la expresión: X ∼ N(µ,σ). La curva

La distribución normal estándar: Se observó que no existe una sola distribución de probabilidad normal, sino una “familia” de ellas. Como sabemos, cada una de las distribuciones puede tener una media (µ) o una desviación estándar distinta (σ).

Por tanto, el número de distribuciones normales es ilimitado y sería imposible proporcionar una tabla de probabilidades para cada combinación de µ yσ. Para resolver este problema, se utiliza un solo “miembro” de la familia de distribuciones normales, aquella cuya media es 0 y desviación estándar 1 que es la que se conoce como distribución estándar normal, de forma que todas las distribuciones normales pueden convertirse a la estándar, restando la media de cada observación y dividiendo por la desviación estándar. Primero, convertiremos la distribución real en una distribución normal estándar utilizando un valor llamado Z, o estadístico Z que será la distancia entre un valor seleccionado, designado X, y la media µ, dividida por la desviación estándar σ. Formalmente, si X ∼ N(µ,σ) , entonces la v.a. σ − µ = X Z se distribuye según una normal de media 0 y desviación estándar 1, i.e.: Z ∼ N(0,1) , que es la distribución llamada normal estándar o tipificada. De esta manera, un valor Z mide la distancia entre un valor especificado de X y la media aritmética, en las unidades de la desviación estándar.

CONCLUSIONES

En la investigación que realice de las Técnicas de estadística de Distribución de probabilidades y comparando con los datos que obtuve del proyecto, puedo concluir que técnica que aplicaría de distribución es “ Distribución Normal”, ya que los resultados de las variables son continuas que con más frecuencia aparece aproximada en fenómenos reales.

Y la gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de una determinad o parámetro. Esta curva se conoce como campana de Gauss y es el gráfico de la función de Gaussiana.

Bibliografía

Modelos de Probabilidades. Ángel Juan, Máximo Sedano, Alicia Vila, José Francisco Martínez, Anna López.

Proyecto de seguridad alimentaria, como propuesta el Requesón como alimento nutritivo en los menores de edad.

Los alimentos ricos en proteínas constituyen un esencial en cualquier dieta, pero al momento de escogerlos, siempre es conveniente supervisar su aporte de grasas, sobre todo, si nuestro objetivo es cuidar la composición corporal para perder grasa y ganar músculo.

Con esta finalidad, existen varios alimentos cuyo aporte de proteínas es significativo, pero muy pocos contienen bajo contenido graso, como es el caso del requesón, una fuente importante de proteínas de alto valor biológico y pocas grasas.

El requesón es considerado un queso por muchos, aunque la definición exacta sería un lácteo que proviene del suero de leche cuajado. Por esta razón, todas las proteínas de la leche que quedan en el suero se concentran formando el requesón.

Además, debido a que no posee maduración, como es el caso de los quesos, su porcentaje de agua es elevado (80%) y su aporte de grasas es muy bajo, ya que sólo brinda 4 gramos por cada 100 de alimento, pudiendo ser la mitad si el requesón es desnatado.

Incluso, la concentración de proteínas, todas de buena calidad por ser de origen animal, es 3 veces mayor que en la leche, pudiendo ser el doble dependiendo de la variedad escogida.

Pero éstas no son las únicas ventajas nutricionales del requesón, sino que su aporte de vitaminas y minerales es muy valioso para el organismo, pues su contenido en calcio, potasio, fósforo, vitamina A y del complejo B, son ingredientes esenciales para el correcto funcionamiento neuromuscular.

Además, su costo es inferior con respecto a los quesos, su contenido y calidad de proteínas es similar, pero su aporte de grasas es significativamente menor, y su versatilidad a la hora de usarlo en la cocina convierten al requesón en un gran recurso para agregar proteínas a la dieta de manera saludable y sin incrementar las calorías de la misma.

SAVE OUTFILE='C:\Users\Ileana Toledo\Documents\REQUESON.sav'

/COMPRESSED.

NEW FILE.

DATASET NAME Conjunto_de_datos1 WINDOW=FRONT.

REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT VAR00002

/METHOD=ENTER VAR00001.

Regresión Lineal:

Notas
Resultados creados		10-NOV-2016 18:36:34
Comentarios
Entrada	Conjunto de datos activo	Conjunto_de_datos1
	Filtro
	Peso
	Dividir archivo
	Núm. de filas del archivo de trabajo	7
Tratamiento de los datos perdidos	Definición de perdidos	Los valores perdidos definidos por el usuario se tratarán como perdidos.
Tratamiento de los datos perdidos	Casos utilizados	Los estadísticos se basan en los casos sin valores perdidos para ninguna variable de las utilizadas.
Sintaxis		REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT VAR00002 /METHOD=ENTER VAR00001.
Recursos	Tiempo de procesador	00:00:00.11
	Tiempo transcurrido	00:00:00.13
	Memoria necesaria	1356 bytes
	Memoria adicional requerida para los diagramas de residuos	0 bytes

[Conjunto_de_datos1]

Variables introducidas/eliminadas^a
Modelo	Variables introducidas	Variables eliminadas	Método
1	VAR00001^b	.	Introducir

a. Variable dependiente: VAR00002

b. Todas las variables solicitadas introducidas.

Resumen del modelo
Modelo	R	R cuadrado	R cuadrado corregida	Error típ. de la estimación
1	.994^a	.988	.986	.12245

a. Variables predictoras: (Constante), VAR00001

ANOVA^a
Modelo		Suma de cuadrados	gl	Media cuadrática	F	Sig.
1	Regresión	6.229	1	6.229	415.383	.000^b
	Residual	.075	5	.015
	Total	6.304	6

a. Variable dependiente: VAR00002( DEPENDIENTE SON LOS KILOS DE REQUESÓN)

b. Variables predictoras: (Constante), VAR00001 ( SON LOS LITROS DE SUERO QUE SE OCUPAN)

Coeficientes^a
Modelo		Coeficientes no estandarizados		Coeficientes tipificados	T	Sig.
Modelo		B	Error típ.	Beta	T	Sig.
1	(Constante)	.050	.086		.578	.589
1	VAR00001	.024	.001	.994	20.381	.000

a. Variable dependiente: VAR00002

* Generador de gráficos.

GGRAPH

/GRAPHDATASET NAME="graphdataset" VARIABLES=VAR00001 VAR00002 MISSING=LISTWISE REPORTMISSING=NO

/GRAPHSPEC SOURCE=INLINE.

BEGIN GPL

SOURCE: s=userSource(id("graphdataset"))

DATA: VAR00001=col(source(s), name("VAR00001"))

DATA: VAR00002=col(source(s), name("VAR00002"))

GUIDE: axis(dim(1), label("VAR00001"))

GUIDE: axis(dim(2), label("VAR00002"))

ELEMENT: point(position(VAR00001*VAR00002))

END GPL.

Gráfico de Regresión Lineal de la Producción de Kilos de Requesón por litros de Suero

Notas
Resultados creados		10-NOV-2016 18:43:08
Comentarios
Entrada	Conjunto de datos activo	Conjunto_de_datos1
	Filtro
	Peso
	Dividir archivo
	Núm. de filas del archivo de trabajo	7
Sintaxis		GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=VAR00001 VAR00002 MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=userSource(id("graphdataset")) DATA: VAR00001=col(source(s), name("VAR00001")) DATA: VAR00002=col(source(s), name("VAR00002")) GUIDE: axis(dim(1), label("VAR00001")) GUIDE: axis(dim(2), label("VAR00002")) ELEMENT: point(position(VAR00001*VAR00002)) END GPL.
Recursos	Tiempo de procesador	00:00:03.73
Recursos	Tiempo transcurrido	00:00:05.62

[Conjunto_de_datos1]

Datos de Origen del Proyecto.

DÍAS	LITROS (VAR00001)	PRODUCCIÓN DE REQUESÓN (VAR00002)
LUNES	83	2.00
MARTES	39	1.00
MIERCOLES	21	0.50
JUEVES	93	2.50
VIERNES	57	1.50
SABADO	10	0.25
DOMINGO	128	3.00

Conclusión:

Se aplicó el Método de Regresión Lineal para poder obtener un modelo de predicción para poder conocer la cantidad de litros de suero para poder producir cierta cantidad de kilos de Requesón.

Conectivismo

miércoles, 16 de noviembre de 2016

Técnica de estadística de distribución de probabilidades

domingo, 13 de noviembre de 2016

SUBCOMPETENCIA 9 ANALISIS Y PROCESAMIENTO DE INFORMACIÓN DE SEGURIDAD ALIMENTARIA