Når du har samlet data på systemet eller prosessen, er neste trinn å avgjøre hvilken type sannsynlighetsfordeling man har. Sannsynlighetsfordelingen er: diskret uniform, Bernoulli, binomial, negativ binomial, Poisson, geometrisk, kontinuerlig uniform, normal (bellkurve), eksponentiell, gamma og beta-distribusjoner. Narrowing selv noen fra listen over muligheter gjør bestemmer hvilken er den nærmeste R-kvadrert verdien mye raskere.
Elementer du trenger
-
Grafering av programvare
-
Midler til å beregne R-kvadratverdien (best egnet analyse)
Plott dataene for en visuell representasjon av datatypen.
Et av de første trinnene for å bestemme hvilken datadistribusjon man har - og dermed ligningstypen som skal brukes til å modellere dataene - er å utelukke hva det ikke kan være. • Hvis det er noen topper i datasettet, kan det ikke være en diskret uniformfordeling. • Hvis dataene har mer enn en topp, er det ikke Poisson eller binomial. • Hvis den har en enkelt kurve, ingen sekundære topper, og har en langsom helling på hver side, kan det være Poisson eller en gammafordeling. Men det kan ikke være en diskret uniformfordeling. • Hvis dataene er jevnt fordelt, og det er uten skrå mot en side, er det trygt å utelukke en gamma- eller Weibull-distribusjon. • Hvis funksjonen har en jevn fordeling eller en topp i midten av de grafede resultatene, er det ikke en geometrisk fordeling eller eksponentiell fordeling. • Hvis forekomsten av en faktor varierer med en miljøvariabel, er det sannsynligvis ikke en Poisson-distribusjon.
Etter at sannsynlighetsfordelingstypen er innsnevret, gjør en R-kvadratanalyse av hver mulig type sannsynlighetsfordeling. Den med den høyeste R-kvadratverdien er mest sannsynlig riktig.
Eliminer ett outlier datapunkt. Deretter beregner du R-kvadratet. Hvis den samme sannsynlighetsfordelingstypen kommer opp som nærmeste match, er det stor sikkerhet for at dette er den riktige sannsynlighetsfordelingen som skal brukes til datasettet.
Tips
-
Hvis dataene viser flere topper en bred spredning, er det mulig at to separate prosesser går på eller det produkt som samples, blandes. Recollect dataene og deretter re-analysere.
Advarsel
Bekreft likningene generert mot senere datasett for å bekrefte at det fortsatt er nøyaktig for datasettet. Det er mulig at miljøfaktorer og prosessdrift har gjort gjeldende ligninger og modeller feil.