library(dplyr)
# Kiek trūkstamų reikšmių kiekviename stulpelyje?
colSums(is.na(iris))Sepal.Length Sepal.Width Petal.Length Petal.Width Species
0 0 0 0 0
March 10, 2023
Prieš atliekant bet kokią statistinę analizę, būtina patikrinti duomenų kokybę. Šiame straipsnyje apžvelgsime pagrindinius žingsnius.
Pirmiausia reikia patikrinti, ar yra trūkstamų reikšmių:
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
0 0 0 0 0
Ekstremalias reikšmes galima aptikti vizualiai:
library(ggplot2)
ggplot(iris, aes(y = Sepal.Length)) +
geom_boxplot() +
labs(title = "Taurėlapių ilgio boxplot")
Arba skaičiavimu:
# Ekstremalios reikšmės pagal IQR metodą
Q1 <- quantile(iris$Sepal.Length, 0.25)
Q3 <- quantile(iris$Sepal.Length, 0.75)
IQR <- Q3 - Q1
lower_bound <- Q1 - 1.5 * IQR
upper_bound <- Q3 + 1.5 * IQR
outliers <- iris$Sepal.Length[iris$Sepal.Length < lower_bound | iris$Sepal.Length > upper_bound]
cat("Ekstremalios reikšmės:", outliers)Ekstremalios reikšmės:
Normalumo tikrinimas yra svarbus daugumai parametrinių testų:
| Žingsnis | Ką tikrinti | R funkcija |
|---|---|---|
| 1 | Trūkstamos reikšmės | is.na(), summary() |
| 2 | Ekstremalios reikšmės | boxplot(), IQR metodas |
| 3 | Skirstinys | hist(), qqnorm() |
| 4 | Variacija | var(), sd() |