Bir data analisti veya veri bilimcisi, veriyi anlamlandırmak ve modeller geliştirmek için temel istatistiksel formülleri ve kavramları bilmelidir. Bu istatiksel formüller genel formüller olmakla beraber veri bilimcilerin en çok kullandığı formüllerdir. İşte en önemli istatistiksel formüller ve açıklamaları sizler için düzenledik, keyifli okumalar.
1. Ortalama (Mean)
Bir veri setindeki tüm değerlerin toplamının, veri sayısına bölünmesiyle hesaplanır. Verinin merkezi eğilim ölçüsüdür.Örneğin, 2, 8, 60, 23, 11, 4 olan bir veri setinin ortalaması 108/6=18 sonucudur.
2. Medyan (Median)
Veri setindeki değerler küçükten büyüğe sıralandığında, ortada kalan değerdir. Eğer veri sayısı çift sayıysa medyanı ortadaki iki değerin aritmetik ortalaması kabul edilir.
Örneğin; 84, 52, 2, 1, 42, 6 veri setinin medyanını bulmak için önce küçükten büyüğe sıralayalım, 1, 2, 6, 42, 52, 84 şeklinde sıralanır. Veri seti 6 yani çift sayı olduğu için aritmetik ortalaması alınır. 6+42=48 48/2=24 medyanı 24 dür bu veri setinin.
3. Mod (Mode)
Veri setinde en sık tekrarlanan değerdir. Kategorik verilerde özellikle önemlidir. Örneğin veri seti 2, 3, 3, 45, 101 olsun bu veris setinde en sık tekrarlayan 3 olduğu için Mod 3 dür.
4. Standart Sapma (Standard Deviation)
Verilerin ortalamadan ne kadar saptığını ölçer. Verinin dağılımını anlamak için kullanılır. Standart sapma aritmetik ortalamaya çok yakınsa değişkenlerin yer aldığı grupta değişkenlerin homojenliği de yüksektir.
Standart sapma için adımlar;
- Önce Aritmetik ortalama bulunur.
- Her bir sayı aritmetik ortalamadan teker teker çıkarılır.
- Elde edilen her bir sonucun karesi alınır.
- Elde edilen tüm kareler toplanıp toplam değer sayısına bölünür.
- Bulunan sonuç karekökten çıkarılır. Sonuç standart sapmadır.
5. Varyans (Variance)
Standart sapmanın karesidir. Verinin yayılımını ölçer.
6. Kovaryans (Covariance)
İki değişken arasındaki ilişkinin yönünü belirtir (pozitif ya da negatif).
7. Korelasyon Katsayısı (Correlation Coefficient)
İki değişken arasındaki ilişkinin gücünü ve yönünü belirtir. rrr değeri -1 ile 1 arasında değişir.
8. Z-Skoru (Z-Score)
Bir verinin ortalamadan kaç standart sapma uzakta olduğunu ölçer. Normalizasyon için kullanılır.
9. Olasılık (Probability)
Bir olayın meydana gelme olasılığını hesaplar
10. Hipotez Testleri İçin t-İstatistiği
Bir örneklemin belirli bir popülasyondan anlamlı derecede farklı olup olmadığını test eder.
11. Lineer Regresyon Denklemi
Bağımlı (Y) ve bağımsız (X) değişkenler arasındaki ilişkiyi modellemek için kullanılır.
12. Logistik Regresyon Fonksiyonu
Sınıflandırma problemlerinde, bir olayın meydana gelme olasılığını tahmin etmek için kullanılır.
13. Ki-Kare (Chi-Square) Testi
Gözlenen (Oi) ve beklenen (Ei) frekanslar arasındaki farkın anlamlı olup olmadığını test eder.
14. Entropi (Shannon Entropy)
Verinin belirsizliğini ölçmek için kullanılır. Makine öğrenimi algoritmalarında bilgi kazancı hesaplamalarında önemlidir.
15. Bayes Teoremi
Bir olayın, başka bir olayın meydana geldiği bilindiğinde gerçekleşme olasılığını hesaplar.
Genel olarak sık kullanılan istatistiksel formüller bunlar olmakla beraber bu içeriğin devamı için daha da ayrıntılı bilgi vermek adına paylaşımlar yapılacaktır abone olarak veya yorumlarınızı bizimle paylaşarak yeni yazılarımızdan haberdar olabilirsiniz. Sağlıcakla kalın 🙂
ExpoTekno sitesinden daha fazla şey keşfedin
Subscribe to get the latest posts sent to your email.