Veri Bilimciler için sık kullanılan istatiksel formüller

Bir data analisti veya veri bilimcisi, veriyi anlamlandırmak ve modeller geliştirmek için temel istatistiksel formülleri ve kavramları bilmelidir. Bu istatiksel formüller genel formüller olmakla beraber veri bilimcilerin en çok kullandığı formüllerdir. İşte en önemli istatistiksel formüller ve açıklamaları sizler için düzenledik, keyifli okumalar.

1. Ortalama (Mean)

ortalama formülü

Bir veri setindeki tüm değerlerin toplamının, veri sayısına bölünmesiyle hesaplanır. Verinin merkezi eğilim ölçüsüdür.Örneğin, 2, 8, 60, 23, 11, 4 olan bir veri setinin ortalaması 108/6=18 sonucudur.

2. Medyan (Median)

Veri setindeki değerler küçükten büyüğe sıralandığında, ortada kalan değerdir. Eğer veri sayısı çift sayıysa medyanı ortadaki iki değerin aritmetik ortalaması kabul edilir.

Örneğin; 84, 52, 2, 1, 42, 6 veri setinin medyanını bulmak için önce küçükten büyüğe sıralayalım, 1, 2, 6, 42, 52, 84 şeklinde sıralanır. Veri seti 6 yani çift sayı olduğu için aritmetik ortalaması alınır. 6+42=48 48/2=24 medyanı 24 dür bu veri setinin.

3. Mod (Mode)

Veri setinde en sık tekrarlanan değerdir. Kategorik verilerde özellikle önemlidir. Örneğin veri seti 2, 3, 3, 45, 101 olsun bu veris setinde en sık tekrarlayan 3 olduğu için Mod 3 dür.

4. Standart Sapma (Standard Deviation)

standart sapma

Verilerin ortalamadan ne kadar saptığını ölçer. Verinin dağılımını anlamak için kullanılır. Standart sapma aritmetik ortalamaya çok yakınsa değişkenlerin yer aldığı grupta değişkenlerin homojenliği de yüksektir.

Standart sapma için adımlar;

  • Önce Aritmetik ortalama bulunur.
  • Her bir sayı aritmetik ortalamadan teker teker çıkarılır.
  • Elde edilen her bir sonucun karesi alınır.
  • Elde edilen tüm kareler toplanıp toplam değer sayısına bölünür.
  • Bulunan sonuç karekökten çıkarılır. Sonuç standart sapmadır.

5. Varyans (Variance)

varyans

Standart sapmanın karesidir. Verinin yayılımını ölçer.

6. Kovaryans (Covariance)

kovaryans

İki değişken arasındaki ilişkinin yönünü belirtir (pozitif ya da negatif).

7. Korelasyon Katsayısı (Correlation Coefficient)

korelasyon katsayısı

İki değişken arasındaki ilişkinin gücünü ve yönünü belirtir. rrr değeri -1 ile 1 arasında değişir.

8. Z-Skoru (Z-Score)

z-skoru

Bir verinin ortalamadan kaç standart sapma uzakta olduğunu ölçer. Normalizasyon için kullanılır.

9. Olasılık (Probability)

olasılık

Bir olayın meydana gelme olasılığını hesaplar

10. Hipotez Testleri İçin t-İstatistiği

t-istatiği

Bir örneklemin belirli bir popülasyondan anlamlı derecede farklı olup olmadığını test eder.

11. Lineer Regresyon Denklemi

lineer regresyon denklemi

Bağımlı (Y) ve bağımsız (X) değişkenler arasındaki ilişkiyi modellemek için kullanılır.

12. Logistik Regresyon Fonksiyonu

lojistik regresyon

Sınıflandırma problemlerinde, bir olayın meydana gelme olasılığını tahmin etmek için kullanılır.

13. Ki-Kare (Chi-Square) Testi

ki-kare testi

Gözlenen (Oi) ve beklenen (Ei) frekanslar arasındaki farkın anlamlı olup olmadığını test eder.

14. Entropi (Shannon Entropy)

entropi

Verinin belirsizliğini ölçmek için kullanılır. Makine öğrenimi algoritmalarında bilgi kazancı hesaplamalarında önemlidir.

15. Bayes Teoremi

bayes teoremi

Bir olayın, başka bir olayın meydana geldiği bilindiğinde gerçekleşme olasılığını hesaplar.

Genel olarak sık kullanılan istatistiksel formüller bunlar olmakla beraber bu içeriğin devamı için daha da ayrıntılı bilgi vermek adına paylaşımlar yapılacaktır abone olarak veya yorumlarınızı bizimle paylaşarak yeni yazılarımızdan haberdar olabilirsiniz. Sağlıcakla kalın 🙂


ExpoTekno sitesinden daha fazla şey keşfedin

Subscribe to get the latest posts sent to your email.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

English Translate »