Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Benzer belgeler
Karar ağaçları overfitting e karşı çok hassastır. Birkaç alternatif karar ağacı oluşturulur ve sonuçta oylama yapılarak karar verilir.

Merkezi Eğilim ve Dağılım Ölçüleri

TANIMLAYICI İSTATİSTİKLER

Örnek...4 : İlk iki sınavında 75 ve 82 alan bir öğrencinin bu dersin ortalamasını 5 yapabilmek için son sınavdan kaç alması gerekmektedir?

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

Merkezi Yığılma ve Dağılım Ölçüleri

Probability Density Function (PDF, Sürekli fonksiyon)

İstatistik ve Olasılığa Giriş. İstatistik ve Olasılığa Giriş. Ders 3 Verileri Sayısal Ölçütlerle İfade Etme. Verileri Sayısal Ölçütlerle İfade Etme

Ders 8: Verilerin Düzenlenmesi ve Analizi

TEMEL İSTATİSTİK BİLGİSİ. İstatistiksel verileri tasnif etme Verilerin grafiklerle ifade edilmesi Vasat ölçüleri Standart puanlar

4. HİSTOGRAM. Tolerans Aralığı. Değişim Aralığı HEDEF. Üst Spesifikasyon Limiti. Alt Spesifikasyon Limiti

Deney Dizaynı ve Veri Analizi Ders Notları

Prof.Dr.İhsan HALİFEOĞLU

BÖLÜM 4 FREKANS DAĞILIMLARININ GRAFİKLE GÖSTERİLMESİ

Sürekli Rastsal Değişkenler

VERİ MADENCİLİĞİNE BAKIŞ

Yrd. Doç. Dr. Sedat Şen 9/27/2018 2

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

İSTATİSTİK I KISA ÖZET KOLAYAOF

Mesleki Terminoloji II Veri Madenciliği

Sıklık Tabloları, BASİT ve TEK değişkenli Grafikler Ders 3 ve 4 ve 5

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir.

İSTATİSTİK. Bölüm 1 Giriş. Ankara Üniversitesi SBF İstatistik 1 Ders Notları Prof. Dr. Onur Özsoy 4/4/2018

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Test İstatistikleri AHMET SALİH ŞİMŞEK

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

İstatistik Dersi Çalışma Soruları Arasınav(Matematik Müh. Bölümü-2014)

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

GRAFİK YORUMLAMA. 1 ) Sütun Grafiği : Belirli bir zaman aralığında bazı veri grup-

SÜREKLĠ OLASILIK DAĞILIMLARI

İSTATİSTİK ÖRNEK SORULARI

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

3.SUNUM. Yrd. Doç. Dr. Sedat Şen

K En Yakın Komşu Methodu (KNearest Neighborhood)

İSTATİSTİKTE TEMEL KAVRAMLAR

Marketing plan for your startup

Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım. Dr. Deniz Özel Erkan

BÖLÜM 8 BİLGİSAYAR UYGULAMALARI - 2

Copyright 2004 Pearson Education, Inc. Slide 1

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Prof.Dr.İhsan HALİFEOĞLU

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER

Verilerin Özetlenmesinde Kullanılan Tablolar ve Grafiksel Yöntemler

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

SPSS-Tarihsel Gelişimi

İstatistik ve Olasılık

HDI SİGORTA ELMA KULLANIM KILAVUZU

MATLAB. Temel işlemler, Vektörler, Matrisler DOÇ. DR. ERSAN KABALCI

BİYOİSTATİSTİK. Ödev Çözümleri. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

İstatistik 1 BÖLÜM 2

Veri Madenciliği Karar Ağacı Oluşturma

veriler elde edebilmek için bilgilerin toplanması, düzenlenmesi, değerlendirilmesi ve alternatif çözümler

İstatistik Nedir? İstatistiğin Önemi Nedir? Tanımlayıcı ve Çıkarımcı İstatistik ttitik Tanımlayıcı İstatistik Türleri Çıkarımcı İstatistiğin i iği

VERİ SETİNE GENEL BAKIŞ

Elektra Raporlama Sistemi Sunumu

AST415 Astronomide Sayısal Çözümleme - I. 7. Grafik Çizimi

Web Madenciliği (Web Mining)

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

İstatistik ve Olasılık

Mühendislikte İstatistik Yöntemler

İÇİNDEKİLER ÖN SÖZ...

VERİ KÜMELERİNİ BETİMLEME

SPSS (Statistical Package for Social Sciences)

SPSS (Statistical Package for Social Sciences)


Konum ve Dağılım Ölçüleri. BBY606 Araştırma Yöntemleri Güleda Doğan

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ BÜTÜNLEME SINAVI SORULARI

Ders 1 Minitab da Grafiksel Analiz-I

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ TELAFĐ SINAVI SORULARI

Web Madenciliği (Web Mining)

Bölüm 3 Merkezi Konum (Eğilim) Ölçüleri. Giriş Veri kümesi. Ortalamalar iki grupta incelenir. A. Duyarlı olan ortalama. B. Duyarlı olmayan ortalama

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Projenin Adı: İstatistik yardımıyla YGS ye hazırlık için soru çözme planlaması

İSTATİSTİK MHN3120 Malzeme Mühendisliği

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ DÖNEM SONU SINAV SORULARI

Bağıl Değerlendirme Sistemi ile ilgili Bilgi Notu

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER

Üretim Süreci: Girdi İşlem Ürün (Sonuç) Araştırma Süreci: Hangi alanda olursa olsun araştırma bir BİLGİ ye ulaşma sürecidir.

İstatistik Nedir? Ders 1 Minitab da Grafiksel Analiz-I ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. İstatistiğin Konusu Olan Olaylar

KANTİTATİF TEKNİKLER - Temel İstatistik -

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

VERİ TABANI YÖNETİM SİSTEMLERİ I

Mühendislikte İstatistiksel Yöntemler

Grafik üzerindeki bilgiler özetlenmiştir. Veriler arasındaki ilişkiler görünür haldedir.

MAPINFO PRO TEMEL VE İLERİ SEVİYE EĞİTİM İÇERİĞİ

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

BİYOİSTATİSTİK Grafikler Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

Prof.Dr.İhsan HALİFEOĞLU

BÖLÜM13 3- EXCEL DE VERİ İŞLEMLERİ

Bar Diyagramı ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. Ders 3 Minitab da Grafiksel Analiz-III. Bar Diyagramı İçin Checklist.

Data Science Boot Camp

Ankara Üniversitesi, SBF İstatistik 2 Ders Notları Prof. Dr. Onur Özsoy 1

Büyük Veri ve Endüstri Mühendisliği

BMÜ-111 Algoritma ve Programlama. Bölüm 5. Tek Boyutlu Diziler

Web Madenciliği (Web Mining)

Veri Analizi. Isınma Hareketleri. Test İstatistikleri. b) En çok tekrar eden: 7 (mod) c) Açıklık = En büyük En küçük = 10 1 = 9. d)

Transkript:

Veri Madenciliği Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir. istatistik + makine öğrenmesi + yapay zeka = veri madenciliği Veri madenciliği süreçleri CRISP-DM Süreci Data Understanding Classification (Sınıflandırma): veri belirli kategorilere göre sınıflara ayrılır. Clustring (kümeleme): Belirli etiketlere göre kümeleme yapıp promosyon maillerinin sadece ilgili kişilere gitmesini sağlar Assocation Rules (Birliktelik kuralları): Buna bakan bunlara da baktı yapısı gibi veriler arasında ilişki. Data preparation Bu fazda değerlendirilecek veriler hazırlanır. Elimizde boş girilmiş veri olmaması gerekir. Boş olan verilere diğer veriler medyanı veya aritmetik ortalaması ile doldurulur.

Modelleme İstatiksel makine öğrenmesi ve yapay zeka yöntemleri kullanılır. Bu şekilde istatistiksel olarak karşılaştırma yapılır. Evaluation Modellemeden gelen veriler değerlendirilir. Deployment Verilerin ekranda gösterilmesi aşamasına denir. OLTP: Bir veritabanında sadece Insert-Update-Delete yapılıyor ise bu veri tabanına denir. Dataware House OLTP veritabanındaki verilerin sadece analiz edilecek kısmını tutar. Kullanılacak bazı kütüphaneler Pandas: csv verileri üzerinde hızlı işlem yapabiliyor. NumPy : matrisler üzerinde hızlı çalışıabiliyor Scikit_Learn: Makine öğrenmesi kütüphanesi Pandas Verilerin satır ve sütunları üzerinde işlem yapmaya izin veren Data Frame ve Series özellikleri vardır. NumPy Güçlü bir N-boyutlu dizi sağlar. Karmaşık fonksiyonlar bulunmaktadır. C/C++ Fortran entegrasyonu bulunmaktadır. Kullanışlı Foruier dönüşümü ve rastgele sayı yeternekleri vardır. Scikit_Learn Makine öğrenmesi kütüphanesi NumPy verilerini parametre olarak alır. Pandas kullanarak verileri yüklenebilir. temizlenebilir ve işlenebilir.

ilk uygulama import pandas as pd import numpy as np # F9 ile bulunulan satır veya taranmış olan satırları çalıştırabiliriz. dataframe = pd.read_csv('eskicalisanlar.csv') # Data frame kısmında içeriği görebiliriz. dataframe.head() # en üstten itibaren belirli sayıda kaydı gösterir. # head parantezlerinin içerisine bir parametre verilirse o parametre kadar # veriyi gösterir. dataframe.tail() # sondan itibaren kayıtları görmek için kullanılır. dataframe.shape # dataframein kaç satır ve kaç sütundan oluştuğunu bir tuple olarak verir. dataframe.size # dataframein içerisinde kaç tane kayıt olduğunu gösterir. len(dataframe) # satır sayısını öğrenmemizi sağlar. dataframe.columns # kolon isimlerini görmemizi sağlar. dataframe['hired'] # sadece 'Hired' kolonu bilgilerini görmemizi sağlar. dataframe['hired'][5] # Hired ın 5. indisindaki veri gösterir. dataframe[['hired', 'Employed?']] # birden fazla sütunu aynı anda çekmemizi sağlar. dataframe.sort_values(['years Experience']) # verileri 'Years Experience' öncelikli sıralamamızı sağlar. Varsayılan olarak # küçükten büyüğe sıralar. egitimduzeyi = dataframe['level of Education'].value_counts() # 'Level of Education' kolonuna sahip kişilerin verilerini birleştirir. egitimduzeyi.plot(kind='bar') # egitimduzeyi verilerinden grafik oluşturmamızı sağlar.

Soru Yalnızca "Previous Employers" ve "Hired" sütunlarını, dataframeimizin 5-10 satırlarını saçin. Bunu yeni bir Dataframe'e atayın ve verilerin bu alt kümesindeki Previous Employersların dağılımını gösteren bir histogram oluşturun. Veri Tipleri Numerical Nümerik veriler Discrete ve Continuous olmak üzere ikiye ayrılır. Dicrete Data (Ayrık veri) Tam sayı tabanlıdır. Genellikle bir olayın gerçekleşme sayısı gibi durumlar ifade edilir. (Bir müşteri yılda kaç defa alışveris yaptı.) Continuous Data (Sürekli Veri) Bu tip veriler ölçümle belirlenmiş değerlerdir. Gerek tam sayı gerekse virgüllü sayılar olabilir. Yani sayı doğrusu üzerindeki tüm değerleri alabilirler. (Bir okuldaki öğrencilerin kiloları nedir?) Categorical Data (Kategorik Veri) Cinsiyeti Irk, Ürün kategorisi vb. Ordian Data (Ordinal Veri) Ordinal veriler de yine kategorik veri türündendir. Fakat değerleri arasında sıralı bir ilişki bulunmaktadır. (Film ratingleri, Müşteri ürün değerlendirmeleri vb.) Örnek Sorular Tankınızda ne kadar gaz var? (Continuous) Hastane hizmetine verdiğiniz puan? 1 kötü, 2 orta, 3 iyi, 4 çok iyi (Ordinal) Sınıtaki öğrencilerin yaşadıkları iller (Categorical) Sınıftaki öğrencilerin yaşları. (Discrete) Alışveriş merkezinde harcanan para (Continuous) Categorical

Mean, Median ve mode Mean verilerin aritmetik ortalamsıdır. import pandas as pd import numpy as np veri = [1,2,3,4,5,6,7,8,9,10] np.mean(veri) rastgele veri üretmek istersek aşağıdaki gibi yapabiliriz. import pandas as pd import numpy as np import mathplotlib.pyplot as plot gelirler = np.random.normal(3000,1500,10000) # Normal dağılıma sahip ortalama değer, Standart sapma, 10000 değer üret np.mean(gelirler) plot.hist(gelirler, 50) # gelirler verilerini 50 aralığa ayır demek. Histogram Gruplandırılmış bir veri dağılımının sütun grafiği ile gösterimine histogram adı verilir. Histogram oluşturma 1. Öncelikle veriler küçükten büyüğe sıralanır. 2. Veri grubunun açıklığı (aralığı) bulunur. Açıklık en büyük veriden en küçük verinin çıkarılması ile bulunur. 3. Verilerin kaç gruba ayrılacağı belirlenir. 4. Grup genişliği bulunur. Açıklık değerinin grup sayısına bölünmesiyle elde edilen sayıdan büyük en küçük doğal sayı grup genişliği olarak alınır. 5. Veriler en küçük veriden başlayarak veri genişliğine göre gruplara ayrılır. 6. Oluşturulan gruplar ve gruplardaki veri sayıları tablo halinde düzenlenir. 7. Tabloya bakılılarak histogram çizilir.

Örnek histogram çizimi: Veriler: 162, 161, 170, 167, 170, 173, 163, 176, 174, 180, 179, 164, 169, 175, 177, 185, 169, 172, 180, 175, 168, 163, 172, 172, 169, 173, 170, 171, 168, 166, 167, 170. 1) Öncelikleri veriler küçükten büyüğe sıraladık. 161, 162, 163, 163, 164, 166, 167, 167, 168, 168, 169, 169, 169, 170, 170, 170, 170, 171, 172, 172, 172, 173, 173, 174, 175, 175, 176, 177, 179, 180, 180, 185 2) Veri grubunun açıklığını bulduk. 185 161 = 24 3) Verilerin kaç gruba ayrılacağı belirledik. Grup sayımız 5 olsun 4) Grup genişliğini bulduk. 24 : 5 = 4,8 olup bu sayıdan büyük en küçük doğal sayı 5'tir. Verileri grup genişliğine göre gruplara ayırdık. Verilerdeki en küçük sayıdan başlayarak grup genişliği kadar sayı ilerleyerek bir grup yapıyoruz. Buradaki sayıların veriler arasında olma zorunluluğu yok. 161-162-163-164-165 gibi 5 tane veriyi 161-165 şeklinde yazıyoruz. O halde gruplarımız: 161-165, 166-170, 171-175, 176-180, 181-185 5) Gruplarımızı ve o gruplardaki veri sayılarını tablo halinde düzenledik. Gruplar Kişi sayısı 161-165 5 166-170 12 171-175 9 176-180 5 181-185 1

Outlier (Aşırı değer) Bir veri analizi yapılırken verilerin normal dağılıma uygun olduğu düşünülür. Veriler, ortalama >= -3*Standart sapma ve ortalama <= 3 * Standart sapma aralığı içerisinde olmalıdır. Bu aralığın dışında bulunan değerler Outlier değerlerdir. Outlier değerler silinmezse doğru sonuca ulaşılamaz. Bu verilerin silinmesi gerekmektedir. Mod Bir sayısal değer içerisinde en çok tekrar eden değere denir. from scipy import stats yaslar = np.random.randint(18, high=90, size=500) # Rastgele yaş değerine sahip 500 tane değer oluşturur. stats.mode(yaslar) # verilen yaşların en çok tekrar edenini bulur. Median Bir sayısal değer sıralandığında ortadaki sayıyı verir. Eğer standart sapma çok yüksekse medyan çok önemlidir. Çünkü ortalama istediğimiz sonucu vermeyecektir. Burada medyan değerlerine göre işlem yapılır. Bu yğzden veriyi düzgün incelemek gerekmektedir. np.median(yaslar)