Seseorang dapat menjelaskan apa perbedaan antara klasifikasi dan clustering dalam data mining?
Jika anda bisa, tolong beri contoh yang baik untuk memahami ide utama.
Secara umum, dalam klasifikasi anda memiliki satu set yang telah ditetapkan kelas dan ingin tahu yang kelas objek baru milik.
Clustering mencoba untuk kelompok benda-benda dan menemukan apakah ada beberapa hubungan antara benda-benda.
Dalam konteks pembelajaran mesin, klasifikasi supervised learning dan clustering unsupervised learning.
Lihat juga Klasifikasi dan Pengelompokan di Wikipedia.
Jika anda telah mengajukan pertanyaan ini ke data mining atau mesin pembelajaran orang mereka akan menggunakan istilah diawasi belajar dan pembelajaran tak terawasi untuk menjelaskan perbedaan antara clustering dan klasifikasi. Jadi pertama saya akan menjelaskan anda tentang kata kunci supervised dan unsupervised.
Supervised learning: misalkan anda memiliki keranjang dan itu diisi dengan beberapa buah-buahan segar dan tugas anda adalah untuk mengatur jenis yang sama buah-buahan di satu tempat. misalkan buah apel,pisang,ceri, dan anggur. jadi anda sudah tahu dari pekerjaan anda sebelumnya bahwa, bentuk masing-masing dan setiap buah sehingga mudah untuk mengatur jenis yang sama buah-buahan di satu tempat. di sini anda sebelumnya bekerja disebut sebagai dilatih data dalam data mining. jadi anda sudah mempelajari hal-hal dari anda dilatih data, hal Ini karena anda memiliki variabel respon yang mengatakan bahwa jika beberapa buah telah jadi dan jadi fitur itu adalah anggur, seperti itu untuk setiap dan setiap buah.
Ini jenis data yang akan anda dapatkan dari terlatih data. Jenis pembelajaran ini disebut sebagai supervised learning. Jenis pemecahan masalah yang datang di bawah Klasifikasi. Jadi anda sudah mempelajari hal-hal sehingga anda dapat melakukan pekerjaan anda dengan penuh percaya diri.
tanpa pengawasan : misalkan anda memiliki keranjang dan itu diisi dengan beberapa buah-buahan segar dan tugas anda adalah untuk mengatur jenis yang sama buah-buahan di satu tempat.
Saat ini anda don't tahu apa-apa tentang hal itu buah-buahan, anda pertama kali melihat buah-buahan ini jadi bagaimana anda akan mengatur jenis yang sama buah-buahan.
Apa yang akan anda lakukan pertama adalah anda mengambil buah dan anda akan memilih karakter fisik tertentu itu buah. misalkan anda mengambil warna.
Maka anda akan mengatur mereka berdasarkan warna, maka kelompok akan beberapa hal seperti ini. WARNA MERAH KELOMPOK: apel & cherry buah-buahan. WARNA HIJAU GROUP: pisang & anggur. jadi sekarang anda akan mengambil satu karakter fisik seperti ukuran, jadi sekarang kelompok akan beberapa hal seperti ini. WARNA MERAH DAN BESAR UKURAN: apple. WARNA MERAH DAN UKURAN KECIL: cherry buah-buahan. WARNA HIJAU DAN BESAR UKURAN: pisang. WARNA HIJAU DAN KECIL UKURAN: anggur. pekerjaan yang dilakukan dengan happy ending.
di sini anda didn't mengetahui sesuatu sebelum ,berarti tidak ada kereta api data dan variabel respon. Jenis pembelajaran ini dikenal dengan pembelajaran tak terawasi. clustering dalam pembelajaran tak terawasi.
+Klasifikasi: anda diberi beberapa data baru, anda harus mengatur label baru untuk mereka.
Misalnya, perusahaan ingin mengklasifikasikan mereka prospek pelanggan. Ketika pelanggan datang, mereka harus menentukan apakah ini adalah pelanggan yang akan membeli produk mereka atau tidak.
+Clustering: anda're diberikan satu set sejarah transaksi yang tercatat yang membeli apa.
Dengan menggunakan teknik clustering, anda dapat memberitahu segmentasi pelanggan anda.
Saya yakin beberapa dari anda telah mendengar tentang pembelajaran mesin. Selusin dari anda bahkan mungkin tahu apa itu. Dan beberapa dari anda mungkin telah bekerja dengan algoritma pembelajaran mesin juga. Anda melihat mana hal ini terjadi? Tidak banyak orang yang familiar dengan teknologi yang akan menjadi benar-benar penting 5 tahun dari sekarang. Siri adalah mesin belajar. Amazon Alexa adalah mesin belajar. Iklan dan belanja barang recommender system adalah mesin belajar. Mari kita mencoba untuk memahami pembelajaran mesin dengan sebuah analogi sederhana dari 2 tahun anak laki-laki. Hanya untuk bersenang-senang, mari kita panggil dia Kylo Ren Mari kita asumsikan Kylo Ren yang melihat gajah. Apa yang akan otaknya katakan padanya ?(Ingat ia memiliki minimal kapasitas berpikir, bahkan jika ia adalah penerus Vader). Otaknya akan mengatakan kepadanya bahwa ia melihat sejumlah besar makhluk bergerak yang abu-abu dalam warna. Dia melihat kucing berikutnya, dan otaknya mengatakan kepadanya bahwa itu adalah kecil makhluk bergerak yang berwarna keemasan. Akhirnya, ia melihat sebuah pedang cahaya berikutnya dan otaknya mengatakan kepadanya bahwa itu adalah non-hidup objek yang dia dapat bermain dengan! Otaknya pada titik ini tahu bahwa pedang ini berbeda dari gajah dan kucing, karena saber adalah sesuatu untuk bermain dengan dan tidak bergerak sendiri. Otaknya dapat angka ini jauh bahkan jika Kylo tidak tahu apa yang bergerak berarti. Ini sederhana fenomena ini disebut Clustering . Pembelajaran mesin adalah apa-apa tapi versi matematika dari proses ini. Banyak orang yang mempelajari statistik menyadari bahwa mereka dapat membuat beberapa persamaan yang bekerja dalam cara yang sama seperti otak bekerja. Otak dapat gugus benda-benda serupa, otak dapat belajar dari kesalahan-kesalahan dan otak dapat belajar untuk mengidentifikasi hal-hal. Semua ini dapat diwakili dengan statistik, dan komputer berbasis simulasi proses ini disebut Pembelajaran Mesin. Mengapa kita perlu komputer berdasarkan simulasi? karena komputer dapat melakukan matematika berat lebih cepat dari otak manusia. Aku akan senang untuk pergi ke matematika/statistik bagian dari pembelajaran mesin, tetapi anda tidak ingin melompat ke dalam tanpa membersihkan beberapa konsep yang pertama. Mari kita kembali ke Kylo Ren. Katakanlah Kylo mengambil pedang dan mulai bermain dengan itu. Sengaja dia adalah seorang prajurit dan prajurit terluka. Dia tidak mengerti apa yang terjadi dan terus bermain. Selanjutnya ia adalah seekor kucing dan kucing itu terluka. Kali ini Kylo yakin dia telah melakukan sesuatu yang buruk, dan mencoba untuk menjadi sangat berhati-hati. Tetapi mengingat-nya buruk saber keterampilan, dia adalah gajah dan benar-benar yakin bahwa ia berada dalam kesulitan. Ia menjadi sangat berhati-hati setelah itu, dan hanya rumah ayahnya pada tujuan seperti yang kita lihat di Force Awakens!! Seluruh proses ini belajar dari kesalahan anda dapat menirukan dengan persamaan, dimana merasa melakukan sesuatu yang salah diwakili oleh kesalahan atau biaya. Proses ini mengidentifikasi apa yang tidak harus dilakukan dengan pedang ini disebut Klasifikasi . Pengelompokan dan Klasifikasi dasar-dasar mutlak dari pembelajaran mesin. Mari kita lihat perbedaan antara mereka. Kylo dibedakan antara hewan dan light saber karena otaknya memutuskan bahwa pedang cahaya tidak bisa bergerak sendiri dan oleh karena itu, berbeda. Keputusan itu berdasarkan semata-mata pada benda-benda yang ada (data) dan tidak ada bantuan eksternal atau saran yang diberikan. Berbeda dengan ini, Kylo dibedakan pentingnya berhati-hati dengan cahaya saber dengan terlebih dahulu mengamati apa yang memukul objek dapat dilakukan. Keputusan tidak sepenuhnya didasarkan pada pedang, tetapi pada apa yang bisa dilakukan untuk benda-benda yang berbeda . Singkatnya, ada beberapa bantuan di sini. Karena perbedaan ini dalam pembelajaran, Pengelompokan ini disebut metode pembelajaran tak terawasi dan Klasifikasi disebut diawasi metode pembelajaran. Mereka sangat berbeda dalam pembelajaran mesin dunia, dan sering ditentukan oleh jenis data yang ada. Memperoleh label data (atau hal-hal yang membantu kita belajar , seperti stormtrooper,gajah dan kucing di Kylo kasus) sering tidak mudah dan menjadi sangat rumit ketika data yang akan dibedakan lebih besar. Di sisi lain, pembelajaran tanpa label dapat memiliki itu sendiri kekurangan , seperti tidak mengetahui apa label judul. Jika Kylo adalah untuk belajar berhati-hati dengan pedang tanpa ada contoh atau membantu, dia tidak tahu apa yang akan dilakukan. Dia hanya akan tahu bahwa hal itu tidak seharusnya dilakukan. Ini semacam lumpuh analogi tetapi anda mendapatkan titik! Kami baru saja mulai dengan Pembelajaran Mesin. Klasifikasi itu sendiri dapat klasifikasi nomor terus menerus atau klasifikasi label. Misalnya, jika Kylo harus mengklasifikasikan apa yang masing-masing stormtrooper tinggi, akan ada banyak jawaban karena ketinggian dapat 5.0, 5.01, 5.011, dll. Tapi klasifikasi sederhana seperti jenis pedang cahaya (merah,biru.hijau) akan sangat terbatas jawaban. Infact mereka dapat diwakili dengan angka sederhana. Merah dapat 0 , Biru dapat 1 dan Hijau dapat 2. Jika anda tahu dasar matematika, anda tahu bahwa 0,1,2 dan 5.1,5.01,5.011 yang berbeda dan disebut diskrit dan kontinu nomor masing-masing. Klasifikasi diskrit angka ini disebut Regresi Logistik , dan klasifikasi terus menerus angka ini disebut Regresi. Regresi logistik juga dikenal sebagai kategoris klasifikasi, jadi jangan bingung ketika anda baca istilah ini di tempat lain Ini adalah pengenalan dasar untuk Pembelajaran Mesin. Aku akan diam dalam statistik sisi di posting saya berikutnya. Mohon beritahu saya jika saya perlu koreksi :) Bagian kedua diposting di sini.
Adalah tugas kelas standar untuk *new pengamatan* berdasarkan belajar* dari contoh-contoh.
Itu adalah salah satu tugas utama dalam pembelajaran mesin.
Sedangkan populer diberhentikan sebagai "klasifikasi unsupervised" hal ini sangat berbeda.
Berbeda dengan apa yang banyak mesin didik akan mengajarkan anda, itu bukan tentang menetapkan "kelas" untuk benda-benda, tetapi tanpa mereka yang telah ditetapkan. Ini adalah pandangan yang terbatas dari orang-orang yang tidak terlalu banyak klasifikasi; sebuah contoh khas dari jika anda memiliki palu (classifier), semuanya terlihat seperti kuku (klasifikasi masalah) anda. Tapi hal ini juga mengapa klasifikasi orang-orang yang tidak mendapatkan menggantung dari clustering.
Sebaliknya, menganggap itu sebagai struktur discovery. Tugas dari clustering adalah untuk menemukan struktur (misalnya kelompok-kelompok) dalam data anda yang anda tidak tahu sebelumnya. Clustering telah sukses jika anda belajar sesuatu yang baru. Gagal, jika anda hanya punya struktur yang anda sudah tahu.
Analisis Cluster adalah tugas utama dari data mining (dan the ugly duckling dalam mesin-belajar, jadi don't mendengarkan mesin didik menolak clustering).
Ini telah iterated naik dan turun sastra, tetapi pembelajaran tak terawasi bllsht. Itu tidak ada, tapi itu adalah sebuah oxymoron seperti "intelijen militer".
Baik algoritma belajar dari contoh (maka "supervised learning"), atau tidak belajar. Jika semua metode clustering adalah "pembelajaran", maka komputasi minimum, maksimum dan rata-rata dari data set adalah "unsupervised learning", terlalu. Kemudian setiap perhitungan "belajar" output. Dengan demikian istilah 'unsupervised learning' adalah benar-benar berarti, itu berarti segala sesuatu dan apa-apa.
Beberapa "unsupervised learning" algoritma lakukan, bagaimanapun, jatuh ke optimalisasi kategori. Misalnya k-means adalah least-squares optimasi. Metode tersebut adalah seluruh statistik, jadi saya don't pikir kita perlu untuk label mereka "unsupervised learning", tetapi sebaliknya harus terus memanggil mereka "masalah optimasi". It's lebih tepat, dan lebih bermakna. Ada banyak algoritma clustering yang tidak melibatkan optimasi, dan yang tidak masuk ke mesin-paradigma pembelajaran dengan baik. Jadi berhenti meremas mereka di sana di bawah payung "unsupervised learning".
Ada beberapa "pembelajaran" terkait dengan clustering, tapi itu bukan program yang belajar. Ini adalah user yang seharusnya untuk belajar hal-hal baru tentang data set.
I'm pendatang baru untuk Data Mining, tapi sebagai buku teks saya mengatakan, CLASSICIATION seharusnya diawasi pembelajaran, dan CLUSTERING pembelajaran tak terawasi. Perbedaan antara supervised learning dan pembelajaran tak terawasi yang dapat ditemukan di sini.
Dengan clustering, anda dapat kelompok data dengan sifat yang diinginkan seperti jumlah, bentuk, dan sifat-sifat lainnya yang diekstraksi cluster. Sementara, dalam klasifikasi, jumlah dan bentuk dari kelompok-kelompok yang tetap. Sebagian besar algoritma clustering memberikan jumlah cluster sebagai parameter. Namun, ada beberapa pendekatan untuk mengetahui jumlah yang tepat dari cluster.
Pertama-tama, saya akan mengatakan seperti banyak jawaban sebelum ini, klasifikasi supervised learning dan clustering tanpa pengawasan. Ini berarti:
Klasifikasi kebutuhan berlabel data sehingga kelompok dapat dilatih pada data ini, dan setelah itu mulai mengklasifikasikan baru gaib data berdasarkan apa yang dia tahu. Pembelajaran tak terawasi seperti clustering tidak menggunakan label data, dan apa itu sebenarnya adalah untuk menemukan intrinsik struktur data seperti kelompok-kelompok.
Perbedaan lain antara kedua teknik (terkait dengan yang sebelumnya), adalah fakta bahwa klasifikasi adalah bentuk diskrit regresi masalah di mana output adalah kategoris variabel dependen. Sedangkan clustering's output hasil satu set subset yang disebut kelompok. Cara untuk mengevaluasi dua model ini juga berbeda untuk alasan yang sama: dalam klasifikasi anda sering harus memeriksa ketepatan dan ingat, hal-hal seperti terjadinya overfitting dan underfitting, dll. Hal-hal yang akan memberitahu anda bagaimana yang baik adalah model. Tapi dalam clustering biasanya anda membutuhkan visi dan ahli untuk menafsirkan apa yang anda cari, karena anda don't tahu apa jenis struktur yang anda miliki (jenis kelompok atau cluster). Yang's mengapa clustering termasuk analisis data eksplorasi.
Akhirnya, saya akan mengatakan bahwa aplikasi ini adalah perbedaan utama antara keduanya. Klasifikasi sebagai kata kata, digunakan untuk membedakan contoh-contoh yang termasuk ke dalam kelas atau yang lain, misalnya seorang pria atau seorang wanita, kucing atau anjing, dll. Pengelompokan ini sering digunakan dalam diagnosis penyakit medis, penemuan pola, dll.
Klasifikasi: Memprediksi hasil dalam discrete output => peta input variabel ke dalam kategori diskrit
Populer kasus penggunaan:
Email klasifikasi : Spam dan non-Spam
Sanksi pinjaman untuk pelanggan : Ya, jika ia mampu membayar EMI untuk sanksi jumlah pinjaman. Tidak jika dia dapat't
Kanker sel-sel tumor identifikasi : Apakah itu penting atau tidak penting?
Analisis sentimen tweet : Adalah tweet yang positif atau negatif atau netral
Klasifikasi berita : Mengklasifikasikan berita ke salah satu kelas yang telah ditetapkan - Politik, Olahraga, Kesehatan dll
Pengelompokan: adalah tugas pengelompokan satu set objek sedemikian rupa sehingga benda-benda dalam kelompok yang sama (disebut cluster) yang lebih mirip (dalam beberapa hal) satu sama lain daripada orang-orang lain dalam kelompok-kelompok (cluster)
Populer kasus penggunaan:
Pemasaran : Menemukan segmen pelanggan untuk tujuan pemasaran
Biologi : Klasifikasi antara berbagai spesies tanaman dan hewan
Perpustakaan : Pengelompokan buku yang berbeda berdasarkan topik dan informasi
Asuransi : Mengakui pelanggan, kebijakan dan mengidentifikasi penipuan
Perencanaan kota : Buatlah kelompok rumah-rumah dan untuk mempelajari nilai-nilai mereka didasarkan pada lokasi geografis mereka dan faktor-faktor lain.
Gempa studi : Mengidentifikasi zona berbahaya
Referensi:
Klasifikasi – Memprediksi kategoris kelas label – Mengklasifikasikan data (konstruksi model) didasarkan pada training set dan nilai-nilai (label kelas) di kelas label atribut – Menggunakan model dalam mengklasifikasikan data baru
Cluster: kumpulan objek data – Mirip satu sama lain dalam cluster yang sama – Berbeda dengan benda-benda di kelompok lainnya.
Pengelompokan ini bertujuan untuk menemukan kelompok-kelompok data. "Cluster" adalah sebuah konsep intuitif dan tidak tidak memiliki matematis definisi ketat. Anggota dari satu gugus harus mirip satu sama lain dan berbeda dengan anggota cluster yang lain. Clustering algoritma beroperasi pada berlabel data set Z dan menghasilkan sebuah partisi di atasnya.
Untuk kelas-Kelas dan Label, kelas berisi benda-benda serupa, sedangkan objek dari kelas yang berbeda yang berbeda. Beberapa kelas telah jelas makna, dan dalam kasus yang paling sederhana saling eksklusif. Misalnya, dalam verifikasi tanda tangan, tanda tangan yang baik asli atau palsu. Sebenarnya hotel ini adalah salah satu dari dua, tidak peduli bahwa kita tidak mungkin menjadi mampu menebak dengan benar dari pengamatan tertentu tanda tangan.
Clustering adalah suatu metode pengelompokan benda-benda sedemikian rupa sehingga benda-benda dengan fitur serupa datang bersama-sama, dan benda-benda yang berbeda memiliki pergi terpisah. Ini adalah teknik umum untuk analisis data statistik yang digunakan dalam pembelajaran mesin dan data mining..
Klasifikasi adalah proses kategorisasi di mana benda-benda yang diakui, dibedakan dan dipahami atas dasar training set data. Klasifikasi supervised learning teknik di mana sebuah pelatihan yang ditetapkan dan didefinisikan dengan benar pengamatan yang tersedia.
Dari buku Mahout dalam Tindakan, dan saya pikir itu menjelaskan perbedaan sangat baik:
Klasifikasi algoritma yang berkaitan dengan, tapi masih cukup berbeda, clustering algoritma seperti algoritma k-means.
Klasifikasi algoritma adalah suatu bentuk pembelajaran diawasi, sebagai lawan untuk pembelajaran tak terawasi, yang terjadi dengan algoritma clustering.
algoritma supervised learning adalah salah satu yang diberikan contoh-contoh yang mengandung nilai yang diinginkan dari sebuah variabel target. Tanpa pengawasan algoritma tidak diberikan jawaban yang dikehendaki, melainkan harus menemukan sesuatu yang masuk akal pada mereka sendiri.
Salah satu kapal untuk Klasifikasi:
Mengklasifikasikan data ke dalam kategori yang telah ditentukan
Salah satu kapal untuk Clustering:
Pengelompokan data ke dalam satu set kategori
Perbedaan utama:
Klasifikasi adalah mengambil data dan memasukkannya ke dalam kategori yang telah ditentukan dan dalam Clustering set kategori yang anda inginkan untuk mengelompokkan data ke dalam, tidak diketahui sebelumnya.
Kesimpulan:
Saya telah menulis posting yang panjang pada topik yang sama yang anda dapat menemukan di sini:
Pembelajaran mesin atau AI adalah sebagian besar yang dirasakan oleh tugas Melakukan/mencapai.
Menurut pendapat saya, dengan berpikir tentang Clustering dan Klasifikasi dalam pengertian tugas mereka mencapai benar-benar dapat membantu untuk memahami perbedaan di antara keduanya.
Clustering untuk mengelompokkan hal-hal dan Klasifikasi adalah untuk, jenis, label hal.
Let's asumsikan anda berada di sebuah pesta hall di mana semua laki-laki Berjas dan wanita dalam Gaun.
Sekarang, anda meminta teman anda beberapa pertanyaan:
Q1: Heyy, kau bisa membantuku kelompok orang-orang?
Mungkin jawaban yang anda berikan adalah:
1: Dia dapat mengelompokkan orang berdasarkan jenis Kelamin, laki-Laki atau Perempuan
2: Ia dapat mengelompokkan orang berdasarkan pakaian, 1 mengenakan pakaian lain yang memakai gaun
3: Ia dapat mengelompokkan orang berdasarkan warna rambut
4: Ia dapat mengelompokkan orang berdasarkan kelompok usia, dll. dll. dll.
Ada banyak cara teman-teman dapat menyelesaikan tugas ini.
Tentu saja, anda dapat mempengaruhi proses pengambilan keputusan dengan menyediakan input tambahan seperti:
Dapatkah anda membantu saya kelompok orang berdasarkan jenis kelamin (atau kelompok usia, atau warna rambut atau pakaian dll.)
Q2:
Sebelum Q2, anda perlu melakukan beberapa pra-kerja.
Anda harus mengajarkan atau memberitahukan teman anda sehingga ia dapat mengambil keputusan yang tepat. Jadi, let's mengatakan anda mengatakan kepada teman anda yang:
Orang-orang dengan rambut panjang adalah Perempuan.
Orang-orang dengan rambut pendek adalah laki-Laki.
Q2. Sekarang, anda menunjukkan kepada Seseorang dengan rambut panjang dan meminta teman anda - Apakah itu Pria atau Wanita?
Satu-satunya jawaban yang dapat anda harapkan adalah: Wanita.
Tentu saja, akan ada orang dengan rambut panjang dan wanita dengan rambut pendek di partai. Tapi, jawabannya adalah benar berdasarkan pembelajaran yang anda berikan ke teman anda. Anda dapat lebih meningkatkan proses pengajaran lebih ke teman anda tentang cara untuk membedakan antara keduanya.
Dalam contoh di atas,
Q1 merupakan tugas yang Clustering mencapai.
Dalam Clustering anda memberikan data(orang-orang) untuk algoritma(teman anda) dan meminta untuk kelompok data.
Sekarang, it's hingga algoritma untuk memutuskan apa yang's cara terbaik untuk kelompok ini? (Jenis kelamin, Warna kulit, atau kelompok umur).
Sekali lagi,anda pasti dapat mempengaruhi keputusan yang dibuat oleh algoritma dengan memberikan input tambahan.
Q2 merupakan tugas Klasifikasi mencapai.
Di sana, anda memberikan algoritma anda(teman anda) beberapa data(orang-Orang), disebut sebagai data Pelatihan, dan membuat dia belajar data yang sesuai dengan yang label(laki-Laki atau Perempuan). Kemudian anda arahkan algoritma untuk data tertentu, yang disebut sebagai data Uji, dan meminta untuk menentukan apakah itu laki-Laki atau Perempuan. Anda lebih baik pengajaran, baik itu's prediksi.
Dan Pra-kerja di Q2 atau Klasifikasi adalah apa-apa tapi hanya pelatihan model anda sehingga dapat belajar bagaimana untuk membedakan. Dalam Pengelompokan atau Q1 ini pra-pekerjaan adalah bagian dari pengelompokan.
Semoga ini bisa membantu seseorang.
Terima kasih
Klasifikasi- data set dapat memiliki berbeda kelompok/ kelas. merah, hijau dan hitam. Klasifikasi akan mencoba untuk menemukan aturan-aturan yang membagi mereka dalam kelas yang berbeda.
Custering- jika data set yang tidak memiliki kelas dan anda ingin menempatkan mereka di beberapa kelas/pengelompokan, anda melakukan clustering. Ungu lingkaran di atas.
Jika aturan klasifikasi yang tidak baik, anda akan memiliki kesalahan klasifikasi dalam pengujian atau ur aturan yang benar tidak cukup. jika clustering adalah tidak baik, anda akan memiliki banyak outlier yaitu. titik-titik data tidak dapat jatuh di setiap cluster.
Jika anda mencoba untuk file besar jumlah lembar ke rak anda(berdasarkan tanggal atau beberapa spesifikasi lain dari file), anda MENGKLASIFIKASIKAN.
Jika anda adalah untuk membuat kelompok dari set lembar, itu berarti bahwa ada sesuatu yang serupa di antara lembar.
Ada dua definisi di data mining "Diawasi" dan "tanpa pengawasan". Ketika seseorang memberitahu komputer, algoritma, kode, ... bahwa hal ini adalah seperti sebuah apel dan hal itu adalah seperti jeruk, ini adalah supervised learning dan menggunakan supervised learning (seperti tag untuk masing-masing sampel dalam data set) untuk mengklasifikasikan data, anda'll mendapatkan klasifikasi. Tapi di sisi lain jika anda membiarkan komputer mengetahui apa dan apa yang membedakan antara fitur-fitur dari set data yang diberikan, pada kenyataannya pembelajaran tanpa pengawasan, untuk mengklasifikasikan data set ini akan disebut clustering. Dalam hal ini data yang dimasukkan ke algoritma don't memiliki kategori dan algoritma harus mengetahui kelas yang berbeda.
Kunci Perbedaan Antara Klasifikasi dan Pengelompokan adalah: Klasifikasi adalah proses pengelompokan data dengan bantuan kelas label. Di sisi lain, Clustering adalah mirip dengan klasifikasi tapi tidak ada yang telah ditetapkan kelas label. Klasifikasi diarahkan dengan supervised learning. Karena melawan, clustering juga dikenal sebagai unsupervised learning. Contoh pelatihan yang diberikan adalah dalam metode klasifikasi sementara dalam kasus clustering data pelatihan tidak disediakan.
Berharap ini akan membantu!