Может ли кто-нибудь объяснить, в чем разница между классификацией и кластеризацией при добыче данных?
Если можете, пожалуйста, приведите примеры того и другого, чтобы понять основную идею.
В общем, при классификации у вас есть набор предопределенных классов, и вы хотите знать, к какому классу относится новый объект.
Кластеризация пытается сгруппировать набор объектов и определить, есть ли между ними какие-то отношения.
В контексте машинного обучения классификация - это подконтрольное обучение, а кластеризация - неподконтрольное обучение.
Также посмотрите Классификация и Кластеризация в Википедии.
Если вы задали этот вопрос в любой интеллектуального анализа данных и машинного обучения лиц, они будут использовать срок обучения с учителем и обучения без учителя, чтобы объяснить вам разницу между кластеризации и классификации. Поэтому позвольте мне сначала рассказать вам о ключевых слов контролируемые и неконтролируемые.
Обучающийся: предположим, у вас есть корзина и она наполнена некоторые свежие фрукты и ваша задача организовать те же фрукты типа в одном месте. предположим, плоды яблока,банана,вишни и винограда. Итак, вы уже знаете из ваших предыдущих работ, что форма каждого и каждый фрукт так это легко устроить тот же вид фруктов в одном месте. вот ваша предыдущая работа называется подготовленных данных в интеллектуальном анализе данных. так вы уже учитесь на вещи из вашей подготовленных данных, это потому, что у вас есть переменная ответ, который говорит вам, что если фрукты так и так с ним винограда, как для каждого фрукта.
Этот тип данных вы получите от опытных данных. Этот тип обучения называется обучением с учителем. Решение этой проблемы типа попадает под классификацию. Так вы уже изучаете вещи, так что вы можете делать свою работу с уверенностью.
без присмотра : предположим, у вас есть корзина и она наполнена некоторые свежие фрукты и ваша задача организовать те же фрукты типа в одном месте.
На этот раз вы не'т знаю вещь о том, что фрукты, вы не первый раз увидев эти плоды, так как вы будете организовать тот же тип фруктов.
Что вы будете делать сначала вы берете на плод, и вы будете выбрать любой физический характер этого конкретного фрукта. предположим, вы приняли цвет.
Тогда вы будете расставлять их в зависимости от цвета, то группы будут некоторые вещи, как это. Красный цвет группы: Яблоки & плоды вишни. Зеленый цвет группы: бананы & виноград. так что теперь вы будете принимать другой физический характер, так как размер, так и сейчас будет нечто подобное. Красного цвета и большого размера: яблоко. Красного цвета и небольшого размера: черемухи плоды. Зеленого цвета и большого размера: бананы. Зеленый цвет и небольшой размер: виноград. работу сделали счастливый конец.
здесь вы не'т узнать любую вещь до того ,значит, нет поездов и нет переменной ответ. Этот тип обучения является известным обучения без учителя. кластеризация при обучении без учителя.
+Классификация: если вам предоставлены новые данные, вы должны задать для них новую метку.
Например, компания хочет классифицировать своих потенциальных клиентов. Когда приходит новый клиент, они должны определить, будет ли это клиент, который собирается покупать их продукцию, или нет.
+Кластеризация: Вам дается набор исторических транзакций, в которых записано, кто что купил.
Используя методы кластеризации, вы можете определить сегментацию ваших клиентов.
Я уверен, многие из вас слышали о машинном обучении. Десятка возможно, вы даже знаете, что это такое. И пару если вы работали с обучения машина тоже алгоритмы. Вы видите, где это происходит? Не многие люди знакомы с технологиями, которые будут абсолютно необходимы 5 лет. Siri-это машинное обучение. Амазонки Алекса машинного обучения. Рекламы и торгового пункта рекомендательные системы машинного обучения. Давайте попробуем разобраться в машинное обучение с простой аналогии с 2-летним мальчиком. Просто для удовольствия, назовем его Кайло-Kylo Рен Предположим Кайло-Kylo Рен увидел слона. Что его мозг скажи ему, ?(Помните, что он имеет минимальную мыслительную способность, даже если он является преемником Вейдер). Его мозг говорит ему, что он увидел большое подвижное существо, которое было серого цвета. Он видит кошку, и его мозг говорит ему, что это маленькое подвижное существо, которое золотистого цвета. Наконец, он видит световой меч рядом и его мозг говорит ему, что это неживой объект, который он может играть с! Его мозг в этот момент знает, что сабля отличается от слона и кота, потому что сабля-это что-то, чтобы играть с и не будет двигаться самостоятельно. Его мозг может понять это много, даже если в живых не знает, что означает подвижный. Это простое явление называется кластеризация . Машинное обучение это ничто иное, как математическая версия этого процесса. Много людей, которые изучают статистику, понял, что они могут сделать некоторые уравнения работают одинаково, как работает мозг&#.160; Мозг может кластера подобных объектов, мозг может учиться на ошибках и мозг может научиться видеть вещи. Все это может быть представлено с помощью статистики и компьютерного моделирования этот процесс называется машинное обучение. Зачем нужно компьютерное моделирование? потому что компьютеры могут делать тяжелую математику быстрее, чем человеческий мозг. Я бы с удовольствием пошла в математических/статистических часть машинного обучения, но ты не хочешь перейти на него, не очищая сначала некоторые понятия. Давайте вернемся к Кайло-Kylo Рен. Скажем, Кайло-Kylo поднимает меч и начинает с ней играть. Он случайно попадает на штурмовик и штурмовик получает травму. Он не понимает, что происходит и продолжает играть. Далее он попадает кот и кошка получает травму. На этот раз Кайло-Kylo уверен, что он сделал что-то плохое, и пытается быть немного осторожнее. Но учитывая его плохие навыки саблей, он делает слона и абсолютно уверен, что он в беде. Он становится крайне осторожным в дальнейшем, а только делает его отец с целью, как мы видели, в силу будит!! Весь этот процесс обучения от вашей ошибки может быть повторено с уравнениями, где чувство делает что-то неправильно представлен ошибку или стоимости. Этот процесс определения, чего делать не надо с шашкой называется классификация . Кластеризация и классификация являются абсолютными основами машинного обучения. Давайте посмотрим на разницу между ними. Кайло-Kylo различие между животным и световой меч, потому что его мозг решил, что легкие сабли не могу двигаться сами по себе и, следовательно, разных. Решение было основано исключительно на настоящих объектов (данных) и никакая внешняя помощь или консультация была предоставлена. В отличие от этого, в живых остается дифференцированной, как важно быть осторожным с светло-сабля, сначала наблюдая, что наезд объект может делать. Решение не было полностью основано на саблях, но на то, что он мог сделать, чтобы различные объекты . Короче говоря, тут была какая-то помощь. Из-за этого различия в процессе обучения, кластеризации называется метод обучения без учителя и классификация называется метод контролируемого обучения. Они очень разные в машине мир обучения, и часто диктуются рода данные. Получение меченых данных (или вещи, которые помогают нам учиться , как штурмовик,слона и кошку в случае живых) часто не легко и будет очень сложным, когда данные, которые должны быть дифференцированы большой. С другой стороны, обучение без этикетки имеют свои недостатки , как не зная названия лейбла. Если в живых был научиться быть осторожным с оружием без каких-либо примеров или помочь, он не знал, что он будет делать. Он должен просто знать, что это не предполагают, чтобы быть сделано. Это неудачная аналогия, но вы получите точку! Мы только начали с машинного обучения. Сама классификация может быть классификация непрерывных чисел или классификации надписей. Например, если в живых остается только классифицировать, что высота каждого штурмовика, там будет много ответов, потому что высоты может быть 5.0, 5.01, 5.011, и т. д. Но простой классификации как видов световой меч (красный,синий.зеленый) будет иметь очень ограниченные ответы. На самом деле, они могут быть представлены простыми числами. Красный может быть 0 , синий может быть 1 и зеленый может быть 2. Если вы знаете основы математики, вы знаете, что 0,1,2 и 5.1,5.01,5.011 разные и называются дискретные и непрерывные числа соответственно. Классификация дискретных чисел называется логистической регрессии и классификации непрерывных чисел называется регрессией. Логистическая регрессия также известен как категорический классификации, поэтому не следует путать, когда вы читаете этот термин в другом месте Это было очень базовое введение в машинное обучение. Я буду жить в статистической стороны в моем следующем посте. Пожалуйста, дайте мне знать, если мне нужно какие-то корректировки :) Вторую часть написал здесь.
Классификации ##
Назначение предопределенные классы к Новые наблюдения на основе *обучение на примерах.
Это одна из ключевых задач в машинном обучении.
Хотя в народе уволен как "классификации без обучения" это совсем иное.
В отличие от того, что многие учащиеся машина научит вас, речь идет не о назначении на "классы" на объекты, но не имея их заранее. Это очень ограниченный взгляд на людей, которые сделали слишком много классификации; типичный пример если у вас есть молоток (классификатор), все похоже на гвоздь (проблема классификации) к вам. Но это также, почему классификации люди не получат навык кластеризации.
Вместо этого рассматривать его как структура обнаружения. Задача кластеризации-найти структуру (например, группы) в ваших данных, что вы не знал. Кластеризация была успешной если вы узнали что-то новое. Это не удалось, если вы получили только структуры, которую вы уже знали.
Кластерный анализ является ключевой задачей интеллектуального анализа данных (и гадкий утенок в машинного обучения, так Дон'т слушать изучающих машина увольнении кластеризации).
Это было повторяемых вверх и вниз по литературе, но и обучение без учителя-это бllshТ. Его не существует, но это оксюморон, как и"военной разведки и".
Либо алгоритм узнает от Примеры (тогда это есть "обучения", У), или она не учится. Если все методы кластеризации на "обучение" и вычисление минимального, максимального и среднего набора данных является "обучения без учителя, то" тоже. Тогда любое вычисление, что "узнал" и его выход. Таким образом, термин 'обучение без учителя' абсолютно бессмысленна, это означает все и ничего.
Какая-то "Обучение без учителя" и алгоритмов, тем не менее, попадают в оптимизация категории. Например k-средних является МНК-оптимизации. Такие методы по всей статистике, так что я Дон'т думаю, что мы должны назвать их на "Обучение без учителя", но вместо этого следует продолжать называть их "и оптимизационных задач на". Это's более точные, и более осмысленным. Существует множество алгоритмов кластеризации, которые не предполагают оптимизации, и которые не вписываются в машинного обучения парадигмы хорошо. Так что прекращай их там под зонтиком "и обучения без учителя, то".
Есть какая-то "обучения" и связанные с кластеризацией, но это не программа, которую узнает. Это пользователь, который должен узнать новые вещи о своем наборе данных.
Я новичок в Data Mining, но, как сказано в моем учебнике, КЛАССИФИКАЦИЯ должна быть контролируемым обучением, а КЛАСТЕРИНГ - неконтролируемым обучением. Разницу между контролируемым и неконтролируемым обучением можно найти здесь.
Путем кластеризации, можно сгруппировать данные с ваших желаемых свойств, таких как количество, форма и другие свойства полученных кластеров. Хотя, в классификации, количество и форма группы являются фиксированными. Большинство алгоритмов кластеризации количество кластеров в качестве параметра. Тем не менее, есть некоторые подходы, чтобы выяснить соответствующее количество кластеров.
Прежде всего, я скажу, как и многие ответить до этого, классификация обучения и кластеризации без учителя. Это означает:
Потребности классификация помеченных данных в классификаторы могут быть обучены на этих данных, и после этого приступают к классификации новых невидимых данных, основанный на том, что он знает. Обучение без учителя кластеризация как не использует меченых данных, и что она действительно делает это, чтобы обнаружить внутренние структуры в данных группах.
Еще одно различие между обоими методами (связана с предыдущей), является тот факт, что классификация является формой дискретной задаче регрессии, где выход категориальной зависимой переменной. В то время как кластеризация'ы выходной дает набор подмножеств, называемых группами. Как оценить эти две модели тоже разные по той же причине: в классификации вам часто приходится проверять на точность и вспомнить, такие вещи, как переобучение и недообучение и т. д. Те вещи, скажет вам, насколько хороша модель. Но в кластеризации обычно требуется видение и экспертов, чтобы интерпретировать то, что вы ищите, потому что вы Don'т знаю, какая структура у вас (типа группы или кластера). Что's, почему кластеризации принадлежит разведочный анализ данных.
Наконец, я бы сказал, что приложения основное различие между обоими. Классификация как говорит слово, используется, чтобы различать экземпляры, которые принадлежат к классу или другой, например, мужчина или женщина, кошка или собака, и т. д. Кластеризация часто используется в диагностике медицинских заболеваний, выявление закономерностей и т. д.
Классификация: прогнозируют результаты в дискретных выхода => входное карту переменных в дискретные категории
Популярные примеры применения:
Классификация по электронной почте : спам или не-спам
Санкция займа к клиенту : да, если он способен платить EMI для санкционированного суммы кредита. Нет, если он может'т
Раковые опухоли идентификации клеток : это критично или не критично?
Анализ настроений твитов : это твит положительным или отрицательным или нейтральным
Классификация новостей : классифицировать Новости в одной из предопределенных классов - политика, спорт, здоровье и т. д.
Кластеризация: задача группировку множества объектов таким образом, что объекты в одной группе (так называемый кластер) более близки (в определенном смысле) друг к другу, чем в других группах (кластерах)
Популярные примеры применения:
Маркетинг : Откройте для себя сегментов клиентов для маркетинговых целях
Биология : классификация различных видов растений и животных
Библиотеки : кластеризация различных книг на основе темы и информацию
Страхование : подтверждение клиентов, их политики и выявления мошенничества
Городское планирование : сделать группы домов и для изучения их значения, исходя из их географического местоположения и других факторов.
Исследования землетрясения : выявление опасных зон
Ссылки:
Классификация – Прогнозирует категориальный класс этикетки – Классифицирует данные (конструирует модели) на основе обучающего набора и значений (меток класса) в классе атрибут Label – Использование модели для классификации новых данных
Кластер: коллекция объектов данных – Похожи друг на друга в одном и том же кластере – Отличаются от объектов других кластеров
Кластеризация направлена на поиск группы в данных. “Кластер” - это интуитивное понятие и не имеют строгого математического определения. Члены одного кластера должны быть похожи друг на друга и непохожи на представителей других кластеров. Кластеризации алгоритм работает на немеченая набор данных Z и производит раздел на нем.
Для классов и класс этикетки, класс содержит схожих объектов, а объекты из разных классов несходны. Некоторые классы имеют четкий смысл, и в простейшем случае являются взаимоисключающими. Например, при проверке подписи, подпись либо подлинными или поддельными. Истинный класс-это одна из двух, неважно, что мы не могли быть смогли правильно угадать из наблюдений за конкретной подписью.
Кластеризация-это метод группирования объектов таким образом, что объекты с аналогичными характеристиками, и объектов с разнородными функциями, расходятся. Это обычная методика для статистического анализа данных использованы в машинное обучение и интеллектуального анализа данных..
Классификация представляет собой процесс классификации, когда объекты признаются, дифференцировать и понимать на основе обучающего набора данных. Классификация методы управляемого обучения, где учебно-методический комплект и правильно определенными наблюдениями доступны.
Из книги Mahout в действии, и я думаю, что это очень хорошо объясняет разницу:
алгоритмы классификации имеют отношение, но все же довольно сильно отличается от, алгоритмы кластеризации, такие как k-средних алгоритм.
алгоритмы классификации являются одной из форм обучения, в отличие от обучения без учителя, которая происходит с помощью алгоритмов кластеризации.
контролируемый алгоритм обучения является тот, который приводил примеры, которые содержат нужное значение целевой переменной. Алгоритмы без присмотра, не получают желаемого ответа, но должны найти что-то правдоподобное самостоятельно.
Один вкладыш для классификации:
Классификация данных в предопределенных категорий
Один вкладыш для кластеризации:
Группировка данных в набор категориях
Ключевое отличие:
Классификация берем данные и положить его в предварительно заданных категорий и в кластеризации набор категорий, которые вы хотите сгруппировать данные, заранее не известно.
Вывод:
Я написал длинный пост на ту же тему, которые вы можете найти здесь:
Машинного обучения и ИИ в значительной степени воспринимается задач он выполняет/выполняет.
На мой взгляд, думая о кластеризации и классификации в понятие задачи их достижения действительно может помочь понять разницу между двумя.
Кластеризация-группировка и классификация вещей является, своего рода, метка вещи.
Позвольте'ы предполагаем, что вы в танцевальный зал, где все мужчины в костюмах и женщины в платьях.
Теперь, вы попросите вашего знакомого несколько вопросов:
Вопрос 1: Эй, вы можете мне помочь группе людей?
Возможных ответов, что ваш друг может дать несколько:
1: он может группы людей по признаку пола, мужчина или женщина
2: он может группировать людей по их одежде, 1 в костюмах, другие надели платья
3: он может группы людей на основании цвета их волос
4: он может группы людей на основе их возрастной группы и т. д. и т. д. и т. д.
Их множество способов, ваш друг может выполнить эту задачу.
Конечно, вы можете влиять на его процесс принятия решений путем предоставления дополнительных входов, как:
Можете ли вы помочь мне группа этих людей по признаку пола (или возрастная группа, или цвет волос или платье и т. д.)
Вопрос 2:
Прежде чем К2, вам нужно провести некоторые предварительные работы.
Вы должны научить или сообщать вашему другу, чтобы он мог принять обоснованное решение. Итак, позвольте'говорят, что вы сказали своему другу, что:
Люди с длинными волосами-это женщины.
Люди с короткими волосами мужчины.
В2. Итак, вы отмечаете, чтобы человек с длинными волосами и попросите вашего друга - это мужчина или женщина?
Единственный ответ, который можно ожидать: женщина.
Конечно, там могут быть люди с длинными волосами и женщины с короткими волосами в партии. Но, ответ правильный, основанных на обучении, вы предоставили своему другу. Вы можете улучшить процесс усвоения вашему другу о том, как дифференцироваться между двумя.
В приведенном выше примере,
1 квартал представляет собой задачу кластеризации, что достигается.
В кластеризации вас предоставить данные(люди) в алгоритм(ваш друг) и попросите его сгруппировать данные.
Теперь, это's вверх, чтобы алгоритм, чтобы решить, что's самый лучший способ для группы? (Пол, цвет кожи и возрастной группе).
Опять же,вы можете определенно повлиять на решение алгоритма путем предоставления дополнительных входов.
Q2 представляет классификация задач добивается.
Нет, вы дайте свой алгоритм(ваш друг) некоторые данные(человек), назвал в качестве тренировочных данных, и заставил его узнать, что данных соответствует этикетке(мужской или женский). Затем вы указываете ваш алгоритм к определенным данным, называется как тестовые данные, и попросить его, чтобы определить, является ли это мужчина или женщина. Чем лучше обучение, тем лучше он'с предсказанием.
И подготовительная работа в Q2 или классификации-это всего лишь тренировка вашей модели, так что он может научиться различать. В кластеризации или Q1 эта предварительная работа является частью группировки.
Надеюсь, что это помогает кто-то.
Спасибо
Классификация- набор данных может иметь разные группы/ классы. красный, зеленый и черный. Классификация постараюсь найти правила, которая делит их в разные классы.
Custering- если набор данных, не имеющий какого-либо класса, и вы хотите поместить их в каком-класса/группы, вы кластеризации. Фиолетовый выше круги.
Если правила классификации не хорошо, у вас будет неправильной классификации в тестировании или UR правила не совсем корректно. если кластеризация не хорошо, у вас будет много посторонних людей, т. е. данные пункты не могут упасть в любой кластер.
Если вы пытаетесь файл большой количество листов на вашей полке(по дате или некоторые другие параметры файла), который классифицируется.
Если вы были, чтобы создать кластеры из набора листов, это будет означать, что есть что-то похожее среди листов.
Есть два понятия интеллектуального анализа данных и quot руководил" и "; безнадзорный-то". Когда кто-то говорит компьютер, алгоритм, код, ... что эта вещь является как яблоко и это как апельсин, это обучающийся, и с помощью обучения с учителем (как и теги для каждого образца в наборе данных) для классификации данных, вы'll получить классификацию. Но с другой стороны, если вы позволите компьютере, узнайте, что есть что и отличать особенности данного набора данных, на самом деле обучение без учителя, для классификации набора данных это будет называться кластером. В этом случае данные, которые могут использоваться в алгоритм Дон'т иметь теги и алгоритм должен найти из разных классов.
Основные различия между классификацией и кластеризацией являются: Классификация процесс классификации данных с помощью класса метки. С другой стороны, кластеризация аналогична классификации, но нет предопределенных меток класса. Классификация ориентирована с обучением с учителем. Как против, кластеризации, также известный как обучение без учителя. Образца обучение проводится в методе классификации, а в случае кластеризацию обучающих данных не предусмотрено.
Надеюсь, что это поможет!