Мне интересно, есть ли какая-нибудь хорошая и чистая реализация объектно-ориентированного программирования (ООП) байесовской фильтрации для классификации спама и текста? Это просто для учебных целей.
Я определенно рекомендую Weka, который является Open Source Data Mining Software написан на Яве:
Weka - коллекция алгоритмов машинного обучения для задач сбора данных. Алгоритмы можно или применить непосредственно к набору данных или назвать из Вашего собственного Явского кодекса. Weka содержит инструменты для предварительной обработки данных, классификации, регресса, объединения в кластеры, правил ассоциации и визуализации. Это также подходящее для развития новых схем машинного обучения.
Как упомянуто выше, это отправляет со связкой различных классификаторов как SVM, [Веялка] [3], C4.5, Наивный Бейес (конечно), и намного больше (см. доктор API). Обратите внимание, что много классификаторов, как известно, имеет намного лучшая работа, чем Наивный Бейес в области обнаружения спама или классификации текстов.
Кроме того, Weka приносит Вам очень [сильный графический интерфейс пользователя] [6] …
[3]: http://en.wikipedia.org/wiki/Winnow _ % 28algorithm%29
[6]: http://www.cs.waikato.ac.nz / ~ ml/weka/gui_explorer.html
Может быть, https://ci-bayes.dev.java.net/ или http://www.cs.cmu.edu/~javabayes/Home/node2.html?
Я тоже никогда не играл с этим.
Глава 6 выезда [Программирующий Коллективный разум] (http://www.amazon.com/Programming-Collective-Intelligence-Building-Applications/dp/0596529325)
Вот реализация байесовской фильтрации на C#: A Naive Bayesian Spam Filter for C# (размещено на CodeProject).
На французском языке, но вы должны быть в состоянии найти ссылку на скачивание :) PHP Naive Bayesian Filter