海运的博客

贝叶斯过滤垃圾邮件PHP实现

发布时间:December 21, 2014 // 分类:PHP // No Comments

根据贝叶斯推断及其互联网应用(二):过滤垃圾邮件实现:
首先收集垃圾邮件和正常邮件,分词后计算每个词分别出现的频率,比如计算垃圾邮件库每个词的频率:

//分词略过
foreach ($words as $word) {
  $key = base64_encode($word);
  if (isset($spamwords[$key])) {
    $spamwords[$key]++;
  } else {
    $spamwords[$key] = 1;
  }
}

单个词判断垃圾邮件概率:

//先验概率为50%
$ps = 0.5;
$ph = 0.5;
//在正常邮件中的出现频率,比如4000封正常邮件2封包含这个词。
$pwh = 0.0005;
//在垃圾邮件中的出现频率
$pws = 0.05;
//垃圾邮件概率
$psw = $pws * $ps / ($pws * $ps + $pwh * $ph);
echo $psw;

多个词计算联合概率:

//根据上面计算的多个词的概率集合
$psws = array(0.2, 0.3, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9, 0.8);
$numerator = 1; 
$denominator1 = 1;
$denominator2 = 1;
foreach ($psws as $value) {
  $numerator *= $value;
  $denominator1 *= $value;
  $denominator2 *= 1 - $value;
}
echo $numerator / ($denominator1 + $denominator2);

标签:none

评论已关闭

分类
最新文章
最近回复
  • 海运: 正常情况下编译整个内核执行make menuconfig后就不会出现此提示,当单独编译单个模块...
  • oijq: 就是用的armbian的配置文件哈,按你的教程做的,在执行make LOCALVERSION=...
  • 海运: 使用armbian的配置文件,其它添加或修改自己懂的部分,不懂的就不要碰了。
  • oijq: 编译时这些选项全部选Y吗?Actions Semi Platforms (ARCH_ACTIO...
  • 海运: n1编译bbr内核模块参考这个:https://www.haiyun.me/archives/...
  • jiqz: make M=net/ipv4/ CONFIG_TCP_CONG_BBR=m modules编...
  • ruralhunter: 哦,文档里应该是对的,是.config
  • ruralhunter: cp /mnt/boot/config-4.18.7-aml-s9xxx .config这里应...
  • 海运: 你是编译不成功呢?还是编译后不能运行呢?还是运行后不能访问web界面呢?
  • 白墨: 可能不清楚就是编译安装后启动后访问不了web界面