海运的博客

TF-IDF取文章关键词PHP

发布时间:December 21, 2014 // 分类:PHP // No Comments

计算词频,即分词后计算文章的总词数和每个词的出现次数,词数较多可取TOPk

//$tf = 词出现次数 / 总词数

计算IDF,语料可使用百度/Google结果数:

//$idf = log( 总文档数 / 包含词的文档数, 2); 
$idf = log( $total_document_count / $documents_with_term, 2); 

计算TF-IDF,值越大分类能力越强:

$tfidf = $tf * $idf

标签:none

评论已关闭

分类
最新文章
最近回复
  • opnfense: 谢谢博主!!!解决问题了!!!我之前一直以为内置的odhcp6就是唯一管理ipv6的方式
  • liyk: 这个方法获取的IPv6大概20分钟之后就会失效,默认路由先消失,然后Global IPV6再消失
  • 海运: 不好意思,没有。
  • zongboa: 您好,請問一下有immortalwrt設定guest Wi-Fi的GUI教學嗎?感謝您。
  • 海运: 恩山有很多。
  • swsend: 大佬可以分享一下固件吗,谢谢。
  • Jimmy: 方法一 nghtp3步骤需要改成如下才能编译成功: git clone https://git...
  • 海运: 地址格式和udpxy一样,udpxy和msd_lite能用这个就能用。
  • 1: 怎么用 编译后的程序在家里路由器内任意一台设备上运行就可以吗?比如笔记本电脑 m参数是笔记本的...
  • 孤狼: ups_status_set: seems that UPS [BK650M2-CH] is ...