2014年12月 - 海运的博客

Nginx [emerg] listen() to 0.0.0.0:80, backlog 511 failed (98: Address already in use)

发布时间：December 26, 2014 // 分类：Nginx // No Comments

Nginx更新后经常遇到这样的问题，解决方法：

fuser -k 80/tcp && /etc/init.d/nginx start
或
killall -9 nginx && /etc/init.d/nginx start

从全球开放DNS查询域名解析结果

发布时间：December 25, 2014 // 分类：DNS,网络工具 // No Comments

现在各大网站都使用了CDN根据的DNS查询服务器IP返回相应的IP，Dnsyo可以通过全球多个开放DNS服务器获取某个域名相应的DNS记录，当然DNS服务器要未使用edns-client-subnet。
使用EPEL源可直接安装Dnsyo：

yum install dnsyo

Dnsyo使用语法：
dnsyo [options] domain [type]
  type      #查询类型(A, CNAME, MX, etc.)
 
选项参数：
#自定义DNS服务器列表
  --resolvlist RESOLVLIST, -l RESOLVLIST
#debug输出模式
  --verbose, -v   
#简单输出，便于解析返回IP
  --simple, -s         
#扩展输出，DNS服务器和所在国家
  --extended, -x      
#查询线程数
  --threads THREADS, -t THREADS
#查询DNS服务器数量，默认随机500 -q=ALL所有
  --servers SERVERS, -q SERVERS
#查询DNS所在国家，如-c=CN
  --country COUNTRY, -c COUNTRY

使用示例：

dnsyo -q=ALL -c=CN -s www.qq.com A

PHP TF-IDF与余弦相似性计算文章相似性

发布时间：December 24, 2014 // 分类：PHP // 1 Comment

首先使用TF-IDF算法提取两篇文章的关键词，并合并成一个集合，
如关键词较多可使用堆取TOPK关键词。
然后计算每篇文章对于这个集合中的词的词频，即单词数/总词数，然后生成各自词频向量。
PHP计算相似度示例代码如下：

<?php
function similarity(array $vec1, array $vec2) {
  return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2));
}

function dotProduct(array $vec1, array $vec2) {
  $result = 0;
  foreach (array_keys($vec1) as $key1) {
    foreach (array_keys($vec2) as $key2) {
      if ($key1 === $key2) $result += $vec1[$key1] * $vec2[$key2];
    }
  }
  return $result;
}

function absVector(array $vec) {
  $result = 0;
  foreach (array_values($vec) as $value) {
    $result += $value * $value;
  }
  return sqrt($result);
}

//文章词频向量
$v1 = array('我们' => 5, '设计' => 2,  '一个' => 1, '算法' =>0, '任意' => 0, '相似' => 1);
$v2 = array('我们' => 5, '设计' => 0,  '一个' => 3, '算法' =>0, '任意' => 0, '相似' => 1);
//计算相似度，值越大相似程度越高
$result1 = similarity($v1,$v2);
var_dump($result1);

参考：
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

PHP实现Trie结构

发布时间：December 24, 2014 // 分类：PHP // 1 Comment

  class Trie{
  public $tree = array();

  public function insert($str){
    $count = strlen($str);
    $T = &$this->tree;
    //关联数组递归各个字符，无则新建
    for($i = 0; $i < $count; $i++){
      $c = $str[$i];
      if (!isset($T[$c]))
        $T[$c] = array();  
      $T = &$T[$c];
    }
  }

  public function remove($chars){
    if($this->find($chars)){    
      $count = strlen($chars);
      $T = &$this->tree;
      for($i = 0;$i < $count;$i++){
        $c = $chars[$i];
        if(count($T[$c]) == 1){     
          unset($T[$c]);
          return true;
        }
        $T = &$T[$c];
      }
    }
  }

  public function find($chars){
    $count = strlen($chars);
    $T = &$this->tree;
    //循环遍历各个字符，如无则返回false
    for($i = 0;$i < $count;$i++){
      $c = $chars[$i];
      if(!array_key_exists($c, $T)){
        return false;
      }
      $T = &$T[$c];
    }
    //否则返回找到
    return true;
  }
}
$t = new Trie();
$t->insert('str');
var_dump($t->find('str'));

TF-IDF取文章关键词PHP

发布时间：December 21, 2014 // 分类：PHP // No Comments

计算词频，即分词后计算文章的总词数和每个词的出现次数，词数较多可取TOPk

//$tf = 词出现次数 / 总词数

计算IDF，语料可使用百度/Google结果数：

//$idf = log( 总文档数 / 包含词的文档数, 2); 
$idf = log( $total_document_count / $documents_with_term, 2);

计算TF-IDF，值越大分类能力越强：

$tfidf = $tf * $idf

海运的博客

Nginx [emerg] listen() to 0.0.0.0:80, backlog 511 failed (98: Address already in use)

从全球开放DNS查询域名解析结果

PHP TF-IDF与余弦相似性计算文章相似性

PHP实现Trie结构

TF-IDF取文章关键词PHP

分类

最新文章

最近回复