海运的博客

Nginx [emerg] listen() to 0.0.0.0:80, backlog 511 failed (98: Address already in use)

发布时间:December 26, 2014 // 分类:Nginx // No Comments

Nginx更新后经常遇到这样的问题,解决方法:

fuser -k 80/tcp && /etc/init.d/nginx start
或
killall -9 nginx && /etc/init.d/nginx start

从全球开放DNS查询域名解析结果

发布时间:December 25, 2014 // 分类:DNS,网络工具 // No Comments

现在各大网站都使用了CDN根据的DNS查询服务器IP返回相应的IP,Dnsyo可以通过全球多个开放DNS服务器获取某个域名相应的DNS记录,当然DNS服务器要未使用edns-client-subnet
使用EPEL源可直接安装Dnsyo:

yum install dnsyo
Dnsyo使用语法:
dnsyo [options] domain [type]
  type      #查询类型(A, CNAME, MX, etc.)
 
选项参数:
#自定义DNS服务器列表
  --resolvlist RESOLVLIST, -l RESOLVLIST
#debug输出模式
  --verbose, -v   
#简单输出,便于解析返回IP
  --simple, -s         
#扩展输出,DNS服务器和所在国家
  --extended, -x      
#查询线程数
  --threads THREADS, -t THREADS
#查询DNS服务器数量,默认随机500 -q=ALL所有
  --servers SERVERS, -q SERVERS
#查询DNS所在国家,如-c=CN
  --country COUNTRY, -c COUNTRY

使用示例:

dnsyo -q=ALL -c=CN -s www.qq.com A

PHP TF-IDF与余弦相似性计算文章相似性

发布时间:December 24, 2014 // 分类:PHP // 1 Comment

首先使用TF-IDF算法提取两篇文章的关键词,并合并成一个集合,
如关键词较多可使用堆取TOPK关键词。
然后计算每篇文章对于这个集合中的词的词频,即单词数/总词数,然后生成各自词频向量。
PHP计算相似度示例代码如下:

<?php
function similarity(array $vec1, array $vec2) {
  return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2));
}

function dotProduct(array $vec1, array $vec2) {
  $result = 0;
  foreach (array_keys($vec1) as $key1) {
    foreach (array_keys($vec2) as $key2) {
      if ($key1 === $key2) $result += $vec1[$key1] * $vec2[$key2];
    }
  }
  return $result;
}

function absVector(array $vec) {
  $result = 0;
  foreach (array_values($vec) as $value) {
    $result += $value * $value;
  }
  return sqrt($result);
}

//文章词频向量
$v1 = array('我们' => 5, '设计' => 2,  '一个' => 1, '算法' =>0, '任意' => 0, '相似' => 1);
$v2 = array('我们' => 5, '设计' => 0,  '一个' => 3, '算法' =>0, '任意' => 0, '相似' => 1);
//计算相似度,值越大相似程度越高
$result1 = similarity($v1,$v2);
var_dump($result1);

参考:
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

PHP实现Trie结构

发布时间:December 24, 2014 // 分类:PHP // 1 Comment

  class Trie{
  public $tree = array();

  public function insert($str){
    $count = strlen($str);
    $T = &$this->tree;
    //关联数组递归各个字符,无则新建
    for($i = 0; $i < $count; $i++){
      $c = $str[$i];
      if (!isset($T[$c]))
        $T[$c] = array();  
      $T = &$T[$c];
    }
  }

  public function remove($chars){
    if($this->find($chars)){    
      $count = strlen($chars);
      $T = &$this->tree;
      for($i = 0;$i < $count;$i++){
        $c = $chars[$i];
        if(count($T[$c]) == 1){     
          unset($T[$c]);
          return true;
        }
        $T = &$T[$c];
      }
    }
  }

  public function find($chars){
    $count = strlen($chars);
    $T = &$this->tree;
    //循环遍历各个字符,如无则返回false
    for($i = 0;$i < $count;$i++){
      $c = $chars[$i];
      if(!array_key_exists($c, $T)){
        return false;
      }
      $T = &$T[$c];
    }
    //否则返回找到
    return true;
  }
}
$t = new Trie();
$t->insert('str');
var_dump($t->find('str'));

更多:
https://github.com/fran6co/phptrie
http://kaiserleib.com/archives/63
http://www.cnblogs.com/endsock/p/3584161.html

TF-IDF取文章关键词PHP

发布时间:December 21, 2014 // 分类:PHP // No Comments

计算词频,即分词后计算文章的总词数和每个词的出现次数,词数较多可取TOPk

//$tf = 词出现次数 / 总词数

计算IDF,语料可使用百度/Google结果数:

//$idf = log( 总文档数 / 包含词的文档数, 2); 
$idf = log( $total_document_count / $documents_with_term, 2); 

计算TF-IDF,值越大分类能力越强:

$tfidf = $tf * $idf
分类
最新文章
最近回复
  • track: NAT 部分没处理,这块感觉有问题。
  • yu: 查到有用的资料很幸福!
  • boscotsang: 请问下服务器端如何控制权限让通过权限认证的客户端才能连接?现在这样只要有自编译的客户端程序都可...
  • yck932: 大侠,请问哪里有 tunnels 详细参考资料,谢谢
  • bubble: 现在linux 4.9以上的内核有个bbr的参数,用这个bbr比用锐速效果更好,可参考我的博文...
  • wang: openwrt 只有 tmp/etc/miniupnpd.conf 修改后又重置了,其他路径找...
  • wbq: 可以了 只是https透明代理如何做呢?
  • wbq: 你的这个配置需要浏览器设置代理ip+port, 现在假设不设置,只配置客户端网关为Nginx那...
  • wbq: 您好,想用Nginx做个透明代理,客户端机器配置下网关(即Nginx那台机器),客户端dns配...
  • ccc: 可以提供易调用openssl常用函数吗?