海运的博客

Nginx [emerg] listen() to 0.0.0.0:80, backlog 511 failed (98: Address already in use)

发布时间:December 26, 2014 // 分类:Nginx // No Comments

Nginx更新后经常遇到这样的问题,解决方法:

fuser -k 80/tcp && /etc/init.d/nginx start
或
killall -9 nginx && /etc/init.d/nginx start

从全球开放DNS查询域名解析结果

发布时间:December 25, 2014 // 分类:DNS,网络工具 // No Comments

现在各大网站都使用了CDN根据的DNS查询服务器IP返回相应的IP,Dnsyo可以通过全球多个开放DNS服务器获取某个域名相应的DNS记录,当然DNS服务器要未使用edns-client-subnet
使用EPEL源可直接安装Dnsyo:

yum install dnsyo
Dnsyo使用语法:
dnsyo [options] domain [type]
  type      #查询类型(A, CNAME, MX, etc.)
 
选项参数:
#自定义DNS服务器列表
  --resolvlist RESOLVLIST, -l RESOLVLIST
#debug输出模式
  --verbose, -v   
#简单输出,便于解析返回IP
  --simple, -s         
#扩展输出,DNS服务器和所在国家
  --extended, -x      
#查询线程数
  --threads THREADS, -t THREADS
#查询DNS服务器数量,默认随机500 -q=ALL所有
  --servers SERVERS, -q SERVERS
#查询DNS所在国家,如-c=CN
  --country COUNTRY, -c COUNTRY

使用示例:

dnsyo -q=ALL -c=CN -s www.qq.com A

PHP TF-IDF与余弦相似性计算文章相似性

发布时间:December 24, 2014 // 分类:PHP // 1 Comment

首先使用TF-IDF算法提取两篇文章的关键词,并合并成一个集合,
如关键词较多可使用堆取TOPK关键词。
然后计算每篇文章对于这个集合中的词的词频,即单词数/总词数,然后生成各自词频向量。
PHP计算相似度示例代码如下:

<?php
function similarity(array $vec1, array $vec2) {
  return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2));
}

function dotProduct(array $vec1, array $vec2) {
  $result = 0;
  foreach (array_keys($vec1) as $key1) {
    foreach (array_keys($vec2) as $key2) {
      if ($key1 === $key2) $result += $vec1[$key1] * $vec2[$key2];
    }
  }
  return $result;
}

function absVector(array $vec) {
  $result = 0;
  foreach (array_values($vec) as $value) {
    $result += $value * $value;
  }
  return sqrt($result);
}

//文章词频向量
$v1 = array('我们' => 5, '设计' => 2,  '一个' => 1, '算法' =>0, '任意' => 0, '相似' => 1);
$v2 = array('我们' => 5, '设计' => 0,  '一个' => 3, '算法' =>0, '任意' => 0, '相似' => 1);
//计算相似度,值越大相似程度越高
$result1 = similarity($v1,$v2);
var_dump($result1);

参考:
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

PHP实现Trie结构

发布时间:December 24, 2014 // 分类:PHP // 1 Comment

  class Trie{
  public $tree = array();

  public function insert($str){
    $count = strlen($str);
    $T = &$this->tree;
    //关联数组递归各个字符,无则新建
    for($i = 0; $i < $count; $i++){
      $c = $str[$i];
      if (!isset($T[$c]))
        $T[$c] = array();  
      $T = &$T[$c];
    }
  }

  public function remove($chars){
    if($this->find($chars)){    
      $count = strlen($chars);
      $T = &$this->tree;
      for($i = 0;$i < $count;$i++){
        $c = $chars[$i];
        if(count($T[$c]) == 1){     
          unset($T[$c]);
          return true;
        }
        $T = &$T[$c];
      }
    }
  }

  public function find($chars){
    $count = strlen($chars);
    $T = &$this->tree;
    //循环遍历各个字符,如无则返回false
    for($i = 0;$i < $count;$i++){
      $c = $chars[$i];
      if(!array_key_exists($c, $T)){
        return false;
      }
      $T = &$T[$c];
    }
    //否则返回找到
    return true;
  }
}
$t = new Trie();
$t->insert('str');
var_dump($t->find('str'));

更多:
https://github.com/fran6co/phptrie
http://kaiserleib.com/archives/63
http://www.cnblogs.com/endsock/p/3584161.html

TF-IDF取文章关键词PHP

发布时间:December 21, 2014 // 分类:PHP // No Comments

计算词频,即分词后计算文章的总词数和每个词的出现次数,词数较多可取TOPk

//$tf = 词出现次数 / 总词数

计算IDF,语料可使用百度/Google结果数:

//$idf = log( 总文档数 / 包含词的文档数, 2); 
$idf = log( $total_document_count / $documents_with_term, 2); 

计算TF-IDF,值越大分类能力越强:

$tfidf = $tf * $idf
分类
最新文章
最近回复
  • 海运: ups不知有没选项可设置此参数,不过你可以在另外一台电脑上安装nut客户端自动关机。
  • kgami: 想请教一下,设置了的电脑自动关机之后,几秒后UPS怎么也跟着关机了,导致另外一台电脑没关机就断...
  • 海运: 写的很详细了啊,/etc/nut/hosts.conf用以nut-cgi连接nut服务器参数,...
  • ryan: 请问下nginx配置好了,怎么和这个nut链接呢?最后可视化管理这块能给个详细一点的教程么?谢谢。
  • 1: /etc/config/fstab配置文件 https://openwrt.org/zh/do...
  • 听雨看雪: 找了好久,终于找到UP主,给出的正确解决方案,太感谢了,困扰大半年的问题,重装了N道PVE系统...
  • zr: 大佬,这个bash-completion是从哪个源搞到的
  • 姚生: 要要下载
  • 阿东: 我在编译树莓派的时候也遇到同样的问题,后来发现是make menuconfig 的时候忘了带环...
  • crowjin: 你确定这能过滤??不是所有请求都返回空地址::?