海运的博客

又一PHP libcurl封装异步并发HTTP客户端

发布时间:January 27, 2015 // 分类:PHP // No Comments

PHP标准库内置curl扩展,不过实现不完整,如multi_socket_action接口,无意中发现pecl http库同样基于libcurl封装,支持更多的libcurl特性,更新也比较快,底层通过libevent(epoll)实现multi_socket_action接口,不过pecl http版本1和版本2 api完全不兼容,使用过程中稳定性及性能并不如PHP内置的curl,好像还有内存泄露,以下为示例代码,基于pecl_http 2.20:

<?php
   function push($client, $url) {
      $req = new http\Client\Request("GET", $url, ["User-Agent"=>"My Client/0.1"]);
      $req->setOptions(array('connecttimeout'=>1, 'timeout'=>1));
      $client->enqueue($req, function($response) use ($client, $req, $url) {
         printf("%s returned '%s' (%d)\n", $response->getTransferInfo("effective_url"), $response->getInfo(), $response->getResponseCode());
         echo $client->count().PHP_EOL;
         global $urls;
         if ($urls) {
            while ($client->count() < 20) {
               $url = array_shift($urls);
               push($client, $url);
            }
            return true; // dequeue
         }
      });
   }

   $client = new http\Client;
   $client->enablePipelining(true);
   $client->enableEvents(true);

   for ($i = 0; $i < 10000; ++$i) {
      $urls[] = "http://192.168.1.3/";
   }
   for ($i = 0; $i < 20; ++$i) {
      $url = array_shift($urls);
      push($client, $url);
   }
   /*
   try{
      var_dump($client->send());
   }
   catch(http\Exception\RuntimeException  $e)
   {
      echo 'Message: ' .$e->getMessage().PHP_EOL;
   }
   */

   while ($client->once()) {
      $client->wait();
   }

PHP交互式运行环境(REPL)

发布时间:January 14, 2015 // 分类:PHP // No Comments

用过PYthon下命令行界面很方面学习和调试,Google了原来叫做REPL,PHP下也有类似的实现。
https://github.com/bobthecow/psysh

wget psysh.org/psysh
chmod +x psysh
./psysh

2015.1.30更新:
之前真是孤陋寡闻了,PHP自5.1后已经自带交互式运行环境了,且有两种模式:
1.交互式模式,一问一答:

php -a
Interactive shell

php > echo time() . "\n";
1422604231
php > 

2.执行一段php格式的代码,按Ctrl-D执行:

php
<?php
echo time().PHP_EOL;
1422604533

PHP包管理依赖管理工具Composer使用

发布时间:January 10, 2015 // 分类:PHP // No Comments

安装Composer:

#安装到当前目录,使用命令php composer.phar
curl -sS https://getcomposer.org/installer | php
#也可移动到PATH目录,使用命令composer
mv composer.phar /usr/local/bin/composer
#安装到指定目录
#curl -sS https://getcomposer.org/installer | php -- --install-dir=/usr/local/bin --filename=composer

或直接下载执行文件:

https://getcomposer.org/composer-stable.phar -O /usr/local/bin/composer
chmod +x /usr/local/bin/composer

Composer配置文件:

cat composer.json 
{
    "require": {
        "tedivm/fetch": "0.6.*"
    }
}

Composer安装及更新包:

#安装,在配置文件目录执行,软件会下载安装到vendor目录
composer install
#更新
composer update
#命令方式安装指定包,同时会写入配置文件
composer require tedivm/fetch:0.6.*
#更新指定包
composer update tedivm/fetch

PHP调用Composer安装的包:

require 'vendor/autoload.php';

PHP CURL Keepalive连接重用

发布时间:January 4, 2015 // 分类:PHP // No Comments

PHP CURL默认支持keepalive连接复用,单个CURL注意要复用handle才可以:

<?php
   $ch1 = curl_init();
   curl_setopt($ch1, CURLOPT_URL, "https://www.haiyun.me/");
   curl_setopt($ch1, CURLOPT_HTTPHEADER, array(
    'Connection: Keep-Alive',
    'Keep-Alive: 300'
   ));
   curl_setopt($ch1, CURLOPT_FORBID_REUSE, 0);
   curl_setopt($ch1, CURLOPT_RETURNTRANSFER,1);
   curl_exec($ch1);

   curl_setopt($ch1, CURLOPT_URL, "https://www.haiyun.me/");
   curl_setopt($ch1, CURLOPT_RETURNTRANSFER,1);
   curl_exec($ch1);
   curl_close($ch1);

Multi_CURL无需复用handle即默认支持keepalive连接复用,当然也可复用handle,详情见:自用完美php异步并行 multi curl类

$master = curl_multi_init();
$done = curl_multi_info_read($master)
#删除handle
curl_multi_remove_handle($master, $done['handle']);
#复用删除的handle
curl_multi_add_handle($master, $ch);

PHP TF-IDF与余弦相似性计算文章相似性

发布时间:December 24, 2014 // 分类:PHP // 1 Comment

首先使用TF-IDF算法提取两篇文章的关键词,并合并成一个集合,
如关键词较多可使用堆取TOPK关键词。
然后计算每篇文章对于这个集合中的词的词频,即单词数/总词数,然后生成各自词频向量。
PHP计算相似度示例代码如下:

<?php
function similarity(array $vec1, array $vec2) {
  return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2));
}

function dotProduct(array $vec1, array $vec2) {
  $result = 0;
  foreach (array_keys($vec1) as $key1) {
    foreach (array_keys($vec2) as $key2) {
      if ($key1 === $key2) $result += $vec1[$key1] * $vec2[$key2];
    }
  }
  return $result;
}

function absVector(array $vec) {
  $result = 0;
  foreach (array_values($vec) as $value) {
    $result += $value * $value;
  }
  return sqrt($result);
}

//文章词频向量
$v1 = array('我们' => 5, '设计' => 2,  '一个' => 1, '算法' =>0, '任意' => 0, '相似' => 1);
$v2 = array('我们' => 5, '设计' => 0,  '一个' => 3, '算法' =>0, '任意' => 0, '相似' => 1);
//计算相似度,值越大相似程度越高
$result1 = similarity($v1,$v2);
var_dump($result1);

参考:
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

分类
最新文章
最近回复
  • 海运: 恩山有很多。
  • swsend: 大佬可以分享一下固件吗,谢谢。
  • Jimmy: 方法一 nghtp3步骤需要改成如下才能编译成功: git clone https://git...
  • 海运: 地址格式和udpxy一样,udpxy和msd_lite能用这个就能用。
  • 1: 怎么用 编译后的程序在家里路由器内任意一台设备上运行就可以吗?比如笔记本电脑 m参数是笔记本的...
  • 孤狼: ups_status_set: seems that UPS [BK650M2-CH] is ...
  • 孤狼: 擦。。。。apcupsd会失联 nut在冲到到100的时候会ONBATT进入关机状态,我想想办...
  • 海运: 网络,找到相应的url编辑重发请求,firefox有此功能,其它未知。
  • knetxp: 用浏览器F12网络拦截或监听后编辑重发请求,修改url中的set为set_super,将POS...
  • Albert: 啊啊啊啊啊啊啊啊啊 我太激动了,终于好了英文区搜索了半天,翻遍了 pve 论坛没找到好方法,博...