用脑思考,用心琢磨,用行动证实 [登录·注册]

吕滔博客

首页 开发 运维 工具 摄影

修改PHPCMS自带采集器部分链接不能采集的BUG

开发 memory 发布于April 21, 2017 标签: PHP, PHPCMS

最近用phpcms帮一个朋友搞个采集站,发现有些链接采集不过来.
简单的修改了一下源码的正则。小记
文件:phpcms/modules/collection/classes/collection.class.php 约第181行修改如下

//preg_match_all('/<a ([^>]*)>([^\/a>].*)<\/a>/isU', $html, $out);   //<---系统默认的注释掉
preg_match_all('/<a\s+href=["|\']?([^>"\' ]+)["|\']?\s*[^>]*>([^>]+)<\/a>/i', $html, $out);  //<---我新加的
//$out[1] = array_unique($out[1]);  //<---原自带的
//$out[2] = array_unique($out[2]);  //<---原自带的
$data = array();  //<---原自带的
foreach ($out[0] as $k=>$v) {. //<---out[1] 改为 out[0]

上面的有BUG,我又修改了一下。。。

/**
     * 获取文章网址
     * @param string $url           采集地址
     * @param array $config         配置
     */
    public static function get_url_lists($url, &$config) {
        if ($html = self::get_html($url, $config)) {
            if ($config['sourcetype'] == 4) { //RSS
                $xml = pc_base::load_sys_class('xml');
                $html = $xml->xml_unserialize($html);
                if (pc_base::load_config('system', 'charset') == 'gbk') {
                    $html = array_iconv($html, 'utf-8', 'gbk');
                }
                $data = array();
                if (is_array($html['rss']['channel']['item']))foreach ($html['rss']['channel']['item'] as $k=>$v) {
                    $data[$k]['url'] = $v['link'];
                    $data[$k]['title'] = $v['title'];
                }
            } else {
                $html = self::cut_html($html, $config['url_start'], $config['url_end']);
                $html = str_replace(array("\r", "\n"), '', $html);
                $html = str_replace(array("</a>", "</A>"), "</a>\n", $html);
                //preg_match_all('/<a ([^>]*)>([^\/a>].*)<\/a>/isU', $html, $out);
                preg_match_all('/<a(.*)href=["|\']?([^>"\' ]+)["|\']?\s*[^>]*>([^>]+)<\/a>/i', $html, $out);
                //$out[1] = array_unique($out[1]);
                //$out[2] = array_unique($out[2]);
                //echo '<pre>';print_r($out);exit;
                $data = array();
                foreach ($out[2] as $k=>$v) {
                    if (!empty($v) && $v!='') {
                        if ($config['url_contain']) {
                            if (strpos($v, $config['url_contain']) === false) {
                                continue;
                            } 
                        }
    
                        if ($config['url_except']) {
                            if (strpos($v, $config['url_except']) !== false) {
                                continue;
                            } 
                        }
                        $data[$k]['url'] = self::url_check($v, $url, $config);
                        $data[$k]['title'] = strip_tags($out[3][$k]);
                    } else {
                        continue;
                    }
                }
                
            }
            return $data;
        } else {
            return false;
        }
    }

这样就OK了,以后再遇到其它的再说...哈哈哈....

相关推荐

添加新评论

全部评论:仅有一条评论

  1. 香港云服务器

    站长不错,不错的干货

网站状态

  • 栏目分类:49个
  • 发布文章:1534篇
  • 用户评论:751条
  • 开博至今:4127天

正则速查

[abc] 匹配中括号中的单个字符,如a或b或c
[^abc] 匹配除了a、b、c等字符的其他单个字符
[a-z] 匹配一个字符范围,如a到z
[a-zA-Z] 匹配一个字符范围,如a-z 或 A-Z
^ 匹配行的开始
$ 匹配行的结束
\A 匹配一个字符串的开始
\z 匹配一个字符串的结束
. 匹配任意单个字符
\s 匹配空白字符,如空格,TAB
\S 匹配非空白字符
\d 匹配一个数字
\D 匹配非数字
\w 匹配一个字母
\W 匹配非字母
\b 匹配字符边界
(...) 引用所有括号中的内容
(a|b) a或者b
a? 零个或1个a
a* 零个或多个a
a+ 1个或多个a
a{3} 3次重复的a
a{3,} 3次或3次以上重复的a
a{3,6} 3到6次重复的a

修正符

/g 查找所有可能的匹配
/i 不区分大小写
/m 多行匹配
/s 单行匹配
/x 忽略空白模式
/e 可执行模式,PHP专有
/A 强制从目标字符串开头匹配
/D 使用$限制结尾字符,则不允许结尾有换行
/U 只匹配最近的一个字符串;不重复匹配

最新回复

  • hyvm.net: 好文章,点赞
  • 新闻头条: 文章不错非常喜欢
  • 志志: 折腾了半天 感谢大神
  • Smithk464: Hey very nice blog!! Man .. Exce...
  • memory: 我已投奔phpstrom.哈哈
  • 逆风飘扬: 原来是这样!!!!!!!用惯了VS的来用zend studio没...
  • NS: 请问我这么写之后抛出了一个 javax.crypto.BadPa...
  • memory: 有内部使用的,开源的过段时间放个出来。
  • 小小: 博主 ,可有写好的
  • 111: 我看不懂唉,好多内容
  • memory: 咧,难道我手误了,回头看下官方文档去...
  • 阿东: 进入镜像的 后面 /bin/bash 是错的 你应该用的是/b...
  • memory: 帝国的安全性来说,比phpcms和dede要好的多啦.
  • 西点师培训班: 现在帝国用的少了,开源的不太会改,老被黑
  • yiyiyizoe: 谢谢~
  • memory: 不好意思呀,这个也是13年的时候,安装过淘宝的这个开源系统,做的...
  • yiyiyizoe: 实在抱歉,如果可以回答的话,只需要看这个问题:ldb支持批量导入...