文章目录

php使用file_get_contents抓取途牛网攻略内容

php中抓取(采集)内容,有两种方法。

一种是使用curl,另一种是使用file_get_contents。

今天我们就讲讲如何使用file_get_contents采集内容。

以抓取途牛网攻略内容为例。

php代码<?php
$url="http://www.tuniu.com/trips/12569604";
$content=file_get_contents($url);
//获取title
preg_match_all('/<h1([sS]*?)>([sS]*?)</h1>/',$content, $mat);
$title=trim($mat[2][0]);
//获主正文内容
$start=strpos(' '.$content,'<div class="content-left">')+strlen('<div class="content-left">');
//$start这里的html标签,是根据抓取页面来的,获取从哪里开始采集
$end=strpos(' '.$content,'<div class="content-comment">')-strlen('<div class="content-left">');
//$end这里的html标签,同上一样,获取结束的位置
$content=substr($content,$start,$end-$start);
//最后$end-$start,以结束的位置减去开始的位置,即为内容的长度
?>

file_get_contents的作用,就是将文件读取到一个字符串中,如果不经过代码过滤,那么对应url的所有内容将会被读取过来。

下次我们再讲解如何使用curl命令来抓取内容。

本文网址:http://www.santii.com/article/68.html


数据更新时间:2018-12-19