Форум → Программирование → PHP для идиотов → Парсинг ссылок
Парсинг ссылок
Страницы: ← Следующая страница →
-
18 ноября 2009 г. 14:40, спустя 15 минут 46 секунд
уже обсуждалось несколько раз на форуме…Спустя 147 сек.Что-то типа того:
preg_match_all('/href\s*=\s*("|')?(?<link>.*?)("|')?/is', $html, $matches);
В [link] будут ссылкиhttps://smappi.org/ - платформа по созданию API на все случаи жизни -
18 ноября 2009 г. 15:19, спустя 39 минут 5 секунд
если так<?php
$url = "http://www.dmoz.org/Business/Arts_and_Entertainment/Media_Production/Resumes_and_Portfolios/";
$body = file_get_contents($url);
preg_match_all('/href\s*=\s*("|')?(?<link>.*?)("|')?/is', $body, $out);
print_r($out);
?>
, то чистый лист. если так<?php
$url = "http://www.dmoz.org/Business/Arts_and_Entertainment/Media_Production/Resumes_and_Portfolios/";
$body = file_get_contents($url);
preg_match_all('/href\s*=\s*("|")?(?<link>.*?)("|")?/is', $body, $out);
print_r($out);
?>
то пустой массив
получается -
-
18 ноября 2009 г. 15:36, спустя 9 минут 15 секунд
NRG, этот топик я читал. уже научился составлять регулярки для текста. но как сделать чтобы парсил не текст а именно URL? -
18 ноября 2009 г. 15:38, спустя 2 минуты 6 секунд
SeRebro, вывод ошибок включите для началаhttps://smappi.org/ - платформа по созданию API на все случаи жизни -
18 ноября 2009 г. 15:41, спустя 2 минуты 35 секунд
легко :)
NRG, этот топик я читал. уже научился составлять регулярки для текста. но как сделать чтобы парсил не текст а именно URL?
15 баксов :)Сапожник без сапог -
18 ноября 2009 г. 15:44, спустя 3 минуты 17 секунд
вот вам простой<?php
$url = "http://www.dmoz.org/Business/Arts_and_Entertainment/Media_Production/Resumes_and_Portfolios/";
$body = file_get_contents($url);
preg_match_all('/href="(.*?)"/is', $body, $out, PREG_SET_ORDER);
print_r($out);
?>Спустя 176 сек.
<?php
$url = "http://www.dmoz.org/Business/Arts_and_Entertainment/Media_Production/Resumes_and_Portfolios/";
$body = file_get_contents($url);
preg_match_all('/href\s*=\s*("|\')?(?<link>[^"\']*)("|\')?/is', $body, $out, PREG_SET_ORDER);
print_r($out);
?>
этот поинтереснееhttps://smappi.org/ - платформа по созданию API на все случаи жизни -
18 ноября 2009 г. 15:51, спустя 6 минут 36 секунд
adw0rd, спасибо. а можно сделать так, чтоб парсило только внешние ссылки. т.е. не
/category/
а
http://google.com/ к примеру
вообщем которые с http начинаютсяСпустя 45 сек.а второй вариант не работает :о( -
18 ноября 2009 г. 15:52, спустя 49 секунд
SeRebro, мозг включу, пыха не тот форум, где будут писать за тебя, здесь подскажут, обьяснят, но надо и самому думать -
18 ноября 2009 г. 15:53, спустя 1 минуту 21 секунду
ну так подскажите. мне для скрипта нужны только ссылки. в мануалах ничё про это нету -
18 ноября 2009 г. 15:55, спустя 2 минуты 12 секунд
adw0rd, спасибо. а можно сделать так, чтоб парсило только внешние ссылки. т.е. не
/category/
а
http://google.com/ к примеру
вообщем которые с http начинаются
можно, '/href="http:\/\/(.*?)"/is'а второй вариант не работает :о(
Какая версия PHP?
Спустя 100 сек.
причем тут мануал, какая разница ссылки это или что-то другое, тут главное понять что такое рег. выражения, попрактиковаться и тогда все получится!
ну так подскажите. мне для скрипта нужны только ссылки. в мануалах ничё про это нету
а искать ответ "Как же обрабатываются ссылки?" - это не правильноhttps://smappi.org/ - платформа по созданию API на все случаи жизни -
18 ноября 2009 г. 16:01, спустя 6 минут 14 секунд
о, с '/href="http:\/\/(.*?)"/is' всё как надо
сенкь ю вери мачСпустя 292 сек.бля, начал через форич выводить<?php
$url = "http://www.dmoz.org/Business/Arts_and_Entertainment/Media_Production/Resumes_and_Portfolios/";
$body = file_get_contents($url);
preg_match_all('/href="http:\/\/www\.(.*?)"/is', $body, $out, PREG_SET_ORDER);
foreach($out as $h)
{
echo $h;
}
?>
вот что получилосьArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArrayArray
ошибки вроде нету
чё за ерунда? -
-
18 ноября 2009 г. 16:18, спустя 3 минуты 31 секунду
вроде разобрался. только терь такое получилосьhref="http://www.michaelbolanos.com/" michaelbolanos.com/
href="http://www.craigburnett.com" craigburnett.com
href="http://www.martindenning.com/" martindenning.com/
href="http://www.antaressfelken.com/" antaressfelken.com/
href="http://www.thejohnfleming.com" thejohnfleming.com
Страницы: ← Следующая страница →
Пожалуйста, авторизуйтесь, чтобы написать комментарий!