Curl - рекурсия + логи

autoxenon

Сообщения: 6 Репутация: N Группа: Кто попало

25 декабря 2012 г. 15:00

Задача: скачать страничку (используя Curl), имитируя на 100% браузер (с отключенным javascript).

1.Curl - не браузер и обрабатывать JS не может или все таки как то может?
2.Браузер рекурсивно (и автоматом) скачивает файлы с URL расположенных в HTML коде.
3.Curl - не браузер и сам рекурсивно скачивать файлы не может.

Сейчас делаю так:
1.Curl скачивает страницу.
2.Preg_match_all - вытаскивает из HTML странички URL на графические файлы.
3.Можно было бы скачивать и CSS и JS файлы, но "оформлять" нам ничего не надо + JS мы потом все равно не исполним.
4.Foreach -запускает поочередно Curl (URL берется из Preg_match_all).
5.Куки даются нам "апачем" + "JS" (но мы прикидываемся что он отключен) + через графические файлы.
6.Записываем куки в cookie.txt (но тут маленькая засада! Если браузер видит просроченную куку - то выкидывает ее! А курлу пофигу.
7.Для того, что бы "умершие куки" удалить (не передавать на след.страницы), после всех курлов, открываем cookie.txt и вырезаем оттуда ненужные куки.

Все как бы работает, но ощущение "детсадовского алгоритма" остается.
Вопросы:
Может курл и сам все рекурсивно скачивать может (что ему прикажешь) без моих вывертов и как то более красиво и более правильно?
Как записывать логи курла, что он отправил, что получил? Что бы анализировать не в фаерфоксе?
AlexanderC

Сообщения: 270 Репутация: N Группа: Кто попало

25 декабря 2012 г. 15:40, спустя 39 минут 48 секунд

есть готовые тулзы под линукс… враппер легко строится на обычных системных вызовах
Nyaah

Сообщения: 574 Репутация: N Группа: Джедаи

25 декабря 2012 г. 15:40, спустя 11 секунд

wget -p -U "User-agent" …

Work, buy, consume, die
autoxenon

Сообщения: 6 Репутация: N Группа: Кто попало

25 декабря 2012 г. 15:47, спустя 6 минут 45 секунд

По поводу готовых "тулз" - не могли бы маякнуть URL_ом?
В принципе есть и линукс.
phpdude

Сообщения: 26646 Репутация: N Группа: в ухо

25 декабря 2012 г. 18:16, спустя 2 часа 28 минут 59 секунд

wget -r

Сапожник без сапог

Пожалуйста, авторизуйтесь, чтобы написать комментарий!

Curl - рекурсия + логи

Войти