Форум → Программирование → PHP для идиотов → Curl - рекурсия + логи
Curl - рекурсия + логи
-
Задача: скачать страничку (используя Curl), имитируя на 100% браузер (с отключенным javascript).
1.Curl - не браузер и обрабатывать JS не может или все таки как то может?
2.Браузер рекурсивно (и автоматом) скачивает файлы с URL расположенных в HTML коде.
3.Curl - не браузер и сам рекурсивно скачивать файлы не может.
Сейчас делаю так:
1.Curl скачивает страницу.
2.Preg_match_all - вытаскивает из HTML странички URL на графические файлы.
3.Можно было бы скачивать и CSS и JS файлы, но "оформлять" нам ничего не надо + JS мы потом все равно не исполним.
4.Foreach -запускает поочередно Curl (URL берется из Preg_match_all).
5.Куки даются нам "апачем" + "JS" (но мы прикидываемся что он отключен) + через графические файлы.
6.Записываем куки в cookie.txt (но тут маленькая засада! Если браузер видит просроченную куку - то выкидывает ее! А курлу пофигу.
7.Для того, что бы "умершие куки" удалить (не передавать на след.страницы), после всех курлов, открываем cookie.txt и вырезаем оттуда ненужные куки.
Все как бы работает, но ощущение "детсадовского алгоритма" остается.
Вопросы:
Может курл и сам все рекурсивно скачивать может (что ему прикажешь) без моих вывертов и как то более красиво и более правильно?
Как записывать логи курла, что он отправил, что получил? Что бы анализировать не в фаерфоксе? -
25 декабря 2012 г. 15:40, спустя 39 минут 48 секунд
есть готовые тулзы под линукс… враппер легко строится на обычных системных вызовах -
-
25 декабря 2012 г. 15:47, спустя 6 минут 45 секунд
По поводу готовых "тулз" - не могли бы маякнуть URL_ом?
В принципе есть и линукс. -
Пожалуйста, авторизуйтесь, чтобы написать комментарий!