ФорумПрограммированиеPython → Какими библиотеками для краулинга/парсинга пользуется в питошке?

Какими библиотеками для краулинга/парсинга пользуется в питошке?

  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 1 сентября 2015 г. 7:51, спустя 2 минуты 17 секунд

    @mathete, опять же что имеется ввиду под js на странице? просто кусок кода, который можно за 10 минут переписать на любой язык, или когда вся страница строится на js?

    @ssbb, на сайтах, которые ты краулишь есть js, он рендерит часть страницы, надо собирать со страницы данные после рендеринга.
    Писать аналог js-кусков как-то бесмысленно, так устанешь, когда тебе надо много сайтов краулить и у них будет что-то меняться в логике всё время

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • ssbb

    Сообщения: 86 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 7:58, спустя 7 минут 3 секунды

    @adw0rd, а как это будет на ноде? на сколько я знаю, то у ноды и страницы сайта совершенно разный контекст выполнения

    Спустя 156 сек.

    Да и webkit никто не отменял :)

    ex. adwo/ad3w @ Philippines, Dumaguete
  • ssbb

    Сообщения: 86 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 8:17, спустя 18 минут 40 секунд

    Ладно, я не спорю, что местами может быть удобнее :)

    ex. adwo/ad3w @ Philippines, Dumaguete
  • ssbb

    Сообщения: 86 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 8:26, спустя 9 минут 3 секунды

    @adw0rd, @mathete а вот ради интереса, как в таком случае помогает нода? ведь даже чтобы просто получить значение переменной со страницы - нужен среда браузера (phantomjs там или что ни будь такое)?

    ex. adwo/ad3w @ Philippines, Dumaguete
  • mathete

    Сообщения: 435 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 9:57, спустя 1 час 31 минуту 19 секунд

    @ssbb, что такое "среда браузера"? Чтобы получить html тебе не нужна среда браузера? Чтобы траверсить html тоже не нужна?

    А по теме. Прикинь как будет выглядеть Zombie by assaf [zombie.js.org] написанный на питоне, сколько он будет жрать ресурсов и насколько будет тормозной. Тоже самое с вебкитом.

    @adw0rd, ты решил не юзать зомби на работе?

  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 1 сентября 2015 г. 10:00, спустя 2 минуты 45 секунд

    @mathete, напомни, что мы им хотели делать? )))

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • ssbb

    Сообщения: 86 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 10:05, спустя 5 минут 16 секунд

    @mathete

    что такое "среда браузера"?

    окружение. dom, localstorage, etс.

    Чтобы получить html тебе не нужна среда браузера? Чтобы траверсить html тоже не нужна?

    Совсем нет. Только если он не генерируется через JS.

    А по теме. Прикинь как будет выглядеть http://zombie.js.org/ написанный на питоне, сколько он будет жрать ресурсов и насколько будет тормозной. Тоже самое с вебкитом.

    Есть селениуем, который жрет совсем не много ресурсов (на vps крутится парсер с 2000 потоков с селениуемом, все ок). К тому же раньше писал про phantomjs, который отлично работает из питона.

    Спустя 235 сек.

    Что-то я тогда и не понял, в чем плюс для обработки клиентского жс, если так же нужен headless-браузер?

    ex. adwo/ad3w @ Philippines, Dumaguete
  • mathete

    Сообщения: 435 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 10:12, спустя 6 минут 52 секунды

    @adw0rd, RMS, пришедший трафик чекать.

    @ssbb, говорить, что селениум, или phantomjs жрут немного, ну совсем странно... Хотя, если тебя устраивает, то зачем чего-то менять. Меня категорически не устраивало, я искал другой порядок производительности и потребления ресурсов.

  • ssbb

    Сообщения: 86 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 10:14, спустя 1 минуту 30 секунд

    @mathete, а zombie - не headless browser?

    ex. adwo/ad3w @ Philippines, Dumaguete
  • mathete

    Сообщения: 435 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 10:17, спустя 3 минуты 39 секунд

    @ssbb, можно и так сказать. но он скорее программный браузер, реализующий облегчённую, настраиваемую версию компонентов браузера.

  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 1 сентября 2015 г. 10:23, спустя 5 минут 6 секунд

    @mathete, а, пока этим не занимается, много другого сделали

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • mathete

    Сообщения: 435 Репутация: N Группа: Джедаи

    Spritz 1 сентября 2015 г. 10:25, спустя 2 минуты 5 секунд

    @adw0rd, понял. Я тоже так говорю, когда нихуя не сделано :)

  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 1 сентября 2015 г. 10:42, спустя 17 минут 41 секунду

    @mathete, тут не хватает димона-тролля

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • Crank

    Сообщения: 542 Репутация: N Группа: Джедаи

    Spritz 28 октября 2015 г. 2:39, спустя 56 дней 15 часов 57 минут

    а посоветуйте что-то простое и с нормалоной документацией, взялся пользовать grab и облевался, половина доков на русском остальное на английском или нет нихуя.

  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 28 октября 2015 г. 2:42, спустя 2 минуты 32 секунды

    @Crank, бери scrapy и не парься

    Спустя 79 сек.

    Вот две темы про grab

    https://smappi.org/ - платформа по созданию API на все случаи жизни

Пожалуйста, авторизуйтесь, чтобы написать комментарий!