ФорумПрограммированиеPHP для идиотов → Создание алгоритма проверки текста на уникальность.

Создание алгоритма проверки текста на уникальность.

  • RedRabbit

    Сообщения: 41 Репутация: N Группа: Кто попало

    Spritz 14 ноября 2014 г. 15:57

    Хэлоу, Пыха!
    Не писал тут с 2010-го, я видел пыху в старом дизе и перевоплощение MD5 в Леди Гагу до сих пор лежит на старом харде. Что там с Cafe (кафешка) дописал свой фреймворк?

    Теперь к делу, необходимо написать алгоритм проверки текстов на уникальность от 0 до 100%.
    Есть большой запас XML запросов в Яндекс.XML и хочу их превратить в какой нибудь сервис, точнее сервис проверки уникальности.

    Может кто то столкнулся с таким сервисом и может хотя бы подтолкнуть или идею сказать с чего начать и дальше я уже сам. Пока, что думаю разделять текст на строки и проверять на полное совпадение в Яндекс, Гугл но потом, что нужно парсить сайты где есть совпадения?

    Как пример вот сервисы проверки текста на уникальность:
    text.ru (весьма качественный сервис, дает отличный результат)
    content-watch.ru (в некоторых случаях дает 100% результат когда text.ru находит дубли. Т.е. сервис можно сказать еще в бете, но работает хорошо)
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 14 ноября 2014 г. 16:32, спустя 35 минут 11 секунд

    Хэлоу, Пыха!

    Не писал тут с 2010-го, я видел пыху в старом дизе и перевоплощение MD5 в
    Леди Гагу
    до сих пор лежит на
    старом харде. Что там с Cafe (кафешка) дописал свой фреймворк?

    Лол, а чего я этого не видел?) Видимо скрывал темы

    Спустя 176 сек.

    Я думаю все эти инструменты используют Шинглы

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • Ivan.

    Сообщения: 495 Репутация: N Группа: Адекваты

    Spritz 14 ноября 2014 г. 16:36, спустя 3 минуты 56 секунд

    Ну, такие алгоритмы за деньги обычно продают. Вряд ли кто-то тебе подскажет чего-то реально дельного. На всякидку - делаешь из искомого текста специальную кашу находишь первый элемент поисковой выдачи и делаешь на него запрос, там преобразуешь результат в кашу и ищешь точное вхождение такой же каши как и твой запрос. Алгоритм каши может быть какой угодно, это зависит от тебя, например отсортировать все слова по порядку и привести их в нижний регистр + убрать все не буквы. Большой текст лучше делить на части.
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 14 ноября 2014 г. 16:45, спустя 8 минут 29 секунд

    http://pyha.ru/forum/topic/3704.1#msg76179 вот по теме, в поиске нашел

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • RedRabbit

    Сообщения: 41 Репутация: N Группа: Кто попало

    Spritz 14 ноября 2014 г. 16:57, спустя 12 минут 18 секунд

    adw0rd, спасибо почитаю. Как решил тогда свой вопрос, применил библиотеку кукую-то или написал сам?
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 14 ноября 2014 г. 18:38, спустя 1 час 40 минут 42 секунды

    adw0rd, спасибо почитаю. Как решил тогда свой вопрос, применил библиотеку кукую-то или написал сам?

    @RedRabbit, честно, уже не помню даже зачем мне это надо было. Но думаю юзал Шиндлы

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • RedRabbit

    Сообщения: 41 Репутация: N Группа: Кто попало

    Spritz 19 ноября 2014 г. 0:11, спустя 4 дня 5 часов 32 минуты

    ёбаный Google Custom Search API, работал кто с ним?
    Делаю запрос на шинглы, в обычном ручном поиске выдает нужный мне дубликат, в ебучем API выдает только ссылку на раздел сайта где только кусов статьи([cut]), не выдавая прямую ссылку на статью.
    API Яндекса выдает нормально, но и он не раз тупил по мелочам.

    Если кто работал с API гугла, как получить идентичный результат из гугл поиска как при ручном вводе на сайте?
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz 19 ноября 2014 г. 0:14, спустя 2 минуты 52 секунды

    @RedRabbit, никак. у них базы разные даже. там поисковый индекс отличается. работал с ним в свое время, давненько :)

    Сапожник без сапог
  • RedRabbit

    Сообщения: 41 Репутация: N Группа: Кто попало

    Spritz 19 ноября 2014 г. 0:23, спустя 9 минут 21 секунду

    Придется тогда присобачить Yandex api в дополнение гугл api, они дополняют друг друга. Но все равно говно.
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz 19 ноября 2014 г. 0:26, спустя 3 минуты 31 секунду

    Придется тогда присобачить Yandex api в дополнение гугл api, они дополняют
    друг друга. Но все равно говно.

    @RedRabbit, ну лучше чем самому индексировать весь интернет )

    Сапожник без сапог
  • RedRabbit

    Сообщения: 41 Репутация: N Группа: Кто попало

    Spritz 19 ноября 2014 г. 0:31, спустя 4 минуты 23 секунды

    А Yahoo API ни охуел?
    https://developer.yahoo.com/boss/search/#pricing
    Price/1000 Queries (USD) это понимать "Per Day" или фиксировано покупаешь за бакс 1к запросов?

    @phpdude, какой то ты добрый, никаких шуток с подъебом на некомпетентность, да еще в разделе пыхи.
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz 19 ноября 2014 г. 0:51, спустя 20 минут 24 секунды

    @RedRabbit, дороговато яху себя оценил)) но терпимо ... если сразу поиск раскручивать и контекст иметь и тп

    Спустя 25 сек.

    да мне лень, я устал сегодня. да и подъебывать в общем то не за что

    Сапожник без сапог
  • kostyl

    Сообщения: 5210 Репутация: N Группа: Джедаи

    Spritz 19 ноября 2014 г. 1:32, спустя 41 минуту 9 секунд


    охуенно!

    Спустя 115 сек.

    чё то битый имейд вставляется, вообщем заебись md5
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz 19 ноября 2014 г. 1:36, спустя 3 минуты 20 секунд

    @kostyl, руки у тебя из жопы растут, поэтому и битый

    Сапожник без сапог
  • kostyl

    Сообщения: 5210 Репутация: N Группа: Джедаи

    Spritz 19 ноября 2014 г. 1:38, спустя 2 минуты 10 секунд

    @phpdude, та прямо, я всё как пользователь сделал, не надо … это я потом уже начал мудрить

Пожалуйста, авторизуйтесь, чтобы написать комментарий!