Форум → Программирование → PHP для идиотов → Создание алгоритма проверки текста на уникальность.
Создание алгоритма проверки текста на уникальность.
Страницы: ← Следующая страница →
-
Хэлоу, Пыха!
Не писал тут с 2010-го, я видел пыху в старом дизе и перевоплощение MD5 в Леди Гагу до сих пор лежит на старом харде. Что там с Cafe (кафешка) дописал свой фреймворк?
Теперь к делу, необходимо написать алгоритм проверки текстов на уникальность от 0 до 100%.
Есть большой запас XML запросов в Яндекс.XML и хочу их превратить в какой нибудь сервис, точнее сервис проверки уникальности.
Может кто то столкнулся с таким сервисом и может хотя бы подтолкнуть или идею сказать с чего начать и дальше я уже сам. Пока, что думаю разделять текст на строки и проверять на полное совпадение в Яндекс, Гугл но потом, что нужно парсить сайты где есть совпадения?
Как пример вот сервисы проверки текста на уникальность:
text.ru (весьма качественный сервис, дает отличный результат)
content-watch.ru (в некоторых случаях дает 100% результат когда text.ru находит дубли. Т.е. сервис можно сказать еще в бете, но работает хорошо) -
14 ноября 2014 г. 16:32, спустя 35 минут 11 секунд
Хэлоу, Пыха!
Не писал тут с 2010-го, я видел пыху в старом дизе и перевоплощение MD5 в
Леди Гагу до сих пор лежит на
старом харде. Что там с Cafe (кафешка) дописал свой фреймворк?Лол, а чего я этого не видел?) Видимо скрывал темы
Спустя 176 сек.
Я думаю все эти инструменты используют ШинглыАлгоритм шинглов "" — Википедия
ru.wikipedia.org
https://smappi.org/ - платформа по созданию API на все случаи жизни -
14 ноября 2014 г. 16:36, спустя 3 минуты 56 секунд
Ну, такие алгоритмы за деньги обычно продают. Вряд ли кто-то тебе подскажет чего-то реально дельного. На всякидку - делаешь из искомого текста специальную кашу находишь первый элемент поисковой выдачи и делаешь на него запрос, там преобразуешь результат в кашу и ищешь точное вхождение такой же каши как и твой запрос. Алгоритм каши может быть какой угодно, это зависит от тебя, например отсортировать все слова по порядку и привести их в нижний регистр + убрать все не буквы. Большой текст лучше делить на части. -
14 ноября 2014 г. 16:45, спустя 8 минут 29 секунд
http://pyha.ru/forum/topic/3704.1#msg76179 вот по теме, в поиске нашел
https://smappi.org/ - платформа по созданию API на все случаи жизни -
14 ноября 2014 г. 16:57, спустя 12 минут 18 секунд
adw0rd, спасибо почитаю. Как решил тогда свой вопрос, применил библиотеку кукую-то или написал сам? -
14 ноября 2014 г. 18:38, спустя 1 час 40 минут 42 секунды
adw0rd, спасибо почитаю. Как решил тогда свой вопрос, применил библиотеку кукую-то или написал сам?
@RedRabbit, честно, уже не помню даже зачем мне это надо было. Но думаю юзал Шиндлы
https://smappi.org/ - платформа по созданию API на все случаи жизни -
19 ноября 2014 г. 0:11, спустя 4 дня 5 часов 32 минуты
ёбаный Google Custom Search API, работал кто с ним?
Делаю запрос на шинглы, в обычном ручном поиске выдает нужный мне дубликат, в ебучем API выдает только ссылку на раздел сайта где только кусов статьи([cut]), не выдавая прямую ссылку на статью.
API Яндекса выдает нормально, но и он не раз тупил по мелочам.
Если кто работал с API гугла, как получить идентичный результат из гугл поиска как при ручном вводе на сайте? -
19 ноября 2014 г. 0:14, спустя 2 минуты 52 секунды
@RedRabbit, никак. у них базы разные даже. там поисковый индекс отличается. работал с ним в свое время, давненько :)
Сапожник без сапог -
19 ноября 2014 г. 0:23, спустя 9 минут 21 секунду
Придется тогда присобачить Yandex api в дополнение гугл api, они дополняют друг друга. Но все равно говно. -
19 ноября 2014 г. 0:26, спустя 3 минуты 31 секунду
Придется тогда присобачить Yandex api в дополнение гугл api, они дополняют
друг друга. Но все равно говно.@RedRabbit, ну лучше чем самому индексировать весь интернет )
Сапожник без сапог -
19 ноября 2014 г. 0:31, спустя 4 минуты 23 секунды
А Yahoo API ни охуел?
https://developer.yahoo.com/boss/search/#pricing
Price/1000 Queries (USD) это понимать "Per Day" или фиксировано покупаешь за бакс 1к запросов?
@phpdude, какой то ты добрый, никаких шуток с подъебом на некомпетентность, да еще в разделе пыхи. -
19 ноября 2014 г. 0:51, спустя 20 минут 24 секунды
@RedRabbit, дороговато яху себя оценил)) но терпимо ... если сразу поиск раскручивать и контекст иметь и тп
Спустя 25 сек.
да мне лень, я устал сегодня. да и подъебывать в общем то не за чтоСапожник без сапог -
19 ноября 2014 г. 1:32, спустя 41 минуту 9 секунд
охуенно!Спустя 115 сек.
чё то битый имейд вставляется, вообщем заебись md5 -
19 ноября 2014 г. 1:36, спустя 3 минуты 20 секунд
@kostyl, руки у тебя из жопы растут, поэтому и битый
Сапожник без сапог -
19 ноября 2014 г. 1:38, спустя 2 минуты 10 секунд
@phpdude, та прямо, я всё как пользователь сделал, не надо … это я потом уже начал мудрить
Страницы: ← Следующая страница →
Пожалуйста, авторизуйтесь, чтобы написать комментарий!