Помощник
|
Парсинг каталога |
mozzzg
|
Сообщение
#1
|
||
|
|
||
|
|||
Witu |
19.6.2012, 20:18;
Ответить: Witu
Сообщение
#2
|
|
|
|
|
Arks |
19.6.2012, 21:42;
Ответить: Arks
Сообщение
#3
|
|
сайты на перле я еще не парсил :)
мне известны 3 варианта парсинга: 1) парсинг всего что доступно в браузере с помощью Selenium, без разницы ASP.. ajax.. защита от роботов все парсится. Некоторая сложность есть в программировании парсера(все-таки это java и много костылей с допиливанием selenium'а напильником). 2) парсинг с помощью php, который можно поделить на: -использование спец.средств типа SimpleXML, или например phpQuery -без использования спецсредств(регулярками) - этот вариант самый крутой, но написание парсера занимает больше всего времени P.S. а еще когда я бы так молод и Луна так светила.. в общем когда учился я тренировался на яндекс-маркете.. и за две недели спарсил из него 3 млн. товаров из 116 на тот момент(да, все дерево категорий с характеристиками я спарсил в 1-ую очередь и так узнал количество) |
|
|
Witu |
20.6.2012, 6:58;
Ответить: Witu
Сообщение
#4
|
|
|
|
|
mozzzg
|
Сообщение
#5
|
|
Что выбрать для парсинга SimpleXML или DOM ?
Всё конкретно про тот сайт и каталог, его нужно перекинуть в бд практически не меняя. |
|
|
mozzzg
|
Сообщение
#6
|
|
|
Посмотрел код страницы, у каждого товара форма записи
адрес сайта/up_id/id так же нашёл файл со всеми категориями и подкатегориями по адресу http://forum3.ru/tree/tree_msk.txt Получается нужно сначала парсить категории, создавая поля cat_name, up_id, id - а дальше, проходить по каждой адрес сайта/up_id/id и тащить оттуда уже данные в дб, так? Может у кого идеи есть как это сделать проще или другим способом?
|
|
|
||
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
Трафик в Телеграм (рассылка, инвайт, парсинг) | 9 | gelt | 2847 | 8.4.2024, 15:28 автор: gelt |
|
ВКонтакте: полный комплекс услуг (массовая рассылка по стенам групп и в ЛС), парсинг, лайки, инвайты Гарантия самой низкой цены |
4 | MaxChemist | 1918 | 1.1.2023, 13:23 автор: MaxChemist |
|
Сбор баз, парсинг информации, постинг, автоматизация Качественно и в срок |
21 | SEOMR | 20839 | 22.7.2022, 15:10 автор: iodjin |
|
Парсинг | 0 | alnsam | 856 | 20.7.2022, 16:25 автор: alnsam |
|
Требуется парсинг поисковой выдачи | 0 | WoWeb | 870 | 5.7.2022, 16:31 автор: WoWeb |
Текстовая версия | Сейчас: 19.4.2024, 23:51 |