X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Парсинг каталога
mozzzg
mozzzg
Topic Starter сообщение 19.6.2012, 19:24; Ответить: mozzzg
Сообщение #1


Добрый день, пока ещё осваиваю php парсинг, как проще всего спарсить каталог?
Например, http://forum3.ru/#/cgi/shop/ishop.pl?cmd=s...&code=89243

Хочу сделать с этого каталога свой каталог csv, в котором будут поля
- код
- наименование
- категория
- фото
- тех. характеристики (интересно, можно ли так и спарсить таблицей?)
- цена 4

В итоге хочется структурированный csv и его уже загружать на сайт.
Как проще всего это сделать и куда копать?
Спасибо
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Witu
Witu
сообщение 19.6.2012, 20:18; Ответить: Witu
Сообщение #2


http://parsing-and-i.blogspot.com/2009/08/html-php.html
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Arks
Arks
сообщение 19.6.2012, 21:42; Ответить: Arks
Сообщение #3


сайты на перле я еще не парсил :)
мне известны 3 варианта парсинга:
1) парсинг всего что доступно в браузере с помощью Selenium, без разницы ASP.. ajax.. защита от роботов все парсится. Некоторая сложность есть в программировании парсера(все-таки это java и много костылей с допиливанием selenium'а напильником).
2) парсинг с помощью php, который можно поделить на:
-использование спец.средств типа SimpleXML, или например phpQuery
-без использования спецсредств(регулярками) - этот вариант самый крутой, но написание парсера занимает больше всего времени

P.S. а еще когда я бы так молод и Луна так светила.. в общем когда учился я тренировался на яндекс-маркете.. и за две недели спарсил из него 3 млн. товаров из 116 на тот момент(да, все дерево категорий с характеристиками я спарсил в 1-ую очередь и так узнал количество)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Witu
Witu
сообщение 20.6.2012, 6:58; Ответить: Witu
Сообщение #4


(Arks @ 20.6.2012, 00:42) *
сайты на перле я еще не парсил :)

ну да PHP отдает HTML отличный от того который отдает PERL...
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
mozzzg
mozzzg
Topic Starter сообщение 21.6.2012, 1:54; Ответить: mozzzg
Сообщение #5


Что выбрать для парсинга SimpleXML или DOM ?
Всё конкретно про тот сайт и каталог, его нужно перекинуть в бд практически не меняя.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
mozzzg
mozzzg
Topic Starter сообщение 21.6.2012, 5:16; Ответить: mozzzg
Сообщение #6


Посмотрел код страницы, у каждого товара форма записи
адрес сайта/up_id/id
так же нашёл файл со всеми категориями и подкатегориями по адресу http://forum3.ru/tree/tree_msk.txt

Получается нужно сначала парсить категории, создавая поля cat_name, up_id, id - а дальше, проходить по каждой адрес сайта/up_id/id и тащить оттуда уже данные в дб, так?

Может у кого идеи есть как это сделать проще или другим способом?

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыТрафик в Телеграм (рассылка, инвайт, парсинг)
8 gelt 2612 21.3.2024, 18:51
автор: gelt
Открытая тема (нет новых ответов) ВКонтакте: полный комплекс услуг (массовая рассылка по стенам групп и в ЛС), парсинг, лайки, инвайты
Гарантия самой низкой цены
4 MaxChemist 1884 1.1.2023, 13:23
автор: MaxChemist
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыСбор баз, парсинг информации, постинг, автоматизация
Качественно и в срок
21 SEOMR 20756 22.7.2022, 15:10
автор: iodjin
Открытая тема (нет новых ответов) Парсинг
0 alnsam 830 20.7.2022, 16:25
автор: alnsam
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыТребуется парсинг поисковой выдачи
0 WoWeb 843 5.7.2022, 16:31
автор: WoWeb


 



RSS Текстовая версия Сейчас: 29.3.2024, 10:10
Дизайн