xmlhack.ru XML-форумы
Обсуждение XML и связанных с ним технологий

xml wget


Автор Сообщение
olpa
Любитель

Зарегистрирован: 23.04.2002
Сообщения: 981
Откуда: Санкт-Петербург
Посетить сайт автора
[2273] Чт Май 09, 2002 23:00
xml wget
Если я скажу

Код:

wget -m -k http://xmlhack.ru


то через некоторое время у меня на винчестере окажется локальная копия сайта xmlhack.ru, при этом абсолютные ссылки будут переведены в относительные.

А как сделать то же самое для xml-сайта? Я не натыкался на такие программы (не искал).

У кого нибудь есть желание написать код загрузки XML для wget?
.m
Новичок

Зарегистрирован: 05.05.2002
Сообщения: 5
Откуда: moscow
[2274] Сб Май 11, 2002 23:00
Re: xml wget
я еще сайт taler'а хотел выкачать wget  Smile  (или по-другому), но автоматизировано. так никаких программ и не нашел, хотя само по себе несложно, да.
Croll
Новичок

Зарегистрирован: 26.04.2002
Сообщения: 18

Посетить сайт автора
[2275] Вт Июн 11, 2002 23:00
Re: xml wget
Странный вопрос. Или мне кажется?

Offline Explorer Pro. http://www.metaproducts.com/. По-моему, они уже это реализовали - но надо проверять.
taler
Аспирант

Зарегистрирован: 28.04.2002
Сообщения: 113

[2276] Вт Июн 11, 2002 23:00
Re: xml wget
2 Alexander_Savenkov

вероятно, вы не правы:

на примере упомянутого выше "сайта taler'а", до самого последнего момента его существования никому, пользующемуся Offline Explorer Pro (а также ряд др. программ), так и не повезло "скачать контент" (в скобках: замечу, спец мер "защиты" не было, но велось тщательное  наблюдение, а что же именно из информационых фрагментов "скачивается")  
olpa
Любитель

Зарегистрирован: 23.04.2002
Сообщения: 981
Откуда: Санкт-Петербург
Посетить сайт автора
[2277] Вт Июн 11, 2002 23:00
Re: xml wget

Цитата:

Offline Explorer Pro. http://www.metaproducts.com/. По-моему, они уже это реализовали - но надо проверять.



В отстойник - мало того, что платный, так ещё и работает только на экзотических платформах типа Windows.
olpa
Любитель

Зарегистрирован: 23.04.2002
Сообщения: 981
Откуда: Санкт-Петербург
Посетить сайт автора
[2278] Пт Июн 14, 2002 23:00
Re: xml wget
Ещё несколько соображений о wget-xml.

Режимы работы программы:
1) Загрузка одного xml-файла
2) Загрузка xml-файла и связанных с ним файлов - stylesheet, external entities
3) Как в (2) + выполнение преобразования, сохранения результатов, а затем загрузка всего остального для полного отображения результата (css, картинки, ...)
4) Рекурсивно как в (2) или как в (3)

Пользователю, скорее всего, интересно следующее:
1) Получить копию xml-сайта в виде нормального html
2) Получить копию xml-сайта как есть (например, для изучения xml)

В случае (1) программе придётся делать xslt-преобразование. В этом случае пользователь может столкнуться с неожиданным сюрпризом типа <script>format c:</script>.

В любом случае, при рекурсивной закачке xslt-преобразование необходимо. Надо же как-то узнать, куда дальше идти по ссылкам. Поэтому пользователь, проанализировав скачанные XML и XSLT, может создать свой XSLT, и сказать wget-xml использовать его.
taler
Аспирант

Зарегистрирован: 28.04.2002
Сообщения: 113

[2279] Пт Июн 14, 2002 23:00
Re: xml wget
Странным (и довольно сильно) мне кажется само желание "качать то, что для скачивания не предусмотрено". Редкий владелец, вероятно, разрешит вам скачивать "полный сайт" (если он будет считать иначе, он просто сделал бы его неким статическим и простым).

1. К примеру, меня удивит, если вы умудритесь "запросто" скачать сегодня "as is" внутренности сайта Криса (невооруженным же глазом ясно, что человек не сильно этого хочет) - т. е., конечно, я готов допустить, что "вы умудритесь", но удивляет другое - умный человек, хорошо понимающий сегодня, "с какой стороны" подойти к сайту типа Криса, имхо, должен быть не менее же и умен, чтобы понимать, почему этого делать не стоит.

2. Мне несколько кажется, у вас странное представление о "сайтах на XML". XML-внутрисайтовый (как я уже много раз подчеркивал) совсем не одно и то же, что "XML-наружный, XML-коммуникативный"; в частности, XML часто љне более чем нижний "несущий" слой-протокол для "более-высоких проблемных" языков данных. К примеру, сайты, где в качестве "видимого XML" окажется RDF/XML (где такие бывают - например, у астрофизиков, но о подробностях умолчу), љвы что, тоже хотите брать их своим wget-xml'ом? (в скобках: entity = слишком простой механизм для владельца, чтобы полагаться, что сайт "не стащат", поэтому на нем не многие и базироваться-то будут; а вы и xIncludes и xLinks тоже собираетесь обрабатывать - это было бы крайне интересно и поучительно љ;)

Вопрос не совсем праздный - к примеру, если я когда-нибудь сподоблюсь открыть вторую версию (сейчас не до этого), она же всю будет опутана онтологическими языками и вызовами чего-то типа DAML-S/OIL+ONT/OWL/RDF... с "низом на XML" и, разумеется, с динамическими скриптами.
я правильно понимаю, что ваш будущий wget все эту кухню "научится разбирать и постигать"? - вот здорово!

Или просто уже есть на примете ряд реальных XML-сайтов, которые "пора сильно качать" (и не тратя зряшных сил, уметь быстренько кидать их на CD и затем на развалы), дабы слабеннький и бедный русский teapot всегда знал, "где полагается искать корректную инфу для прочтения"?

Признаюсь, меня немножко интересует ход ваших дальнейших мыслей относительно того, кому и зачем все это нужно..
olpa
Любитель

Зарегистрирован: 23.04.2002
Сообщения: 981
Откуда: Санкт-Петербург
Посетить сайт автора
[2280] Вс Июн 16, 2002 23:00
Re: xml wget

Цитата:

Странным (и довольно сильно) мне кажется само желание "качать то, что для скачивания не предусмотрено". Редкий владелец, вероятно, разрешит вам скачивать "полный сайт" (если он будет считать иначе, он просто сделал бы его неким статическим и простым).



Не согласен. Я по умолчанию считаю, что владелец сайта наоборот, очень рад, что его сайт качают и распространяют.

Цитата:

умный человек, хорошо понимающий сегодня, "с какой стороны" подойти к сайту типа Криса, имхо, должен быть не менее же и умен, чтобы понимать, почему этого делать не стоит.



Какой-то из этих трёх характеристик я явно не удовлетворяю.

Цитата:

Мне несколько кажется, у вас странное представление о "сайтах на XML". XML-внутрисайтовый (как я уже много раз подчеркивал) совсем не одно и то же, что "XML-наружный, XML-коммуникативный";



Думаю, что представление правильное. По аналогии, ведь закачивая среднестандартный динамический сайт, я не ожидаю получить часть БД MySQL и сценарии PHP.

Так и с XML - что есть, то и скачаю.

Цитата:

в скобках: entity = слишком простой механизм для владельца, чтобы полагаться, что сайт "не стащат", поэтому на нем не многие и базироваться-то будут;



Не думаю, что XML-сайт - это способ не дать стащить сайт. Существуют другие технические решения.

Цитата:

а вы и xIncludes и xLinks тоже собираетесь обрабатывать - это было бы крайне интересно и поучительно



Если обозреватель может отобразить, то можно и обработать.

Цитата:

Или просто уже есть на примете ряд реальных XML-сайтов, которые "пора сильно качать"



http://www.xml.nsu.ru/
http://www.bin.f2s.com/
Куски сайта w3c, где xml встречается как есть в виде примеров

Цитата:

Признаюсь, меня немножко интересует ход ваших дальнейших мыслей относительно того, кому и зачем все это нужно..



Возьмите 1/k-ю часть от смысла жизни, и получится смысл wget-xml...
olpa
Любитель

Зарегистрирован: 23.04.2002
Сообщения: 981
Откуда: Санкт-Петербург
Посетить сайт автора
[2281] Пт Июн 21, 2002 23:00
Re: xml wget

Цитата:

кому и зачем все это нужно...



Например,

http://groups.google.com/groups?dq=&hl=ru&lr=&ie=UTF-8&group=fido7.ru.xml&selm=1024738515%40f661.n5030.z2.ftn

нужен реальный xml+xslt-сайт для тестирования. Обсуждаемая утилита в этом случае очень бы пригодилась.
taler
Аспирант

Зарегистрирован: 28.04.2002
Сообщения: 113

[2282] Пн Июн 24, 2002 23:00
Цитата:

Цитата:

Olpa: љ> Я по умолчанию считаю, что владелец сайта наоборот, очень рад, что его сайт качают и распространяют.



поскольку одно лишь мнение talera Вам кажется странным, Цитата "с другими мнениями"

Цитата:

... по мнению многих уважаемых хакеров, в частности, Ричарда М. Столмена, сообщества разработчиков Debian - "отсутствие явного разрешения на копирование программы или документа равносильно запрету на копирование. Копировать любое авторское произведение можно, только если автор или владелец прав на него прямо дал такое разрешение, и только на указанных автором условиях."


источник: 17.04.2002, Олег Филон, статья "Копируем сайт"

ps: что касается "тестирований" - это Отдельные (и Оговариваемые) отношения, имхо.

--------------
добавления:
разумеется, в опр. смысле сеть демократична, но только "в опр. смысле", т. е.  понимать, что такое хорошо, а что такое плохо, и что есть нетикет, вероятно, было бы желательно (?)

1) вы видите большую разницу между "простым сканированием печатной страницы" (любому доступной для прочтения, разве нет?) и копированием сайта без разрешения? - Учтите - акт сканирования печатной страницы называется и признается "репродукцией":
see http://www.publishers.org/abouta/copy/scanning.htm
пр этом "репродукция без разрешения" явно считается незаконной:

Цитата:

Reproduction is an exclusive right of the copyright holder; therefore, scanning, a form of reproduction, generally requires the permission of the copyright holder.


2) нек. советы, как именно следует запрашивать разрешения http://www.publishers.org/abouta/copy/rpactips.htm
(автор: Rights and Permissions Advisory Committee )
amen
Новичок

Зарегистрирован: 26.06.2002
Сообщения: 1

[2283] Чт Июн 27, 2002 23:00
Re: xml wget
Cогласен что полное скачивание сайта без разрешения (выложенного на сайт или полученного) является незаконным.

НО

у меня давно уже есть желание чтобы у меня была копия всех страничек которые я просмотрел, кроме явно показавшихся мне ненужными.
( причем хорошо бы чтобы копия сохранялась в полуавтоматическом режиме и все просмотренные странички были проиндексированы для локального поиска и разнесены в категории ).
Думаю что никто не может лишить меня права восстановить то что я видел, моего прошлого если хотите.

Итог.
Думаю что вполне законна и реальна система, которая будет сохранять для повторного просмотра ту часть веба которую ты видел, которая прошла через твой браузер.
Это не wget-xml - но множество задач которые решает wget и эта гипотетическая система пересекаются.

Лирическое отступление
У Стругацких есть рассказ "Малыш", про человека который в точности помнил всю свою историю, все что он видел слышал думал в каждый момент своей жизни.
К сожалению я не обладаю такой памятью, но очень бы хотел...