xmlhack.ru XML-форумы
Обсуждение XML и связанных с ним технологий

MailML


Автор Сообщение
olpa
Любитель

Зарегистрирован: 23.04.2002
Сообщения: 981
Откуда: Санкт-Петербург
Посетить сайт автора
[6675] Чт Фев 17, 2005 00:03
MailML
Часто ли вы заходите в архивы русскоязычных списков рассылки? Если да, то замечали, что в них перемешаны koi8, cp1251, а вместо тем присутствует что-то типа

Код:

[Comm] =?koi8-r?B?zM/LwczYztnKINLF0M/a?=%0A%09=?koi8-r?B?ydTB0snK?= SRPMS



Это и понятно. В мире latin-1 проблем с кодировками почти нет, и авторы софта не всегда знают, что есть хитрые способы кодирования.

Софт не исправишь, но можно попробовать обходной путь. Например, перед тем как архивировать письмо, надо привести его в некий канонический вид. Надо преобразовать всё в чистый utf8, разметить заголовки, вложения, цитаты, подписи; выделить url-ки, адреса и прочее.

Для канонического вида идеально подходит XML. Такой формат можно назвать MailML.

Часть 2.

Если сложить кусу писем в формате MailML в XML-базу данных и приделать к ним веб-морду наподобии syntaco (http://www.syncato.org/), то получится очень мощная легкоуправляемая система.

Эпилог.

Это хорошая курсовая или даже диплом, а также возможность принести пользу миру.
Xasima
Гость




[6681] Пт Фев 18, 2005 12:15

А если посмотреть в сторону gmail (label + связи между письмами + user defined (через GUI) информация на письма + срез над XQuery/XPath для выборок ), то...добавив к этому еще пару (важных) вещей не связанных с XML, мы получим, что-то черезчур(!) хорошее.
olpa
Любитель

Зарегистрирован: 23.04.2002
Сообщения: 981
Откуда: Санкт-Петербург
Посетить сайт автора
[6690] Пт Фев 18, 2005 23:36

Цитата:

черезчур(!) хорошее.


Вот это меня и смущает. Почему такое до сих пор не сделано? Это ж будет чуть ли не первое полезное практическое применение XMLDB.
xasima
Гость




[6803] Ср Мар 16, 2005 12:05

производительность
(надо обрезать нативку/менять внутренние механизмы/) и.т.д. исключительно под вышепоставленную задачу (и разумные запросы).
Фактически, рефакторинг всего кода и всего проекта.

Слышал (...), как Oracle9i Unified Messaging ложился при очень серьезной работе. Т.е. серьезные поисковые/почтовые системы это всегда что-то переписанное/сделанное под конкретную специфику ( начиная от серверов - и заканчивая на уровне хранения чем-либо аналогичному Google File System)