Не знаю, как сложилось у остальных авторов, но у меня процесс публикации статей с самого начала вызывал затруднения.
После того, как материал собран и основные идеи статьи окончательно оформились, я принимался за дело и набирал текст статьи в MS Word. Разумеется, этот этап работы затруднений не вызывал. Самое неприятное начиналось после, когда статья написана и оформлена. Вставал вопрос: а что, собственно, с ней делать дальше? Приемлемого ответа на этот вопрос я не находил.
Конечно, можно сохранить документ Word в HTML. Формально можно. Фактически в результате получается какой-то кошмар. Кто не верит может убедиться сам.
Можно экспортировать документ в текстовый файл, а затем отредактировать в каком-нибудь редакторе HTML. На деле это означает, что вся предыдущая работа по оформлению отправлена, пардон, коту под хвост и нужно начинать все заново. Кроме того, редактор, который я использовал (Visual Studio .NET), имеет склонность распределять слова по строкам, что плохо согласуется с форматом текста, принятом для публикаций на сайте.
Результат: я терял вечер на повторное форматирование статьи. После этого Гром подгонял файл HTML под формат сайта. И несмотря на все эти усилия, вид статьи оставлял желать лучшего.
Поэтому появилось решение сделать конвертер из формата MS Word *.doc в формат, пригодный для публикации на сайте без дополнительных усилий.
Как оформлять статью для конвертера
Что конвертер способен обработать
Разумеется, формат документа MS Word чересчур сложен, чтобы сразу же реализовать конвертирование любого файла. На первом этапе пришлось пожертвовать универсальностью и ограничиться самыми необходимыми элементами текста. Среди таковых я выделил:
* собственно текстовый параграф, каковых в статье обычно подавляющее большинство;
* заголовок (раздела, подраздела, пункта, ); для начала я ограничился тремя уровнями вложенности, будучи уверенным, что для не слишком большой статьи этого окажется достаточно, но при необходимости их количество можно увеличить;
* название статьи (помещается в самом начале и выделяется размером);
* ненумерованное перечисление (подобное тому, которое вы в данный момент читаете);
* нумерованное перечисление (в данной версии ограничился простым перечислением, без вложенности).
Кроме того, для полноценной статьи необходимо еще несколько элементов:
* таблицы;
* иллюстрации;
* определения терминов.
Над их включением я сейчас работаю, они должны появиться в самом ближайшем времени.
Как объяснить конвертеру, что вы от него хотите
Чтобы конвертер понял, как следует обрабатывать тот или иной фрагмент текста, следует оформить этот фрагмент при помощи соответствующего стиля Word. Для каждого элемента оформления предусмотрен соответствующий стиль (большинство из них стандартны для MS Word).
Чтобы облегчить применение стилей при написании статьи, я создал специальный шаблон для этой цели, Article.dot. Он содержит только допустимые стили.
Если в процессе работы конвертер встречает незнакомый ему стиль, он оформляет параграф, как обычный текстовый, но при этом выдает предупреждение.
Ниже я приведу пример каждого из стилей, как он выглядит при публикации.
Обычный
Комментировать тут особенно нечего. Тот абзац, который вы сейчас читаете, и есть обычный стиль.
Заголовки
Так выглядят различные заголовки:
Заголовок 1
Заголовок 2
Заголовок 3
Следующий стиль создан специально для конвертера:
Название статьи
Ненумерованное перечисление
Ненумерованное перечисление выглядит так:
* элемент перечисления;
* элемент перечисления;
* элемент перечисления.
* Нумерованное перечисление
В этом стиле тоже нет ничего неожиданного:
* Первая строка перечисления.
* Вторая строка перечисления.
* Третья и последняя строка.
В отличие от предыдущих стилей, эти два стиля явно включать не требуется. Просто воспользуйтесь соответствующими кнопками на палитре инструментов Word.
Как работать с конвертером
К сожалению, в данный момент возможность включения иллюстраций в текст статьи еще не реализована, поэтому у меня нет технической возможности продемонстрировать диалоговое окно конвертера (поскольку я решил быть кристально честным и оформить статью о конвертере самим же конвертером, не прибегая к дополнительным средствам форматирования и не жульничая).
Впрочем, интерфейс конвертера предельно прост и не должен вызвать никаких затруднений. Просто выберите исходный файл Word и запустите обработку вскоре с исходным появится файл с тем же именем и расширением .txt, это и есть результат.
Чего еще не умеет конвертер
К сожалению, список пока нереализованных возможностей не исчерпывается приведенными элементами текста. Кроме этого, конвертер пока не умеет выделять фрагменты текста жирным шрифтом, курсивом, подчеркиванием и цветом. Эти недостатки также планируется устранить в самом ближайшем будущем.
Известные проблемы
Поскольку программа состряпана наспех для проверки основных идей, при ее работе могут возникнуть некоторые проблемы, с которыми я пока не боролся.
Не рекомендуется запускать программу, если в системе работает MS Word. Также не следует запускать Word во время выполнения программы. Надеюсь, это ограничение не покажется слишком строгим, а в последующих версиях я надеюсь и вовсе от него избавиться.
Кто смелый?
Если кого-то из авторов не испугали эти ограничения и он хочет попробовать использовать нынешнюю версию в работе, свяжитесь со мной для получения альфа-версии (во избежание кривотолков сразу же заявляю, что манией величия не страдаю и не называл версию в свою честь, это просто красивое выражение, которое применяется, когда автор стесняется честно произнести сырой продукт) конвертера. Жду от вас сообщений о замеченных ошибках и предложений о расширении возможностей программы.
Alf
Information
- Posted on 01.02.2010 01:27
- Просмотры: 2515