Wie stelle ich mein MT-Blog auf UTF-8 um?

27.05.2005, 11:06 in essays. Trackback-URL, Kommentar-Feed.

Seit einiger Zeit ist das Chartset UTF-8 das Standardformat für Movable Type Blogs. Früher war das nicht so und so verwenden viele Blogs, wie auch pixelgraphix, das Chartset ISO-8859-1. Wer z.B. Plugins wie MTAmazon oder BookQueueToo verwenden möchte oder eine Flickr-Galerie nach dem Tutorial Flickr Fotosets als Movable Type Galerie einbinden möchte, stellt schnell fest, das diese nur mit UTF-8 zufrieden stellend (ohne größeren Programmieraufwand) laufen.

Wie geht man also vor?

Zuallererst wird ein Backup der MySQL-Datenbank erstellt. Dann werden alle Blog-Einträge im MT-Admin-Bereich über das Menü Import / Export in die Textdatei mein-export.txt geschrieben.

Leicht konvertieren lassen sich dann die Einträge mittels iconv. Im Terminalfenster z.B. unter Linux oder Mac OSX wird der folgende Befehl eingegeben.

iconv -f ISO8859-1 -t UTF-8 mein-export.txt > mein-import.txt

Die Datei mein-import.txt wird auf den Webserver in das Verzeichnis import ins MT-Verzeichnis kopiert.

Nun werden die konvertierten Einträge im MT-Admin-Bereich über das Menü Import / Export wieder importiert. (Da es sich hier um sehr sensible Daten handelt, sollten die konvertierten Beiträge zum Test erst einmal in ein neues Testblog importiert werden.)

In der Datei mt.cfg muss das Charstet auf UTF-8 gestellt sein.

PublishCharset utf-8

Ein Problem der Umstellung auf UTF-8 ist es, dass Pings, die von Blogs gesendet werden, die das Chartset ISO-8859-1 verwenden, nicht korrekt kodiert werden. Das Gleiche gilt für den umgekehrten Fall.

NB: pixelgraphix wird bis auf Weiteres noch das Chartset ISO-8859-1 verwenden.

Anmerkung: Es wird keine Haftung für Fehler oder Probleme übernommen, die auf Aussagen in diesem Tutorial zurückzuführen sind. Der vorliegende Text erhebt keinen Anspruch auf Vollständigkeit oder Fehlerfreiheit. Dies ist ein rein persönliches Tutorial, ich stehe nicht in Verbindung mit offiziellen Stellen und kann auch keinen offiziellen Support anbieten.

Werbeunterbrechung

Kommentare und Feedback (12)

Gravatar von macxmacx (#)
27.05.2005, 03:24

Ich habe vor kurzem Begonnen, alle Seiten, die ich erstelle, in UTF-8 zu kodieren, denn im Gegensatz zu ISO sind so auch die Briten in der Lage, Umlaute zu sehen. Da ich mit Zend Studio Pro programmiere, sehe ich die Umlaute auch in Klartext. Thema Blogs: Wer sichergehen möchte, dass Tracksbacks richtig kodiert angezeigt werden, sollte mal mit utf8_decode und utf8_encode (beides php) rumspielen.

Gravatar von Jörg PetermannJörg Petermann (#)
27.05.2005, 03:31

Die Zeichensatz-Problematik haben andere System wie z.B. Wordpress durchaus ebenso, nur halt nicht so krass. Ursache dafür ist aus meiner Sicht, dass die Produkte für den englischsprachigen Markt entwickelt wurden. Keiner hat dabei daran gedacht (oder doch?), dass es mal gar international anwendbar sein muss. Da gibt nicht nur für das Weblog, sondern auch alle Plugins etc.

MT3.16 dürfte dennoch für viele Anwendungen ausreichend viel Funktionalität bieten, nur muss man sich “etwas” mit dem tool beschäftigen. Aber auch Typo3 braucht jede Menge Einarbeitung. Kann mir nicht denken, dass man das in 2 Stunden gebacken bekommt.

@Manuela:

Du hast mit der Codierung ein wirklich kniffliges Thema angefasst. Schlecht dokumentiert habe ich selbst den einen oder anderen Punkt in mühevoller Detail-Arbeit erst herausbekommen.

Wichtig bei MT ist, dass das System IMMER mit DEM Zeichensatz in die Datenbank schreibt, der im Moment des Schreibens eingestellt ist. Wer da mit der mt.cfg nicht aufpasst, hat ganz schnell Salat in der Datenbank, der nur mit Mühe zu bereinigen ist.

Ich werde nach wie vor mein Weblog unter ISO-8859-1 fahren, auch wenn einige Trackbacks dann nicht so toll rüberkommen. Schließlich arbeite und lebe ich in Deutschland. Wenn es wirklich kritisch ist, schreibe ich die Umlaute anders oder leben damit. einfach persoenlich habe ich ja bereits darauf anpassen müssen, denn im Namen des Blogs macht sich da nicht so gut.

PS: Kennst Du eine Möglichkeit, wenn ich die Transformation (noch) auf dem PC machen will?

Gravatar von ManuelaManuela (#)
27.05.2005, 06:28

@David: Vielen Dank für die Information und den Tipp bezüglich utf8_encode und -decode. Das werde ich mir ansehen.

Ich finde, die Entscheidung, welches Charset zu verwenden ist, gar nicht leicht. Korrekterweise sollten wir wohl iso-8859-1 verwenden, UTF-8 macht von der Software her aber Vieles leichter.

@Jörg: iconv ist Bestandteil von Perl und sollte auch auf einer Windows Maschine mit Perl verfügbar bzw. installierbar sein.

Ich hatte schon eine Reihe anderer Tipps zur Konvertierung gelesen, wie z.B. das Öffnen als UTF-8 im Texteditor. Das klappte aber alles nicht. Nicht auf Windows und nicht am Mac.

Gravatar von Jörg PetermannJörg Petermann (#)
27.05.2005, 06:58

@Manuela: Die Erfahrung mit dem Texteditor musste ich auch machen, obwohl mir das geraten worden war.
Und dann gibt es irgenwo noch eine innere Stimme, die mich fragt, warum ich mich (eigentlich) überhaupt um solche Dinge Sorgen machen muss.(Stirnrunzel…)

Gravatar von Björn WolfBjörn Wolf (#)
27.05.2005, 11:59

Ich hatte mein MovableType 2.6 jetzt schon längere Zeit auf UTF-8, hab es jedoch vor kurzem wieder auf Latin-1 umgestellt, da komischerweise die Liste der Monats-Archive für Umlaute sehr komische Zeichen generiert hat. Da es mir zu anstrengend war an diesem MT-Gefrickel noch mehr rumzubasteln habe ich einfach nur das Publish-Charset geändert und die Umlaute kamen wieder richtig raus.

Auf MT3 steig ich erst gar nicht um, denn erstens würde es in einer gescheiten Version Geld kosten und 2. find ich Typo eh viel besser, weil Rails und Ruby einfach nur rocken :)

Muss nurmal die ganze Geschichte endlich portieren …

( Der “Erfinder” von UTF-8 gehört erhängt :)

Gravatar von ManuelaManuela (#)
27.05.2005, 12:41

Hallo Björn, ich hatte schon einige Versuche unternommen, aber der oben beschriebene Weg war der erste, der wirklich geklappt hat und schnell geht.

Die komischen Umlaute sind in MT3x behoben worden, aber Typo ist ja auch nett ;-) …

Gravatar von StefanStefan (#)
31.05.2005, 01:47

Ich lasse alle Seiten und Dokumente seit geraumer Zeit mit UTF-8 kodieren. Immerhin bietet es eine vereinheitlichte Zeichenanzeige “fast” weltweit.

Noch vor einiger Zeit war es so gut wie unmöglich mal ein hebräisches, japanisches oder ein Sonderzeichen in seine Seiten zu integrieren, ohne dass das gleich niemand mehr sehen konnte.

Und es hat wirklich keinen Spaß gemacht für ein Japanisches Zeichen irgendwelche kryptischen Kombinationen einzutippen.

Und diese ganzen eigenständigen Formate haben hoffentlich auch keine Zukunft mehr, oder wofür braucht man im Chinesischen 8 verschiedene Codierungen, im Japanischen 3… Die Unterschiede sind meistens eher gering zwischen den Sätzen.

Gravatar von TitingoTitingo (#)
03.06.2005, 10:22

bei einem ist noch vorsicht geboten – je nach konfiguration gibts webserver, die html standardmaessig als iso-8859-1 ausliefern, ist mir neulich bei einem provider passiert. eine textpattern-installation konnte ich trotzdem via htaccess auf utf-8 umstellen, bei MT ist mir das nicht gelungen.

das heisst dann: obwohl man utf-8 im meta-tag angegeben hat, wird iso-8859-1 rausgegeben, und zumindest im firefox ueberschreibt die apache-codierung die im meta-tag. das macht haessliche kaputte sonderzeichen. (den effekt kennt jeder, der mit gecko-browsern surft, man stoesst immer wieder auf webseiten mit zerschossenen umlauten)

von diesem einen provider abgesehen, laufen bei mir alle blogs mit utf-8, und haben damit auch nie probleme gehabt.

ciao,

-martin

Gravatar von ManuelaManuela (#)
04.06.2005, 11:49

Hallo Martin, danke für die Information. Daran hatte ich noch nicht gedacht.

Gravatar von TitingoTitingo (#)
05.06.2005, 02:26

yup, mich hat s auch ziiiiiiiemlich ueberrascht … ;·)

Gravatar von DominicDominic (#)
16.06.2005, 09:21

Bin selbst Mitentwickler der Blog Software bBlog und wir haben vor kurzem UTF-8 als Standardzeichensatz definiert.

Das macht einfach vieles einfacher, da fast alle Sprachen sofort damit funktionieren.

Eine Umstellung ist natürlich etwas problematisch, aber ich sehe keinen Grund bei Neuinstallationen von jeglicher Web Publishing Software noch einen anderen Charset zu nutzen.

Gravatar von Kaka35560Kaka35560 (#)
22.07.2006, 10:40

My mind is like a bunch of nothing, but I guess it doesn’t bother me. I haven’t been up to anything recently. I’ve pretty much been doing nothing to speak of.

Dieser Eintrag kann nicht mehr kommentiert werden.

Werbung

Vorheriger Artikel: Firefox wird noch praktischer, nächster Artikel: Kostenloses Iconset abzugreifen