Tuesday, April 22, 2008

Forschungsauftag und Unicode

Die Japaner sind mühsam. Schreiben OpenSource Software für Spracherkennung, statten das Ding mit einer Englischen Webpage aus und begehen dann folgende Fehler:

A: Die gesamte Dokumentation ist in Japanisch. In einem .doc Dokument. Muss ich M$ Office kaufen, damit ich eine Opensource Dokumentation lesen kann? Ist das ironisch?? Schon mal von Pdf gehört?

B: Das Programm verwendet kein Unicode. Für die Laien: Unicode ist ein Zeichensatz, welcher nicht nur 256 Zeichen (ASCII) umfasst, sondern etwas um die 65000. Damit genug für Japanisch, simplifiziertes Chinesisch, Koreanisch und noch ein paar weitere Sprachen. Die Idee davon war primär, dass man asiatische Sprachen auch auf unseren PCs verwenden kann und andersrum. Und natürlich ungewöhnliche regionale Sonderzeichen funktionieren. 256 Zeichen sind nicht viel. Ausserdem sind diverse ASCII-Codings vorhanden, welche die Zeichen 128-256 durch lokales Zeug ersetzen, und leider erkennt ein Programm nicht von selbst, um welches ASCII es sich handelt. Und natürlich ist genau das mein Problem: Die Japanischen Dateien (übrigens auch XML-Dateien, welche laut XML-Spezifikation Unicode sein müssten) sind allesamt in primitivem Japanisch-ASCII und somit versteht mein Englisches OS überhaupt nichts. Es findet nicht mal die Pfadnamen (da "\" durch "¥" ersetzt wird), geschweige denn, dass Spracherkennung auf "???????????" funktionieren würde...
Darum habe ich jetzt einen zweiten Rechner auf dem Tisch stehen, welcher ein Japanisches Windows XP installiert hat. Symptombekämpfung pur. Da erfindet die Welt einen Standard für die Japaner. Und wer benutzt ihn nicht? Die Japaner! AAAAAARRRRGGGGGHHH!!!

C: Mein Auftrag, vom Dozenten in etwa so formuliert: "Schreibe eine Software." - "Für was?" - "Weiss ich auch nicht." Ich muss nochmal nachfragen...

2 comments:

Anonymous said...

Ach weisst du.

Unicode ist sowie nur Schrott. Bei jeder Software gibt es Encoding Probleme, java hat sein eigene UTF-8 Format, besser wäre es man wäre einfach bei ASCII geblieben....

Kdansky said...

Genau das haben die Japaner ja gemacht. Sie verwenden japanisches ASCII, was die ganzen Probleme erst auslöst...