Schriftzeichen finden

Es ist schwer, ein Schriftzeichen in über 155129 Codepunkten zu finden. Diese Webseite versucht, das mit den folgenden Suchoptionen so leicht wie möglich zu machen:

Freie Suche: Drücke einfach auf „Suche“ oben oder nutze das Formular auf der Startseite und gib eine Anfrage ein. In vielen Fällen ist der gesuchte Codepunkt im Ergebnis.
Erweiterte Suche: Du kannst auf dieser Seite jede fragliche Unicode-Eigenschaft einstellen.
Der „Finde meinen Codepunkt“-Wizard: Beantworte eine Reihe Fragen, um zu deinem Schriftzeichen zu gelangen.

Wenn du das fragliche Schriftzeichen bereits hast, kopiere es einfach in die Suchbox. Sie bringt dich direkt zu seiner Beschreibungsseite.

Kennst du die Gestalt des Zeichens?

Du kennst keinen Namen oder andere EIgenschaften eines Codepunkts, aber sein allgemeines Aussehen? Keine Panik, auf Shapecatcher kannst du das Schriftzeichen malen und bekommst es erkannt. Das funktioniert erstaunlich gut für viele Zeichen.

Fortgeschrittene Optionen

Wenn du Unicode kennst und auch den groben Bereich, in dem sich der Codepunkt befinden könnte, kannst du den Bereich direkt in der URL angeben. Um zum Beispiel die Schriftzeichen im Bereich U+0200 bis U+0300 zu untersuchen, gib in der Adresszeile „codepoints.net/U+0200..U+0300“ ein..

Über Unicode

Computer verwenden 0en und 1en, um Information zu speichern. Um daraus nutzbare Information zu bekommen, in unserem Fall anzeigbaren Text, brauchen wir eine sogenannte Kodierung, die dem Computer sagt, wie diese 0en und 1en in ein Alphabet transformiert werden. Die erste standardisierte Kodierung war ASCII, das im Wesentlichen einfache lateinische Groß- und Kleinbuchstaben sowie Nummern und Interpunktion zuweist, alles in allem 128 Positionen. Das W3C hat eine sehr gute Einführung zum Thema Kodierungen veröffentlicht.

128 Positionen reichten nicht sehr lange. Viele Institute und Firmen begannen, ihre eigenen Kodierungen zu implementieren. 2010 gab es hübsche 250 Kodierungen in weitem Gebrauch, nicht enthaltend oskure oder privat verwendete. Diese Situation zeigte sich als katastrophal, als Computer anfingen, miteinander über das Internet zu reden. Wenn der Sender die Kodierung einer Nachricht nicht angab, war die Chance groß, dass der Empfänger nur einen Strom Unfug und Müll bekam.

Dann kam Unicode. Adobe und Xerox beschlossen 1984, dass diese Situation nicht weiterführen konnte, und dass der Bedarf an einem universellen Kodierschema besteht. 1991 erlebte die Veröffentlichung der ersten Version von Unicode mit der internationalen Standardisierung als ISO 10646 zwei Jahre später. (Detail am Rande: ASCII ist als ISO 646 standardisiert, die Nummer für den Unicode-Standard wurde absichtlich gewählt.) Zwischenzeitlich bildete sich das Unicode-Konsortium um die weitere Entwicklung des Standards zu leiten.

Die neueste Version von Unicode ist 16.0.0, beinhaltend 155129 Schriftzeichen in über 100 verschiedenen Schriftsystemen. Seine Kodierform UTF-8, eine Obermenge von ASCII, ist die populärste Kodierung weltweit und das Konsortium zählt Apple, Oracle, Microsoft, Google, IBM, Nokia und viele andere zu seinen Mitgliedern.

Unicode ist ein Mechanismus, um Schriftzeichen universell zu identifizieren. Alle Zeichen bekommen einen „Codepunkt“ zugewiesen, der stets auf sie verweist. Zum Beispiel erhielt der Buchstabe „A“ den Codepunkt 65, das chinesische Schriftzeichen „㐭“ den Codepunkt 13357. Codepunkte werden üblicher Weise in hexadezimaler Notation dargestellt, in der „A“ bis „F“ die Nummern 10 bis 16 repräsentieren.

Um die schiere Masse der möglichen 1.114.111 Codepunkte in eine nützliche Reihenfolge zu bringen, ist Unicode in 17 Ebenen unterteilt, die weiter in logisch zusammenhängende Blöcke geteilt sind. Es gibt zehn Prinzipien, die die Erweiterung und Pflege des Unicode-Standards leiten:

Universelles Repertoire: Jedes jemals verwendete Schriftsystem soll respektiert und im Standard repräsentiert werden
Effizienz: Die Dokumentation muss effizient und komplett sein.
Schriftzeichen, nicht Buchstaben: Nur Zeichen, keine Glyphen sollen kodiert werden. Um es kurz zu fassen, sind Glyphen die tatsächliche graphische Präsentation, während Zeichen das abstraktere Konzept dahinter sind. Glyphen ändern sich zwischen Schriftarten, Zeichen nicht.
Semantik: Eingebundene Zeichen müssen wohldefiniert und gegen andere abgegrenzt sein.
Reiner Text: Zeichen im Standard sind Text und zeichnen nie Metazeichen aus.
Logische Reihenfolge: In bidirektionalem Text sind die Zeichen in logischer Reihenfolge gespeichert, nicht in einer Art, die durch die Darstellung vorgeschlagen wird.
Vereinheitlichung: Wo verschiedene Kulturen oder Sprachen das gleiche Zeichen verwenden, soll es nur einmal eingebunden werden. Dieser Punkt ist eher umstritten, weil in Ostasien die Überschneidungen, auf die diese Regel zutreffen würde, nicht wirklich klar sind.
Dynamische Zusammensetzung: Neue Zeichen können aus anderen, bereits standardisierten Zeichen zusammengesetzt werden. Zum Beispiel kann das Zeichen „Ä“ aus einem „A“ und einem Trema aufgebaut werden.
Stabilität: Einmal definierte Zeichen sollen niemals entfernt oder anderen Zeichen zugeordnet werden. Im Falle eines Fehlers soll ein Codepunkt als veraltet ausgezeichnet werden.
Umwandelbarkeit: Jede andere verwendete Kodierung soll in einer Unicode-Kodierung abbildbar sein.

Über Codepunkte

Diese Webseite ist ein privates Projekt koordiniert von Manuel Strehl. Sie ist nicht mit dem Unicode-Konsortium verbunden oder von ihm freigegeben. Du kannst mich kontaktieren über:

Manuel Strehl
℅ Kinetiqa GmbH
Bischof-von-Henle-Str. 2a
93051 Regensburg, Germany

WWW: manuel-strehl.de/contact

ein Schild im Stil eines alten Holzbretts mit der Aufschrift „Come in. We’re Open Source.“

Der Inhalt auf dieser Seite

Der Inhalt dieser Webseite bildet die Information ab, die in
The Unicode Consortium. The Unicode Standard, Version 16.0.0, (Mountain View, CA: The Unicode Consortium, 2022. ISBN 978-1-936213-32-0)
www.unicode.org/versions/latest/,
gefunden werden kann. Dies ist die neueste Version des Unicode-Standards im November 2022.

Wenn du Probleme, Ungenauigkeiten, Bugs oder andere Dinge auf dieser Webseite findest, maile mir bitte oder öffne ein neues Ticket im Bugtracker. Der Quelltext für diese Seite ist live auf Github . Wenn du magst, forke den Code, verbessere ihn und schicke eine Pull-Anfrage. (Wenn du kein Github-Konto hast, sende den Patch bitte per E-Mail.)

Es gibt keine Garantie, dass der Inhalt auf dieser Seite akkurat, komplett und fehlerfrei ist! Für normative Referenzen beziehe dich bitte auf die Unicode-Webseite selbst.

Lizenz zur Wiederverwendung

Du darfst den gesamten Inhalt der Seite wiederverwenden, vorausgesetzt, dass du die folgenden Bedingungen einhältst. Die Information über Unicode ist vom Unicode-Konsortium unter den Unicode Terms of Use lizensiert. Der JavaScript-Teil enthält Bibliotheken unter verschiedenen Lizenzen, hauptsächlich GPL und/oder MIT-Lizenz. Siehe den Seitenquelltext für Details. Die grafische Darstellung verwendet Zeichen der folgenden Schriftarten:

GNU Unifont, veröffentlicht hauptsächlich unter der GNU Public License, teilweise unter einer freigebigen Wiederverwende-Lizenz
Historische Schriften von George Douros, veröffentlicht frei zur Wiederverwendung
MPH 2B Damase, veröffentlicht unter der GPL
Deja Vu, veröffentlicht unter der Bistream Vera-Lizenz

Die Bilder, die einzelne Unicode-Blöcke darstellen, sind der Schriftart Unidings von George Douros entnommen, unter einer freigebigen Lizenz veröffentlicht. Die Zitate aus der Wikipedia sind der Creative Commons Attribution Share-alike-Lizenz unterworfen. Details können der entsprechend bei jedem Zitat verlinkten Wikipediaseite entnommen werden. Die geografische Lokalisierung von Blöcken (im „Finde meinen Codepunkt“-Wizard verwendet) basiert auf der Kategorisierung auf decodeunicode.org, veröffentlicht unter der CC BY NC-Lizenz.

Der gesamte Code, der speziell für Codepoints.net geschrieben wurde, ist unter der GPL und MIT-Lizenz verfügbar, der Lizenznehmer wählt frei. Für diese Seite geschriebener Inhalt ist unter der Creative Commons Attribution 2.0 Germany-Lizenz veröffentlicht. Eine Attribution ist in diesem Fall ein einfacher Link zurück, optional mit dem Linktext „Basierend auf Information von Codepoints.net“ versehen.

Privatsphäre und Statistiken

Diese Seite nutzt Matomo, um Statistiken über Seitenaufrufe zu sammeln. Der einzige Zweck ist die Verbesserung dieser Webseite. Wenn du deine Besuche überhaupt nicht verfolgt haben möchtest, folge bitte diesen Anweisungen:

Zuschreibung & Danksagung

Zu Allererst möchten wir den Beitragenden des Unicode-Konsortiums danken, die daran arbeiten, einen essentiellen Teil der Computerarbeit zu standardisieren, die Anzeige von Schriftzeichen. Das gleiche gilt für die Wikipedia-Autoren, die Wissen über viele Teile des Schrift-Universums zusammentragen. Sie haben einen gehörigen Teil dieser Seite erst möglich gemacht.

Die polnische Übersetzung wird freundlicher Weise von Janusz S. Bień erstellt, in der er die Terminologie verwendet, die in seinem Paper „Standard Unicode 4.0. Wybrane pojęcia i terminy“ und den folgenden Veröffentlichungen eingeführt wurde.

Die Entwickler, die diese Seite mit ihrem Wissen, Fehlermeldungen und Eingaben unterstützen, haben wesentlichen Anteil daran, dass sie großartig bleibt. Wir möchten besonders den Leuten danken, die Code beigetragen haben:

Vielen Dank sagen wir auch zwei Seiten mit einem ähnlichen Ziel aber anderen Schwerpunkten in der Präsentation des Unicode-Standards: Decode Unicode und Graphemica.

Die WHATWG veröffentlicht einen Kodier-Standard, den wir für zusätzliche Kodierungs-Informationen für Codepunkte verwenden. Sein Haupt-Bearbeiter ist Anne van Kesteren.

Das Hosting geschieht auf Servern von Uberspace, einem fantastischen Provider mit extrem hilfreichem und flexiblem Support.

Die L^AT_EX-Bezeichner sind von www.w3.org/Math/characters/unicode.xml abgeleitet, gepflegt von David Carlisle und mit der MathML-Spezifikation des W3C verteilt.

Schriftarten

Viele Leute arbeiten basierend auf Unicode. Wir möchten den Autoren dieser Schriften danken, dass sie die Verwendung für dieses Projekt möglich gemacht haben:

Roman Czyborra, David Starner, Qianqian Fang, Changwoo Ryu und Paul Hardy für GNU Unifont
George Douros
Mark Williamson
Das Deja Vu-Projekt
Michael Everson für die Last Resort-Schriftart

Bildzuschreibung

Das Hintergrundbild auf der Startseite ist unter der Creative Commons Attribution-Lizenz von Flickr-Nutzer Willi Heidelbach veröffentlicht. Die Knopf-Hintergründe auf der Startseite sind gemeinfrei: Karte des Reichs von Karl dem Großen, Wünschelrutengänger aus dem 18. Jhd. und ein NASA-Marsrover.

Das „We’re Open Source“-Bild ist unter der Creative Commons Attribution Non-Commercial No-Derivations-Lizenz von Flickr-Nutzer tima veröffentlicht.

Die Icons sind Teil des Font Awesome-Iconsets.

Schließlich möchte ich Mathias Bynens dafür danken, dass er mich dazu gebracht hat, die Webseite endlich zu veröffentlichen.