UTF8Encoding.GetPreamble Methode
Definition
Wichtig
Einige Informationen beziehen sich auf Vorabversionen, die vor dem Release ggf. grundlegend überarbeitet werden. Microsoft übernimmt hinsichtlich der hier bereitgestellten Informationen keine Gewährleistungen, seien sie ausdrücklich oder konkludent.
Gibt ein Unicode-Bytereihenfolgezeichen zurück, das im UTF-8-Format codiert ist, wenn das UTF8Encoding Codierungsobjekt so konfiguriert ist, dass eins bereitgestellt wird.
public:
override cli::array <System::Byte> ^ GetPreamble();
public override byte[] GetPreamble();
override this.GetPreamble : unit -> byte[]
Public Overrides Function GetPreamble () As Byte()
Gibt zurück
Ein Bytearray, das das Unicode-Bytereihenfolgezeichen enthält, wenn das UTF8Encoding Codierungsobjekt so konfiguriert ist, dass eins angegeben wird. Andernfalls gibt diese Methode ein Bytearray der Länge Null zurück.
Beispiele
Im folgenden Beispiel wird die GetPreamble Methode verwendet, um das Unicode-Bytereihenfolgezeichen im UTF-8-Format zurückzugeben. Beachten Sie, dass der parameterlose Konstruktor UTF8Encoding keine Präambel bereitstellt.
using System;
using System.Text;
class Example
{
public static void Main()
{
// The default constructor does not provide a preamble.
UTF8Encoding UTF8NoPreamble = new UTF8Encoding();
UTF8Encoding UTF8WithPreamble = new UTF8Encoding(true);
Byte[] preamble;
preamble = UTF8NoPreamble.GetPreamble();
Console.WriteLine("UTF8NoPreamble");
Console.WriteLine(" preamble length: {0}", preamble.Length);
Console.Write(" preamble: ");
ShowArray(preamble);
Console.WriteLine();
preamble = UTF8WithPreamble.GetPreamble();
Console.WriteLine("UTF8WithPreamble");
Console.WriteLine(" preamble length: {0}", preamble.Length);
Console.Write(" preamble: ");
ShowArray(preamble);
}
public static void ShowArray(Byte[] bytes)
{
foreach (var b in bytes)
Console.Write("{0:X2} ", b);
Console.WriteLine();
}
}
// The example displays the following output:
// UTF8NoPreamble
// preamble length: 0
// preamble:
//
// UTF8WithPreamble
// preamble length: 3
// preamble: EF BB BF
Imports System.Text
Module Example
Public Sub Main()
' The default constructor does not provide a preamble.
Dim UTF8NoPreamble As New UTF8Encoding()
Dim UTF8WithPreamble As New UTF8Encoding(True)
Dim preamble() As Byte
preamble = UTF8NoPreamble.GetPreamble()
Console.WriteLine("UTF8NoPreamble")
Console.WriteLine(" preamble length: {0}", preamble.Length)
Console.Write(" preamble: ")
ShowArray(preamble)
Console.WriteLine()
preamble = UTF8WithPreamble.GetPreamble()
Console.WriteLine("UTF8WithPreamble")
Console.WriteLine(" preamble length: {0}", preamble.Length)
Console.Write(" preamble: ")
ShowArray(preamble)
End Sub
Public Sub ShowArray(bytes As Byte())
For Each b In bytes
Console.Write("{0:X2} ", b)
Next
Console.WriteLine()
End Sub
End Module
' The example displays the following output:
' UTF8NoPreamble
' preamble length: 0
' preamble:
'
' UTF8WithPreamble
' preamble length: 3
' preamble: EF BB BF
Im folgenden Beispiel werden zwei UTF8Encoding Objekte instanziiert, die erste durch Aufrufen des parameterlosen UTF8Encoding() Konstruktors, der keine BOM bereitstellt, und das zweite durch Aufrufen des UTF8Encoding(Boolean) Konstruktors mit dem encoderShouldEmitUTF8Identifier argument set auf true. Anschließend wird die Methode aufgerufen, um die GetPreamble BOM in eine Datei zu schreiben, bevor eine UF8-codierte Zeichenfolge geschrieben wird. Wie die Konsolenausgabe aus dem Beispiel zeigt, hat die Datei, die die Bytes aus dem zweiten Encoder speichert, drei mehr Bytes als die erste.
using System;
using System.IO;
using System.Text;
public class Example
{
public static void Main()
{
String s = "This is a string to write to a file using UTF-8 encoding.";
// Write a file using the default constructor without a BOM.
var enc = new UTF8Encoding();
Byte[] bytes = enc.GetBytes(s);
WriteToFile("NoPreamble.txt", enc, bytes);
// Use BOM.
enc = new UTF8Encoding(true);
WriteToFile("Preamble.txt", enc, bytes);
}
private static void WriteToFile(String fn, Encoding enc, Byte[] bytes)
{
var fs = new FileStream(fn, FileMode.Create);
Byte[] preamble = enc.GetPreamble();
fs.Write(preamble, 0, preamble.Length);
Console.WriteLine("Preamble has {0} bytes", preamble.Length);
fs.Write(bytes, 0, bytes.Length);
Console.WriteLine("Wrote {0} bytes to {1}.", fs.Length, fn);
fs.Close();
Console.WriteLine();
}
}
// The example displays the following output:
// Preamble has 0 bytes
// Wrote 57 bytes to NoPreamble.txt.
//
// Preamble has 3 bytes
// Wrote 60 bytes to Preamble.txt.
Imports System.IO
Imports System.Text
Module Example
Public Sub Main()
Dim s As String = "This is a string to write to a file using UTF-8 encoding."
' Write a file using the default constructor without a BOM.
Dim enc As New UTF8Encoding()
Dim bytes() As Byte = enc.GetBytes(s)
WriteToFile("NoPreamble.txt", enc, bytes)
' Use BOM.
enc = New UTF8Encoding(True)
WriteToFile("Preamble.txt", enc, bytes)
End Sub
Private Sub WriteToFile(fn As String, enc As Encoding, bytes As Byte())
Dim fs As New FileStream(fn, FileMode.Create)
Dim preamble() As Byte = enc.GetPreamble()
fs.Write(preamble, 0, preamble.Length)
Console.WriteLine("Preamble has {0} bytes", preamble.Length)
fs.Write(bytes, 0, bytes.Length)
Console.WriteLine("Wrote {0} bytes to {1}.", fs.Length, fn)
fs.Close()
Console.WriteLine()
End Sub
End Module
' The example displays the following output:
' Preamble has 0 bytes
' Wrote 57 bytes to NoPreamble.txt.
'
' Preamble has 3 bytes
' Wrote 60 bytes to Preamble.txt.
Sie können die Dateien auch mithilfe des fc Befehls in einem Konsolenfenster vergleichen, oder Sie können die Dateien in einem Text-Editor prüfen, der einen Hex-Ansichtsmodus enthält. Beachten Sie, dass die BOM nicht angezeigt wird, wenn die Datei in einem Editor geöffnet wird, der UTF-8 unterstützt.
Hinweise
Das UTF8Encoding Objekt kann ein Präambel bereitstellen, bei dem es sich um ein Bytearray handelt, das der Sequenz von Bytes vorangestellt werden kann, die sich aus dem Codierungsprozess ergeben. Durch das Vorfacieren einer Sequenz codierter Bytes mit einem Bytereihenfolgezeichen (Codepunkt U+FEFF) kann der Decoder die Bytereihenfolge und das Transformationsformat oder UTF bestimmen. Das Unicode-Bytereihenfolgezeichen (BOM) wird als 0xEF 0xBB 0xBF serialisiert. Beachten Sie, dass der Unicode-Standard weder die Verwendung einer BOM für UTF-8-codierte Datenströme erfordert noch empfiehlt.
Sie können ein UTF8Encoding Objekt instanziieren, dessen GetPreamble Methode eine gültige BOM auf folgende Weise zurückgibt:
Durch Abrufen des objekts, das UTF8Encoding von der Encoding.UTF8 Eigenschaft zurückgegeben wird.
Durch Aufrufen eines UTF8Encoding Konstruktors mit einem
encoderShouldEmitUTF8IdentifierParameter und Festlegen des zugehörigen Werts auftrue.
Alle anderen UTF8Encoding Objekte sind so konfiguriert, dass anstelle einer gültigen BOM ein leeres Array zurückgegeben wird.
Die BoM stellt nahezu bestimmte Identifizierung einer Codierung für Dateien bereit, die andernfalls einen Verweis auf ihre Codierung verloren haben, z. B. nicht markierte oder unsachgemäß markierte Webdaten oder zufällige Textdateien, die gespeichert wurden, wenn ein Unternehmen keine internationalen Bedenken hatte. Häufig können Benutzerprobleme vermieden werden, wenn Daten konsistent und ordnungsgemäß markiert sind.
Für Standards, die einen Codierungstyp bereitstellen, ist eine BOM etwas redundant. Es kann jedoch verwendet werden, um einem Server zu helfen, den richtigen Codierungsheader zu senden. Alternativ kann sie als Fallback verwendet werden, falls die Codierung andernfalls verloren geht.
Es gibt einige Nachteile bei der Verwendung einer BOM. Beispielsweise kann es schwierig sein, die Datenbankfelder zu beschränken, die eine BOM verwenden. Die Verkettung von Dateien kann beispielsweise auch ein Problem sein, wenn Dateien so zusammengeführt werden, dass ein unnötiges Zeichen in der Mitte der Daten enden kann. Trotz der wenigen Nachteile wird die Verwendung eines BOM jedoch dringend empfohlen.
Weitere Informationen zur Bytereihenfolge und zum Bytereihenfolgezeichen finden Sie im Unicode-Standard auf der Unicode-Startseite.
Von Bedeutung
Um sicherzustellen, dass die codierten Bytes ordnungsgemäß decodiert werden, wenn sie als Datei oder als Datenstrom gespeichert werden, können Sie dem Anfang eines Datenstroms codierter Bytes ein Präambel voranstellen. Beachten Sie, dass die GetBytes Methode keine BOM einer Sequenz codierter Bytes vorangestellt hat. Die Bereitstellung eines BOM am Anfang eines geeigneten Bytedatenstroms liegt in der Verantwortung des Entwicklers.