Articles of unicode

iconv: Conversione da Windows ANSI a UTF-8 con BOM

Voglio usare iconv per convertire i file sul mio Mac. L’objective è passare da “Windows ANSI” a “qualsiasi cosa che il Blocco note di Windows salva, se si dice di usare UFT8”. Questo è quello che voglio: anders-johansen-privats-macbook-pro:test andersprivat$ file names.csv names.csv: UTF-8 Unicode (with BOM) text, with CRLF line terminators Questo è quello che […]

Wchar_t è necessario per il supporto Unicode?

Il tipo wchar_t richiesto per il supporto Unicode? In caso contrario, qual è il punto di questo tipo multibyte? Perché dovresti usare wchar_t quando potresti realizzare la stessa cosa con char ?

Non è sulle macchine big endian l’ordine dei byte dell’UTF-8 diverso da quello delle macchine little endian? Quindi, perché allora UTF-8 non richiede una distinta base?

UTF-8 può contenere una BOM. Tuttavia, non fa alcuna differenza per quanto riguarda l’endianness del stream di byte. UTF-8 ha sempre lo stesso ordine di byte. Se Utf-8 memorizza tutti i punti di codice in un singolo byte, allora avrebbe senso perché endianness non ha alcun ruolo e quindi perché BOM non è richiesto. Ma […]

Java: Converti stringa “\ uFFFF” in char

Esiste un metodo standard per convertire una stringa come “\ uFFFF” nel carattere, il che significa che la stringa di sei caratteri contiene una presentazione di un carattere unicode?

È un letterale stringa di caratteri ampio che inizia con L come L “Hello World” garantito per essere codificato in Unicode?

Recentemente ho cercato di ottenere il quadro completo su quali passaggi è necessario per creare applicazioni C ++ indipendenti dalla piattaforma che supportano l’unicode. Una cosa che mi confonde è che molti howtos e roba equalizzano la codifica dei caratteri (cioè ANSI o Unicode) e il tipo di carattere (char o wchar_t). Come ho imparato […]

Leggi un file di testo UTF-8 con BOM

Ho un file di testo con il segno di ordinazione Byte (U + FEFF) all’inizio. Sto cercando di leggere il file in R. È ansible evitare il segno dell’ordine Byte? La funzione fread (dal pacchetto data.table ) legge il file, ma aggiunge ļ»æ all’inizio del nome della prima variabile: > names(frame_pers)[1] [1] “ļ»æreg_date” Lo stesso […]

Dovrei supportare Unicode nelle password?

Vorrei consentire ai miei utenti di utilizzare Unicode per le loro password. Tuttavia, vedo che molti siti non lo supportano (ad es. Gmail, Hotmail). Quindi mi chiedo se c’è qualche problema tecnico o di usabilità che sto trascurando. Sto pensando a qualcosa che deve essere un problema di usabilità dato che, per impostazione predefinita, .NET […]

“UnicodeEncodeError: il codec ‘ascii’ non può codificare il carattere”

Sto cercando di passare grandi stringhe di html casuale attraverso le espressioni regolari e il mio script Python 2.6 sta soffocando su questo: UnicodeEncodeError: il codec ‘ascii’ non può codificare il carattere Ho risalito a un apice del marchio alla fine di questa parola: Protection ™ – e mi aspetto di incontrare altri simili in […]

Come determinare se una stringa contiene caratteri codificati non validi

Scenario di utilizzo Abbiamo implementato un servizio web che i nostri sviluppatori di frontend web utilizzano (tramite php api) internamente per visualizzare i dati dei prodotti. Sul sito web l’utente inserisce qualcosa (cioè una stringa di query). Internamente il sito Web effettua una chiamata al servizio tramite l’API. Nota: utilizziamo il restlet, non il tomcat […]

Regex: cos’è InCombiningDiacriticalMarks?

Il seguente codice è molto noto per convertire i caratteri accentati in testo semplice: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll(“\\p{InCombiningDiacriticalMarks}+”, “”); Ho sostituito il mio metodo “fatto a mano” con questo, ma ho bisogno di capire la parte “regex” di replaceAll 1) Cos’è “InCombiningDiacriticalMarks”? 2) Dove è la documentazione di esso? (e simili?) Grazie.