やめられないやめられない

3日坊主、先送り~

PG言語比較:charsetとencoding

注意! 自分用の雑な記事。

ファイルエンコーディングスクリプトエンコーディング)のデフォルト設定

Ruby

Ruby 2.0.0以降はUnicodeUTF-8

python

Python 3.0以降はUnicodeUTF-8

JavaScript(Node.js)

UnicodeUTF-8

Java

デフォルト設定はOSのコードページ
コンパイル時に指定することが可能

'C#'

BOM*4が入っていれば自動判定してUTF-8として読み込む BOMがない場合で、OSの既定の文字コードを取得できた場合はそれを使う .NET Coreなど、OSの既定の文字コードも取得できなかった場合はLatin-1を使う
Unicodeと、C#での文字列の扱い - Build Insider

Go

UnicodeUTF-8

Rust

UnicodeUTF-8

Scala

UnicodeUTF-8


内部エンコーディング(文字リテラル

Ruby

スクリプトエンコーディングと同じ
UnicodeUTF-8

python

UnicodeUTF-8

JavaScript(Node.js)

UnicodeUTF-16

Java

UnicodeUTF-16

'C#'

UnicodeUTF-16

Go

UnicodeUTF-8

Rust

UnicodeUTF-8

Scala

UnicodeUTF-16


その他メモ(忘れたとき用キーワード)

JIS
Unicode

ISO-2022-JP
Shift_JIS
Windows-31J
UTF-8
UTF-16

ASCIIやISO/IEC 8859のような符号化文字集合はそれ単体で運用されることが多いが、EUC-JPやShift_JISUTF-8のように2つ以上の符号化文字集合を組み合わせたり変形したりして運用される文字コードがある。そこで、符号化文字集合を組み合わせて運用する方式を指して文字符号化方式という言葉が使われることがある。
文字集合 - Wikipedia


さらにその他
CCSID 37:EBCDIC
CCSID 500:EBCDIC
CCSID 5026:EBCDIC
CCSID 5035:EBCDIC
JIS X 0213EUC-JP
JIS X 0208Shift_JIS


参考

文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.

多言語化 (Ruby 3.1 リファレンスマニュアル)

Unicode HOWTO — Python 3.6.15 ドキュメント

文字列とUnicode · JavaScript Primer #jsprimer

https://murashun.jp/blog/20200410-09.html

Unicodeと、C#での文字列の扱い - Build Insider

scalastringcourseday3/theory.md at master · ynupc/scalastringcourseday3 · GitHub

Scalaの文字列処理