つかびーの技術日記

情報系修士卒のWeb系技術日記です。現在のフォーカス分野はアドテクです。

SparkSQLで文字列型を日付型に変換する

   

SparkSQLで日付文字列を日付型に変更する方法のメモです。

Processing JSON data with Spark SQL

こことか参考になりますが、スキーマを事前に与えたく無いケースもあります。

スキーマはJSONを読み込ませた時に自動で構築させて、あとから特定のフィールド(列)だけは、日付型にしたい、そんなときはどうすれば良いか。

答えはwithColumnとcastでした。

例えばこうするとDataFrameは構築できますが、timeはstringです。

ここでcastを入れると

ちゃんとtimestampになりました。

TimeZoneが気になる場合もあるでしょう。その場合はto_utc_timestampを使うと良いようです。

SparkSQL便利ですね!

 - Spark , ,