Lingcam “言葉で現像するカメラ”は、言葉を元に写真を再構成するカメラである。言語設定ダイヤルによって指定された言語を元に、ChatGPTによって写真中の全ての構成要素を言語化したのち、その言葉を翻訳することなくそのままプロンプトとして用いて写真を生成する。 多くの画像生成AIは多言語対応が進んでおり、我々は意識することなく高性能な画像生成AIの恩恵を受けることができるが、 それは一度英語に翻訳されたプロンプトを経て生成されたものであり、最終的に英語によって画像が生成されるという言語のバイアスを受けたものである。 言語を翻訳せずにそのままプロンプトとして入力することで、生成に失敗することもあれば、言語がもつ背景を意識したような生成が実現することもある。 人は言葉を通して世界を認識していると言われるように、言語を明示的に機能としてもつカメラによって、言語のバイアスを明らかにした。
Lingcam, the "Language-only camera" is a camera that reconstructs photos based on words. Based on the language specified by the language setting dial, ChatGPT verbalizes all components of a photo, and then generates a photo using the words as prompts without translating them. Many image generation AIs are becoming multilingual, and we can benefit from high-performance image generation AI without even realizing it, but they are generated through prompts that are once translated into English, and are subject to language bias in that the image is ultimately generated in English. By inputting the language as a prompt without translating it, generation may fail, or it may be possible to generate something that takes into account the background of the language. As people are said to recognize the world through words, a camera that explicitly has language as a function has revealed language bias.