PR
AI・プログラミングchatGPTプログラミング

保育園連絡帳のデジタル化最前線:AI画像認識で実現する子育て記録の未来

はじめに

前回の記事から時間が経ってしまいましたが、子供の成長記録は日々増え続けるばかり。後回しにしても進まないので、改めてプロジェクトを再開しました。特にClaudeの進化が目覚ましく、プログラミングが爆速でできたり、Geminiの画像認識が恐ろしいほど上がっていて、前回よりも格段に効率的に作業ができるようになりました。

なぜデータ化するのか?という点に関して改めて考えると、AIが進化しても絶対に機械化できないことは人の行動による結果とその事実です。簡単に言うと、このような成長記録だったり、アナログの手帳だったりは人が生きていた証でもあるような気がします。大人になって使うものは、大切に何かしらの媒体で保管されていますが、小さな子供は保存する術がなく、後から見返したときに、些細なデータであってもデジタル化しておくことが将来的に面白いことになりそうだと思っているからです。

データがたくさんあって整理するのが面倒という点を今後AIがやってくれるようになると思うので、そうなった先の未来を見据えて、いろいろと遊びながらやっていこうと思っています。

連絡帳デジタル化のステップと工夫

1. 連絡帳から外枠を適切に取り込む

  • 連絡帳は裁断しない
    連絡帳は厚みがあるためページによって膨らみがあり、完璧な撮影は難しい状況です。漫画の自炊のように裁断する方法もありますが、連絡帳自体のアナログとしての価値も残したいと考えました。
  • スマホで簡単に撮影
    今回は特別な機材を使わず、片手でスマホを持ちながら撮影するという条件で進めました。AIの進化に期待して、多少の歪みや角度があっても処理できるだろうと判断しました。

2. 文字起こしの難関

実際は以下のようになっています。

実際は以下のようになっています。 連絡帳の文字起こしには様々な課題がありました:

  • 人間の目でも判読困難な文字:手書きなので文字精度が一般的なOCR技術では対応できません。柔軟に判断するAIが確実に必要です。
  • 表がびっしり入っていて構造が複雑:表のテンプレートはあるので、それをあてはめれば表の項目位置はかなりの精度で作れると思いますが、手書きのため枠をはみ出していたり枠外に書かれていたりと様々な例外があり、文字の精度が100%だとしても、切り抜いた場所に欠損があるようなら正確な文字起こしができません。
  • 文章部分と項目部分の区別が不明確:文字精度、表のレイアウト問題がクリアになったとしても、次は位置関係です。エクセルのように計算するように綺麗にまとまっておらず、直感的にこの部分はつながっていると判断する必要があり、これをプログラムで書こうとするとかなり面倒です。セル1+セル2+セル3が一文章のようなプログラムをたくさん書く必要があったりします。

実際に、LLMに頼んでテーブルごとにプログラムを書いてもらいましたが、実用にならなかったため、今回はプログラムは外枠の部分だけ検出し、台形補正などである程度整える程度にとどめ、画像添付のLLM解析で文字お越しをするというアプローチにすることにしました。

実際に、LLMに頼んでテーブルごとにプログラムを書いてもらいましたが、実用にならなかったため、今回はプログラムは外枠の部分だけ検出し、台形補正などである程度整える程度にとどめ、画像添付のLLM解析で文字起こしをするというアプローチにすることにしました。

ちなみに外枠テーブル部分の切り出しはこちらにアップしておきます。 https://github.com/hiirofish/table-outline-detection


結果は以下になります。



各LLMの比較結果

以下の画像を文字起こし実際にやってみて、どのLLMが良いかを比較してみます。
プロンプトは「生活状況の項目にある文章を文字起こしをしてください。文章として成り立つようにして。」のようなものです。

結論からいうと、前回はchatGPTが良かったのですが、今回はGeminiがダントツでした。この半年で様々なLLMが進化してるようですね。

正解データ

これは実際に目で確認したものです。手書きなので瞬読できない内容もありそこそこ大変だと改めて思いました。

風邪症状、特段悪化はしないものの、長引いています。。。><。
今朝でも機嫌よいですが食欲は無いのか遊んでばかりでした。

園ではよく食べていました。早く体調が万全になるといいですね。ーー)。
今日はお散歩にいきました。お友だちと一緒にねこじゃらしを取ったり、近所の犬をみつけて、”わんわん!!”と言ったりとても楽しそうでした。

Claude Sonnet 3.7

文章としてうまく成立していません。

風邪症状、熱なしにはしかものもお治まっています。今朝でも検温。よいですが食欲不振気味か、体調でばかりです。

園での食事でています。午しく食間をかけて食べています。午前・午後にうさぎさん ろばにお散歩にでました。おあそびで一緒に せみとりをしました。外あそびをとおして”ワンツー”とまねたりとって楽しんでいました。

Chat Gpt4o

後半はかなりのハルシネーション(幻覚)ですね。今回は文字認識されたものと、文章補正を一度にやっていませんが、文字認識がうまく行っていない気がします。

風邪の症状で咳が出ていましたが、それを気にする様子もなく走り回っているのをよく見かけました。
うがいの際には、「大きな咳が出ているので、食後は無口で、ほかの人とは遊ばないでね」と自分で話していました。

困っていることを伝えようとする際に、以前の会話を思い出し、それをもとにして自分なりに考えたことを、しばらく時間をかけてから言葉にしていました。
(例:うがいをしていたので、遊びに行けないと思ったようです。)
とても一生懸命に考えていました

Gemini 2.5 pro

かなり精度が高いです。文章の意味としても近いものになっています。

風邪症状、特に変化なし。咳はしないものの、長引いています。
今朝とても機嫌よいですが、食欲は無いのか、近頃遊んでばかりでした。

園ではよく食べていました。早く給食になるといいですね。今日はお散歩に行きました。おみやげを手にねこじゃらしを取ったり、近所の犬を見つけて「ワンワン!!」と言ったり、とても楽しそうでした。

まとめ

外枠だけプログラミングで抽出し、難解だった「表の認識」「文字の認識」「文の関係性」という三つの課題を一度に解決するためにLLMを採用。その中で、Geminiが優れていることがわかりました。Google Cloud Visionは手書きにも強くて有名ですので、Geminiにかなり取り込まれているのではと推察しますが、世の中が急速に便利になっていくのを改めて実感しました。

Claudeの紹介リンクを書いておきますので、興味あれば使ってみてください。

https://claude.ai/referral/b-Hr0uP76g

次回はこのデータを活用する方法を記事にできたらと思います。前回記事は以下です。(リンク先を記載)

https://take1bit.com/computer-ja/hoiku_ocr/
タイトルとURLをコピーしました