日本語・英語活字カラーOCRソフト「読取革命Ver.15」 プロモーションVTR
"推進派"が交代求め・・・原子力規制委「No.2」退任へ(14/05/27) ANNnewsCH
原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたとネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。
誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。
同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギリだったため、画像PDFをスキャンし、OCRソフトにかけてテキスト化したものをそのまま貼り付けたという。掲載時に目視で確認したが、「ト」と「ロ」が違うことに気づかずにアップしてしまったという。
ネットユーザーからの指摘を受け、6月9日に文字を修正。あわせて、同庁サイトのHTMLにほかに同様な間違い(「キ」と「千」のミス、「力」(ちから)と「カ」(カタカナのカ)のミスなど)がないかチェックしたところ、見つからなかったという。同庁の広報担当者は「こちらのミスで申し訳ない」と話している。
このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えてGoogle検索すると、関連のPDF資料が出てくることも話題になった。これらも画像PDFをOCRソフトにかけた際の変換ミスが原因とみられる。
「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正
ITmedia ニュース 6月10日(火)12時9分配信
http://headlines.yahoo.co.jp/hl?a=20140610-00000033-zdn_n-sci
誤字があったページ。10日までに修正されている
http://amd.c.yimg.jp/im_siggESLpjYJsMBCoaY.W30_4PQ---x450-y449-q90/amd/20140610-00000033-zdn_n-000-0-view.jpg
2014/06/10 13:45
普通漢字の卜(卜)なんて。。。考えられない!
2014/06/10 19:23
何処のOCRを使ったら漢字のボク「卜」なんて字になるのか?
本当にOCRで同じ動作を再現できるのか?
説明が不十分なままでは、嘘つき、隠蔽、陰湿、最古集団、反社会勢力の原子力ムラの組織と思われてしまいますね。
2014/06/10 13:36
(ばれたか・・・)
2014/06/10 15:22
ミスだとしたらこんな簡単なミスをやらかす会社に原発なんて任せられないので停止のままでお願いします
2014/06/10 16:33
停止させておく作業ですら任せられませんよ。www
2014/06/10 13:43
姑息な言い訳にしか聞こえない。
仮にOCR で読み取ったものであったとしても
補正、校正をかけるのは常識中の常識だよ。
故意に検索にかかりにくくしてあったことは明らか。
2014/06/10 18:36
OCRで読み取った透明テキストに、補正と校正をかけるとかどんな暇な会社だ。
OCRなんておまけ。
検索に使えることもあるから、ないよりましだよねってレベルで使うもの。
2014/06/10 14:04
印刷会社で、文字入力を担当していた際は、「OCRがよく間違える文字に色をつけるプログラム」を自作してチェックしていました。
カタカナは漢字とかぶる物が多いので特に注意が必要なので、カタカナ部分は水色の背景色がつくように工夫しました。こうすると、ロが漢字になっていたらば、その部分だけ背景色が途切れるので一目瞭然なのです。
お役所の皆さんは、チェックが甘すぎると思います。
2014/06/10 13:58
>資料が届いたタイミングがギリギリだったため、画像PDFをスキャンし、OCRソフトにかけてテキスト化したものをそのまま貼り付けたという。
サイト上に見出しの文字を入力するよりも、
画像PDFをスキャンして、
↓
OCRソフトにかけてテキスト化して
↓
htmlの該当箇所にコピー&ペースト
するほうが早いんだ(笑)。
紙媒体の資料を全てPDF化するなら分かるけど、PDFデータを検索しても「ぼく、くち」にはなってないんだよね。
2014/06/10 13:42
変換辞書の単語を教育しろw
つーかこれ
OCRの自動認識一択だろこれw
仮にも国家機関なら自動変換後に文書のバイナリチェックぐらいしろw
(表記で似てても仮名漢字コードでは全く別物w)
2014/06/10 15:14
この指摘をした人、よくわかったな?
2014/06/10 13:26
記事を読むまで意味が解らなかった。ようするに「カうどん」→「力うどん」(これも区別が付かんぞ)ってことね。
2014/06/11 00:08
卜口食いたい
2014/06/11 09:40
DELLの古いキーボードが「カタカナ」ではなく「カ夕カナ」だったようなもんか。
ゴシックだとわかりにくいね。
明朝だと多少マシだけど。
2014/06/10 18:13
まあ、ocrだよね。騒いでいる方がアホすぎる
2014/06/10 21:20
ウソつけ!
そんな低級な翻訳エンジンあるか!
2014/06/10 15:28
なんか、漢字悪〜い
2014/06/10 16:55
故意であろうとなかろうと、この程度の組織だから信用出来ないんだよな。
誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。
同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギリだったため、画像PDFをスキャンし、OCRソフトにかけてテキスト化したものをそのまま貼り付けたという。掲載時に目視で確認したが、「ト」と「ロ」が違うことに気づかずにアップしてしまったという。
ネットユーザーからの指摘を受け、6月9日に文字を修正。あわせて、同庁サイトのHTMLにほかに同様な間違い(「キ」と「千」のミス、「力」(ちから)と「カ」(カタカナのカ)のミスなど)がないかチェックしたところ、見つからなかったという。同庁の広報担当者は「こちらのミスで申し訳ない」と話している。
このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えてGoogle検索すると、関連のPDF資料が出てくることも話題になった。これらも画像PDFをOCRソフトにかけた際の変換ミスが原因とみられる。
「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正
ITmedia ニュース 6月10日(火)12時9分配信
http://headlines.yahoo.co.jp/hl?a=20140610-00000033-zdn_n-sci
誤字があったページ。10日までに修正されている
http://amd.c.yimg.jp/im_siggESLpjYJsMBCoaY.W30_4PQ---x450-y449-q90/amd/20140610-00000033-zdn_n-000-0-view.jpg
2014/06/10 13:45
普通漢字の卜(卜)なんて。。。考えられない!
2014/06/10 19:23
何処のOCRを使ったら漢字のボク「卜」なんて字になるのか?
本当にOCRで同じ動作を再現できるのか?
説明が不十分なままでは、嘘つき、隠蔽、陰湿、最古集団、反社会勢力の原子力ムラの組織と思われてしまいますね。
2014/06/10 13:36
(ばれたか・・・)
2014/06/10 15:22
ミスだとしたらこんな簡単なミスをやらかす会社に原発なんて任せられないので停止のままでお願いします
2014/06/10 16:33
停止させておく作業ですら任せられませんよ。www
2014/06/10 13:43
姑息な言い訳にしか聞こえない。
仮にOCR で読み取ったものであったとしても
補正、校正をかけるのは常識中の常識だよ。
故意に検索にかかりにくくしてあったことは明らか。
2014/06/10 18:36
OCRで読み取った透明テキストに、補正と校正をかけるとかどんな暇な会社だ。
OCRなんておまけ。
検索に使えることもあるから、ないよりましだよねってレベルで使うもの。
2014/06/10 14:04
印刷会社で、文字入力を担当していた際は、「OCRがよく間違える文字に色をつけるプログラム」を自作してチェックしていました。
カタカナは漢字とかぶる物が多いので特に注意が必要なので、カタカナ部分は水色の背景色がつくように工夫しました。こうすると、ロが漢字になっていたらば、その部分だけ背景色が途切れるので一目瞭然なのです。
お役所の皆さんは、チェックが甘すぎると思います。
2014/06/10 13:58
>資料が届いたタイミングがギリギリだったため、画像PDFをスキャンし、OCRソフトにかけてテキスト化したものをそのまま貼り付けたという。
サイト上に見出しの文字を入力するよりも、
画像PDFをスキャンして、
↓
OCRソフトにかけてテキスト化して
↓
htmlの該当箇所にコピー&ペースト
するほうが早いんだ(笑)。
紙媒体の資料を全てPDF化するなら分かるけど、PDFデータを検索しても「ぼく、くち」にはなってないんだよね。
2014/06/10 13:42
変換辞書の単語を教育しろw
つーかこれ
OCRの自動認識一択だろこれw
仮にも国家機関なら自動変換後に文書のバイナリチェックぐらいしろw
(表記で似てても仮名漢字コードでは全く別物w)
2014/06/10 15:14
この指摘をした人、よくわかったな?
2014/06/10 13:26
記事を読むまで意味が解らなかった。ようするに「カうどん」→「力うどん」(これも区別が付かんぞ)ってことね。
2014/06/11 00:08
卜口食いたい
2014/06/11 09:40
DELLの古いキーボードが「カタカナ」ではなく「カ夕カナ」だったようなもんか。
ゴシックだとわかりにくいね。
明朝だと多少マシだけど。
2014/06/10 18:13
まあ、ocrだよね。騒いでいる方がアホすぎる
2014/06/10 21:20
ウソつけ!
そんな低級な翻訳エンジンあるか!
2014/06/10 15:28
なんか、漢字悪〜い
2014/06/10 16:55
故意であろうとなかろうと、この程度の組織だから信用出来ないんだよな。
パナソニック 読取革命Ver.15 製品版 | |
パナソニック 2012-09-21 ランキング : 81 Amazonの商品情報を見る by amapola |
原発ホワイトアウト | |
講談社 若杉 冽 2013-09-12 ランキング : 1860 Amazonの商品情報を見る by amapola |