정치 뉴스

AI가 추천하는 포털 뉴스“결국 사람이 만드는 것..공정할 수 없어”

메디아 2021. 5. 27. 12:59
728x90
반응형

[인터뷰 제6공장]

AI가 추천하는 포털 뉴스

“결국 사람이 만드는 것..공정할 수 없어”

- 박태웅 의장 (한빛미디어)

 

▶ 김어준 : 인공지능 이야기를 저희가 일주일 전에 했습니다. 한빛미디어의 박태웅 의장님과 함께 구체적인 적용 사례를 가지고 오늘 좀 이야기를 더 이어 가보겠습니다. 박태웅 의장님 나오셨습니다. 안녕하십니까.

 

▷ 박태웅 : 안녕하십니까.

 

▶ 김어준 : 지난 시간에 일반인들이 가장 쉽게 접근할 수 있는 인공지능이 적용되는 분야가 포털인데 포털의 뉴스를 인공지능 알고리즘에 의해서 선택한다고 하니까. 그 이야기 들어가려고 하다가 시간이 의도적으로 없어서 1회 출연 분량을 더 확보하시고. 이제 포털에 적용되는 인공지능 이야기를 여쭤볼까 하는데. 이 관련해서는 MBC 스트레이트가 연초에 연속 시리즈를 보도를 했었어요. 

 

▷ 박태웅 : 맞습니다. 

 

▶ 김어준 : 여러 가지가 보도했었는데 가장 쉽게 접근해서 이건 납득이 안 된다고 하는 찾아낼 수 있는 지점이 뭐냐 하면 MBC 스트레이트가 포털에서는 개인에 최적화된, 개인 성향이 반영된, 학습된 그런 결과를 뉴스 노출을 해 준다, 개인이 로그인을 하면. 그래서 MBC 스트레이트에서 무슨 실험을 했냐 하면 아이디를 완전히 새로운 걸 만든 다음에 진보적인 매체 경향, 한겨레만 오로지 클릭한 아이디. 그러니까 포털의 이야기대로라면 이 사람은 주로 진보적인 매체를 클릭해서 보는구나하고 학습했었어야 되는 것 아니겠습니까?

 

▷ 박태웅 : 예.

 

▶ 김어준 : 그런데 그렇게 특정 기관을 훈련을 시킨 다음에, 학습을 시킨 다음에 이 아이디로 로그인했을 때 어떤 뉴스를 추천해 주는가 봤더니 경향, 한겨레는 전혀 노출되지 않고 여전히 그런 학습하고 상관없이 그냥 보수 매체들을 추천해 주더라는 겁니다. 그래서 이게 도대체 무엇을 학습한다는 것인가. AI가 실제로 학습해서 노출해 주는 게 맞긴 맞는가. 이런 의문을 제기했었죠. 이게 어떻게 된 겁니까?

 

▷ 박태웅 : 충분히 의심해 볼 만한 사례라고 생각을 하는데요. 사실 포털의 뉴스 알고리즘에 관해서는 세 가지 이야기를 할 수 있습니다. 우선 들어가기 전에 뉴스 알고리즘 추천 알고리즘은 뭘까. 기술적으로 짧게. 아, 이런 게 있구나 정도로만 이해를 하시면 되는데요. 뉴스 배열에 대해서 알고리즘을 쓴다면 그건 추천 알고리즘일 가능성이 굉장히 높습니다. 추천 알고리즘이 내용 기반 알고리즘이 있고 협업 필터링 기반이 있어요. 내용 기반은 스포츠 기사다 정치 기사다 사회 기사다 이런 식으로 분류해서 맞춤 추천을 해 주는 건데. 

 

▶ 김어준 : 그러니까 스포츠를 많이 보는 사람한테 스포츠를 추천해 주는 내용 기반.

 

▷ 박태웅 : 그렇죠. 너 야구 좋아하는구나, 이런. 그다음에 협업 필터링은 가장 가까이 있는 이웃 기반하고 잠재 요인 기반으로 나눌 수 있어요. 이게 좀 말은 어려운데 쉽게.

 

▶ 김어준 : 실례로 들어서 설명해 주십시오.

 

▷ 박태웅 : 가장 가까운 이웃 기반은 상품 기반이나 사용자 기반이에요. 그러니까 상품 기반은 이 상품을 산 사람이 가장 많이 같이 산 상품이 이거야. 

 

▶ 김어준 : 아, 마켓에서 주로 나오죠.

 

▷ 박태웅 : 네, 익숙하시죠. 

 

▶ 김어준 : PC를 샀다. 이 PC를 산 사람은 이 마우스를 봤습니다. 

 

▷ 박태웅 : 그렇죠. 밑에 몇 개 쭉 붙잖아요.

 

▶ 김어준 : PC 사면 마우스 살 것 같으니까.

 

▷ 박태웅 : 그게 상품 기반이고, 사용자 기반은 너하고 비슷한 사람은 이런 상품을 주로 사더라. 

 

▶ 김어준 : 당신 연령대 혹은 어디 사는 혹은 프로필을 쭉 보고 당신 같은 사람은 이걸 많이 샀어.

 

▷ 박태웅 : 네.

 

▶ 김어준 : 아, 그런 거구나. 

 

▷ 박태웅 : 그리고 잠재 요인 기반은 숨겨진 패턴을 찾아서 너 이거 좋아할 거야, 이런 거. 

 

▶ 김어준 : 그러니까 알 수 없는 로직인데 어떤 로직에 의해서 이런 사람들은 이걸 주로 사는 경향이 있더라. 

 

▷ 박태웅 : 너 이런 것 좋아할 것 같아.

 

▶ 김어준 : 인공지능이 패턴을 찾아내는 거죠. 

 

▷ 박태웅 : 네. 그러니까 포털의 뉴스 추천 알고리즘 편향성 이슈가 되는데 네이버와 다음이 전부 이렇게 이야기를 해요. 알고리즘이 자동으로 추천을 할 뿐이지 사람이 관여하고 있지 않다. 

 

▶ 김어준 : 그렇게 말하죠. 더 이상 따질 수 없이 딱 막아 버려요, 거기서.

 

▷ 박태웅 : 이게 가능한 이야기인가를 한번 짚어 볼게요.

 

▶ 김어준 : 뉴스를 과연 지금 알고리즘, 내용 기반 혹은... 뭐라고요? 

 

▷ 박태웅 : 협업 필터링.

 

▶ 김어준 : 어려운 말이네요. 원래 원어가 영어일 텐데 뭡니까?

 

▷ 박태웅 : collaborative filtering. 다른 사용자들이 쓴 걸 참고한다 이런 뜻이에요. 

 

▶ 김어준 : collaborative filtering. 이 두 가지로 뉴스를 과연 필터링할 수 있느냐. 

 

▷ 박태웅 : 네. 그러니까 인공지능으로 고양이를 인식할 수 있게 학습을 시킨다고 해 봅시다. 그러면 내가 고양이 사진을 20만 장을 갖고 있으면 학습에는 14만 장 정도만 넣어야 돼요. 왜냐하면 이게 학습을 제대로 했는지 안 했는지를 비교할 비교 데이터 셋이 있어야 되잖아요. 

 

▶ 김어준 : 그렇죠.

 

▷ 박태웅 : 20만 장을 다 넣어 버리면 검증할 데이터 셋이 없어요. 

 

▶ 김어준 : 그렇죠. 왜냐하면 다 고양이로 인식된 데이터니까. 

 

▷ 박태웅 : 다 본거니까. 

 

▶ 김어준 : 그러니까 14만 장만 넣고 14만 장을 기준으로 학습한 다음에 나머지 6만을 고양이로 보느냐. 

 

▷ 박태웅 : 그렇죠. 그래서 비교 셋이 있어야 되거든요. 가령 뉴스를 공정하게 추천하는 알고리즘이라고 말할 수 있으려면 공정하게 추전하려면 이런 모습일 거야라는 모델이 있어야 되는 거예요. 그래야 공정하게 나올 거 아니에요?

 

▶ 김어준 : 그렇죠.

 

▷ 박태웅 : 그럼 그 모델을 누가 만들어요? 

 

▶ 김어준 : 그러니까 말이죠.

 

▷ 박태웅 : 사람이 만들잖아요. 그런데 사람이 관여하고 있지 않다? 이건 사실은 기술에 대해서 굉장히 진지한 엔지니어라면 절대로 하지 않을 말이에요. 

 

▶ 김어준 : 사람이 어떻게 관여를 안 합니까? 기준을 사람이 정하는데. 

 

▷ 박태웅 : 그러니까 이건 제 생각에 이런 말 한 사람은 엔지니어가 아니었을 거라고 생각해요. 

 

▶ 김어준 : 그건 아마 포털에 대해서 문제 제기 하는 사람이 많으니까 정무적으로 이렇게 답하면 더 이상 합의하기 어렵다, 그 선을 만든 거겠죠. 

 

▷ 박태웅 : 기술적으로 전혀 옳지 않은 답이다. 두 번째로는 MBC사 보도 프로그램 스트레이트 결과에 대해서 다음 쪽에서는 편중 현상에 대해서 인지는 하고 있다. 시인을 했어요. 그런데 구체적인 알고리즘 개편 계획은 가지고 있지 않다. 

 

▶ 김어준 : 가지고 있지 않다. 편중이 있으면 개편을 해야죠.

 

▷ 박태웅 : 굉장히 이상한 말이에요. 

 

▶ 김어준 : 편중이 있으면 개편을 해야죠. 

 

▷ 박태웅 : 네이버 같은 경우는 사람이 관여하고 있지 않다, 이렇게 이야기했죠. 

 

▶ 김어준 : 아예. 거기는 철벽 방어예요. 

 

▷ 박태웅 : 네. 그런데 이건 사실은 이 기사를 본 사람이 많이 본 기사라든지 당신과 비슷한 사람이 많이 본 기사라든지 결과가 그렇게 나오기는 굉장히 어렵죠. 그러니까 합리적 의심을 풀어 볼 만한 거예요. 

 

▶ 김어준 : 그러니까 지금 개발되어 있는 AI의 필터링 방식이라는 게 스포츠 좋아하는 사람은 스포츠 추천, 이건 이해가 가요. 

 

▷ 박태웅 : 그렇죠.

 

▶ 김어준 : 그런데 그건 그냥 스포츠 섹션이 있으니까 누르면 되는 거거든요. 그런데 이제 실제 내용을 기반해서 당신과 같은 사람이 많이 본 뉴스. 기준이 어디 있습니까, 그런 게? 

 

▷ 박태웅 : 그러니까. 

 

▶ 김어준 : 대구에 산다고 해서 꼭 보수적인 기사만 보는 것도 아니고, 20대라고 해서 특정 성향의 뉴스만 본다는 보장은 없잖아요, 전혀. 그러니까 그것도 어렵고. 

 

▷ 박태웅 : 개인화를 하려면 이 사람이 클릭했던 그 과거 이력이 입력 데이터가 되는 거거든요. 그걸 기준으로 해야 되니까.

 

▶ 김어준 : 그런데 경향과 한겨레만 클릭을 내리 그것만 했는데 정작 조선일보를 추천해 주니까 이게 어떻게 됐냐 이거죠. 의심할 수밖에 없지. 

 

▷ 박태웅 : 궁금할 만하죠. 지난주에 소개했던 미국연방거래위원회에서 기업 인공지능 기술을 개발하는 과정에서 어떻게 진실성, 공정성, 형평성을 추구해야 할 거냐. 지침이 이렇게 되어 있어요. 인공지능 모형을 적용한 결과 불공정하거나 차별적 상황이 발생하지 않는 데 대해서 끊임없이 모니터링을 해야 된다. 투명성과 개방성을 확보해야 한다. 개별 기업이 자신의 인공지능 기술이 공정하다거나 편향이 없는 결과를 가져온다는 식으로 과장된 언급을 해서는 안 된다. 

 

▶ 김어준 : 그렇게 언급하고 있는데, 지금.

 

▷ 박태웅 : 문제가 발생하면 책임을 질 준비를 해야 한다. 이게 4대 원칙이에요.

 

▶ 김어준 : 다 걸리네요, 지금. 

 

▷ 박태웅 : 다음과 네이버 여기에 다 걸리죠. 이런 경우에 입증 책임을 기업이 져요. 

 

▶ 김어준 : 당연하죠. 

 

▷ 박태웅 : 그리고 투명성과 개방성을 확보해야 된다는 게 어떤 의미냐 하면 같은 조건에서 실험을 실시해서 알고리즘이 공정하다는 걸 입증할 책임을 진다는 뜻이에요.

 

▶ 김어준 : 그러니까 지금 그 포털은 대단히 방어적이고 폐쇄적으로 우리는 문제없다고 하고 있으니까 언론사가 나서서 정말 그런지. 언론사가 제한적으로 실험할 수밖에 없죠. 시간도 제약이 있고 자원도 제약이 있고. 그런데 MBC 스트레이트에서 했던 실험은 조건을 굉장히 제한적으로 했어요, 실제로. 아이디도 새로 만들어서 오염되지 않게 만들고, 그리고 그 뉴스를 굉장히 극단적으로 한쪽 편향으로 보고, 그 극단적인 편향이 실제 반영이 되나. 처음에 스트레이트에서는 그렇게 걱정했다잖아요. 한겨레하고 경향만 계속 클릭한 다음에 한겨레, 경향만 계속 보여 줄 것 같아서 걱정했는데 결과는 상상도 못 하게 아무리 한겨레, 경향 기사를 봐도 추천하는 기사는 다, 노출되는 기사는 다 보수 매체였다는 것 아닙니까? 거기는 엄청난 문제 제기가 가능한 거죠, 여기서. 

 

▷ 박태웅 : 네. 그것에 대해서 입증할 책임은 다음과 네이버 쪽에 있어요. 

 

▶ 김어준 : 그런데 저는 개인적으로 그래서 그 결과를 보고 어떤 의심을 했냐 하면 정말 AI가 성향을 그리고 어떤 기사를 봤는지를 체크해서 노출해 주는 거라면 이렇게 나올 리가 없으니까 거기 중간에 사람 팩터가 들어간 것 아니냐. 의심할 수밖에 없는데. 어떻게 보십니까? 

 

▷ 박태웅 : 그런데 스트레이트에서 한 것 자체가 데이터량이 그렇지 많지는 않아서 그것만 가지고 단정할 수는 없어요. 그런데 다음 같은 경우에 편향성을 알고 있지만 고칠 계획이 없다, 이 태도는 대단히 문제가 있는 게 이게 뭐하고 똑같냐 하면 내가 지금까지 판 자동차에서 브레이크 하자가 있다는 걸 내가 알겠는데 리콜은 못 하겠다, 이런 이야기하고 같은 거예요. 

 

▶ 김어준 : 그런데 저는 다음이 오히려 낫다고 보는 게 편향을 인정했잖아요, 최소한. 브레이크 고장 났다는 건 인정을 했는데 네이버는 우리 브레이크는 고장이 없다는 것 아닙니까? 

 

▷ 박태웅 : 사실 둘 다 좀 이상하죠. 그래서 해외에서는 그럼 어떻게 하고 있을까. 

 

▶ 김어준 : 한 가지 더 질문을 드릴게요. 이것도 AI가 포털의 뉴스 노출을 결정한다고 항상 그런 데 대해서 제가 가진 의문인데 예를 들어서 정상회담을 했습니다. 정상회담이 얼마나 중요한지에 따라서 그 정상회담과 관련된 뉴스의 배치 또는 노출 숫자, 이런 것들이 연동해서 결정될 것 아닙니까? 정상회담을 어제 해서 오늘 나온 뉴스를 포털이 뉴스 배치해야 되는데 AI가 그걸 어떻게 알죠? 제가 이해가 안 가는 건 그거예요. 다 AI가 했다고 하는데 도대체 AI가 그전에 아무런 데이터가 없는데 이번 한미 정상회담의 결과는 이번 처음에 나온 건데 처음 나온 결과, 학습한 적도 없어요. 그걸 가지고 AI가 이번 정상회담은 별로 중요하지 않기 때문에 뉴스 하나만 노출해라라든가 이번 정상회담과 관련해서 가장 중요한 뉴스는 부통령이 손을 닦은 거니까 그걸 영상으로 노출해라라든가. AI가 그걸 어떻게 결정한다는 겁니까? 

 

▷ 박태웅 : 사실 추천 알고리즘이 그런 걸 다 해 주지는 못합니다. 

 

▶ 김어준 : 그래서 저는 사람이 한 것 아닌가 끊임없이 의심하고 있는데.

 

▷ 박태웅 : 처음에 모델 만들 때부터 사람이 들어갈 수밖에 없는 거죠. 

 

▶ 김어준 : 모델도 그렇지만 뉴스라는 건 비슷한 뉴스들이 계속 나왔을 때는 어느 정도 이해할 수 있을지도 모른다, 이렇게 생각하다가도 전혀 새로운 뉴스가 나오는데 그 밸류를 어떻게 AI가 결정해서 자기가 노출을 결정하냐고요. 

 

▷ 박태웅 : 그러게 바로 넷플릭스하고 뉴스의 차이점인데요. 넷플릭스가 인공지능을 적용하기가 쉬운 이유는 갖고 있는 영화 데이터는 안 바뀌잖아요. 새로 영화가 조금씩 붙지. 

 

▶ 김어준 : 그렇죠.

 

▷ 박태웅 : 얘는 이게 안 바뀌기 때문에 적용하기가 되게 쉽고 좋아요. 

 

▶ 김어준 : 과거 본 영화를 베이스로 해서 좀비 많이 봤네 그럼 좀비 추천하고 할 수 있죠. 

 

▷ 박태웅 : 그런데 뉴스는 쌓이는 게 없지 않습니까? 

 

▶ 김어준 : 새로운 뉴스인데.

 

▷ 박태웅 : 매일 새로운 게 나오죠. 그러니까 사실 추천 알고리즘으로 100% 하고 있다는 말은 굉장히 믿기는 어려운 말입니다. 

 

▶ 김어준 : 포털에 어떤 뉴스를 얼마만큼 어떤 위치에 노출하느냐를 다 AI가 한다는 걸 저는 도저히 믿을 수가 없거든요. 

 

▷ 박태웅 : 사실 저도 그렇게 생각합니다. 

 

▶ 김어준 : 이게 어떻게 가능한가. 정상회담을 했는데 가장 중요한 뉴스는 부통령 손을 닦은 뉴스니까 이건 동영상으로도 노출해서 모든 국민이 반나절 동안 다 알도록 해야 되겠다, 이 판단을 AI가 했다는 것 아닙니까? 나는 그걸 믿을 수가 없어요. 자, 그리고요. 그래서 해외에서는?

 

▷ 박태웅 : 해외는 어떻게 하고 있냐를 보면 구글은 일찍이 2017년부터 What-if 툴을 개발해서 오픈소스로 공개를 해요. What-if 툴이 뭐냐 하면 일부 데이터가 바뀔 때 결과 값은 어떻게 변할까를 그래픽으로 보여 주는 거예요. 가령 채용 AI가 편견을 가질 수 있다고 했잖아요. 그 입력된 지원자 정보에서 다른 데이터는 다 그대로 두고 성별만 남성에서 여성으로 바꿔 보는 거예요. 그리고 나타난 결과를 그래픽으로 보여 줘요. 그리고 또 나이를 25세에서 50세로 바꾼 다음에 결과가 어떻게 바뀌나를 보여 주는 거예요. 그러면 성별하고 나이가 합격, 불합격을 가르는 데 불공정한 영향을 얼마나 미치는지를 즉시 알 수 있어요. 이렇게 해서 불공정한 요소를 사전에 걸러 내는 데 도움을 받을 수 있는 걸 오픈소스로 공개를 해 버려요. IBM도 2018년에 AI 공정성 360이라는 소프트웨어 개발 도구 모음을 무료로 내놨습니다. 여기는 편향을 완화할 수 있는 10가지 알고리즘을 포함하고 있어요. 마이크로소프드도 자회사 링크 등을 통해서 AI 편향성을 해결할 수 있는 도구 리프트를 오픈소스로 내놨어요. 얘는 데이터 셋의 편향성과 AI 모델의 통계적 공정성을 검증할 수 있는 도구를 내놓고 있어요. 그러니까 인공지능 알고리즘을 쓸 때는 이렇게 윤리적 책임을 반드시 함께 져야 되는 거예요. 

 

▶ 김어준 : 당연한 것 같습니다. 

 

▷ 박태웅 : 그러니까 네이버와 다음의 태도는 이런 점에서 굉장히 기본을 어기고 있다. 

 

▶ 김어준 : 그런데 문제 제기를 할 사람들이 사실은 언론사예요. 기자들이고. 

 

▷ 박태웅 : 그렇죠. 

 

▶ 김어준 : 사회에 지대한 영향을 미치는 플랫폼에 대해서 그 공정성이나 문제점을 지적할 사람들이 언론사고 기자들인데 그 기자들이 사실상 뉴스 노출은 포털에 의해 종속되어 있잖아요. 

 

▷ 박태웅 : 완전히 종속되어 있죠.

 

▶ 김어준 : 설사 그런 기사를 써도 포털이 그걸 노출해 준다는 보장도 없고, 게다가 포털하고 우호적 관계를 맺어야 하는 기자 혹은 언론사가 포털에 그렇게 직접적으로 공격하는 기사를 쓸 수 있을까 하는 문제가 생기는 거죠. 

 

▷ 박태웅 : 언론사하고 포털이 몇 번 싸운 적이 있습니다, 사실의. 기사를 안 넣기도 하고. 

 

▶ 김어준 : 2008년에 크게 싸웠었죠.

 

▷ 박태웅 : 한 세 번인가 정도 싸웠는데 세 번 다 언론사가 졌죠. 

 

▶ 김어준 : 포털에게 권력이 넘어갔어요. 그러다 보니까 만약에 이런 이야기를 의장님하고 실컷 했는데 스트레이트 때도 그랬지만 이런 이야기는 포털에 노출이 안 되는 거죠. 왜냐하면 자기들이 장악하고 있는 시스템인데 자기들을 직접 비판하고 불편하게 만드는 뉴스는 자기들이 걸러낼 수 있잖아요. 

 

▷ 박태웅 : 그렇죠. 그나마 소셜미디어가 있어서 조금 낫긴 한데요. 여전히 압도적으로 그렇죠. 

 

▶ 김어준 : 포털 인공지능 관련 이야기는 좀 더 해야 되겠습니다. 다음 주에 한 번 더 나와 주세요. 그럼 어떻게 해야 되는가.

 

▷ 박태웅 : 두 가지 이야기를 더 준비했는데 오늘 하나 하다 끝나 버렸네. 

 

▶ 김어준 : 다음 출연 분량 확보된 상태로 오늘 여기까지 마치겠습니다. 박태웅 의장이었습니다. 감사합니다. 

 

▷ 박태웅 : 감사합니다.

 

 

 

728x90
반응형