人工知能ウォッチの苦情


どの金融機関も生物であり、そのプロセスは不完全です。プロセスの欠陥は顧客の不満を引き起こし、それが苦情に変わることさえあります。この記事では、小さな機械学習プロジェクトを実装することによる自動化プロセスへの貢献について説明します。

簡単な方法を使用して困難なタスクを解くことができます。機械学習も例外ではありません。

フィードバックは最も価値のある情報です。そのため、できる限り多くのことを学ぶ必要があります。お客様からの苦情を分析し、どのビジネスプロセスで問題が発生しているかを客観的に見ています。プロセスは相互に接続されていることが多いため、グループ化してグループと見なすことができます。したがって、標準的なタスクである機械学習(ML)-「マルチクラス分類」に到達します。この分析の結果、タスクが解決されます-組織のサマリー分析のコレクション。

分類タスクは、多くのオブジェクトが特定の方法でクラスに分割されているタスクです。マルチクラス分類の場合、クラスの数は2を超える必要があり、数千にも達する可能性があります。

苦情とそれらへの応答に関するデータはサーバーに保存され、アンロードと前処理のプロセスは標準でデータベースへのリクエストを通じて実行されます。出力では、処理するデータを含むデータフレームを取得します。苦情とその回答は非常に長い文書です。たとえば、苦情への対応は数百または数千の単語に達する場合があります。このようなテキストを直接処理すると、非常にコストがかかります(計算上)。そのため、テキストの前処理が必要です。

def review_to_wordlist(review):
       		review_text = re.sub('[^--]',' ', review)
       		words = review_text.strip().lower().split()
       		words = [w for w in words if not w in stop_words] 
       		words = [morph.parse(w)[0].normal_form for w in words]
       		new_stop_words = find_names(words)
       		words = [w for w in words if not w in new_stop_words]
       		return words

モデルによる精度は、テキストの一意性に大きく依存するため、あまり意味のない「ストップワード」というテキストからテキストを削除する必要があります。通常、単語の構成には、前置詞、接続詞、およびその他の重要でない品詞が含まれます。また、ストップワード辞書にファーストネームとミドルネームを追加しました。

def find_names(words, prob_thresh = 0.4):
    words = [w for w in words if 'str' in str(type(w))]
    add_stop_words = [w for w in words for p in morph.parse(w) if 'Name' in p.tag and
    p.score >= prob_thresh]
    stop_words.update(add_stop_words)
    return stop_words

プロジェクトの実施前は、分類は手動で行われていたため、専門家によってマークアップされたデータがあります。そして、これは教師による古典的なML指導タスクです。前処理されたテキストは、モデルが処理できるビューに縮小されます。これを行うには、苦情への応答を特徴ベクトルに変換します(コードで使用される独立変数は特徴、従属変数はラベルです)。

tfidf = TfidfVectorizer(sublinear_tf=True, min_df=5, norm='l2', encoding='utf8',  
    ngram_range=(1, 2), stop_words=stop_words)
features = tfidf.fit_transform(df_temp['Consumer_complaint_narrative'])
labels = df_temp['Num_bp']

線形サポートベクトル分類が分類用に選択されています。これは、次の理由で行われました。

  • 大きな寸法の測定を扱う場合の高効率。
  • サンプル数を超える次元の場合の安定した作業。

このプロジェクトは、プロムでの実装に向けて準備されています。モデルは毎日、稼働日に入力されたデータの分類を実行します。初期段階では、エキスパートによるモデルの作業の追加の手動検証が想定されています。月に一度、モデルは再トレーニングされます。このプロジェクトの実施により、私たちは未来に一歩近づくことができました!

All Articles