ElasticSearch 的安装和使用


ElasticSearch 的知识笔记,比较杂,但是可能有用。

安装

(一)安装ElasticSearch

1.下载解压版的ElasticSearch(百度网盘:elasticsearch-5.5.0.tar.gz).

2.修改config/elasticsearch.yml

a.加入配置:

# allow origin 
http.cors.enabled: true 
http.cors.allow-origin: "*"

为了允许 elasticsearch-head 运行时的跨域

b.修改cluster.name
c.集群则需要修改hosts
d.最小发现的master 节点(节点总数除以2 + 1)
e.如果需要外网访问则需要修改
    network.host: 0.0.0.0
f.在配置文件中加入

    bootstrap.system_call_filter: false

3.启动

./bin/elasticsearch -d 

访问http://localhost:9200/ 

如果遇到问题,参考‘ES 安装问题汇总’

(二)安装elasticsearch head

1.参考 官方 GitHub 地址:https://github.com/mobz/elasticsearch-head

git clone git://github.com/mobz/elasticsearch-head.git cd elasticsearch-head npm install npm run start

(三)安装logstash

1.logstash安装包在百度网盘 logstash-5.5.2.tar

2.解压安装

3.测试

bin/logstash -e 'input { stdin { } } output { stdout {}}'

(四)安装logstash input jdbc插件

1.安装

logstash-plugin install logstash-input-jdbc

2.配置文件

x.conf

input {
    stdin {
    }
    jdbc {
      jdbc_connection_string => "jdbc:mysql://172.16.1.67:3306/es"
      # the user we wish to excute our statement as
      jdbc_user => "root"
      jdbc_password => "123456"
      # the path to our downloaded jdbc driver
      jdbc_driver_library => "/usr/local/mysql-connector-java-5.1.39.jar"
      # the name of the driver class for mysql
      jdbc_driver_class => "com.mysql.jdbc.Driver"
      jdbc_paging_enabled => "true"
      jdbc_page_size => "50000"
      statement_filepath => "jdbc.sql"
      schedule => "* * * * *"
      type => "jdbc"
    }
}

filter {
    json {
        source => "message"
        remove_field => ["source_type"]
    }
}

output {
    elasticsearch {
        #host => "172.17.2.89"
        #port => "9200"
	hosts => "172.17.2.89:9200"
        #protocol => "http"
	#protocol => "http"
        index => "gavinhacker"
        document_id => "%{datasource_id}"
        #cluster => "rx-es"
    }
    stdout {
        codec => json_lines
    }
}

x.sql

select * from dashboard_datasource

3.运行

logstash -f x.conf

在es中查看是否同步更新

参考链接:

http://zhuanlan.51cto.com/art/201705/538738.htm

http://blog.163.com/[email protected]/blog/static/66693350201722102138891/

http://www.cnblogs.com/tianjixiaoying/p/4316011.html

http://www.2cto.com/database/201610/560093.html

ElasticSearch的使用

http://shensuqiao.iteye.com/blog/2251674

ES 安装问题汇总

1.使用Elasticsearch5.0 必须安装jdk1.8
2.使用root账号启动es后 会有问题
    解决方案:
    因为安全问题elasticsearch 不让用root用户直接运行,所以要创建新用户
    建议创建一个单独的用户用来运行ElasticSearch

3.
ERROR: bootstrap checks failed
max file descriptors [10240] for elasticsearch process likely too low, increase to at least [65536]
max number of threads [1024] for user [elsearch] likely too low, increase to at least [2048]
max virtual memory areas vm.max_map_count [65530] likely too low, increase to at least [262144]
[2016-11-14T10:22:17,569][INFO ][o.e.n.Node               ] [mysteel-node1] stopping ...
[2016-11-14T10:22:17,615][INFO ][o.e.n.Node               ] [mysteel-node1] stopped
[2016-11-14T10:22:17,615][INFO ][o.e.n.Node               ] [mysteel-node1] closing ...
[2016-11-14T10:22:17,638][INFO ][o.e.n.Node               ] [mysteel-node1] closed


解决方法:
切换到root用户

vi /etc/security/limits.conf

添加如下内容:
* soft nofile 65536

* hard nofile 131072

* soft nproc 2048

* hard nproc 4096

vi /etc/security/limits.d/90-nproc.conf

修改如下内容:

* soft nproc 1024

#修改为

* soft nproc 2048

vi /etc/sysctl.conf 

添加下面配置:

vm.max_map_count=655360
并执行命令:

sysctl -p

然后,重新启动elasticsearch,即可启动成功。
5.memory locking requested for elasticsearch process but memory is not locked 
在elasticsearch.yml中配置
配置 bootstrap.memory_lock:false
6.system call filters failed to install; check the logs and fix your configuration or disable system call filters at your own risk

在elasticsearch.yml中配置bootstrap.system_call_filter为false,注意要在Memory下面: 
bootstrap.memory_lock: false 
bootstrap.system_call_filter: false

elasticsearch 查询(match和term)

elasticsearch 查询(match和term)

http://www.cnblogs.com/yjf512/p/4897294.html

ES基础用法

http://sg552.iteye.com/blog/1567047

ElasticSearch VS 关系型数据库

Relational DB -> DB -> Table -> Rows -> Columns
Elastic Search -> Indices -> Types -> Documents -> Fields

Elastic Search的data目录

如果要在另外一台机器启动一个集群节点,需要把从其他节点拷贝过来的data目录删除

Elastic Search 集群

1.需要修改 elasticsearch.yml配置文件

定义发现相关:

定义发现主节点数:

discovery.zen.minimum_master_nodes: 5

注意:这里设定为N/2+1,8节点为8/2+1=5

关闭自动发现节点:

discovery.zen.ping.multicast.enabled: false

定义发现的节点:

discovery.zen.ping.unicast.hosts: ["ras1.novalocal","ras2.novalocal","ras3.novalocal","ras4.novalocal","ras5.novalocal","ras6.novalocal","ras7.novalocal","ras8.novalocal"]

2.集群搭建的文档

http://blog.csdn.net/ch648966459/article/details/51671315

Elastic Search的集群hosts设置

elastic search的配置文件除了 node.name不需要相同以外,都需要一样

ElasticSearch5+logstash的logstash-input-jdbc实现mysql数据同步

http://www.cnblogs.com/phpshen/p/6098333.html

http://blog.csdn.net/fenglailea/article/details/56479375

http://blog.csdn.net/laoyang360/article/details/51747266

http://blog.csdn.net/yeyuma/article/details/50240595

Elastic Search 对于Delete操作的方案

http://blog.csdn.net/laoyang360/article/details/51747266

Logstash下载链接和密码

链接:http://pan.baidu.com/s/1o8BiX4I  密码:z64h

最新版本中output elasticsearch配置中只需要hosts

最新版本中output elasticsearch配置中只需要hosts => localhost:9200

之前叫做host port新版本改成:hosts
protocol也去需要了

https://stackoverflow.com/questions/39082203/unknown-setting-hosts-for-elasticsearch

logstash input jdbc的样例

以下配置能够实现从 SQL Server 数据库中查询数据,并增量式的把数据库记录导入到 ES 中。

1. 查询的 SQL 语句在 statement_filepath => "/etc/logstash/statement_file.d/my_info.sql" 参数指定的文件中给出。

2. 字段的转换由 add_field 参数完成。



input {
    jdbc {
        jdbc_driver_library => "/etc/logstash/driver.d/sqljdbc_2.0/enu/sqljdbc4.jar"
        jdbc_driver_class => "com.microsoft.sqlserver.jdbc.SQLServerDriver"
        jdbc_connection_string => "jdbc:sqlserver://localhost:1433;databaseName=test_db"
        jdbc_user => "sa"
        jdbc_password => "123"
                    # schedule => 分 时 天 月 年  
                    # schedule => * 22  *  *  *     //will execute at 22:00 every day
        schedule => "* * * * *"
        clean_run => false
        use_column_value => true
        tracking_column => BUG_ID
        record_last_run => true
        last_run_metadata_path => "/etc/logstash/run_metadata.d/my_info"
        lowercase_column_names => false
        statement_filepath => "/etc/logstash/statement_file.d/my_info.sql"
        type => "my_info"
        add_field => {"[基本信息][客户名称]" => "%{客户名称}"
                      "[基本信息][BUG_ID]" => "%{BUG_ID}"
                      "[基本信息][责任部门]" => "%{责任部门}"
                      "[基本信息][发现版本]" => "%{发现版本}"
                      "[基本信息][发现日期]" => "%{发现日期}"
                      "[基本信息][关闭日期]" => "%{关闭日期}"
        }
}


其中,数据库查询操作 SQL 如下(my_info.sql):

    SELECT
   客户名称,
   BUG_ID,
   ISNULL(VIP_Level,'') AS VIP_Level,
   ISNULL(责任部门,'') AS 责任部门,
   ISNULL(发现版本,'') AS 发现版本,
   ISNULL(发现日期,'') AS 发现日期,
   ISNULL(关闭日期,发现日期) AS 关闭日期,
   ISNULL(
       CASE TD记录人备注
       WHEN 'NULL' THEN ''
       ELSE TD记录人备注
       END,'' ) AS TD记录人备注,
 From test_bug_db.dbo.BugInfor WHERE BUG_ID > :sql_last_value

重要参数说明

JDBC(Java Data Base Connectivity,Javajava数据库连接)参数

如果要了解其它数据库,可以参考我的 http://www.cnblogs.com/licongyu/p/5535833.html

jdbc_driver_library => "/etc/logstash/driver.d/sqljdbc_2.0/enu/sqljdbc4.jar"         //jdbc sql server 驱动,各个数据库都有对应的驱动,需自己下载
jdbc_driver_class => "com.microsoft.sqlserver.jdbc.SQLServerDriver"                  //jdbc class 不同数据库有不同的 class 配置
jdbc_connection_string => "jdbc:sqlserver://200.200.0.18:1433;databaseName=test_db"  //配置数据库连接 ip 和端口,以及数据库
jdbc_user =>          //配置数据库用户名
jdbc_password =>      //配置数据库密码

Schedule设置

# schedule => 分 时 天 月 年  
# schedule => *  22  *  *  *     //will execute at 22:00 every day
schedule => "* * * * *"

重要参数设置

//是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中
record_last_run => true

//是否需要记录某个column 的值,如果 record_last_run 为真,可以自定义我们需要 track 的 column 名称,此时该参数就要为 true. 否则默认 track 的是 timestamp 的值.
use_column_value => true

//如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的.比如:ID.
tracking_column => MY_ID

//指定文件,来记录上次执行到的 tracking_column 字段的值
//比如上次数据库有 10000 条记录,查询完后该文件中就会有数字 10000 这样的记录,下次执行 SQL 查询可以从 10001 条处开始.
//我们只需要在 SQL 语句中 WHERE MY_ID > :last_sql_value 即可. 其中 :last_sql_value 取得就是该文件中的值(10000).
last_run_metadata_path => "/etc/logstash/run_metadata.d/my_info"

//是否清除 last_run_metadata_path 的记录,如果为真那么每次都相当于从头开始查询所有的数据库记录
clean_run => false

//是否将 column 名称转小写
lowercase_column_names => false

//存放需要执行的 SQL 语句的文件位置
statement_filepath => "/etc/logstash/statement_file.d/my_info.sql"

参考链接: http://www.cnblogs.com/licongyu/p/5383334.html